天才一秒记住【热天中文网】地址:https://www.rtzw.net
类似于,“我个人认为这个意大利面就应该拌42号混凝土。
因为这个螺丝钉的长度,它很容易会直接影响到挖掘机的扭距,你往里砸的时候,一瞬间它就会产生大量的高能蛋白,俗称UFO,会严重影响经济的发展…”
你懂你悠姐的意思吧?
曲悠悠感到一丝悲凉:“你说的,这是关于…什么的问题啊?”
薛意又眨了眨眼:“哦,AI相关的数学问题。”
叮。
心里有个微波炉热好了饭似的,曲悠悠也眨了眨眼,被动触发尬笑技能:“害,你这么说我就懂了嘛哈哈哈…”
其实也不懂。
所以你是在做数学题。
“嗯。”
曲悠悠看着薛意严肃的侧脸,忽然有点想笑。
觉着薛意这人挺好玩的。
皱着眉头飙到150码,不是因为心情不好,是因为在脑子里解微分方程。
说起话来也好像AI啊,还是不说人话的那种。
有点可爱。
嘿嘿。
中午在一个公路旁小镇停下来吃饭。
下车走进路边一家美式餐馆,薛意和陶予之刚坐下就开始聊。
陶予之从包里掏出平板,翻出一篇论文递给薛意:MIT那组的新预印本你看了吗?
把self-attention写成球面上的interactingparticlesystem,证了一个tokenclustering的收敛定理。
证明本身挺漂亮的,Wasserstein梯度流那段构造得很干净。
薛意接过来,眼睛扫了一眼公式。
证明是挺漂亮的,但不能用。
她拿过一张餐巾纸,画了个球面示意图:他们的Lipschitz假设在实际的softmax下根本不成立,高维空间里梯度直接blowup。
你拿这个收敛率去calibrate真实的attentionmap,差两个数量级。
陶予之笑了一下。
她太熟悉薛意的思路了。
纯数学家看一篇论文先看证明结构美不美,薛意看一篇论文先看结论能不能拿来赚钱。
那你打算怎么修?
不修,换个框架。
薛意在餐巾纸上飞快地画了起来:我在想Ricciflow。
Clustering本质上就是曲率集中,Perelman处理奇点的那套surgery改一改,应该能给一个更tight的bound。
两人聊得旁若无人…
曲悠悠懵懵地看着两个神仙似的人叽里咕噜说了一堆什么都听不懂的话,还有来有回的,有点幽怨地开始怀疑自己的智商。
肩膀被轻轻拍了两下。
“别管她们了,”
徐医生浅笑着,勾了勾她的臂弯,“咱们去点些东西吃。”
曲悠悠僵僵地回过神来,“哦…好叻。”
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!