天才一秒记住【热天中文网】地址:https://www.rtzw.net
“而你用的核函数px??不管你用ELU还是ReLU??它们都是平滑的。
如果你把Softmax拿掉,你的注意力分布就会变得非常‘平”
,非常‘模糊”
。
“你确实把ON^2降到了ON,但你也把一个原本拥有锐利眼神的狙击手,变成了一个散光的近视眼。
对于Google搜索来说,这种模糊的匹配是不可接受的。”
魏斯的话音落下,台下响起了一阵低声的附和。
这才是真正的技术痛点。
没有免费的午餐。
你省了算力,就得亏精度。
程新竹在台下捏紧了拳头,手心全是汗。
她虽然不懂具体的数学,但她听得懂“近视眼”
这个比喻。
台上的林允宁并没有慌张。
他甚至点了点头,表示赞同。
“您说得非常对,魏斯博士。”
林允宁坦然承认,“线性注意力确实会导致注意力分布的‘平滑化”
。
它没法像Softmax那样,在几万个词里精准地只盯着一个看。
它看东西确实是‘模糊”
的。”
他退出PPT,切到了代码终端界面。
“但是,工程学本质上就是关于取舍Trade-off的艺术。”
林允宁输入了一行指令,加载了一个巨大的数据文件。
“这是人类1号染色体的基因序列片段,长度为100,000个碱基对。
“在这个尺度上,我们并不需要关注某一个具体的碱基A还是T。
我们需要关注的是宏观的、长距离的、全局的关联。
“对于基因测序,或者对于一本百万字的小说来说,‘看清大概的轮廓比‘看清某一个标点符号’重要一万倍。”
“Run.”
林允宁按下了回车键。
大屏幕上,内存监控的波形图开始滚动。
如果是传统的ON^2算法,这条红线会在0.1秒内冲破顶端,然后程序报错。
全场几百双眼睛死死盯着那条红线。
一秒。
两秒。
三秒。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!