天才一秒记住【热天中文网】地址:https://www.rtzw.net
他在黑板上写下了一个公式:
Complexity=ON^2
“对于N=1000,这没什么。
但对于N=100,000,这意味着我们需要100亿次浮点运算和几十GB的显存。”
林允宁看向台下的魏斯,微微一笑,“魏斯博士昨天提醒我,在工业界,这叫死刑。
你是对的。”
魏斯挑了挑眉,合上了电脑盖子,靠在椅背上。
这小子还算有点自知之明。
“但是,”
林允宁话锋一转,手里的翻页笔再次按下,“如果我们愿意牺牲一点‘精度”
,来换取广度呢?”
屏幕上的PPT变了。
原本复杂的Softmax公式被拆解开来。
AttentionQ,K,V=SoftmaxQ*K^T*V
这一行公式下方,出现了一个红色的叉。
"
Softmax是一个非线性函数,它就像是一把锁,把Q查询和K键死死地锁在了一起,强迫我们必须先计算它们之间的关系。
“但如果我们引入一个核函数映射p来近似Softmax......”
他在白板上飞快地写下了一行变换:
pQ*pK^T*V=pQ*pK^T*V
“根据矩阵乘法的结合律,”
林允宁敲了敲白板,“我们可以改变计算顺序。
先算后面这一部分。
原本那个N乘以N的巨大矩阵,消失了。
取而代之的,是一个只有d乘以d特征维度的微型矩阵。”
台下原本有些嘈杂的议论声瞬间消失。
在座的都是聪明人,当那个括号的位置发生改变时,所有人脑子里的算盘都在疯狂拨动。
从平方级,变成了线性级。
“如果你这么做,你就毁了注意力。”
一个冷峻的声音打断了林允宁。
魏斯依然坐在椅子上,但他的眼神变得极其锐利。
作为谷歌搜索算法团队的核心人物,他虽然有着大厂高管特有的傲慢,但业务能力也极强,非常专业地指出了致命伤:
“林先生,这是一个聪明的数学把戏。
但是,Softmax的作用不仅仅是归一化,它通过指数运算放大了强信号,抑制了弱信号。
这叫‘赢家通吃’Winner-take-all。
“正是因为这种尖锐的分布,AI才能精准地关注到那个最重要的词。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!