天才一秒记住【热天中文网】地址:https://www.rtzw.net
A*B*C=A*B*C
这谁都知道。
但在注意力公式里,那个非线性的Softmax函数像是一把锁,锁住了Q和K,让你无法先把K和V乘起来。
“如果我把这把锁换掉呢?”
林允宁的思维在这一刻跳出了深度学习的框架,回到了核方法KernelMethod的领域。
既然Softmax是为了归一化和非线性映射,那为什么不用一个核函数featuremapp来代替它?
SimQ,K=pQ*K^
一旦把非线性操作移到乘法之前,结合律就生效了!
原本的计算顺序是:
Q*K^T*V
这是先算NXN的大矩阵,再乘V
现在的计算顺序可以是:
Q*K^T*V
K^T是dexN,V是Nxd。
它们乘起来,只是一个dxd的小矩阵!
d特征维度通常只有64或128,远小于序列长度N。
【第180小时:推导完成。
】
原本随N增长而爆炸的计算墙,瞬间坍塌。
新的复杂度:ON。
从平方级降维到线性级。
林允宁猛地睁开眼。
他迅速从包里掏出草稿纸,在那张印着美联航Logo的餐巾纸背面,写下了一行核心公式:
Linear_Attn=Q*qK^T*VQQ*ΣqK^T
困扰了整个AI学界的大序列计算难题,被一个简单的高中数学知识??结合律,给破解了。
当然,前提是找到那个合适的映射函数p。
但对于现在的他来说,这只是个数学技巧问题。
“解决什么了?这么兴奋?”
旁边传来方雪若的声音。
她刚摘下眼镜,手里拿着一份厚厚的财报,封面上写着“IndiumCorporation”
铟泰公司。
那是全球最大的散热材料供应商。
“解决了一个能帮我们省下几亿美元电费的问题。”
林允宁心情大好,把那张写着价值连城公式的餐巾纸折好,放进口袋,“铟泰?那是做焊料和散热材料的巨头。
你看他们的财报做什么?”
“知己知彼。”
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!