热天中文网

第200章 ON的魔法与傲慢的谷歌求订阅求月票(第3页)

天才一秒记住【热天中文网】地址:https://www.rtzw.net

A*B*C=A*B*C

这谁都知道。

但在注意力公式里,那个非线性的Softmax函数像是一把锁,锁住了Q和K,让你无法先把K和V乘起来。

“如果我把这把锁换掉呢?”

林允宁的思维在这一刻跳出了深度学习的框架,回到了核方法KernelMethod的领域。

既然Softmax是为了归一化和非线性映射,那为什么不用一个核函数featuremapp来代替它?

SimQ,K=pQ*K^

一旦把非线性操作移到乘法之前,结合律就生效了!

原本的计算顺序是:

Q*K^T*V

这是先算NXN的大矩阵,再乘V

现在的计算顺序可以是:

Q*K^T*V

K^T是dexN,V是Nxd。

它们乘起来,只是一个dxd的小矩阵!

d特征维度通常只有64或128,远小于序列长度N。

【第180小时:推导完成。

原本随N增长而爆炸的计算墙,瞬间坍塌。

新的复杂度:ON。

从平方级降维到线性级。

林允宁猛地睁开眼。

他迅速从包里掏出草稿纸,在那张印着美联航Logo的餐巾纸背面,写下了一行核心公式:

Linear_Attn=Q*qK^T*VQQ*ΣqK^T

困扰了整个AI学界的大序列计算难题,被一个简单的高中数学知识??结合律,给破解了。

当然,前提是找到那个合适的映射函数p。

但对于现在的他来说,这只是个数学技巧问题。

“解决什么了?这么兴奋?”

旁边传来方雪若的声音。

她刚摘下眼镜,手里拿着一份厚厚的财报,封面上写着“IndiumCorporation”

铟泰公司。

那是全球最大的散热材料供应商。

“解决了一个能帮我们省下几亿美元电费的问题。”

林允宁心情大好,把那张写着价值连城公式的餐巾纸折好,放进口袋,“铟泰?那是做焊料和散热材料的巨头。

你看他们的财报做什么?”

“知己知彼。”

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

穿成反派小姨妈疯了吧!我一个奶妈全是禁咒?假装自己是学霸开局黑科技只有我知道剧情沈梅棠风水主播,一个关注全网官方慌了鸿蒙至圣道重生之长女当家我有百倍经验地球人真恐怖某不科学的漫威科学家签到从遮天开始七等分的未来快穿攻略女配要黑化最强神医混都市平平无奇大师兄轻井泽网游之金刚不坏抽卡救不了诡异世界农门大佬带着空间去种田开海遮天之逆袭一品仙娇九零大院糯团子我渡了999次天劫