热天中文网

第200章 ON的魔法与傲慢的谷歌求订阅求月票(第2页)

天才一秒记住【热天中文网】地址:https://www.rtzw.net

这篇论文像是一份判决书,直指当前所有注意力机制AttentionMechanism算法的死穴。

即使是他提出的“全注意力机制”

,虽然在药物分子这种短序列上表现完美,但只要序列长度一拉长,计算量就会呈指数级爆炸。

核心问题在于那个该死的Softmax。

在计算注意力时,标准公式是:

AttentionQ,K,V=SoftmaxQ?K^T.V

必须要先算Q和K的转置乘积。

这会生成一个NXN的巨大矩阵。

如果N是1000比如一段短文,矩阵就是100万个元素,显卡还能扛得住。

但如果是基因测序的长序列,可能是10万,那就是100亿个元素。

现有的任何内存都会瞬间被撑爆。

这就是“算力的囚笼”

在这个囚笼里,他的算法处理不了长文本,也处理不了高分辨率图像,注定只能是个玩具。

Google正是看准了这一点,才敢断言这个方向没有前途。

林允宁闭上眼,靠在椅背上。

【模拟科研模式启动。

【注入模拟时长:200小时。

机舱里的嗡鸣声瞬间消失。

林允宁的意识沉入了一片纯白的数学空间。

在他的眼前,出现了一个巨大的矩阵。

那是标准的SoftmaxAttention计算过程:

AttentionQ,K,V=softmaxQ*K^T*V

那个中间产生的Q*K^T矩阵,大得像是一堵墙,横亘在算力的通道上。

它是一个NXN的庞然大物。

【第20小时:你尝试用稀疏矩阵来近似。

失败。

稀疏化会丢失长距离的语义关联,得不偿失。

【第60小时:你尝试用低分解Low-rankfactorization。

效果一般,精度损失太大。

【第120小时:你回到了矩阵乘法的最基本性质??结合律。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

福猪小团子五岁啦[七零]楚医生的作精娇妻是玄门大佬被绿后,我嫁给了渣男他哥绝品神医混都市药尊你家媳妇有点皮如珠似宝神奇宝贝之超神训练家突然成仙了怎么办穿成反派的病美人妹妹[穿书]逐道在诸天分手后,我闪婚了个隐形富豪重生之萌娘军嫂当咸鱼进入逃生游戏后梦魇侵袭:我变成了怪物!我,纣王他弟,拉着道祖搞事业当系统泛滥成灾凡人飞仙垃圾食品援助蜀汉悍妻种田有空间魏武侯永夜支配者职业替身我是王富贵捡到一个神光棒替身受觉醒了