第200章 ON的魔法与傲慢的谷歌求订阅求月票（第2页）

天才一秒记住【热天中文网】地址：https://www.rtzw.net

这篇论文像是一份判决书，直指当前所有注意力机制AttentionMechanism算法的死穴。

即使是他提出的“全注意力机制”

，虽然在药物分子这种短序列上表现完美，但只要序列长度一拉长，计算量就会呈指数级爆炸。

核心问题在于那个该死的Softmax。

在计算注意力时，标准公式是:

AttentionQ，K，V=SoftmaxQ?K^T.V

必须要先算Q和K的转置乘积。

这会生成一个NXN的巨大矩阵。

如果N是1000比如一段短文，矩阵就是100万个元素，显卡还能扛得住。

但如果是基因测序的长序列，可能是10万，那就是100亿个元素。

现有的任何内存都会瞬间被撑爆。

这就是“算力的囚笼”

。

在这个囚笼里，他的算法处理不了长文本，也处理不了高分辨率图像，注定只能是个玩具。

Google正是看准了这一点，才敢断言这个方向没有前途。

林允宁闭上眼，靠在椅背上。

【模拟科研模式启动。

】

【注入模拟时长:200小时。

】

机舱里的嗡鸣声瞬间消失。

林允宁的意识沉入了一片纯白的数学空间。

在他的眼前，出现了一个巨大的矩阵。

那是标准的SoftmaxAttention计算过程:

AttentionQ，K，V=softmaxQ*K^T*V

那个中间产生的Q*K^T矩阵，大得像是一堵墙，横亘在算力的通道上。

它是一个NXN的庞然大物。

【第20小时:你尝试用稀疏矩阵来近似。

失败。

稀疏化会丢失长距离的语义关联，得不偿失。

】

【第60小时:你尝试用低分解Low-rankfactorization。

效果一般，精度损失太大。

】

【第120小时:你回到了矩阵乘法的最基本性质??结合律。

】

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！