天才一秒记住【热天中文网】地址:https://www.rtzw.net
这篇论文像是一份判决书,直指当前所有注意力机制AttentionMechanism算法的死穴。
即使是他提出的“全注意力机制”
,虽然在药物分子这种短序列上表现完美,但只要序列长度一拉长,计算量就会呈指数级爆炸。
核心问题在于那个该死的Softmax。
在计算注意力时,标准公式是:
AttentionQ,K,V=SoftmaxQ?K^T.V
必须要先算Q和K的转置乘积。
这会生成一个NXN的巨大矩阵。
如果N是1000比如一段短文,矩阵就是100万个元素,显卡还能扛得住。
但如果是基因测序的长序列,可能是10万,那就是100亿个元素。
现有的任何内存都会瞬间被撑爆。
这就是“算力的囚笼”
。
在这个囚笼里,他的算法处理不了长文本,也处理不了高分辨率图像,注定只能是个玩具。
Google正是看准了这一点,才敢断言这个方向没有前途。
林允宁闭上眼,靠在椅背上。
【模拟科研模式启动。
】
【注入模拟时长:200小时。
】
机舱里的嗡鸣声瞬间消失。
林允宁的意识沉入了一片纯白的数学空间。
在他的眼前,出现了一个巨大的矩阵。
那是标准的SoftmaxAttention计算过程:
AttentionQ,K,V=softmaxQ*K^T*V
那个中间产生的Q*K^T矩阵,大得像是一堵墙,横亘在算力的通道上。
它是一个NXN的庞然大物。
【第20小时:你尝试用稀疏矩阵来近似。
失败。
稀疏化会丢失长距离的语义关联,得不偿失。
】
【第60小时:你尝试用低分解Low-rankfactorization。
效果一般,精度损失太大。
】
【第120小时:你回到了矩阵乘法的最基本性质??结合律。
】
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!