天才一秒记住【热天中文网】地址:https://www.rtzw.net
她看着屏幕上的参数,眉头微微皱起,转头看向林允宁,“Boss,你确定我们要在这个‘显存只有指甲盖大小’的东西上跑Attention机制?
“虽然你那天画的Q、K、V公式很迷人,但你我都知道,全连接的自注意力矩阵Self-Attention是ON^2的复杂度。
“如果我们要处理一篇几千词的论文,生成的矩阵会瞬间撑爆这可怜的1.5GB。
我们还没开始训练,显卡就要报警了。”
“谷歌那边有什么秘密武器吗?”
林允宁靠在机柜旁,随口问道。
“并没有。”
克莱尔耸耸肩,“杰夫?迪恩他们也是用堆机器的笨办法,或者把模型切得碎碎的。
虽然有些传闻说他们在搞专用的ASIC芯片,但那还在PPT阶段。”
“这也是我想做的。”
林允宁眼神一凝,指了指那些显卡,“以后有了钱,我们会研发自己的芯片,专门为矩阵乘法设计的处理单元。
但那是以后。
现在,我们得带着脚镣跳舞。”
“怎么跳?”
克莱尔挑眉,“把序列截断?只读摘要?或者用你之前在ICML上提出的那个线性注意力模型?”
林允宁看了看克莱尔,没想到她居然对自己的工作这么了解。
但他摇了摇头:
“不。
之前的线性注意力LinearAttention虽然快,但它采用了核函数近似,丢失了太多细节。
对于我们要做的‘自然语言阅读助手来说,精度不够。”
林允宁想了想,走到白板前。
拿起笔,在上面画了一个巨大的方格矩阵。
“克莱尔,从语言学的角度想一想。
当你读一篇论文时,你的注意力是均匀分布的吗?”
“当然不是。”
克莱尔立刻跟上了思路,她走到白板前,抢过林允宁手里的笔,在矩阵对角线上画了一条粗线,“大部分时候,词只和它前后的词有关。
比如‘卷积神经网络,这三个词是紧密绑定的。
这是局部性Locality。”
“没错。”
林允宁点头,然后伸手在矩阵的空白处随机点了几个点,“但还有一种情况。
比如文章开头的‘定理1,和文章结尾的‘证明完毕,它们距离很远,但逻辑上是强相关的。”
“这是长程依赖。”
克莱尔眼睛亮了,“所以......我们不需要计算整个NXN的矩阵?”
“我们只需要计算这条对角线”
,再加上这几个‘随机点’。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!