第267章网红女极客求订阅求月票（第2页）

天才一秒记住【热天中文网】地址：https://www.rtzw.net

她看着屏幕上的参数，眉头微微皱起，转头看向林允宁，“Boss，你确定我们要在这个‘显存只有指甲盖大小’的东西上跑Attention机制?

“虽然你那天画的Q、K、V公式很迷人，但你我都知道，全连接的自注意力矩阵Self-Attention是ON^2的复杂度。

“如果我们要处理一篇几千词的论文，生成的矩阵会瞬间撑爆这可怜的1.5GB。

我们还没开始训练，显卡就要报警了。”

“谷歌那边有什么秘密武器吗?”

林允宁靠在机柜旁，随口问道。

“并没有。”

克莱尔耸耸肩，“杰夫?迪恩他们也是用堆机器的笨办法，或者把模型切得碎碎的。

虽然有些传闻说他们在搞专用的ASIC芯片，但那还在PPT阶段。”

“这也是我想做的。”

林允宁眼神一凝，指了指那些显卡，“以后有了钱，我们会研发自己的芯片，专门为矩阵乘法设计的处理单元。

但那是以后。

现在，我们得带着脚镣跳舞。”

“怎么跳?”

克莱尔挑眉，“把序列截断?只读摘要?或者用你之前在ICML上提出的那个线性注意力模型?”

林允宁看了看克莱尔，没想到她居然对自己的工作这么了解。

但他摇了摇头:

“不。

之前的线性注意力LinearAttention虽然快，但它采用了核函数近似，丢失了太多细节。

对于我们要做的‘自然语言阅读助手来说，精度不够。”

林允宁想了想，走到白板前。

拿起笔，在上面画了一个巨大的方格矩阵。

“克莱尔，从语言学的角度想一想。

当你读一篇论文时，你的注意力是均匀分布的吗?”

“当然不是。”

克莱尔立刻跟上了思路，她走到白板前，抢过林允宁手里的笔，在矩阵对角线上画了一条粗线，“大部分时候，词只和它前后的词有关。

比如‘卷积神经网络，这三个词是紧密绑定的。

这是局部性Locality。”

“没错。”

林允宁点头，然后伸手在矩阵的空白处随机点了几个点，“但还有一种情况。

比如文章开头的‘定理1，和文章结尾的‘证明完毕，它们距离很远，但逻辑上是强相关的。”

“这是长程依赖。”

克莱尔眼睛亮了，“所以......我们不需要计算整个NXN的矩阵?”

“我们只需要计算这条对角线”

，再加上这几个‘随机点’。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第267章 网红女极客求订阅求月票（第2页）