热天中文网

第267章 网红女极客求订阅求月票(第2页)

天才一秒记住【热天中文网】地址:https://www.rtzw.net

她看着屏幕上的参数,眉头微微皱起,转头看向林允宁,“Boss,你确定我们要在这个‘显存只有指甲盖大小’的东西上跑Attention机制?

“虽然你那天画的Q、K、V公式很迷人,但你我都知道,全连接的自注意力矩阵Self-Attention是ON^2的复杂度。

“如果我们要处理一篇几千词的论文,生成的矩阵会瞬间撑爆这可怜的1.5GB。

我们还没开始训练,显卡就要报警了。”

“谷歌那边有什么秘密武器吗?”

林允宁靠在机柜旁,随口问道。

“并没有。”

克莱尔耸耸肩,“杰夫?迪恩他们也是用堆机器的笨办法,或者把模型切得碎碎的。

虽然有些传闻说他们在搞专用的ASIC芯片,但那还在PPT阶段。”

“这也是我想做的。”

林允宁眼神一凝,指了指那些显卡,“以后有了钱,我们会研发自己的芯片,专门为矩阵乘法设计的处理单元。

但那是以后。

现在,我们得带着脚镣跳舞。”

“怎么跳?”

克莱尔挑眉,“把序列截断?只读摘要?或者用你之前在ICML上提出的那个线性注意力模型?”

林允宁看了看克莱尔,没想到她居然对自己的工作这么了解。

但他摇了摇头:

“不。

之前的线性注意力LinearAttention虽然快,但它采用了核函数近似,丢失了太多细节。

对于我们要做的‘自然语言阅读助手来说,精度不够。”

林允宁想了想,走到白板前。

拿起笔,在上面画了一个巨大的方格矩阵。

“克莱尔,从语言学的角度想一想。

当你读一篇论文时,你的注意力是均匀分布的吗?”

“当然不是。”

克莱尔立刻跟上了思路,她走到白板前,抢过林允宁手里的笔,在矩阵对角线上画了一条粗线,“大部分时候,词只和它前后的词有关。

比如‘卷积神经网络,这三个词是紧密绑定的。

这是局部性Locality。”

“没错。”

林允宁点头,然后伸手在矩阵的空白处随机点了几个点,“但还有一种情况。

比如文章开头的‘定理1,和文章结尾的‘证明完毕,它们距离很远,但逻辑上是强相关的。”

“这是长程依赖。”

克莱尔眼睛亮了,“所以......我们不需要计算整个NXN的矩阵?”

“我们只需要计算这条对角线”

,再加上这几个‘随机点’。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

请叫我超人吧俗世怪仙撩哭总裁后,她带崽跑了快穿:绑定后,反派每晚求亲亲我是硬饭王据说,这个废柴又逆袭了!带着老公儿子穿年代诸天黑化从火影开始厂督有喜之萌宝赖上门极品赘婿极品萌宝:霸道爹地护妻狂我用学习系统搞科技为夫体弱多病对不起,我的爱人是祖国[快穿]在霍格沃茨淡定地喝红茶电影教师傅爷的掌中娇武神纪元闪婚而已,首富老公别太爱你好,李社长漫威:圣斗士之父火枪未能击穿裤袜妖妃她今天也想造反剑气长安别蹬腿,你还能再抢救一下!