天才一秒记住【热天中文网】地址:https://www.rtzw.net
六个月,从零做一个对標gfs的分布式文件系统,还要更强。
这目標,在微软亚研都不敢提。
“林总,”
李想轻声问,“那我的方向……自然语言处理,具体做什么?”
“做两件事。”
林浩写下“nlp”
,“第一,中文分词和词性標註,准確率做到99%以上。
第二,语义理解,能根据一句话,判断用户是想搜索、想聊天、还是想下达指令。
目標:让机器能像人一样理解中文。”
“这……这需要大量语料和算力。”
“语料我有。
浩宇游戏平台的聊天记录,每天几千万条,已经脱敏处理。
算力,我给你配十台伺服器,不够再加。”
林浩看向她,“李想,我知道现在主流nlp还停留在规则匹配。
但我要你跳过去,直接做深度学习。
用神经网络,训练一个语言模型。
算法框架我这里有份草稿,你参考。”
他递给李想一份手稿,上面是transformer架构的简化版——原论文2017年才发表,但现在林浩提前拿出来了。
李想快速翻阅,眼睛越睁越大。
“这结构……没见过。
自注意力机制?残差连接?这些想法太超前了……”
“超前才有价值。”
林浩说,“你按这个思路做,有问题隨时问我。
目標:一年后,我们的中文分词模型,要比业界最好水平高五个百分点。”
最后,他看向陈建国。
“陈老,编译器优化,我要你做一个能自动把c++代码编译到ar快20%,体积小30%。”
陈建国推了推老花镜,声音沉稳:“年轻人,你知道做编译器有多难吗?gcc做了二十年,llvm也在起步。
我们从头做,没五年出不来成果。”
“不用从头做。”
林浩说,“基於llv快20%。”
三个人都不说话了。
办公室里只有空调的嘶嘶声,和窗外淅沥的雨声。
目標一个比一个宏大,一个比一个不切实际。
分布式文件系统对標google,自然语言处理跳过传统方法用深度学习,编译器优化要超越gcc二十年积累。
这不像研究院,像科幻小说设定集。
“林总,”
吴瀚终於开口,语气谨慎,“这些方向,都很前沿,也很有价值。
但……投入產出比怎么算?可能三五年都看不到商业应用。
浩宇现在游戏业务赚钱,但能一直赚吗?万一中间现金流断了,研究院怎么办?”
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!