天才一秒记住【热天中文网】地址:https://www.rtzw.net
transformer架构,更是大模型的核心底座!
当然,初代產品的性能,不论是算力,还是能效比、內存带宽等,都还远远不足以支撑超大规模分布式训练,仍需继续优化叠代。
不过倒是可以先搞一个“亿级参数模型”
玩玩目前,他们已经在数据中心划出了独立集群,小规模部署骄阳100,適配极光云的特定业务,
以验证算力卡的实际性能。
如悠米视频的视频理解模型,悠米社区、极光微博的文本分类模型,微光基金的数据分析模型等等。
等世博会那边谈妥之后,也会单独构建一个模型。
而后针对实验中发现的问题,以及海量数据的反哺,持续优化选代。
等稳定性和兼容性达標后,再向核心业务推广。
如极光云的通用ai算力租赁、口袋钱包的数据分析等等。
此外,还需要开发一套,类似於英伟达cuda的並行计算架构,以及专用的全流程工具链,兼容cuda代码迁移。
並建立开发者社区,培育自家开放生態。
至於下一步的升级选代路径,洛川也已经有了大致思路。
即採用更先进的製程,提升算力密度的同时,引入存算一体架构。
就相当於把计算单元和內存“粘在一起”
,数据不用来回搬运,直接在內存里算,可有效解决模型的“內存墙”
问题。
如此一来,算力可瞬间提升数倍,功耗也大幅降低。
同时还需开发“云-芯协同”
协议,並进一步优化晶片间的高速互联协议,以实现千卡级集群的分布式训练。
这之间,估计至少就需要3~5年的时间。
之后再引入异构计算架构,集成专用ai单元+通用cpu核心。
这种混合计算模式,有些类似於后世英伟达的安培架构。
复杂任务由cpu调度,核心计算交给ai单元,兼顾效率和灵活性。
同步开发chiplet封装技术,把多个小晶片,如算力单元、內存控制器等,像拼图一样封装在一起。
算力升数倍,同时也降低了研发成本。
再之后,继续沿著算力、带宽、通用性、生態的路径,持续叠代即可,逐步走向大模型时代,
可以说是安排的明明白白王建教授算是有的忙了而洛川需要负责的,就是持续提供“灵感”
。
以及持续掏钱。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!