中国移动发布《面向超万卡集群的新型智算技术白皮书》,助力智算基础设施迈向新台阶

4月29日,在中国移动算力网络大会-算力网络未来产业暨联合体创新论坛上,中国移动重磅发布《面向超万卡集群的新型智算技术白皮书》(简称 “白皮书”),国务院国资委科技创新局副局长贾兴元、中国移动副总经理高同庆联合华为、中兴、新华三、中科曙光、浪潮、超聚变等合作伙伴出席发布仪式,共同见证新型智算技术迈向新台阶。该白皮书由中国移动研究院专家团队牵头撰写,凝聚了中国移动和产业伙伴在超万卡集群建设方面的技术攻关和实践经验,是业界首部系统性阐述超万卡集群核心设计原则和关键技术的白皮书。

自ChatGPT发布以来,科技界掀起了一场大模型的竞争热潮,各行各业加速从“+AI”向“AI+”转变。随着模型参数量从千亿迈向万亿,大模型对底层算力提出更高要求。当前,智算集群的规模以千卡为主,且多基于英伟达GPU构建,万卡甚至超万卡集群的建设还处于初级阶段,业界普遍认为万卡集群将有助于进一步压缩大模型训练时间,实现模型能力的快速迭代。基于万卡集群实现大模型高效的训练,并长期保持训练的稳定性,是将大模型训练扩展到数万张GPU卡上所要面临的双重挑战。

中国工程院郑纬民院士表示,“基于国产系统构建万卡集群,虽然很难,但很必要”。为了助力国内智算设施向万卡规模演进,本白皮书提出超万卡集群的五大核心设计原则:坚持打造极致集群算力、坚持构建协同调优系统、坚持实现长稳可靠训练、坚持提供灵活算力供给、坚持推进绿色低碳发展。此外,白皮书进一步从集群高能效计算技术、高性能融合存储技术、大规模服务器间高可靠网络技术、高容错高能效平台技术和新型智算机房设计等五个方面全面阐述了超万卡集群建设的核心技术要求,为国内智算基础设施的建设提供技术建议。

面向未来,中国移动正大力推进GPU高速卡间互联全向智感OISA、远距跨集群训练、自动化分布式训练框架等技术的快速成熟,为万卡集群的创新突破打下坚实的基础。

中国移动践行央企责任使命,全面拥抱“AI+”时代,通过白皮书发布,凝聚产业共识,与业界一起应对超万卡集群带来的前所未有的挑战,共同牵引AI产业全面升维,助力新质生产力动能跃迁。

(扫描二维码阅读原文)


微信扫描分享本文到朋友圈
扫码关注5G通信官方公众号,免费领取以下5G精品资料
  • 1、回复“YD5GAI”免费领取《中国移动:5G网络AI应用典型场景技术解决方案白皮书
  • 2、回复“5G6G”免费领取《5G_6G毫米波测试技术白皮书-2022_03-21
  • 3、回复“YD6G”免费领取《中国移动:6G至简无线接入网白皮书
  • 4、回复“LTBPS”免费领取《《中国联通5G终端白皮书》
  • 5、回复“ZGDX”免费领取《中国电信5GNTN技术白皮书
  • 6、回复“TXSB”免费领取《通信设备安装工程施工工艺图解
  • 7、回复“YDSL”免费领取《中国移动算力并网白皮书
  • 8、回复“5GX3”免费领取《R1623501-g605G的系统架构1
  • 本周热点本月热点

     

      最热通信招聘

      最新招聘信息

    最新技术文章

    最新论坛贴子