5月16日,中国移动研究院副院长段晓东受邀参加2024世界电信日和信息社会日大会“智算融合创新发展论坛”,发表《大规模超万卡新型智算集群的思考与展望》主题演讲。
段晓东表示,大模型的竞争热潮正在驱动智算中心从千卡集群向万卡甚至超万卡集群演进。但超万卡集群的建设仍处于起步阶段,仍有很多问题亟待解决,中国移动大力推进全调度以太网GSE、全向智感互联OISA、算力原生等原创核心技术成熟,为超万卡集群的创新突破做好技术储备。
段晓东在演讲中提到,当前大算力仍然是大模型创新落地的关键,随着万亿模型的出现,包括Google、Meta等在内的国内外大型科技公司都在积极投建万卡或超万卡集群,中国移动也正在内蒙古等地建设一批超万卡集群。然而在国外高端芯片断供的背景下,构建基于国产生态体系、技术领先的超万卡集群将面临诸多挑战,包括极致算力使用效率的挑战、海量数据处理能力的挑战、超大互联规模的挑战、集群高可用易运维的挑战以及高能耗高密度机房设计的挑战。
为此,中国移动提出了全调度以太网GSE、全向智感互联OISA和芯合算力原生等原创技术,攻关智算中心Scale Out网络和Scale Up互联问题,解决跨架构迁移和混合分布式训练难题。同时,为了解决因机房、供电、散热等因素限制单体智算中心规模的问题,中国移动正在着力研究跨集群分布式训练场景,通过在模型算法、平台调度、传输承载等不同层级的协同优化,解决大模型长距离分布式训练的难题。
段晓东表示,中国移动在构建超万卡集群过程中,积累了非常宝贵的实践经验,同时也遇到了不少难题,希望产业凝聚共识,一起应对超万卡集群建设和运营带来的前所未有的挑战,共同实现国产智算设施的又一次跨越式发展。