中国移动今年将商用三个自主可控万卡集群，总规模近6万张GPU卡

发布: 2024-04-28 16:00 | 作者: MSCBSC | 来源: 移动通信网 | 字体: 小中大

C114讯 4月28日消息今天上午，以“算力网络点亮AI新时代”为主题的中国移动算力网络大会在苏州开幕。

中国移动副总经理高同庆在会上作了题为《打造大国算网重器，开启AI+时代新篇》的主旨演讲！

高同庆指出，中国移动将持续优化算力网络资源总体布局，面向AI+升级，今年将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群，总规模近6万张GPU卡，充分满足大模型集中训练需求；随着大模型训练逐渐转向大规模行业应用，泛在的推理需求持续涌现，中国移动将按需在1500个边缘节点部署推理算力，形成“中心大集群、边缘广分布、中训边推、训推一体”的智算网络。

同时，中国移动将持续完善技术体系，推进全栈技术创新。

一是突破堵点，加快迈向超万卡集群。面向机间互联，原创提出全调度以太技术体系（GSE），构建无阻塞、高带宽、超低时延的新型智算中心网络，对标国际主流的IB和UEC方案，形成中国自主的技术体系，今年将开展GSE中试，加速GSE关键技术和产业成熟；面向卡间互联，打造标准开放总线级互联架构，提升GPU卡间高带宽、低时延通信能力，实现互联拓扑和协议的全栈级优化，为标准开放的新型智算互联贡献中国方案。

二是多元异构，构建融合开放的大算力生态。持续推进一云多芯的多样算力，打破AI芯片生态竖井，今年将升级“芯合”算力原生平台，支持智算应用在更多GPU芯片的快速迁移，同时还支持面向大模型的分布式异构混训，打破当前大模型仅能在单厂家单型号集群训练的局限。中国移动将进一步实现云底座关键技术突破，升级“大云天元”操作系统，商用推广云原生数据库、新一代SDN网络，也会推出新一代磐石DPU，打造一机多芯的磐石服务器，全面使能多样化智能算力。

三是训推一体，打造开箱即用AI服务。自研智算平台，打造模型训练“自动化生产线”，实现AI模型全生命周期服务，支持全栈、全自主可控、全地域的资源统一管理调度，提供一站式开发工具箱，支持万卡并行训练、千卡15天以上稳定训练、分钟级断点续训，确保大模型训得好、快、稳。