中国移动王瑞雪:跨智算中心互联需求凸显,IP+光融合是技术方向

C114讯 7月7日消息(九九)全球智能算力需求快速增长,智算产业迈入了大模型时代,以GPU计算芯片和高速以太网交换网络为核心的新型智算中心(NICC)基础设施建设不断布局。

在近期举办的2024中国光网络研讨会上,中国移动研究院数据中心网络技术经理王瑞雪指出,AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”。

中国移动原创提出GSE技术体系,革新以太网转发机制,基于三大核心机制转变(从“流”分发到“报文”分发、从盲发+被动控制到感知+主动控制、从“局部”决策到“全局”调度),实现高精度负载均衡、网络层原生无损及低延迟。

王瑞雪介绍,GSE采用逐包分发技术后,对leaf上行带宽需求降低,同等芯片容量下,leaf上行口的端口速率越小,组网规模越大,负载分担链路更加散列,包均衡能力更优,更适配国产芯片大规模组网需求。

王瑞雪进一步指出,智算中心网络规模持续提升,带来高成本、高功耗等问题,且随着速率不断演进,电交换可能成为规模提升瓶颈。引入光交换机,形成光电混合组网是技术趋势之一,但同时也存在3大挑战:一是GSE与光电混合组网融合机制待明确;二是缺少流量模型与网络拓扑协同机制;三是缺乏光电混合设备统一纳管能力。

毋庸讳言,能耗是数据中心当前最大问题:交换容量提升80倍,功耗增加22倍。因此,全球云服务商加速800G商用部署,以应对日益增长的数据传输需求和优化数据中心基础设施。

王瑞雪介绍,800G以太网也是智算中心网络互联的重要方向。中国移动积极参与推动IEEE P802.3df&dj工作组的800GE标准化工作,主导提交10余篇技术需求及标准提案;主导完成800GE 20km新目标立项,是中国公司在IEEE的首个以太网基础标准立项,并主导通过20km/40km相干标准框架提案。

当前,超万卡级智算中心的电力供应/机房空间等节点能力将成为建设瓶颈,通过网络能力可换取更大的集群规模;智算中心分地域、分时期、分阶段建设现象较为普遍,形成多个算力资源孤岛,碎片资源可通过网络能力整合。王瑞雪认为,当前应重点解决园区跨机楼互联和同城多局址互联问题,满足十万卡建设需求。但这又将产生新的问题:一是网络时延的增加(受限于物理极限),二是互联带宽剧增(受限于建网成本)。

王瑞雪总结说:“当跨智算中心互联需求凸显,IP+光融合是技术方向。”IP+光融合技术可简化互联设备形态,设备直出采光,简化组网方案,减少光电转化,降低转发时延,更好匹配智算互联需求,成为业界百公里智算互联主要技术路线。


微信扫描分享本文到朋友圈
扫码关注5G通信官方公众号,免费领取以下5G精品资料

本周热点本月热点

 

  最热通信招聘

  最新招聘信息

最新技术文章

最新论坛贴子