中国移动研究院秦凤伟:网络成为AI算力瓶颈 以网强算更加重要

C114讯 3月24日消息(赵婷婷)人工智能正处于快速发展阶段,其应用深入到各个行业和领域,将逐步改变着我们的生活和工作方式。智能时代,通信及网络重要性在不断提升,产品迭代速度明显加速,对数据、算力、网络持续演进提出了新的要求。

日前,在思博伦举办的“创新驱动智能未来”的Spirent Day 2024峰会上,中国移动通信有限公司研究院项目经理秦凤伟在主题演讲中表示,AI大模型以算力集群分布式训练为基础,带来大量节点间通信消耗,组网规模、网络性能和可靠性决定集群有效算力,网络成为AI算力“瓶颈”,以网强算成为提升大模型训练效率的关键。

智算中心与通算中心流量模型与网络存在差异性

秦凤伟指出,智算中心网络用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算中心整体算力水平具有关键意义。相较于通用云计算网络,智算中心网络对AI参数面网络提出更为严苛的要求。

具体而言,在流量模型差异性方面,通用算力以CPU芯片为主,业务种类多流量小,业务间相互独立;智能算力以GPU、AI芯片等人工智能芯片为主通信关系固定,流数量少流量大,分布式训练带来大量节点的同步突发,木桶效应明显。

在网络差异性方面,目前业界主流通算中心与智算中心虽然均采用spine-leaf架构,但两者端口速率、组网方式、网络协议均存在差异性。

例如,通算中心组网方案服务器端口10GE/25GE并存,汇聚层从40GE向100GE演进;而智算中心组网方案服务器端口200GE/400GE,汇聚层更是达到了400GE/800GE。

打造新型智算中心网络技术体系CSE

面对AI大模型训练对网络提出的全新挑战,传统的数据中心以太网已经难以维系,业界正在致力于对传统以太网进行革新。

秦凤伟举例表示,现有以太网协议基于流的负载分担及拥塞控制机制,在AI模型训练场景存在天然缺陷,导致网络有效带宽和时延受限。InfiniBand和ROCE存在各自问题,因此,构建基于新型以太网开放、标准的生态,成为智算中心网络技术演进方向。

她介绍,GSE(全调度以太网)创新以太网转发机制,基于三大核心机制转变,实现高精度负载均衡、网络层原生无损及低延迟。从而由“流”分发转向“报文”分发,从盲发+被动控制转向感知+主动控制,从“局部”决策转向“全局”调度。

GSE技术体系能最大限度兼容以太网生态,从物理层、链路层、网络层、传输层“四层”,以及管理和运维体系“一体”等层级优化和增强。创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展。

在部署方面,GSE协议可根据网络设备和网卡能力适应多种组网场景。尤其在部署国产芯片时,GSE由于采用逐包分发技术降低了对leaf上行带宽的需求,使得同等芯片容量下组网规模更大,负载均衡能力更强,更适配国产芯片大规模组网需求。

秦凤伟表示,中国移动已携手中国信通院,并联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系。


微信扫描分享本文到朋友圈
扫码关注5G通信官方公众号,免费领取以下5G精品资料
  • 1、回复“YD5GAI”免费领取《中国移动:5G网络AI应用典型场景技术解决方案白皮书
  • 2、回复“5G6G”免费领取《5G_6G毫米波测试技术白皮书-2022_03-21
  • 3、回复“YD6G”免费领取《中国移动:6G至简无线接入网白皮书
  • 4、回复“LTBPS”免费领取《《中国联通5G终端白皮书》
  • 5、回复“ZGDX”免费领取《中国电信5GNTN技术白皮书
  • 6、回复“TXSB”免费领取《通信设备安装工程施工工艺图解
  • 7、回复“YDSL”免费领取《中国移动算力并网白皮书
  • 8、回复“5GX3”免费领取《R1623501-g605G的系统架构1
  • 本周热点本月热点

     

      最热通信招聘

      最新招聘信息

    最新技术文章

    最新论坛贴子