C114讯 3月24日消息(赵婷婷)人工智能正处于快速发展阶段,其应用深入到各个行业和领域,将逐步改变着我们的生活和工作方式。智能时代,通信及网络重要性在不断提升,产品迭代速度明显加速,对数据、算力、网络持续演进提出了新的要求。
日前,在思博伦举办的“创新驱动智能未来”的Spirent Day 2024峰会上,中国移动通信有限公司研究院项目经理秦凤伟在主题演讲中表示,AI大模型以算力集群分布式训练为基础,带来大量节点间通信消耗,组网规模、网络性能和可靠性决定集群有效算力,网络成为AI算力“瓶颈”,以网强算成为提升大模型训练效率的关键。
智算中心与通算中心流量模型与网络存在差异性
秦凤伟指出,智算中心网络用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算中心整体算力水平具有关键意义。相较于通用云计算网络,智算中心网络对AI参数面网络提出更为严苛的要求。
具体而言,在流量模型差异性方面,通用算力以CPU芯片为主,业务种类多流量小,业务间相互独立;智能算力以GPU、AI芯片等人工智能芯片为主通信关系固定,流数量少流量大,分布式训练带来大量节点的同步突发,木桶效应明显。
在网络差异性方面,目前业界主流通算中心与智算中心虽然均采用spine-leaf架构,但两者端口速率、组网方式、网络协议均存在差异性。
例如,通算中心组网方案服务器端口10GE/25GE并存,汇聚层从40GE向100GE演进;而智算中心组网方案服务器端口200GE/400GE,汇聚层更是达到了400GE/800GE。
打造新型智算中心网络技术体系CSE
面对AI大模型训练对网络提出的全新挑战,传统的数据中心以太网已经难以维系,业界正在致力于对传统以太网进行革新。
秦凤伟举例表示,现有以太网协议基于流的负载分担及拥塞控制机制,在AI模型训练场景存在天然缺陷,导致网络有效带宽和时延受限。InfiniBand和ROCE存在各自问题,因此,构建基于新型以太网开放、标准的生态,成为智算中心网络技术演进方向。
她介绍,GSE(全调度以太网)创新以太网转发机制,基于三大核心机制转变,实现高精度负载均衡、网络层原生无损及低延迟。从而由“流”分发转向“报文”分发,从盲发+被动控制转向感知+主动控制,从“局部”决策转向“全局”调度。
GSE技术体系能最大限度兼容以太网生态,从物理层、链路层、网络层、传输层“四层”,以及管理和运维体系“一体”等层级优化和增强。创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展。
在部署方面,GSE协议可根据网络设备和网卡能力适应多种组网场景。尤其在部署国产芯片时,GSE由于采用逐包分发技术降低了对leaf上行带宽的需求,使得同等芯片容量下组网规模更大,负载均衡能力更强,更适配国产芯片大规模组网需求。
秦凤伟表示,中国移动已携手中国信通院,并联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系。