5月9日,在2023年云网智联大会主论坛,中国移动研究院携手中国信通院、腾讯、鹏程实验室、清华大学、华为、中兴、锐捷、新华三、中信科、思博伦、Intel、Marvell、盛科等十余家合作伙伴,联合发布《全调度以太网技术架构(GSE)白皮书》,中国移动研究院副院长段晓东、信通院总工敖立及其余合作伙伴代表共同出席发布仪式。
全调度以太网技术架构白皮书发布仪式
《全调度以太网技术架构白皮书》旨在推动面向未来智算中心的新型全调度以太网技术方案,希望能够助力产业突破智算中心网络性能瓶颈,打造无阻塞、高带宽、超低时延的新型智算中心网络,助力AIGC等高性能业务快速发展。
智算业务普遍采用分布式并行计算进行训练,而并行模式均需要多个计算设备间进行多次集合通信操作,AI训练中通常采用同步模式,多机多卡间完成集合通信操作后才可进行训练的下一轮迭代或计算。在这个过程中,不管是拉取数据样本还是计算节点间进行模型参数同步,都需要高性能、低时延的网络。智算中心网络作为底层通信连接底座,成为智算中心提升算力性能的关键因素。
随着智算业务的发展,智算中心的数据流更加复杂多变,现有基于流的负载分担技术很容易会造成哈希路径上负载不均,导致网络有效带宽低、时延抖动大,一旦网络性能不佳,就会影响AI训练的质量和速度。面向未来智算中心规模建设和AI大模型发展及部署需求,如何打造无阻塞、高带宽、超低时延的高性能网络成为提升算力水平的关键,也成为当前国内外数据中心网络领域创新焦点。
中国移动研究院主导提出的全调度以太网技术架构,在最大限度兼容现有以太网标准的前提下,将高性能计算需求融入以太网。创新性提出报文容器(PKTC)概念,以及从“流”分发到“报文容器”分发转变、从“推”流到“拉”流转变、从“局部决策”到“全局调度”转变三大核心理念,构建出全网流量有序调度、链路带宽高效利用、网络状态精确感知的高性能网络。彻底解决了传统网络技术负载不均,公平调度难、拥塞控制能力不足等技术难题,为智算中心高性能网络发展奠定了基础。
为推动GSE架构完善和产业支持,中国移动联合信通院、腾讯、清华大学、鹏程实验室、华为、中兴、锐捷、新华三、中信科、Intel、Marvell、盛科、思博伦等国内外公有云、设备商、芯片商、测试仪表商等共同研究了该技术方案的技术特性,初步达成了产业共识。
后续中国移动将继续完善技术方案,加快国际国内标准化进程,加速推动产业生态成熟,形成完整的生态链,推动商用进程。
扫码下载《全调度以太网技术架构白皮书》: