中国移动研究院创新提出基于光传送网(Optical Transport Network,OTN)的智算分布式协同架构,携手业界合作伙伴构建了基于OTN互联的智算分布式协同原型系统并完成理论仿真和实验研究,相关成果近期被全球光通信领域顶级学术会议European Conference on Optical Communications(ECOC)2024录用,是揭示OTN传输和组网技术承载智算拉远可行性的首篇学术成果。
随着ChatGPT、Sora、Gemini等基础大模型应用涌现,以智算为代表的新型基础设施已成为新质生产力发展的重要引擎。伴随智算中心规模向超万卡演进,机房空间及供电需求迅猛增加,单节点集中部署面临巨大挑战,分布式协同部署是潜在解决方案。而如何将分布式部署的智算机房进行协同调度,充分发挥算力资源的最大效能,是业界亟需研究的关键问题。
中国移动面向智算分布式协同场景,开展基于OTN的智算分布式协同架构技术创新,并首次完成2-100公里不同距离多场景下OTN承载分布式智算技术试验。在试验中基于400G OTN互联的两个智算集群上运行百亿级参数的大型基础语言模型,详细论证研究了互联距离、带宽变化、光纤闪断、链路误码等因素对计算效率的影响。首次揭示了训练效率劣化与拉远距离基本呈线性关系,并通过充分发挥OTN大带宽、稳定低时延、高可靠等传输和组网技术特点,在100km的拉远距离下实现了训练效率仅劣化3.75%的高效协同训练,为分布式智算技术演进提供了全新理论依据和详实试验数据。
基于OTN互联的智算分布式协同创新是实现跨智算集群协同训练的潜在技术方案,本次高水平论文成果的发表,是首次以试验方式定量揭示了基于OTN的智算拉远技术性能和变化规律,后续需进一步推进产学研在跨智算集群协同技术方面的深度协同,构建分布式智算中心新模式。