近日,在2024中国算力大会“算力网络共链行动暨创新发展”分论坛上,中国移动携手50余家产业合作伙伴共同发布“智算开放互联系列重磅成果”。中国移动通信集团有限公司副总经理李慧镝、河南省人民政府副秘书长魏晓伟、中国移动研究院党委委员王大越及多位业界领袖出席了此次发布仪式。
此次成果发布旨在促进智算中心之间的网络互联和卡间互连的技术创新,完善相关标准,推动产业发展和应用实践。目标是构建一个高速、无损、安全、可靠的新型智算互联技术体系,以满足人工智能时代日益增长的算力需求,并全面提升算力的赋能能力。
随着ChatGPT等基础通用大模型的爆发,智能算力需求呈现爆炸式增长态势,全球智算中心建设高速发展,集群规模迈入万卡级别,超节点设备受到产业界关注。超大模型训练依赖集群内GPU之间频繁的数据交互,通信开销导致集群的有效算力无法随GPU数量线性增长,互联性能成为制约集群规模扩展和性能提升的瓶颈。同时,智算互联体系依赖GPU芯片、交换芯片、网卡芯片及整机设备等上下游企业协同创新,技术体系庞杂,难度大。
为了应对卡间互联极致的带宽和时延要求,填补机内交换产业空白,中国移动在今年6月联合北京市政府及国内智算生态企业和科研机构,建立了“OISA协同创新平台”,原创提出GPU卡间开放互联协议OISA,推动互联协议、交换芯片等核心技术攻关。
本次算力大会,中国移动联合产业合作伙伴共同发布OISA Gen1.1协议。OISA旨在打造一个高效、智能、灵活且开放的GPU卡间互联体系,致力于支持大模型训练、推理、高性能计算等数据密集型的AI应用。为了实现这一目标,OISA采用了全向连接设计,确保大规模GPU之间对等通信;引入智能感知设计,通过定义流量感知标签,并结合流控和重传机制,优化数据传输效率;在协议层面,OISA采用了统一报文格式、多语义融合、多层次流控和重传以及集合通信加速等四大关键技术,实现高速、低时延、无损和高可靠的GPU通信。
OISA将秉承开放性原则,邀请产业伙伴加入OISA生态,深度参与OISA的协议制定、更新与研发,从技术攻关、标准体系、创新试验、产业生态等方面加快推动相关技术和产品成熟,为国内AI芯片向超节点升级提供强有力的技术支撑,为中国在全球AI领域中提供新的动力。