近日,在2024中国生成式AI大会上,中国移动研究院网络与IT技术研究所技术经理陈佳媛受邀参加中国智算中心创新论坛,以《全向智感-GPU卡间高速互联技术探讨》为主题发表演讲,系统性阐述大模型突破万亿大关,智算基础设施进一步向“超节点”形态升级,GPU卡间互联技术的发展趋势,并提出中国移动原创的GPU卡间互联架构——全向智感OISA(欧萨),邀请业界合作伙伴共建GPU开放互联技术体系,助力国产智算能力整体升级。
当模型迈向万亿甚至十万亿规模,模型结构引入MoE(Mixture of Expert)专家系统。MoE的稀疏化结构可以使得模型在保持参数量和计算规模的同时,显著提高训练效率,降低成本,增强泛化能力。MoE算法的实施也引入了全新的AlltoAll通信需求,具体表现为单次通信数据量少,但是通信频繁,带宽和时延要求极高。因此,万亿模型的到来对底层智算设施的构建提出了更高要求,包括百卡级别的高速互联系统,更加先进、高效的交换拓扑网络以及支持跨异构芯片的大容量池化内存。
当前国内AI芯片均采用私有化的互联方案,在互联规模、拓扑、带宽、时延等性能方面,均距离国际先进的英伟达NvLink+NvSwitch方案有较大差距,因此当英伟达连续两年推出DGX GH200和NVL72等超节点方案的时候,国内鲜有对标产品出现。
为了助力国内AI芯片升级,在面向大模型训练、搜广推等一系列巨量数据处理的业务场景中提出有竞争力的解决方案,中国移动原创提出全向智感OISA——GPU卡间高速互联架构,并邀请行业合作伙伴共建开放标准和协议。OISA将基于对等通信架构、极简报文格式、高效物理传输和灵活扩展能力等设计理念,构建一套可以支持百卡级别的GPU高速互联系统,在支持卡间交换拓扑的同时,通过对电接口、聚合技术、报文格式进行优化,提高GPU之间的数据传输效率。中国移动未来将通过IP开放的形式鼓励国产AI芯片集成高速互联接口,提升研发效率,帮助国产AI芯片快速迈向下一代智算设施的能力建设。