C114讯 9月3日消息(南山)在昨日举办的第二届SmartNIC & DPU技术创新峰会上,中国移动研究院数据中心网络技术经理王瑞雪发表演讲表示,中国移动算力网络的内涵,就是“算为中心、网为根基”,通过网络优势,不断提升算力基础设施能力。
这个过程分为三个阶段,第一阶段是“以网连算”,将边缘算力、中心算力和端侧算力通过网连接,实现用户的按需接入。第二阶段是以网强算,通过网络资源调度,突破单点算力的瓶颈,实现算力规模的供给。第三阶段是算网一体,将算力和网络融合。
王瑞雪同时指出,未来数据中心或智算中心,更加关注异构算力,数据中心里同时会有CPU资源、DPU资源,甚至有各种各样的存储资源来实现算力输出。
但是,算力跟网络的增长并不匹配。王瑞雪介绍,存在四大方面的难题:一是网络性能和算力损耗,CPU不是很适合做数据处理,希望通过DPU的智能卸载来提升OVS的转发性能和流表速率。二是裸机场景多,能力相对受限。三是高性能存储协议在智算中心规模变大时性能受限。四是用户面的网元虚拟化后,基于x86硬件的性能下降。
面临这些挑战,王瑞雪希望通过智能网卡实现应用的加速、卸载等功能。包括应用基础设施的能力增强(OVS卸载、弹性裸金属等)、下一代网络能力构建(NVMe协议增强等)、网元加速对业务功能进行卸载。
智能网卡应用具有业务场景定制化特点,王瑞雪表示,运营商的采购模式、网络解耦模式,会影响到方案的制定。因为网络中有不同的SDN厂家、虚拟化厂家、服务器厂家、OS厂家、再加上智能网卡厂家等,需要全解耦的方案。
在软件层面,中国移动已经制定了相应的接口规范。在主要五个接口中,一是CPU卡硬件类型,二是OS,三是存储,四是网卡驱动和DPDK接口,均已完成相应规范制定。此外在运维接口,需要读取网卡状态信息和故障信息,还在做标准化工作。
“运营商网络引入智能网卡面临的最大问题就是标准化问题。我们希望通过一些解耦规范的制定,推动虚拟层SDN引入智能网卡方案的成熟。”王瑞雪表示。
在硬件层面,中国移动对网卡和服务器单独采购,智能网卡更像是一台小型计算机,也需要做一些硬件的规范制定。一是统一服务器的结构和供电;二是功耗要求;三是统一边带信号的定义和带外管理的边界;四是统一运维。
此外,中国移动还做了一个重要的工作:端网协同,加速高性能算力网络应用。通过智能网卡卸载,以及拥塞算法,选入机制等,感知网络态势,解决网络拥塞问题,实现端到端网络性能提升。
王瑞雪最后总结,x86服务器可以做很多事情,采用智能网卡提升性能时,通用变成专用,服务器可能变成一个“烟囱”,不同的业务采用不同的专用设备,网络架构、芯片处理逻辑都不一样。如何让网卡承载不同的业务,还要保证高性能,这里存在通用性和差异性的博弈。
采用智能网卡进行异构计算,主要是通用算力难以承载业务,需要引入异构计算来弥补。一个场景是数据中心能力增强,这是业界的共识;还有就是下一代网络能力的构建,中国移动正在做的方向;再就是虚拟化网元的卸载和加速,中国移动也在进行评估一些场景化方案的可行性、性价比等,以决定是否引入。