C114讯 9月7日消息(水易)第24届中国国际光电博览会(CIOE)如期召开,在同期举办的“算力网络与光技术发展论坛”上,中国电信光传输专业首席专家李俊杰表示,AI时代,数据中心已成为网络流量的中心,也是光网络建设的中心。
特别是随着ChatGPT的爆火,人们逐渐意识到,模型参数规模与性能提升后,AI大模型训练对于网络的需求相比于传统模型也随之产生变化。对比现在紧缺的A100和A800的性能参数,A800被限制的是互联带宽,而不是算力。
“大模型训练需要大规模集群算力的保障,网络带宽和性能限制影响集群算力的发挥。”李俊杰表示,因此在AI时代,进一步加强了对网络质量的要求,尤其是数据中心内部组网要求大规模、高带宽、低时延、零丢包。
DCN高速光互联是刚需
对于大模型的发展,国内已是“百模”大战之势。《中国人工智能大模型地图研究报告》数据显示,截至5月底,中国已经发布了79个大模型(10亿参数以上)。
“百模”大战带来了数据中心流量的进一步升级,数通光模块正逐渐实现100G-400G-800G三级跳跃。数据中心内部网络(DCN)传输距离普遍在2km以内,考虑低成本IM-DD方案;数据中心间互联(DCI)则必须使用相干(ZR/ZR+)。
在李俊杰看来,相对于数据中心互联(DCI)网络,数据中心内部(DCN)网络面临的挑战更大,但机遇也更多。目前面向DCN的400G光模块已日趋成熟,且标准完备。800G预计即将进入数通市场,相关标准仍在制定中,未正式发布,其中2km内光模块将成为DC内主流。
不过,随着速率的不断提升,功耗和200Gb/s+ CEI电接口成为瓶颈。在主流设备商、互联网厂商、光模块厂商的推动下,CPO光电合封技术成为热点, OIF等标准化组织也在积极推进CPO光模块技术标准。
李俊杰指出,CPO能够显著降低功耗,降低电信号传输距离,提供信号质量;与可插拔相比,提高ASIC-光模块互联密度,高集成,节省空间。不过CPO相对依赖硅光子技术才能做到小型化高集成,需要借助硅光的工艺和封装测试平台;另外,更复杂的技术是否能带来收益,目前可插拔方案能耗问题还能应对,没到非用不可的地步。
在此背景下,LPO“线性直驱”成为新势力。李俊杰介绍,LPO仍使用传统光模块封装,DSP被放在设备侧,非线性信号处理由设备实现,模块只处理线性信号,这种方式降低了光模块功耗和成本。
据了解,进入2023年以来,“线性直驱”已经开始影响产业界。今年3月,IPEC联合Lightcounting举办了关于线性直驱技术的线上研讨会;今年OFC上,模块和芯片厂商联合打造了112G Linear的样机demo,OIF也在讨论CEI-112G-Linear电气标准。国内去年9月,由OTT牵头在ODCC发布相关白皮书。
值得一提的是,全光交换技术开始走入数据中心。李俊杰介绍,先驱者已经将光线路交换(基于MEMS的OCS)引入DCN,展现了成本、功耗、时延等多方面优势,但是需要架构性创新。“光线路交换技术进入数据中心内部是必然趋势,光波长交换技术的应用值得研究。”
AI赋能光网络智慧运营
发展AI大模型的主要目的是加速千行百业数字化转型升级。因此光网络技术的升级在推动AI大模型训练高效可靠的同时,反过来AI技术和能力的持续提升,也将有效赋能光网络智慧运营。
李俊杰指出,光网络向超大容量、全光交换、超长距离、超大组网持续演进的同时,智慧运营也是光网络发展的必然趋势。
回顾光网络智能化的进程,从传统的人工运维,到逐步引入电层ASON、光层WSON,再到后来的SDN化实现集中管控和能力开放。如今已经迈入智能化,李俊杰介绍,目前AI技术已经在流量预测、态势感知、故障溯源等多个场景展现了其价值。
在客户流量预测场景,针对不同政企OTN用户,实现对指定时段流量值的预测分析,现网数据(基于电信自研UMS控制器采集)验证,预测准确度可达90%以上。“结合历史数据,分析预测未来的流量趋势,对路由选择、扩容建设等有指导意义。”
网络态势感知场景,通过光纤传感+AI算法,识别不同振动模式,提前预警光缆外破风险;通过光纤传感+智能识别算法,检测光缆同沟同缆风险。“引入AI,对各类破坏事件展开准确定位,快速精准指导抢修工作,提升运维效率。”
面向未来,数字孪生、大模型都将助力实现智能光网络。数字孪生以数字化方式在物理网络上建立一个镜像数字网络,实时反映网络资源的状态以及业务的运行状态。对于大模型,高质量的数据是大模型发挥价值的基础,运营商若希望借助AI提升智慧运营能力,首先需要大力夯实自主掌控的数据基础。