随着算网时代的到来,各领域数字化、网络化、智能化进程不断加速。在未来,算力将能够像水电一样广泛应用于各个行业领域,成为经济增长的重要基石。传输网作为算网一体的数智化底座,承载着海量的算力业务,而故障处理的效率成为影响算力底座稳定性的关键因素。基于此,河南移动积极开展集中故障管理的研究探索,按照标准化的集中故障管理流程,开展告警标准化、关联规则梳理、预处理部署等工作,取得了不错的效果,但是在OTN网络维护中,仍存在诸多困难。
1. 告警量大,工单处理耗费大量人力。根据河南移动统计结果显示,17000网元规模的网络,平均每天产生的告警超过了10万条,日峰值告警量更是接近40万条,海量告警全部汇聚在网管中心,工单处理依赖人工,严重影响其故障端到端处理时长。
2. 衍生告警产生冗余派单,导致重复上站,故障处理效率比较低,当前故障处理平均时长停留在小时级。
针对这些情况,河南移动联合华为引入了iMaster NCE“OTN智能故障管理”解决方案,该方案采用独创的三级告警压缩技术,大幅压缩告警处理量,并基于告警传播关系快速识别根因,图示1。
第一级,针对设备或业务上报的告警,我们基于屏蔽、重定义、汇聚、闪断、振荡等丰富的告警过滤规则,过滤掉重复、空闲、工程等无效告警,减少80%重复及冗余告警的干扰;第二级,通过流式聚合算法,从时间、拓扑、文本相似性、业务路径多个维度将分散的告警实现高效聚合,聚合准确率可达95%,聚合时间小于3分钟;第三级,通过根因识别算法,计算各个故障的内在联系,动态的定向各个节点之间的因果逻辑,生成故障传播图并定位出根因故障。智能故障管理还包含了自优化的算法模型,算法一次部署,局点不断学习现网数据,并且能在线增量的更新模型,越用覆盖越全,越用越聪明。
图示1 图示2
基于OTN智能故障管理,河南移动落地了全新的告警管理思路,即把上报海量告警变为上报单一故障事件,从而提升整个告警管理以及故障闭环的效率。该方案在河南移动现网最新验证成果,可将10万告警聚合为5000条告警组并自动标识出根因告警,实现了平均压缩率94.77%,聚合准确率98%,根因准确率92.95%,根因识别时长分钟级,助力河南移动在故障数智化运维上迈向新的台阶。该方案于2022年完成创新项目试点并获得ICT中国年度创新奖(图示2),并于2023年7月正式实现商用部署。