——落实集团“大起底大排查大整治”专项工作、提升运维“数智化”水平
近日,江苏移动基于与华为联合的智能容灾方案成功完成首次X百万级SA用户容灾应急演练,通过可靠的5G SA大区网络容灾应急体系,保障5G SA业务的平稳运行。
本次演练运用了首次上线的智能容灾方案,在容灾故障事件识别、容灾仿真评估及容灾过程可视等环节,从准确性、便利性及业务可视等方面极大地提升了容灾作业的“数智化”水平,标志着江苏移动智能化运维水平再上新台阶。
▲ 智能容方案-容灾值守看板(用户即将完成全量倒换迁移)
——大区容灾中的关键挑战
容灾是核心网运维非常重要的业务保活手段,在实现大区云化核心网建设后犹显重要,而现网实际容灾操作中面临诸多困难及挑战,主要体现在:
1、 容灾入口难判断:在什么场景需要触发容灾操作,对于云化大区制网络,需要判断所发生的故障对应8级故障场景中哪一级,又属于哪一类容灾场景,以便快速确定启用哪一种容灾手段来保全业务,这需要综合分析现网告警、KPI、投诉、日志等多维数据,并结合专家运维经验以给出准确判断。
2、 容灾可行性难评估:大区制建设后核心网网元承载用户数多、业务流量大,在执行容灾倒换前需要准确评估目标网元是否具备接管故障网元业务的条件、容灾操作是否会对用户/业务带来影响及影响有多大,必须收集大量数据,并对组网和网元有深刻理解,同时由专业能力过硬的专家进行评估,方可作出正确的可行性评估预判。
3、 容灾过程无实时监控:大区网络核心网承载业务量大,容灾业务迁移往往需要一定周期,业务的恢复情况无直观的手段可实时呈现,往往需要运维人员通过后台查询统计的方式获取,时效性和效率都存在一定问题,同时也不直观。
容灾作为核心网日常运维及后期重大故障出现时的保活手段,需要运用自动化和智能化的手段来提高容灾作业水平。
——核心网5GC智能容灾方案具备的关键能力
江苏移动携手华为成立专项研究小组,就构建5GC智能容灾能力展开深入探讨,形成了适配大区云化核心网络的智能容灾方案关键能力。
1、 容灾事件识别:基于汇聚告警、日志、性能数据等故障信息,结合智能分析系统快速生产容灾事件,并自动适配已定义的容灾场景。
2、 容灾仿真评估:通过对容灾对端网元、资源池进行静态数据及配置检查,模拟容灾倒换行为,仿真5GC核心网各节点的流量冲击情况,调整相关流控策略,评估业务恢复所需时间。
3、 容灾过程可视:通过容灾看板实现倒换过程可视化监控,实时呈现倒换进展及KPI指标,及时识别异常或风险。
a) 分钟级呈现业务迁移进度关键KPI指标。
b) 实时呈现目标网元业务性能指标。
c) 实时关联呈现目标网元活动告警。
——江苏移动智能容灾方案在容灾演练中的关键领先点
1、 智能容灾系统在容灾故障发生2分钟内识别并生成正确的容灾事件,触发评估仿真。
2、 10分钟内完成容灾评估仿真,业务恢复仿真曲线与实际业务恢复曲线基本一致。
3、 整个容灾过程中,用户上线全流程实时可视。
本次演练活动,是江苏移动智能容灾方案上线后的首次生产演练,充分验证了在大区云核心网智能容灾方面的能力,也标志着江苏移动正式迈入云化网络数智化运维运维新时代。未来,江苏移动将继续携手生态伙伴持续增强大区网络运维数字化能力,持续当好集团自动驾驶网络目标实现的排头兵。