春节是中国人最看重的传统节日,随着数字经济不断纵深发展,发红包、拜年等春节习俗也逐渐数字化,“数字春节”的保障工作也越来越重要。在春节期间,短视频、直播等社交媒体流量激增,这些应用场景的稳定可靠运行,离不开云服务的运维保障。
华为云自2021年11月5日起开始筹备虎年春节保障,识别了112个重点保障场景,覆盖音视频、社交资讯、出行、文旅、物流、教育等重点行业;预计将拦截外部攻击数亿次,监测平台数据每秒新增超百万条。
华为云工程师实时监测运维设备平稳运行
据预测,今年春节期间流量将出现全域爆发式增长,并且每一个行业的流量高峰点都不一样。面对不确定性的挑战,华为云SRE(站点可用性工程师)及云资源运营团队用“确定性”的运维来支撑业务高可用,通过风险挖掘评估、容量保障、实时监测等措施,构建持续韧性的竞争力,保障华为云稳定运营,让用户体验更好的优质服务。
华为河图机器人自动AI检测数据中心故障及环境信息
在容量保障方面,华为云流量精算师使用资源预测及运营数字化平台,全面对云资源进行在线预测、调度和持续运营。在算法方面,华为云后台建立模型实现多个算法结果融合,通过时序分解的算法模型库,提供面向不同业务场景的预测能力,并以仿真算法结合历史资源消耗的趋势等方面,持续优化模型提升预测结果可靠性。
针对春节的容量保障,华为云流量精算师通过数据建模、AI算法优化、客户资源画像、智能水位线、多种资源组合方案及全域调度等技术应用,提前做好预测和规划,并通过整体容量三位一体的评估,从数据中心到网络,再到算力都做好充足准备,让用户在春节流量洪峰期间也能获得优质的体验和服务。
在风险挖掘方面,一年以来,华为云SRE特战队进行了2000多次实战演练,涉及2000多名技术工程师220多个云服务,覆盖容灾、冗余、过载、数据备份、误操作等多种演练场景,全方位提升了华为云的稳定可靠、安全可信。
以除夕夜重点保障为例,基于在社交平台热搜事件、电商节日、突发情况等节点积累的专业运维保障经验,华为云专业化SRE团队以全面的运维质量管理体系,以及确定性的事件处理和恢复能力,通过风险挖掘评估、容量保障等提前注入保障机制,满足春节庞大而复杂的保障需求,通过7*24小时专业化分工,实时监测华为云的稳定运行。
华为云SRE负责人安宇表示:“整个时代面临各种不确定的挑战,IT行业高度发展且不确定性更加明显。在追求快速迭代的同时,要保障质量和效率的平衡性,SRE在这个过程中起到很大的作用。SRE希望用‘确定性’这个词,去涵盖所有的能力;‘确定性’是我们对客户的承诺,希望能够让客户有确定性的感知和体验。”