为不断保持和提高全省业务支撑网的运营维护和管理水平,江西移动业务支撑系统部开展了一系列技术攻关活动,并形成了独特的“IT基础架构的资源配置动态管理”流程,在一定程度上提升了IT支撑工作的管理质量。
一、实现“IT基础架构的资源配置动态管理”的理由
如图1所示。
二、目标设定
1.IT资源配置项目信息可根据IT基础架构(如主机设备)的类别、型号、主要应用、物理位置等关键索引进行分类浏览,实现服务流程管理平台的统一。
2.IT资源配置管理界面可展现IT基础架构配置项的实时性能指标,包括CPU利用率、内存利用率、I/O等待率等,可通过工单提取最近一次设备重启时间和健康检查时间,并可进一步查看工单的详细信息,如当前处理人等。
3.IT资源配置管理平台产生的告警信息可实时、自动地发送给维护人员,以便及时处理突发事件,建立用于故障评价和防范的历史知识库,减少系统停顿服务时间,加强系统可靠性和可维护性。
4.IT资源配置管理流程的职责划分:设备管理员负责管理IT基础架构的基本信息,并实施具体的重启、健康检查、维修等各项操作;业务管理员负责分析IT基础架构的业务性能,并在接到设备管理员的核查工单请求后,实施相关业务的核查处理。
5.IT资源配置管理平台可支持多种输入方式,如动态数据采集或手工数据录入等,同时保留现有手工修改方式(暂时不考虑自动修改配置信息),并支持多种查询方式。
通过对现有流程不足之处的详细分析,同时借鉴国内外服务流程的成功经验,我们有充分理由相信,设计一套符合江西移动实际情况的IT基础架构资源配置动态管理流程是完全可以实现的。
三、原因分析
通过运用“头脑风暴法”,对IT基础架构的资源配置管理中存在问题的原因进行关联分析,结果如图2所示。
四、要因确认
通过分析论证,共找出13个末端因素。要因确认如表一所示。
[table]
序号 | 末端因素 | 确认内容 | 确认方法 | 确认标准 |
1 | 200网站数据库存放部分配置信息 | 配置信息是否存在于200网站数据库 | 查阅200网站数据库 | 200网站数据库中存放了配置信息 |
2 | BOSS网管数据库存放部分配置信息 | 配置信息是否存在于BOSS网管数据库 | 查阅BOSS网管数据库 | BOSS网管数据库中存放了配置信息 |
3 | 未定期检查资产配置状况 | 查看上一次资产配置状况记录的内容 | 调查对比 | 上一次资产配置状况记录的内容与事实不符 |
4 | 未及时更新设备维修操作记录 | 查看上一次设备维修操作记录的时间 | 调查对比 | 上一次设备维修操作记录的时间与事实不符 |
5 | 配置项目未展现实时性能指标 | 查看资产浏览模块 | 有否实时KPI展现 | 配置项未与KPI关联展现 |
6 | 设备重启工单只能人工发起 | 分析设备重启工单 | 查阅工单发起条件 | 只能通过人工发起设备重启工单 |
7 | 健康检查工单只能人工发起 | 分析健康检查工单 | 查阅工单发起条件 | 只能通过人工发起健康检查工单 |
8 | 出现告警时未自动发送短信通知 | 查看短信通知平台 | 查询短信发送条件 | 没有通过短信平台发送告警 |
9 | 指标超过阀值时未自动触发应用核查 | 分析告警是否触发应用核查工单 | 查阅工单记录 | 根据告警证实未触发应用核查工单 |
10 | 没有建立故障处理历史知识库 | 查看是否存在故障历史知识库 | 查阅系统数据库 | 没有历史故障知识库数据 |
11 | 配置信息自动调整的沟通渠道不畅 | 分析配置调整是否自动触发工单 | 查阅工单记录 | 根据配置调整证实未自动触发工单 |
12 | 人员职责不清晰 | 查看工单的职责设计 | 查阅工单 | 未明确说明人员职责分工 |
13 | 工单信息不详尽 | 查看工单的包含信息 | 查阅工单 | 未包含足够的流转位置信息 |
对各要因进行进一步分析。
1.200网站数据库存放部分配置信息
虽然200网站数据库中存放了部分配置信息,但这并不影响实现IT基础架构的资源配置动态管理流程,并且还可以通过数据迁移的技术方式,与BOSS网管系统数据库融合。不是要因。
2.BOSS网管数据库存放部分配置信息
BOSS网管数据库中存放了部分配置信息,但同样这也并不影响实现IT基础架构的资源配置动态管理流程,并且还可以将200网站数据迁移至BOSS网管数据库中,实现配置信息的整合。不是要因。
3.未定期检查资产配置状况
反映了配置信息日常的正确性检查机制欠缺,但是资产配置状况的更新频度较小、范围较窄,对实现IT基础架构的资源配置动态管理流程的影响较小。不是要因。
4.未及时更新设备维修操作记录
反映了配置信息日常的正确性检查机制欠缺,无法保证其准确性,对实现IT基础架构的资源配置动态管理流程有较大影响。是要因。
5.配置项目未展现实时性能指标
反映了配置信息偏重于静态应用,无法识别系统性能瓶颈,不能提出有针对性的系统优化或扩容实施方案,因此无法实现IT基础架构的资源配置动态管理。是要因。
6.设备重启工单只能人工发起
设备重启工单只能人工发起,使得配置信息的更新仅限于提交变更时,但该类工单较少更新IT基础架构的资源配置信息,对实现IT基础架构的资源配置动态管理流程的影响较小。不是要因。
7.健康检查工单只能人工发起
情况与6相似。不是要因。
8.出现告警时未自动发送短信通知
反映了系统缺乏自动发送告警信息机制,极易造成突发事件处理响应速度慢,严重影响了生产系统的平稳运行。是要因。
9.指标超过阀值时未自动触发应用核查
表明配置信息的数据维护能力不足,导致无法自动提交给应用人员进行核查,对实现IT基础架构的资源配置动态管理流程有较大影响。是要因。
10.没有建立故障处理历史知识库
表明系统尚未具备对问题原因进行深入分析、总结和提炼的手段,但是历史知识库属于静态数据范畴,对实现IT基础架构的资源配置动态管理流程的影响较小。不是要因。
11.配置信息自动调整的沟通渠道不畅
表明各专业组之间尚未形成有效的信息沟通渠道,且不能衡量配置信息处理流程的时效性,对实现IT基础架构的资源配置动态管理流程有较大影响。是要因。
12.人员职责不清晰
人员职责不清晰虽然造成配置信息的处理过程不可控,无法衡量流程的时效性,但是并不对IT基础架构的资源配置动态管理流程产生实质性的影响。不是要因。
13.工单信息不详尽
情况与12相似。不是要因。
五、对策制定
根据确定的要因,我们制定以下对策措施。如表二所示。
[table]
序号 | 要因 | 对策 | 目标 | 措施 |
1 | 未及时更新设备维修操作记录 | 通过流程记录设备维修操作 | 及时记录设备维修情况 | 设计闭环、及时的设备维修操作记录流程 |
2 | 配置项目未展现实时性能指标 | 添加配置项目的展现内容 | 展现配置项的实时KPI | 修改配置项目展现界面,增加动态KPI指标 |
3 | 出现告警时未自动发送短信通知 | 在短信平台中添加触发条件 | 实现告警短信自动发送 | 修改短信平台发送条件的参数设置 |
4 | 指标超过阀值时未自动触发应用核查 | 系统自动或人工发起超过阀值的工单 | 应用核查确认超过阀值是否影响运行 | 设计能够自动触发的应用核查工单流程 |
5 | 配置信息自动调整的沟通渠道不畅 | 通过流程实现各专业组之间的沟通 | 促进配置信息自动调整后的沟通 | 设计顺畅的配置信息自动调整的沟通流程 |
六、对策实施
1.设计闭环、及时的设备维修操作记录流程
本流程的维修操作工单由对应设备的设备管理员发起,填写操作原由、操作内容、计划操作时间和业务配合人(一般情况下为该设备的业务管理员),提交至设备组组长审核,若审核通过则进行相关操作并记录维修结果,同时业务配合人记录业务应用情况。审核通过后系统在将工单发送给设备管理员的同时,提醒业务配合人阅知。
应用管理员可以为多个,需要所有业务管理员均核查同意后工单才可以终止。只要其中一个应用管理员驳回,工单都会被驳回,重新进入操作人员执行状态。
2.修改配置项目展现界面,增加动态KPI指标
IT基础架构的每个配置项目(CI)必须被有效管理、跟踪和控制,以支持IT服务和基础设施正常运行。一般而言,传统的资源管理方式偏重于静态应用,由于资源信息变更不及时,造成资源配置信息不准确;而资源配置的动态管理强调通过服务管理流程及时反映各类资源KPI(关键性能指标)实时状态。以主机设备为例,从配置项目展现界面中,可知当前CPU利用率、内存利用率、IO等待率等KPI的实时状态。
3.修改短信平台发送条件的参数设置
设计告警短信自动发送的思路是:当生产系统IT基础架构主要部件产生告警时,BOSS网管系统调用短信平台的外部接口程序,并根据告警事件的分类进行判断,然后从数据库中查找到相应维护人员的手机号码,最终成功发送短信通知。在系统中可以定义发送短信通知的告警级别以及修改接受短信人员的所属组别和手机号码,以便灵活调整。
4.设计能够自动触发的应用核查工单流程
本流程实现了系统一旦监测到某一设备相关指标达到阀值时,自动触发生成应用检查工单并自动流转至设备管理员的功能。设备管理员进行初步核查后将该工单流转至业务管理员,以便进行业务应用检查,记录检查情况并提出建议。本流程也支持人为发起工单方式,相关人员对某台设备进行操作前,需要通知该设备的业务管理员知晓并确认。应用管理员可以为多个,在审核时,需要多个业务管理员都通过才能视为通过,流程才能进入下一状态。
5.设计顺畅的配置信息自动调整沟通流程
本流程为各业务组与设备组之间进行有关设备配置信息调整提供沟通处理渠道。因应用需要涉及设备资源信息变更和调整,必须手工发起需求调整工单,输入设备IP地址、变更类型和具体需求主题、需求内容后,再经发起人所在组组长审核通过后提交至设备组组长进行审核,如确认可操作则指定具体操作人(一般情况下为设备管理员),由操作人记录具体执行情况。操作人员在执行本次配置调整需求完毕后,必须通过配置管理模块进行相关资产信息的调整,确保IT基础架构资源配置信息的及时和准确。需求类型包括:增加空间、增加用户、赋予权限、调整参数和调整业务等。
如果需求工单为业务组人员发起,需要业务组长审批通过方可发起审批,如果为设备组直接发起,则流程不需要业务组长审批。业务组长或设备组长认为变更不需要,也可以直接结束工单。
七、效果评估
本次活动取得了良好效果:在IT基础架构的资源配置动态管理流程保障下,实现了告警自动短信通知,并改善了专业组之间配置信息沟通渠道,使得全省BOSS系统全年故障次数控制在预定目标值以下;利用关键性能指标的实时监控界面,成功识别出系统性能瓶颈,并提出了系统优化扩容方案,使得全省BOSS系统全年优化扩容效果超过预定目标值。并为下一步有效地建立其它IT服务管理流程打下了基础。
----《通信世界》