摘要 移动网络运营商对运维人员进行排班的科学性对网络的运行质量起着重要的作用。我们发现,网络故障的出现在一定时间周期内符合泊松分布的自然规律,因此在确定运维人员数量时,可以用排队论的思想来建模。
1、排队论与泊松分布概述
1.1 排队论简介
排队论是运筹学的又一个分支,它又叫做随机服务系统理论。它的研究目的是要回答如何改进服务机构或组织被服务的对象,使得某种指标达到最优的问题。比如一个港口应该有多少个码头,一个工厂应该有多少维修人员等。
排队论最初是二十世纪初由丹麦工程师艾尔郎研究电话交换机效率开始的,在第二次世界大战中为估算飞机场跑道的容纳量,使之得到进一步的发展,其相应的学科更新论、可靠性理论等也都发展起来。
因为排队现象是一个随机现象,因此在研究排队现象的时候,主要采用的是研究随机现象的概率论作为主要工具。此外,还有微分和微分方程。排队论把它所要研究的对象形象的描述为顾客来到服务台前要求接待。如果服务台以被其它顾客占用,那么就要排队。另一方面,服务台也时而空闲、时而忙碌。就需要通过数学方法求得顾客的等待时间、排队长度等的概率分布。
排队论在日常生活中的应用是相当广泛的,比如水库水量的调节、生产流水线的安排、电网的设计等等。
1.2 泊松分布简介
泊松分布适合于描述单位时间内随机事件发生的次数,它有两个特征:一是总体上的稀有性,另一个是局部的密集性和偶然性。
自然科学领域公认的普遍存在的泊松分布现象有:
数字通讯中传输数字发生的误码个数:总的来说,数字通讯传递的信息是基本准确的,因此发生误码的个数很少,但因为前后的码字很有可能具有密切的计算相关性(如:在传递多媒体图像时,往往使用前后帧灰度的绝对差值来编码),一旦一个位置发生误码,则很有可能带来群体性的误码产生。
另外,电信传输中误码率的计算、大量螺丝钉中不合格产品出现的次数、交通管理中车辆流量分析等随机变数都类似地符合泊松分布。
甚至在社会科学领域,我们也可以捕捉到泊松分布的案例。如腐败现象的发生和发展也是呈泊松分布势态的:首先,从全世界范围来看,腐败现象从总体上来说发生的概率较小,对于一些法制比较健全和完善、而且执行得也较好的国家,腐败现象出现的概率就要少些,即使出现了也能较快受到查处。但是也不可避免的会有少部分国家,腐败现象会集中反复地出现。
其次,从近年查处的一系列“前腐后继案”、“串案”、“窝案”中也可看到泊松分布规律的存在。好多案子,都是一扯一大串,一挖就挖出一窝。“前腐后继案”表明了腐败现象在时间上是呈泊松分布,“窝案”表明了腐败现象在空间上呈泊松分布,而“串案”则表明了腐败现象在立体上是呈泊松分布。
另外类似的还有贷款组合违约概率的分布也可视为接近泊松分布。
2、运维中心建模
2.1 运维中心工作流程分析
对于运维中心来说,每故障总耗时(T)是衡量运营商运维能力的重要指标,也是影响网络运行质量的重要因素。所谓每故障总耗时,是指网络故障从发现告警,到故障彻底排除的总时间,如图1所示:
图1 故障解决流程图
其中,t1是故障在系统中等待的时间,t2是运维人员受理故障的时间。
其实,把运维中心简单化来看,就是一个非常标准的排队论模型(参见图2)。
图2 排队论模型
从模型本身来看,是非常简单的三个过程,顾客到来、接受服务和离开。其中当顾客比较多,而服务台不能同时服务足够多的顾客时,就有顾客开始排队,直到自己被服务为止。对于运维中心,情况基本相同,所以我们就可以利用排队论模型来对运维中心的相关数据进行分析。
在排队论模型中,几个关键前提是:
●顾客的到来服从固定的分布;
●服务台的服务时间服从固定分布;
●服务规则。
对应到运维中心的情况为:
●在一个省公司管理的范围内、一个统计时间段内,故障的发生服从泊松分布的分布,参数为λ,即:网络设备故障率为λ(个/单位时间),以下将进行论证;
●运维人员从受理到故障排除的时间(t2)服从参数为μ的负指数分布,即:t2的数学期望值为μ(单位时间);
●运维中心相关规定:先出现的故障先解决,同时,每个故障的平均等待时间(t1)要限定在一定的范围内以保证网络的运行质量。该范围是各省移动根据自身实际情况来确定一个值。
这样,只要知道了λ和μ,并根据该省的服务水平制定出故障的平均等待时间(t1),就可以计算出所需要的运维人员数。
2.2 网络故障规律分析
下面将就网络的故障发生率是否符合泊松分布进行论证。
根据某运营商提供的数据,故障的分布从大的时段上看是有规律的,例如年周期、月周期、周周期等等。但是小到一定的程度故障的数量就会趋向于随机分布。一天大部分故障集中在早上6点以后到晚上24点以前,而从零点到6点的故障数比较少。因此,我们假设在6:00-24:00,以及0:00-6:00的时间内,故障服从泊松分布。
根据泊松分布的特点,对比自然和社会的典型泊松分布案例来分析网络故障的发生特点:总体来说,网络的故障时间毕竟是占少数,正常运转时间是占绝大多数的;其次,一旦网络中某个设备或者某段线路发生故障,则很可能会引起一系列的关联性告警,从而使这段时间的告警呈现出密集的局面。
因此我们可以判断,在一天的分时间段内,网络故障的发生符合泊松分布的特点,即:在时间间隔T内有k个网络故障的概率为:,网络设备故障率参数为λ(个/单位时间)。
2.3 排队模型算法实现
2.3.1 公式推导
通过以上对运维中心进行建模,我们可以掌握一天分时间段内的故障情况,明确影响因素,通过调整值班的运维人员数量来控制排障总体时间。
根据前面章节的假设,一天分时间段内,出现的故障数服从参数为λ的泊松分布,运维人员的服务时间t2服从参数为μ的负指数分布。则目前有n个运维人员上班,系统内有i个故障的概率为P(i),分析这个时候的排队系统,得到状态转移关系图见图3:
图3 排队系统状态转移图
由此得到差分方程:
求解,可以得到:
同时,还有一些因素影响着运维人员的安排,如:每个故障的平均等待时间(t1)。根据推算,t1的计算公式为:
从公式(1),可以看出,值班人数(c)和t1成反比关系,即同时值班的人数越多,故障的等待时间越短。
总结与值班人数相关的影响参数如表1所示。
从表1看出:安排值班的人数越多,则平均同时等待或者同时被处理的故障数都越少、每个故障的等待时间和总共的处理时间也越少、运维人员空闲的可能性越大,而工作饱和度则越低。
综上所述,我们可先根据λ、μ计算出c,然后通过调节c来得到需要的x1,t1等影响参数的值。
2.3.2 计算步骤
(以下数据非真实数据,已经过处理):
已知条件:
(1)某运营商地市公司现有8个BSC,800个基站,从中抽取三个BSC一天的告警(非节假日)。当天需处理的故障12条,其中6:00-24:00有10条,0:00-6:00有2条;
(2)该地市公司有7个运维人员,分为四班倒,三个白班时段,每时段2人(即:白班共6人),一个晚班时段,安排1个人,经多年工作验证,刚好满足该市运维的需求;
(3)据统计,该公司运维人员受理故障时间数学期望值为30分钟(0.5小时/故障)
根据已知条件来进行计算:
步骤一:该地市公司全部800个基站和8个BSC,估计一天共需要处理的故障32个,其中6:00-24:00有27条,0:00-6:00有5条;
步骤二:把该地市公司白班的数据:λ=27/18=1.5,μ=0.5(hour),c=6代入公式(1),得出符合该地市实际需求的影响参数:t1=0.08(hour);x1=45%;x2=0.87;x3=0.58;x4=0.12;x5=0.08;x6=37%;
步骤三:该地市所在省公司的网络总规模:全省89个BSC,8900个基站,则每天需处理故障约356个,其中297个发生在6:00-24:00时段,59个发生在0:00-6:00时段;
步骤四:将该地市所在省公司白班的参数λ=297/18=16.5;μ=0.5(hour)代入方程(1),反复调节c值得出逼近步骤二算出的影响参数的值,即白班每时段需运维人员:11人;
步骤五:白天需要运维人员数:11*3=33人;同理,得出晚上需要运维人员数7人;因此总共需要运维人员:33+7=40人。
来源:中国联通网站