在网络中,严重的故障状态可以通过告警机制来检测,但是在多个设备单元之间的非常低速率或者间歇性错误状态,会导致业务质量降低,却是无法通过告警机制来检测到,这种情况下,就需要性能监控了。性能监控一般使用连续性的收集与网元性能相关的数据,一般情况下,设备提供原始的统计数据,网管或者专门的性能管理服务器进行处理,生成各种报表,进行相关性分析,趋势分析等等,最终以报告、图表或者其他形式呈现给客户。
性能监控和责任定界
电信网络由于所有权归属,维护体制,维护团队上的不同,存在不同的维护域,不同的维护域之间互相不感知,或者不必要感知。不同维护域之间存在边界的,边界和边界之间的界限就需要有清晰的分界,以便于维护。以LTE移动承载为例,说明维护域的不同。
移动网络维护域示意图
如图1所示,在一个端到端的LTE移动网络中,可能存在多个维护域。无线维护域,无线维护人员仅负责基站、S-GW/MME等的维护,对中间的回传网络不可见,不感知;移动回传维护人员负责从基站侧CSG(基站侧网关Cell Site Gateway)经过ASG(汇聚网关Aggregation Site Gateway)再到到RSG(RNC侧网关RNC Site Gateway)之间的网络的维护和管理,对无线网络不感知,不可见。有故障时,不同维护团队需要快速的分清责任,快速进行故障定位和排障,对链路可管、可控、可视。为达到这个目的, CSG在移动回传网络提供如下一些功能,端到端监控链路的性能:
和RSG组成端到端网络,对这些电路连接的提供性能监控,提供可视的链路状态报告,加速故障定位和排障;
和RSG组成端到端网络,对这些电路连接的连续性进行检测,实时的感知网络中断与否,并在中断时及时倒换到备用链路上去。
回传网络的一个重要的作用,就是将所承载的电路连接变成可见、可感知、可控、可预知,出现故障时,通过承载网丰富和强大的OAM能力、性能监控能力,加快故障定位和排障,尽量减少业务中断时间。
华为LTE承载网性能监控解决方案
LTE承载网因为X2接口的引入变得十分复杂,在排障、责任定界和快速故障定位方面提出了新的挑战,对网络可管、可控、可视能力要求更高。因此,对每一段、每一个网络层次的性能监控、OAM管理、故障定位、责任定界就非常重要。
ITU-T和IETF分别定义了多种分组网络的性能监控的标准,从测量方式上可以划分为间接测量和直接测量两种方式。
间接测量是通过插入测试流,测量测试流的丢包率和延时,用测试流的性能表现来表征实际业务流的性能等。间接测量有如下缺点:
插入测试流会影响业务质量,尤其是在拥塞时;
测试流的表现不能完全代表真正业务流的表现,业务流的优先级、报文长度、QoS调度过程等都会影响测试结果,从而能引入较大误差;
间接测量一般都是通过软件实现,无法大规模部署,测量精度也有限,也会影响正常业务。
直接测量是直接针对业务流的测试,一般是将业务流划分为一系列测量区间,在两个测量点分别统计对应区间的发包数、收包数和延时,同一个区间的发包/收包数的差就是该区间的丢包数。直接测量的优点在于:
直接体现业务流的性能,完全是真正业务流的实际表现,和实际网络一致;
测量结果精确,因为是针对实际业务流的统计,结果更精确;
不干扰正常业务,对正常业务流进行简单“染色”或者使用特殊的标签值,不影响正常业务;
一般都是通过硬件实现,对整机性能没有影响。
下面的列表将当前主要的一些分组网性能监控方式简单总结一下:
表1 各种在线性能监控标准简单对比
从上面对比可以看出,间接测量的结果只能在一点程度上表征实际网络的性能,实际网络部署时,应该尽量使用IPFPM直接测量模式,目前已经成为发展趋势。
1)IP FPM提供在线IP性能监控
IP FPM(IP Flow-based Performance Monitoring)是华为独创的IP在线网络性能监控解决方案,已经有IETF草案发布,http://tools.ietf.org/html/draft-chen-coloring-based-ipfpm-framework-01,其基础架构如下图所示:
IP FPM架构
IP FPM架构中包含三个逻辑体:
DCP:Data Collecting Point,每台参与IP FPM监控的设备上配置一个DCP,DCP收集本设备上TLP的测量信息向MCP报告,MCP进行集中计算得到测量结果。
TLP:Target Logical Port,每个测量实例可包含多个TLP,同一个TLP上可同时进行多个测量实例的测量。TLP识别目标流并进行统计测量,TLP的测量操作基于本地的配置信息,完全独立于参与同一测量实例的其他TLP,TLP之间无须交换控制信息。TLP可以定义在L2接口上,也可以定义在L3接口上,与协议无关。
MCP:Measurement Control Point,每个测量实例对应1个MCP,同一个MCP可对应多个测量实例。
IP FPM测量时,并没有额外引入测试流,因此是直接测量模式,最直观的体现了业务流的实际质量;在报文头中的标记是IP报文中的保留比特,中间网络不会处理,全部透传,因此,IP FPM可以支持端到端部署,对中间网络无特殊要求,可部署性好。
IP FPM实现了控制平面与数据转发平面解耦,控制平面的DCP、MCP和转发平面的TLP分离,同时TLP与协议无关,可以支持L2接口,也可以支持L3接口,同一测量实例可包含不同协议接口的TLP,实现了跨异种网络的直接E2E测量,例如L2 + L3网络的端到端测量,也可以支持点到多点的组网。
2)内置RFC2544实现离线性能监控
既然要隔离用户网络和运营商网络,提供清晰的维护界面,便于在出故障时分清责任,那么提供一份完善的SLA报告就是一个很好的解决方案。为测试以太网专线业务性能,提供相应的SLA报告,业界比较成熟的解决方案是通过RFC 2544来实现。
华为LTE承载解决方案中,ATN支持内置RFC2544产生器和分析器,以及反射器。如下图所示:
内置RFC2544示意图
双向测试模式时,近端ATN支持测试报文生成器,发送到远端;远端设备(不限定是ATN),将收到的测试报文反射回去(可以通过端口物理环回或者逻辑环回),近端ATN收到后,和发送的报文进行对比和分析,就可以计算出延时、丢包率、吞吐量了。内置RFC 2544可以实现免以太网仪表开局,业务自动验收,提供SLA报告,进行网络定界,分清责任,在不同运营商网络、相同运营商不同运维部门之间的进行责任定界等。
3)Y.1731提供完善二层性能监控解决方案
ATN支持完整的Y.1731定义的PM部分,包括帧丢失,帧延时等,能提供基于VLAN,PW和端口的性能统计,提供完善的以太网二层性能监控解决方案:
帧丢失测量 (ETH-LM),包括单端ETH-LM和双端ETH-LM
帧延时测量 (ETH-DM),包括单向ETH-DM和双向ETH-DM
吞吐量测量
Y.1731标准里面,在描述以太网吞吐量测量指出,RFC2544已经定义了测试方法和要求。并指出可以基于ETH-LB和ETH-TST来完成吞吐量测试,但是没有进一步的实现描述。ATN提供吞吐量测试是通过ATN支持的内置RFC2544测试功能来提供吞吐量测试功能的,详细请参考本文有关RFC2544部分章节。
uTraffic性能管理平台使网络流量可经营
uTraffic是华为公司承载网的统一性能管理平台,聚焦网络流向、流量管理,以及管道质量的可视化,实现海量数据汇聚、分析&挖掘、按需展现的功能,帮助运营商实现网络流量、业务质量管理、网络容量的精细化管理。
uTraffic在网络中的位置
uTraffic作为网络管道的智能管理系统,具有以下优势:
统一的性能分析系统
uTraffic统一管理路由设备、接入设备和传送设备的性能,灵活构成FTTx、IP Core/IP METRO、IPRAN等多种性能解决方案。从设备性能维度,通过对设备CPU利用率、内存利用率、资源利用率等指标的监控反映设备的运行状态。从业务性能维度,通过对丢包率、误码率、时延、抖动等KPI反映业务的品质。
大容量采集能力
uTraffic提供了独立的性能采集器,除采用业界通用的SNMP模式外,还提供了独特的BULK采集模式,将设备性能数据通过FTP/SFTP协议进行传输,性能采集能力提升显著,可满足大规模网络的性能采集要求。
流量管理可视化
uTraffic具有强大的GUI展示能力,可以在GIS地图上动态展现各网络节点的流量情况,可以精确了解各网络节点的各种性能指标详细情况,充分了解业务流量、流向以及业务质量。支持GIS地图、业务流量可视、业务质量可视、强大自定义Dashboard输出、一键式导出分析报告、支持离线分析和汇总、Email信息及时推送
E2E业务质量监控
uTraffic基于网络拓扑进行网络性能数据监控,通过各种灵活的统计报表和性能展示方案,实现对网络业务的质量监控。
容量管理和趋势预测
通过对网络流量的分析,及时掌握网络中流量分布情况,并基于与历史性能数据或峰值数据的对比,对网络流量趋势进行预测。客户可据此进行动态的网络流量调整或作为未来网络扩容的依据。
结束语
LTE承载相对3G承载来说,网络规模更大、复杂程度更高,责任定界、故障诊断和快速定位更难,网络安全性要求更高。华为提供多层次性能监控解决方案,用于不同维护域之间定界,形成不同的维护域之间的清晰的维护界面,在出现故障时,根据设备的OAM能力,提供相应的SLA报告,分清网络责任,快速进行定位和排障,尽可能的减少业务中断时间。
华为性能监控解决方案支持丰富的OAM机制,例如Y.1731,IP FPM,内置RFC 2544功能等。在线性能监控中,对二层网络,建议使用Y.1731实现;三层网络,建议部署IP FPM,L2 + L3端到端网络,推荐IP FPM;离线性能测试,建议内置RFC 2544。同时为更直观、更友好地进行性能管理,华为推荐uTraffic图形化流量经营工具,提供完善的二三层网络的性能监控解决方案,使网络性能管理更优化,网络端到端流量可视,可管理,可经营,维护责任清晰。
作者:华为网络产品线网络营销工程部运营商与IP产品管理部高级产品经理 夏庆峰