1、可靠性概述
电信级运营网络对可靠性需求可分为三个层面:设备可靠性、网络可靠性和业务可靠性。在承载网中,网络和设备的可用性要求达到99.999%(这相当于设备在一年的连续运行中,因各种可能原因造成停机维护的时间少于5分钟),高可靠性是电信运营商网络建设和网络运营的基本要求。
在网络架构不断演进中可靠性的要求一直贯穿其中,可以说可靠性是网络的必备特性。可靠性保证网络发生故障时以最快的速度进行保护倒换,使得运营商的损失降到最低。
LTE承载网定位于综合承载,实现2G、3G、LTE移动业务、固定业务的综合接入,业务的多样化使得网络承载技术变得错综复杂,对网络的高可靠性要求成为必然。
如上图所示,在LTE阶段,承载网络架构发生了很大变化。由于EPC高置,即EPC只部署在省会或者大型城市,使得基站和EPC之间的承载网络需要跨越回传+Core两层网络。
LTE业务对时延要求更加严格,对于LTE承载网来说,无法控制无线侧和核心网侧的时延,只能控制承载网络的时延,如何保证LTE业务时延满足要求关系到LTE业务是否能够正常运营,可靠性部署势在必行。
如上图所示,对于应用层来说,TCP的滑动窗口和其三次握手接收数据确认机制,导致TCP 连接的吞吐量与端到端时延成反比。当TCP传输路径发生故障时,TCP启用重传机制,如果长时间得不到倒换路径,会导致连接中断。
LTE时代数据业务激增,网络设备提供的端口从GE到10GE、100GE不断增加,当数据速率到Gbit数量级时,长时间不能切换代表着大量数据的丢失,对于语音、视频等业务来说,这几乎是致命的。
可靠性技术可以保证在最短时间内切换到保护路径,不会出现连接中断的情况。这对于运营商来说,无疑是保证用户体验的必然选择。
可靠性技术可以分为快速检测和保护倒换技术两个方面来进行部署,二者相辅相成共同为网络高可靠性提供保证。
1.1快速检测技术
网络设备一个越来越重要的特征是,要求对相邻系统之间通信故障进行快速检测,保证出现故障时可以更快的建立起替代通道或倒换到其他链路。
目前,一些硬件如SDH等可以提供这个功能,但是对于很多硬件或者软件无法提供这个功能,比如以太网。还有一些无法实现路径检测,比如转发引擎或者接口等,因此无法实现端到端的检测。
目前的网络一般采用慢Hello机制,尤其是路由协议在没有硬件帮助下,检测时间会很长(例如:OSPF需要2秒的检测时间,ISIS需要1秒的检测时间)。这对某些应用来说时间太长了,当数据速率到Gbit数量级时,缺陷感应时间长代表着大量数据的丢失,并且对于不运行路由协议的节点没有办法检测链路的状态。同时,在现有的IP网络中并不具备秒以下的间歇性故障修复功能,而传统路由架构在对实时应用(如语音)进行准确故障检测方面能力有限。
快速检测技术的出现解决了上述问题,典型的快速检测技术包括BFD、Eth OAM、MPLS OAM等。这些快速检测技术通过相邻设备间ms级进行检测报文的发送和接收,当到达配置的间隔收不到对端的报文时即上报故障,通知设备进行相应的协议倒换。
1.2保护倒换技术
网络设备通过快速检测技术检测到故障后,配合保护倒换技术进行相应协议的倒换。保护倒换技术即在事先建立好备用通道供设备进行倒换,针对不同的承载技术需要部署相应的保护倒换技术。
针对LTE网络,保护倒换技术按照业务部署可以分类为L2VPN类、L3VPN类、网关类、链路类保护倒换技术。L2VPN类保护倒换技术主要是PW冗余,L3VPN类保护倒换技术主要是VPN FRR,网关类保护保护技术为E-VRRP,链路类保护倒换技术包括LDP FRR、混合FRR、TE FRR和TE HSB。
2、LTE承载网可靠性技术
下面的章节将针对中国电信和中国联通在LTE承载网建设中涉及到的可靠性技术进一步进行详细介绍。
2.1中国电信LTE承载网可靠性技术
中国电信在建设IPRAN网络时,主流场景是依托于现有的城域网进行建设,也存在端到端新建的IPRAN网络。在演进到LTE承载组网时,没有EPC机房的地市需要向上跨过CN2到省会或者大区城市EPC机房进行业务落地。
中国电信的LTE承载网架构和承载方式如上图所示,本地网仍然采用IPRAN的承载方式(即PW+L3VPN),只是非省会城市需要途径CN2省干网络到省会或者大区的EPC机房落地业务。
为了叙述方便,拓扑图简化如下:
对于省会或者大区城市(EPC所在地),RAN ER直接上联至EPC CE设备即可;对于非省会城市(没有EPC),RAN ER设备需要和CN2的本地落地PE设备相连,由CN2调度到EPC CE设备然后到EPC进行业务落地。
PW+L3VPN方案的设计理念为接入层通过一种技术PW实现所有业务的接入,降低接入层的维护复杂度,以及维护人员的技能要求,到达汇聚路由器后再进入L3VPN转发。
对于省会或者大区城市(EPC所在地),业务承载如下图所示:
如上图所示,接入层建立二层管道PW,汇聚路由器以上起L3VPN,通过内部环回接口实现PW与L3VPN的桥接。通常一个接入环会双挂两台汇聚路由器,汇聚路由器作为基站的三层网关,此时需要为两台汇聚路由器三层内部环回接口设置相同的MAC和IP,实现双网关保护。
PW+L3VPN同时采用二层PW及三层VPN技术,相应的保护方案也是两种技术保护方案的组合。
按照保护模式可以分为隧道保护、业务保护及网关保护三类:
1)隧道保护
用于网络内部链路及节点故障,特征是保护倒换前后业务源宿节点不变,相应的保护技术为LDP快速收敛、LSP 1:1、TE FRR,检测技术为BFD for IGP/LSP。
2)业务保护
用于汇聚路由器、RAN ER以及EPC CE节点故障,特征是保护前后业务源宿节点(包括PW与L3VPN的桥接点)发生变化,相应的保护技术为PW Redundancy和VPN FRR,检测技术分别为BFD for PW和BFD for Tunnel。
3)网关保护
用于EPC CE及EPC与EPC CE之间的链路故障,相应的保护技术为E-VRRP。
2.2中国联通LTE承载网可靠性技术
中国联通在建立IPRAN网络时,主流场景是端到端新建的IPRAN网络,也存在依托于现有的城域网进行建设。
中国联通的LTE承载网架构和承载方式如下图所示,本地网仍然采用IPRAN的承载方式(即HVPN),只是非省会城市需要途径联通B网省干到省会或者大区的EPC机房落地业务。
为了叙述方便,拓扑图简化如下:
HVPN(Hierarchy VPN)在传统端到端L3VPN的基础上进行了适当优化,通过引入一层“轻量级RR”来缓解核心侧设备压力,解决组建大网的问题。具体方案为:
将汇聚路由器设为“第二级RR”,接入路由器与汇聚路由器建立BGP会话,由于汇聚路由器下挂接入路由器数量有限,因此汇聚路由器上BGP会话压力不大;汇聚路由器与城域骨干RR建立BGP会话,相比接入路由器,整网的汇聚路由器数量大大降低,相应的RR的BGP会话压力也大大降低。汇聚路由器收到接入路由器发布的VPNv4路由后,将下一跳修改为自己之后再发布给RR,之后再由RR反射给EPC CE,因此EPC CE有整网明细路由;汇聚路由器收到的VPNv4路由均不向接入路由器发布,仅向接入路由器发布一条缺省路由,用于引导上行流量,由此,接入路由器仅需维护极少的VPN路由,路由压力较大的问题得以彻底解决。由于VPN采用分层的方式,相应的用于承载VPN的隧道也需要采用分层的方式,接入路由器与汇聚路由器之间为一段隧道,汇聚路由器与EPC CE设备之间为另一段隧道,EPC CE的隧道数量较多的问题也不复存在。
通过上述方案,HVPN解决了传统端到端L3VPN的扩展性问题,保证了低端设备与高端设备共同组大网的能力。
对于省会或者大区城市(EPC所在地),核心层设备直接上联至EPC CE设备即可;对于非省会城市(没有EPC),核心层设备需要和B网的本地落地PE设备相连,由B网调度到EPC CE设备然后到EPC进行业务落地。
对于省会或者大区城市(EPC所在地),业务承载如下图所示:
L3VPN到边缘的业务保护方案非常完备,可以分为隧道保护、业务保护及网关保护三种模式,隧道保护用于网络内部链路及节点故障,特征是保护倒换前后业务源宿节点不变,相应的保护技术为LSP 1:1,检测技术为BFD for LSP;业务保护用于汇聚路由器及EPC CE节点故障,特征是保护前后业务源宿节点(包括两段L3VPN的衔接点)发生变化,相应的保护技术为VPN FRR,检测技术为BFD for Tunnel;网关保护用于EPC CE及EPC与EPC CE之间的链路故障,相应的保护技术为E-VRRP。
2.3快速检测技术
双向转发检测BFD(Bidirectional Forwarding Detection)用于快速检测系统之间的通信故障,并在出现故障时通知上层应用。
BFD for PW是一种对PW进行故障检测的机制,用于触发所承载业务的快速切换,达到业务保护的目的。利用BFD完成隧道或PW故障的快速检测,从而引导所承载业务的快速切换,达到业务保护的目的。
BFD For TE是MPLS TE中的一种端到端的快速检测机制,用于快速检测隧道所经过的路径(包括链路和节点)中所发生的故障。
TE传统的检测机制包括RSVP Hello或者RSVP刷新超时等检测,都具有检测速度缓慢的缺点。BFD检测机制很好的克服了这些缺点,它采用快速收发报文的机制,完成这些隧道路径故障的快速检测,从而触发承载业务的快速切换,达到保护业务的目的。
在LSP隧道上建立BFD会话,利用BFD检测机制快速检测LSP隧道的故障,可以提供端到端的保护。BFD可以用来检测MPLS LSP转发路径上数据平面的故障。使用BFD检测单向LSP路径时,反向链路可以是IP链路、LSP。
3、总结
为了建设一张高可靠性的LTE网络,华为公司针对各种业务提供了端到端的可靠性保护方案,保证业务顺畅,同时在故障发生后能以最快的速度进行保护倒换,把运营商损失降到最低。
在快速检测方面,华为公司较早实现的BFD for everything,可以针对端口、链路、LSP、TE-LSP、VPN、PWE3等等进行快速检测,保证在故障发生的第一时间通知相关模块进行快速倒换。
在故障倒换方面,华为公司配合快速检测,推出了针对LTE场景的各种保护技术,如PW冗余、VPN FRR、混合FRR、TE HSB、VRRP等,已经在现网中广泛应用,为运营商的无线和有线业务保驾护航。
作者:华为中国区网络解决方案部营销经理 庞银卓