IP 网络的保护与快速恢复

发布: 2010-12-24 01:45 | 作者: | 来源: | 字体: 小中大

相关专题： 5G

侯立民

北方交通大学

　　　摘要 Internet 的用户规模增长及其多媒体实时业务的涌现对于IP网络的可生存性提出新的要求。本文主要讨论保证IP网络可生存性的保护与快速恢复技术。

　　关键词可生存性保护快速恢复

1 引言

　　随着Internet的飞速发展，越来越多的人们特别是商业用户将这一网络作为提供协同工作、电子商务、教育和休闲娱乐的一条便捷途径。对于商业用户而言，即使短时间的业务中断也会产生严重的影响。如何防止业务中断或者在中断不可避免时将业务的损失降至最低成为一个关键问题，IP网络的可生存性成为网络设计中必须考虑的一个方面。网络的可生存性是指出现故障时网络提供持续业务的能力，它是通过保护和恢复方案来实现的。如何使IP网络适应越来越多的具有实时和业务级要求的应用成为当前业界、研究界共同关注的热点问题。在这方面现有IP网络的动态路由技术与TCP可靠传输机制的结合已可使IP网络具有很好的可生存能力。但是IP动态路由过程一般需要几十秒钟，难以满足IP实时、准实时业务的QoS要求。网络规模的日益扩大使这一问题更加严重。再者，对于大规模的ISP而言，其核心网络是由光链路（2.5Gbit/s、10Gbit/s或更高容量）互连的路由器构成，每一条链路上都承载着巨大的业务量，链路或路由器故障会引起严重的业务损失。最近发生的中美海底电缆中断对Internet用户所带来的影响之严重是众所周知的。因此，要满足用户对业务可靠性、可用性、完整性的需求，引入更快更强的保护和恢复技术，使IP网络具有更强的可生存性，对于IP网络而言已越来越重要。

　　目前，研究界和业界都在致力于这方面的研究，提出很多新的方案。其中有基于IP层的技术，如多路径负载分担、多协议标签交换（MPLS）等；也有基于底层光网络的方案，如利用SDH的APS功能，利用WDM的波长保护功能等；更有一些新的技术，如多协议波长交换（MPLmS）等可以促进IP与光网的融合。据Cisco的Chris Metz预言这些技术的结合将使IP网络达到电信网所要求的99.999%可用性成为可能。

2 保护与恢复

　　保护与恢复都是针对网络故障时，将故障连接/设备上的业务流导向备用连接/设备，从而保证业务连续性的技术，二者的主要区别在于对备用路径的选择方式上。保护是在建立连接或规划设计网络时，也就是在网络故障发生之前，预留专门用于保护的网络资源，因而这种方式对网络资源的利用率低，但可以保证100%的业务恢复和较快的业务恢复速度，例如SDH的自动保护切换（APS）和自愈环（SHR）均属此类方式。而恢复是当网络发生故障时，在网络中动态地寻找具有空闲容量的网络资源，不需要预留资源，但有可能出现当故障发生时无空闲资源可用的情形，从而导致无法保证100%的业务恢复，并且所需的恢复时间较长，如IP动态路由过程。

　　对网络中的节点（节点中的设备）、两个直接相邻节点间的链路或端到端路径均可实施保护或恢复，来保证全网的可生存性。对关键的节点设备主要采用冗余配置（如1:1或1:Ｎ）保护切换方案。对于链路或路径的保护可以采用保护或恢复的方式，方案的选择主要依据所需保证的业务恢复程度、恢复速度与备用资源可用性及代价进行折衷判决。

　　IP网络中备用路径选择的优劣和快慢与路由器拓扑数据的精确程度、网络的规模和拓扑形式直接相关。实际上，路径选择收敛过程是某种形式的“信令”（因为拓扑信息必须在网中传递），会延长恢复过程。因此在链路和路径层上，就业务的快速恢复而言，理想的做法当然是采用保护方案，预先建立备用路径，以便检测到主用路径上故障后可以立即倒换至备用路径上。但这是以网络资源利用率的降低为代价的。因而对于IP网络、以及IP-over-SDH或IP-over-WDM等引入光网络传送能力的网络而言，需针对核心网与边缘网，基本业务与增值业务等的不同特点与需要，确定不同的方案来保证网络的生存性。

3 IP层保护与恢复方案

3.1 IP动态路由——传统的IP恢复方案

　　采用IP的动态路由协议可以动态地发现可连接的处于工作状态的路由器，使得IP路由可以对网络的故障自适应。动态路由是通过在相邻的路由器之间交换控制信息来实现的，这里所说的控制信息是指刷新路由器的路由表所需的信息。这种路由方式可以保证在链路或节点故障时对IP分组重新选路。该协议保证网络具有与物理层无关的可生存性。

　　故障检测一般有两种实现方式，一种是由本地路由器检测到故障后，利用路由控制消息协议(如ICMP，Internet Control Message Protocol）通知邻近的路由器。另一种故障检测方式是利用某些背景消息（如Keepalive和Hello）的计时器的超时来通告故障的出现。路由器得知故障出现后，重新计算受影响的路由，刷新它的路由表，利用OSPF或BGP-4协议的UPDATE消息向邻近路由器通告发生的变化，最终各路由器收敛到统一的路由之上。

　　动态路由协议可以有效地利用网络的空闲资源，灵活地对拓扑变化做出反应。但是所需的恢复时间长，一般为几十秒至几分钟，行为不可预测。

3.2 改进的IP恢复方案

　　1. ECMF

　　为了缩短恢复时间，多路径的拓扑设计引入到某些应用之中。冗余路径的设计为故障出现时重选其他路由提供可能，但是需要更大的设备投资。为了提高设备利用率，也可以采用在主备用路径之间分担负荷的方式，即所谓的“等代价多路径转发”（ECMF）。OSPF、IS-IS等路由协议支持ECMF，不过采用ECMF意味着每个路由器都需要在转发表中为同一目标地址保存多个下一跳表项。

　　对于路径的选择有两种方法供使用，即基于分组的循环方式和基于流的方式。前一种方式是在分组的基础上轮流使用每条路径，同一个流的分组从不同路径传送所经历的时延不同。致使接收方增加了重新排序的负担，并且吞吐量也会下降。后一种方法根据分组头中的源、目的地址计算散列（Hash）找到一个特定的通往目的地的下一跳。每一特定流中的全部分组都经由同一路径，从而使网络具有更好的稳定性。

　　ECMF方法不仅对于负荷均衡有利，而且一定程度上有利于业务保护与恢复。当一条路径上出现节点/链路故障时，至少还有一部分数据包可沿其他路径继续传送至目的地。这些保持正常状态的工作路径可以继续使用，直到IP路由收敛过程完成，路由器中生成新的路由表。

　　2. 分级网络组织结构

　　为了缩短路由收敛时间，OSPF、IS-IS等分级链路状态路由协议将网络分成多个区域网络结构，将路径计算和路由更新信息扩散的范围限制在受影响的区域内，使网络具有较好的可扩展性。

　　3. 减少隐式故障检测时间

　　在链路状态路由协议中减小“Hello”消息计时器的时限，可更加频繁地发送Hello消息，从而更加迅速地发现故障。其代价是控制消息的开销增大。

　　与缩短Hello消息的超时相类似的另一种方案是采用通过ICMP ECHO请求消息所实现的快速速率探测（Pinging），其代价也是增加控制消息负荷。

3.3 MPLS保护交换

　　这种保护方式可以克服动态路由的时延长的缺陷。通过在分组头上追加一个标签栈，可以建立一系列标签交换路径（LSP），利用 LSP 作为保护路径，可以实现业务的保护或恢复。

　　保护路径的选择方式主要包括静态的预先建立和动态的故障后搜索两种。预先建立方式因保护路径是在故障出现之前预先建立好的，因而故障发生后的业务恢复速度很快，这种方式也称为快速再选路（Rerouting）方式。预先建立的保护路径应与工作路径上的节点和链路分离，保护路径上的网络资源可以预留，也可在工作路径正常时动态地分配给低优先权业务使用。工作路径一旦发生故障，让位给原来由工作路径承载的业务。动态搜索方式则是上游LSR（标签交换路由器）在得到故障通知后，再利用QoS路由协议和信令协议选择保护路径和预留资源，这种方式的故障恢复速度相对前一方式较慢，但上游LSR可以计算出一条优化的路径，对于网络资源的利用和业务量均衡更具优势，因此也称优化再选路方式。快速再选路虽能保证无间断的业务恢复，但却难以保证所选的保护路径是最优路径。所用信令可以是针对MPLS扩展的资源预留协议（RSVP-MPLS）也可以是标签分配协议（LDP）或基于约束的LDP（CR-LDP）。为保证快速再选路的成功，可定期重新计算保护路径，以便可能达到最优。

　　MPLS的再选路层次分为链路级和路径级。链路级再选路是在故障链路两端的两个LSR之间寻找一条保护路径；路径级再选路是在入口LSR与出口LSR之间寻找一条保护路径，也称为边到边再选路，该路径与故障路径完全无关。

　　这两种方式也各有特点，链路级再选路的优点是简单、快速，但对节点故障、多链路故障的处理较困难，而路径再选路则相对复杂，但对节点故障、多链路故障的处理，能力较前者更强。在两个层次上保护路径选择的两种方法均可使用。

　　若希望保证快速故障恢复的可靠性，可沿预先建立的保护路径预留资源，这对于网络资源的利用率当然会有影响，但若不预留资源则不能保证在将业务流再选路至保护路径时提供所需的QoS。

　　目前MPLS保护和恢复方案尚未成熟，但却是一种极有潜力的技术。它的故障检测可以利用多种现有技术实现，如基于SDH的告警、光层的检测技术或基于IP的KEEPALIVE、HELLO和ECHO等消息，均可保证几十毫秒至几百秒的检测时间。利用CR-LDP或RSVP-MPLS等信令协议，MPLS可以实现几十毫秒至几百秒的业务恢复速度。这一技术已得到生产商的广泛接受。

4 基于光网络的保护与恢复

　　对于带宽的无止境的追求促使很多业务提供商将光网络传送能力引入IP网络。IP-over-SDH，IP-over-WDM等传送方案应运而生。在这类网络中既可以在IP层提供保护/恢复，又可在SDH层或WDM层实现保护或恢复，更可以将二者结合运用。

4.1 SDH保护

　　传统光网络是采用SDH技术组建的，SDH是基于光纤链路的一种电传送技术。SDH光传送网灵活的复用能力，可以方便地将低速电路(如2Mbit/s,134Mbit/s)复用到高速光链路(155Mbit/s～10Gbit/s)，并且这种基于时分复用的传输技术对上层业务具有透明性，适用于包括IP、ATM和语音在内的各种业务的传送。

　　SDH网络提供强有力的保护和恢复能力。例如，自愈环（SHR）的配置方式使一个SDH环网中任何两个网络元素之间都具有两条路经。这种方式比较适合环形网络拓扑。利用自动保护倒换机制（APS）网络，可以在检测到一条路径故障之后自动将业务流倒换到另一条路径上。APS具体实现可以采用1+1，1:1，或1:Ｎ保护方式。其中1+1保护是指对于被保护业务用源与目的地之间的两条物理光纤来同时传送，一条工作光纤和一条保护光纤。其中任意一条0被切断，由另一条光纤承载数据。这种方式的业务恢复时间最快（低于50ms），保护最强。1:1保护是为一条工作光纤设置一条保护光纤。但正常时保护光纤传送的不是被保护的业务流，而是低优先级的数据。一旦工作光纤被切断，由分插复用器（ADM）控制切换到保护路径上，若其带宽不足以同时承载被保护业务流和低优先级业务流，则后者让位于前者。这种方式可以进一步扩展为对Ｎ条工作光纤设置一条保护光纤的1:Ｎ保护方式。相对于1+1保护，1:1和1:Ｎ保护方式的业务恢复时间较长，但对网络带宽资源的利用更加充分。

　　此外，利用智能数据交叉连接设备及相应的控制机制，也可以在SDH网中实现动态恢复，但恢复时间和实现复杂度都远远超过预先规划的保护方案。SDH网络这种强大的保护能力可以广泛用于保护所有在这一网络上传送的业务流。对于IP这种保护是透明的，可以提供链路保护和快速恢复。Cisco已将APS能力引入一些路由器作为对端口、路由器或路由器与分插复用器之间链路故障的保护手段。对于利用现有SDH承载各种业务量（包括IP）的多业务网络，APS可能是一种最佳方案。

4.2 WDM保护

　　WDM是另一种光网络技术，它可以大幅度地提高现有光缆的带宽和容量。例如，现在已有支持单光纤1.6Tbit/s传送能力的DWDM产品问世（在光纤上支持160个波长，每个波长作为一个速率10Gbit/s的信道）。WDM也是完全透明的，SDH分插复用器（ADM）、ATM交换机和IP路由器等均可接入WDM复用器。DWDM层的OCh（光通道）段和OMS（光复用）段都具有动态恢复和预先保护的业务恢复方案，其主要差别在于这两个子层的操作具有不同的颗粒度。前者可以保护具体的光通路（Lightpath），允许对光线路终端（OLT）进行选择性的恢复。后者工作在汇聚的信号层，同时恢复一条故障线路中所有的光通路。点到点的WDM网络中的WDM APS保护方案与SDH APS相类似，也可以分为1+1，1:1和1:Ｎ几种方式。在1+1保护中，WDM复用器对一个工作波长分配一个保护波长。WDM源复用器在这两个波长上发送数据、WDM信宿复用器选择工作波长（或质量较好的波长）并向信宿IP路由器转发数据。若工作波长消失或质量较差，则复用器自动倒换至保护波长上。在环形WDM网络中也有类似SDH SHR的体系结构。由于WDM在同一光纤内提供多个波长，因此与SDH保护不同的是，WDM保护更灵活，有更多的保护颗粒度可供选择，但复杂度也相应增加。另外，在故障恢复过程中的一个先决条件是故障监测和定位，目前光域中还没有成熟的类似SDH的故障检测技术。有人提出利用收/发功率和串话（Cross-talk）等指标监视信道连通性和质量；并采用光监视信道来实现故障检测。在这些方案成熟之前可以采用电域监视的做法，利用SDH开销中的监视字节来实现。WDM业务恢复速度可达几十毫秒的量级——达到了SDH APS的水平，并且可以选择提供基于波长的WDM保护。

5 IP 与光网络的融合

　　要满足Internet不断发展的带宽需求，光网络技术是唯一的选择。目前，IP over SDH和IP over DWDM已在很多网络中得到应用。但是IP层与光层之间的不一致性仍是二者在功能上融合的障碍。

　　IP是动态的、自适应的和自愈的。SDH和DWDM虽然具有极好的链路保护恢复能力，但却是静态的、预先规划的，并且在全网范围内进行规划也耗时较长。此外，它们的保护方案要求分配冗余的网络容量并且不能随网络增长而扩展。这一点阻碍光层对IP网络拓扑、业务量规模和业务模式的迅速变化进行有效和快速的反应。换句话说，光层对高优先级业务量较大突发的反应能力会受到网络工程师重新规划网络所用时间的限制，可能会是几分钟、几小时甚至几天。

　　近来在业界的一些进展使光层与IP层融合的成本下降，具有可升级性并且实施简单。

　　1. 基于SDH的网络组件：这种组件采用了数据分组处理技术（如ATM、Ethernet、IP等），将多种SDH 网元（如ADM和DXC数字交叉互连设备）的功能集成到一个器件中。该器件可以处理传统的TDM电路并能为IP和ATM主机、交换机和路由器提供与SDH网络的直连。这样一来，对IP数据业务量采用APS 1+1和1:1保护与恢复变得更合算。

　　2. 点到点长跨距光1+1保护：网络层的大容量高性能太比特路由器与链路层长跨距光传输技术结合，使电中继传输距离延长到数千公里，从而可以消除骨干网中的电再生器，减少1+1保护的线路成本，不受不可预测业务量的影响，具有很快的业务恢复速度和较低的节点成本。

　　3. 光交叉互连（OXC）设备：作为光传送网（OTN）的核心设备，OXC可以提供基于波长的连接，实现波长、波长组和光纤等不同等级的保护和恢复。能够实现动态波长路由功能的OXC常被称为波长路由器（WR）。WR网络可以作为光核心网，而以吉比特和太比特IP路由器、ATM交换机、SDH分插复用器等形成边缘网络。光核心网可采用网状拓扑进行配置，这种拓扑相对于环网形式更具可扩展性，因其可以在任何源、宿边缘器件之间提供和使用多条路径。

　　WR不是由网络管理工作站来控制和规划的，而是运行链路状态路由协议来通告每个波长的可用性、代价和其他有关测度。WR可以利用SDH开销字节或带外信道来交换这种信息，并将其存入一个拓扑数据库。这样，WR可以通过为重要业务预先计算工作和保护波长提供类似1+1保护业务。采用分布路径计算，基于WR的网络可以提供各种颗粒度的快速恢复，其恢复时间从毫秒级到秒级。

　　国内外的电信设备供应商和IP设备供应商都在加紧研制开发系列化的光交换/光路由产品。Monterey Networks 公司的Monterey 20 000波长路由器可从初始的256×256波长端口扩展到160Tbit/s以上无阻塞波长端口，光波长承载2.5Gbit/s和10Gbit/s信号。Cisco公司的ONS 15 900波长路由器基本结构和Monterey 20 000的结构相类似，其中心交换子系统支持640Gbit/s的交换速率，每个NEBS机架中支持256个2.5Gbit/s或64个 10Gbit/s速率的波长。美国Lucent公司已采用MEMS光开关实现了256×256的波长路由器。北电网络今年以32.5亿美元收购了美国Xros公司。该公司拥有优秀的光交换技术，其光交换系统可交换1152个波长的业务，并突破了光交换设备1000个端口的门限。它采用了微电子机械系统（MEMS）技术，实现对多波长网络业务的处理。Sycamore Networks、Tenor Networks等公司以及国内的一些高校、研究机构和公司都在致力于WR的研制。

　　4. 多协议波长标签交换（MPLmS）

　　MPLmS是将IP层与光层融合的一个新思路，它将多协议标签交换（MPLS）流量控制平面技术与光交换技术有机结合，支持MPLmS的OXC所交换的不是标签而是波长。MPLmS利用IP选路协议来发现拓扑，利用MPLS信令协议来实现波长通路的自动指配，为实时配置光波长通路提供了基本框架。这种方法提供了一种简单的统一的IP控制平面，用于建立一个集网元、IP路由器和OXC于一体的混合网络，有人称MPLmS是IP层与光层的粘合剂。这一技术简化了IP层与光层的融合及跨层的网络管理，其跨层的流量控制改进了资源利用率，降低了网络运行和业务拓展成本，具有可扩展性。

　　目前MPLmS支持两种基本网络结构，即重迭模型和混合模型。重迭模型在光层和核心光网络边缘分别设置控制平面，前者实现光层特定的控制智能，后者控制边缘设备与核心光网络之间通信。核心光网络分成若干子网，子网间通过NNI互连，核心光网络为边缘的客户（IP路由器、ATM交换机和SDH ADM）提供波长业务。动态波长指配功能可以自动适应业务流量的变化，也可以在网络故障时提供业务恢复。这种模型结构简单，允许光层和客户层（如IP层）独立演进，也允许光层内每个子网独立演进，易于在原有网络环境中逐步布署实施，并可在近期实现多厂家设备间的互操作。但网络可扩展性受到边缘设备全连接拓扑形式及其所导致的路由控制业务量过大的限制。

　　混合模型采用单个控制平面，由IP层实现光层的控制智能，实施端到端控制。边缘设备参与路由控制过程，通常由路由器控制光层，利用端到端光路提供动态配置。边缘设备全连接问题仅在数据转发时存在，而不会影响路由过程，网络具有可扩展性。但是由于光层与IP层间需要大量信息交互，致使光层的互操作问题难以在短期内解决。

　　MPLmS环境的保护恢复方案细节还有待研究，此外还有IP层与光层间的接口、交换的信息、流量工程、动态指配、选路和信令协议、光通路端点的全球寻址方案等问题也尚无定论。

　　IETF MPLS工作组已将其工作目标改为MPLS与OXC的整合。而另一个业界组织——光互联论坛，正在研究IP与光网络环境融合的有关问题，如IP路由器如何与OXC通信，以便交换MPLS/

MPLmS路径建立信息。

6 结束语

　　在实现IP网络的保护与恢复方面，众多的新技术已经涌现出来，其中有些技术虽然尚未成熟但却有着巨大的应用潜力。波长选路、MPLS及MPLmS等技术的成熟，将为IP与光网络的融合、IP网络的业务保护与快速恢复提供强有力的支持。多种方案结合运用可能是满足不同应用需求的可行途径。

　　侯立民，男，1988年毕业于北方交通大学电子工程系计算机应用专业，获工学学士学位，1992年赴比利时学习计算机网络和管理信息系统，现为北方交通大学计算机及信息技术学院工程师。曾从事过大型计算机、校园网络的管理和计算机基础教学等工作。感兴趣的研究领域为计算机辅助教学和计算机网络技术。

摘自《中国数据通信》