虽然广域网的性能监测工具已经有接近10 年的应用,但在美国也只有少于四分之一的广域网链路被监测——用企业自己的设备进行监测或者由企业的网络服务提供者进行监测。在美国之外,这个比率可能更低。
对网络链路进行监测的所有好处能够在价值上超过对链路的部署和监控吗?监测您的广域网链路的主要好处是什么?监测广域网链路您需要监测什么呢?
本技术白皮书将帮助您考虑线路监测的价值,帮助您考虑宕机的费用,理解服务响应慢和应用性能差的原因,帮助您更有效地管理您的网络带宽。
什么时候监测广域网链路是有意义的?
为什么某些广域网链路需要监测而某些链路却不需要监测呢?在某些案例中,监测链路的花费并没有带来充分的益处来证明监测是值得的。某些广域网技术——例如帧中继、PPP 和ATM——是成熟的技术,网络经理“让其无监测地运行”。这些没有被监测的链路,性能和可用性保证或多或少地转移到服务提供者,而客户对链路性能的能见度却非常的少。一些网络经理感到大多数没有被监测的链路出现问题和失效的情况不多,通常在充分数量的时间内还是保持不监测,因为部署“昂贵的”监测方案并不能证明增加收益。第2 个原因是一些网络管理员茫然不知监测广域网链路的益处何在。网络经理知道市场上有很多工具可以给出有关他们的广域网性能的数据,但是关于这些数据如何帮助自己的工作,网络经理还是不确定。从另一个方面说,是简单的成本效益(分析的)因素。有些案例,部署监测需要的时间和费用,并没有带来足够的收益和好处。有些案例,监测带来的好处并不足以证明部署监测方案的花销是值得的。
“关键使命”链路
对一条给定的广域网链路,根据应用类型和用户利用率不同,主动监测的必要性和程度也不同。如果一条广域网链路用来提供一般的企业网用户接入Internet,进行页面浏览网际冲浪,对链路性能小心翼翼地监测可能不值得花费。通信量来自一个分部的签约用户,需要访问用户记录来完成一次POS交易是关键使命的事物处理,需要进行连续的监测,确保事物处理的完美无缺。本质上说,认为对交易有明显影响的“关键使命” 广域网链路,需要被监测。
关键使命广域网链路通常分为以下几种类别:
那些绝对需要保持客户满意的链路。这些链路通常携带用户需要实时处理的数据。例如POS 交易用户记录接入、信用卡处理事务、客户呼叫中心的IP 电话呼叫和其他的关键使命的客户服务应用。
那些支持个人重要实时应用的链路。这些链路通常是指支持终端用户以及关键使命的内部操作。例如电子商务应用、Web 共享件应用、实时库存量数据接入、视频会议、电子邮件和其他实时性的操作应用。
那些支持紧急商务工具的链路。这些链路支持关键的后台办公室应用,特别的是在数据中心。例如数据交换工具、远程镜像站点数据备份交换、远程服务器软件更新和其他后台办公室应用。
计算链路监测的价值
监测一条广域网链路的价值取决于其所承载业务的关键性、现有的网络效率以及公司的组织结构。一种评价价值的方法就是应用一个简单的数学公式来评估监测链路所用的成本。通过这种方法,您简单地计算后再进行合计,所有的价值成本来源于所选的被监测链路。把这个值与部署监测方案的成本进行比较,从而决定是否值得监测。
通过表格1 的公式可以利用一个非常主观的方法计算出一个数字化的收益价值。为了说明这一点,让我们举个例子。假定有一条给定的链路现在通过一个广域网探针进行监测,依据过去的经验,网络经理观察到相对一条完全相同但没有被监测的链路来说,被实时监测的链路每年可以减少2 小时的MTTR。单独针对这个成本值,假设关键使命任务链路的价值是 $100/分钟,改善MTTR 的价值是 $12,000/每年($100/分钟×120 分钟MTTR 改进/每年)。监测该链路的好处还可以带来其他的收益,例如节约故障查找的劳动时间和改进网络效率。显而易见,MTTR 改善带来收益的大小,与每条失效链路在其公司的价值息息相关。但是,基本价值单元和计算公式都是一样的。
计算总体宕机开销
评估部署链路监测方案的价值,取决于网络工程师是否仅仅需要简单的头痛医头、脚痛医脚的链路监测方案。决定监测一个分布式广域网监测系统的整个价值需要一个不同的方法,简单地把所有被监测链路的价值合计起来是不合适的。评估分布式广域网系统,您也许想从跟宕机有关的最高级花费开始。福禄克网络评估了一个典型的年收入1 亿美金的企业,宕机所带来的开销是十分重要的。(见图2)
注意宕机的每个来源,广域网链路可能是一个主要的来源。不同公司宕机的来源显著地不同,因此在决定是否部署一个分布式的广域网监测方案对您是否合适之前,应该做一个关于您的企业的单独分析。在对典型的企业进行分析的基础上,不管用什么方法,广域网都可能是宕机花费的显著来源。
在您的广域网链路里,您应该监测什么?
让我们假定至少少数广域网链路被确定是关键使命链路而且是值得监测的。下一个逻辑问题就是,最需要监测的是什么?很多的厂家都热心地把“网络可视方案”卖给IT 组织,网络经理很少抱怨缺少能提供网络性能数据的工具。终端用户通过这些厂家提供的工具,收到了大量的有关自己网络运行状况的数据。但是,大部分网管人员承认当网络故障发生或者用户抱怨网络应用性能差的时候,这些海量的数据并没有能够表现出很好的应用。
网络工程师很快指出大部分的网络分析工具缺少清晰的、方便的、快速的、精确的网络消息,来帮助解决和隔离他们遇到的各种问题。不同的厂家通常有不同的解决方案,通常擅长解决不同的“典型问题”。大多数情况下,为了能够百分之百的监测网络行为,需要多个厂家的解决方案配合,但是,网络工程师没有时间或者预算来购买、学习、维护不同厂家的解决方案。
因此,对企业网络专家来说,监测最重要的本质是什么?福禄克网络最近对网络工程师和管理员进行了一个有关他们对广域网链路的关心点和问题点的调查。这次国际性的调查显示了大多数的终端用户不仅有非常相似的广域网链路关心点,而且在不同的调查地区,用户的基本关心点都是一致的。
调查结果并不让人感到吃惊,网络工程师需要基本的链路能见度,需要具有前瞻性地管理广域网链路的带宽性能,同时需要解决广域网链路造成的服务响应过慢,了解服务中断的原因。因此,当管理广域网链路的时候,监测相关的广域网链路以获得最好的带宽管理和定位服务中断源是最值得关注的事情。
最初的时候,大家都比较关心带宽管理和基本可视性等,不同的人可能面对不同的事情。为了更好的明确和理解这些概念,福禄克网络选择了与被调查者进行面谈。奇怪的是,面谈结果表明客户的关心点是非常一致的,对最关心的6 个问题(见图3)有相同的理解。
带宽管理
带宽管理是指确保带宽是可用的,不论是对客户、服务器、应用还是其他网络设备,也无论企业网管经理是如何定义的。对少数用户来说,带宽管理意味着通过流量整形、警管或者带宽压缩来减少网络拥塞。对其他一些用户,带宽管理意味着区分流量优先级别类型,比如IP 电话,从而确保话音呼叫能够穿过数据网络的同时确保其话音质量。对大多数调查者来说,带宽管理仅仅意味着监测用户和电路的带宽消耗,从而让网络经理有适当的、实时的信息来采取行动,确保广域网链路的吞吐量并远离故障。举例来说,网络经理需要能够识别带宽瓶颈原因的信息,从而采取纠正的行为。大多数时间,这些行为并不包括设置或者改变服务水平政策、购买更多的带宽或者采用压缩技术。典型的矫正行为包括简单的网络“tweaks”(调整),例如对于一个没有授权的应用例如KAZAA(一个点对点文件共享工具)关闭一个通道、端口,或者改变到远端工作站、服务器做软件更新的固定时间。其他带宽管理的主要需求是在一个有限的带宽环境里,当新的应用部署、新的服务部署移动、增加和不断改变时,连续地观察网络的运行状况,保证网络高效地运行。
网络经理指出对关键链路进行监测统计是监测方案的一个关键。统计链路利用率、吞吐量速率、每一个分离虚电路的错误、在不同时间的规律对于性能验证都是非常有用的。(见图4)监测链路利用率是确定广域网是否成为一个瓶颈的一个快速途径。如果利用率太高,那么需要对广域网做一个更深入检查来定位根本原因。如果利用率在设计的范围内,就有了广域网运行适当的根据。
了解广域网链路的应用对带宽管理也是非常重要的。能够显现真正的带宽需求、瓶颈来源、发觉未经授权的应用。这种分析对确定流量是非常重要的。(见图5)
服务和应用性能缓慢
服务或者应用性能缓慢可能是由一系列不同的原因造成的,包括应用本身、用户服务器主机、应用服务器主机和路由器、交换机等网络要素。网络经理需要基本的可视性来查看各种主要的性能抑制来源,从而执行矫正问题的有效方法。主要的网络和服务器瓶颈测量标准包括:
连接时间-在客户和服务器之间,开始传送数据之前,建立一个TCP 会话连接的全部时间
服务器延迟-服务器开始响应一个请求的所花的全部时间
数据传输延迟-服务器对一个请求从开始响应到数据传输完成的全部时间
重传延迟-因为重传的原因,网络往返时间(RTT)所增加的延迟
网络往返时间RTT-一个数据包穿过网络所花的全部时间
这些统计标准的可见性能够区分速度减慢的来源,是有效执行纠错方案的基础。在没有性能监测手段的时候,网络管理经理很可能推断带宽不足是问题根源。企业于是尝试补救,要么购买一条更多带宽的链路,要么购买一条更高CIR(用户约定速率)的PVC(永久虚连接)。在许多的情况下,这是金钱的浪费,因为服务减慢的原因可能在网络的其他地方。(见图6)
基本可视性
基本的链路可视性允许您快速地着眼于一条特定电路,确认该链路的性能。网络经理需要对此有概要性的了解,做为消除广域网链路问题的资料来源或者帮助将来定位问题的区域。通过对首页的图表信息的快速查看,能够对广域网链路的特征有一个快速的、实时的理解,知道链路正在做什么。(见图7 和8)广域网电路监测的关键图表信息包括:
电路连接-认证电路类型(如FR、PPP、ATM 等),虚电路的数目和它们两端的路由器
利用率-快速测定当前是否存在带宽瓶颈。包括对整个电路利用率的查看,也包括对消耗带宽最多的
主机、应用、虚电路的查看。
设备-使用该电路的所有设备的显示,包括路由器、服务器、主机、探针
问题-通过流量探针的监测,生成的告警日志
图7:快速查看所有关键广域网性能区域
正常运行时间/服务中断
问题告警是任何监测系统的一个基础部分。前瞻性监测能够发送基于标准的失败事件、用户定义的极限违背事件的告警。但不会产生纠正的动作,直到网络经理意识到这个问题(见图9)。
服务提供监测
不管安装人员、技术人员和工程师如何努力,在提供服务的时候总有错误发生。因此,要谨慎地验证实际交付的链路吞吐量是您期望的。SLA 确保您基本的QOS(服务水平质量)通过广域网是可用的。监测对验证SLA 一致性是必须的。当广域网瞬间的拥塞导致流量下降的时候,您的链路吞吐量会受到影响。在时间上了解和验证链路PVC 吞吐量特征,对识别问题是由于暂时的过载、系统错误、还是由于简单的错误配置引起的非常重要。(见图10)
物理层问题
与谨慎地验证服务提供者的供给能力一样,对物理层问题的监测也是非常重要的。对物理层性能的反复核对能够消除在企业网和服务提供者之间的“相互推诿”,而且有助于快速隔离和消除与广域网相关的物理层问题。当物理层问题出现在一条关键使命链路上的时候,MTTR 对用户的影响极为重大。(见图11)
结论
监测关键使命广域网链路证明了针对任何企业监测都会带来成本收益,虽然成本效益价值必须根据不同公司的不同规则进行评估。为了达到广域网链路的效率最大化,关键使命链路的最大无故障运行时间,必须执行对广域网链路的实时、积极地监测。网络经理在做出纠正动作之前,必须通过监测广域网链路关键性能的规律,彻底地了解链路的使用情况。监测能力的缺乏将会导致广域网链路不能很好地优化、运行和维护。