当网络客户端宕机时,技术人员的工作就是让它恢复正常工作。在当今的商业环境中,他们的首要任务就是让网络经济、高效地工作。在任何网络环境中,为技术人员提供适当培训、恰当的工具以及可靠的方法,可以帮助他们更快地排除网络故障,节省时间,同时还能使网络用户尽快恢复高效工作。
排除故障的心态及方法
技术人员要成功地排除故障,关键是要了解正常的网络运行情况。这样,技术人员就能迅速地查找到异常情况,而其他
方法则无异于盲目猜想。
遗憾的是,许多网络产品都没有提供充足的性能说明、操作原理或精炼的技术数据来指导进行故障诊断。成功的技术人员应全面调研所有的可用数据,同时深入了解所有组件的功能及其操作方法。最后,他(她)会意识到某些严重故障的根源往往在于使用和配置方法不当或误操作。
这种洞察力来自正规培训,并且随着实践经验的不断丰富而变得更加敏锐。真正精于故障诊断的技术人员善于在实践中学习,通过反复试验、与别人交流意见,发现课本中没有却很实用的方法。下面的信息能够让您少走弯路,并且针对查找和解决网络问题的方法提出了一些中肯意见。
成功的故障诊断人员应迅速掌握以下基本概念:简单评测故障症状,这样可以避免将大量时间耗费在追查错误问题上。必须将所有的信息和报告的故障症状结合起来考虑,同时还要考虑到它们与整个网络运行之间的关系;只有这样,技术人员才能真正了解故障症状的含义。收集到有关故障症状数据之后,就要进行检测来验证或排除一些问题。
成功排除故障的五个步骤
在解决和处理网络问题的过程中,成功的技术人员会采取一致的方法:
1、 对网络进行文档备案
实时了解最新的文档(如物理和逻辑图、性能基准及审计、设备库存、配置、主机地址表等),这样就会大大节省故障排除过程的“查找”过程时间,从而轻松找到PC机在整个网络中的位置。
2、 收集所有可用信息,分析故障症状
考虑一下自己是否理解这些故障症状。用户能否演示出现的故障,或者您能否重现这个故障?确定在出现故障之前,工作站或网络是否有某些变动。
3、 查找并分析问题
缩小问题的范围。问题与某网段相关,还是与某个客户端有关?对于某个客户端,我们可以进一步将它细划到网络、物理布线或工作站的范围内。您会发现,收集信息和查找问题往往是同时进行的。
4、 纠正故障和确认故障的解决方案
找到问题之后,就可以轻松确定和纠正具体故障。对于网络硬件,最简单有效的方法就是更换部件,如更换损坏的跳线、集线器/交换机端口或客户端网卡(NIC)。当用户检测故障(采用首次解决该问题的做法)时,就要完成此步操作,确保已修复故障。
5、 对所采取的措施进行文档备案
回到第一步。记录故障及其解决方案(正如许多故障单应用程序所提供的一样)可以构建企业内部知识库,供以后发生类似故障时参考。该信息可以迅速排除今后的故障。
这步操作真的必要吗?
尽管操作系统软件的可靠性不断提高,但是“重启计算机”仍然是专业技术服务人员的“绝技”。重新冷启动可以解决很多无法解释的问题,因而确实是不可替代的一步。该操作的好处就是使技术人员不用离开座位就能解决问题。
除了让用户重启机器之外,可以在前往工作站之前,给用户打电话了解更多信息。
大多数用户都可以打开命令提示符,并向技术人员汇报IPCONFIG命令的执行结果。这样,就可以告诉技术人员PC机在所连接的子网中的地址是否正确。
如果PC机配置为动态主机控制协议(DHCP),却返回了Windows默认的IP地址(169.254.x.x))))),那么表示客户端没有与DHCP服务器正确连接。
笔记本电脑可以正确寻址所连接的网络,但是有时在离开网络后,它仍然会保留另一子网的DHCP租约。让用户在命令提示符下键入两条命令,提出新请求:
C:\ >ipconfig /release
C:\ >ipconfig /renew
收到新IP 地址之后,让用户尝试使用网络。如果IPCONFIG 命令报告无法执行DHCP,那么用户可能正在使用静态IP配置。根据网络文档,验证所报告的IP 地址。
如果用户报告了有效的IP 地址,则尝试从您的机器上对该地址进行PING 操作。如果用户的PC 机有响应,则请用户尝试其他的联网操作,如打开网页或PING 本地路由器,确认基本连通性。如果这些检测都无法解决问题,那么就应该到用户的现场解决。
现场检验客户端的问题
到达可能出现故障的工作站后,应仔细收集各种信息。询问用户有关任何可能影响网络性能的行为或活动。由于用户可能没有注意到许多工作站或工作区相关的常规操作会影响网络性能,或者他们明知自己的操作不当却不愿承认,因此,有时这种做法意义不大。向用户详细询问您所怀疑的问题,注意一定要询问最近所有的变动,甚至包括办公家具的移动或新屏幕保护程序的安装情况。
重复您在电话里要求用户执行的检测。如果能够成功地PING 到网络服务器或离线设备,那么就表示该工作站与网络的连接达到了第三层,此时即可确定“没必要”进行所有低层级检测,而技术人员也可将工作重点放在其他方面。如果无法验证第三层连接,那么必须从第一层开始检测。
如果故障症状是挂线或间断性连接,那么连续执行的PING 命令会向目标设备不断发送回复请求数据包。每条成功执行的PING 命令的响应时间或无响应时间将被显示出来。
C:\ > ping -t x.x.x.x
可以使用连接到目标设备的跟踪路径(TRACERT 或PATHPING)进一步调查超时响应或未执行的PING 命令。路径跟踪能够告知网络中发生延迟或丢失数据包的位置,第一层的故障排除就应该从这个位置开始。
C:\ > tracert x.x.x.x
或
C:\ > pathping x.x.x.x
需要扩大故障排除范围吗?
如果通过核实用户的故障报告还不能明确问题所在,那就需要进行长时间的详细调查。然而,在进行实地检查之前进行快速检测,仍有可能快速解决这种情况。
既然用户报告表明无法登录到网络,那么技术人员关注的首要问题就是该故障是否与网络或用户的PC 机有关。接下来,就是要确定客户端与网络是否正确连接和正常工作,客户端能否访问网络。确保这些功能可以解决许多问题,同时也为解决更复杂的问题奠定了基础。要及时、高效地解决网络问题,就要求一线技术人员有一种能够快速检验关键网络功能状态的工具,也例如福禄克网络的LinkRunner 链路通。
一线故障排除的“快速检测”:
1、 检测链路
2、 检查整个网段的活动
3、 利用DHCP 作为诊断工具
4、 Ping 本地目标和远程目标
检测链路
许多网络技术人员认为,网卡上的链路灯闪亮即表示存在链接脉冲。虽然人们信赖某些设备,但是许多链路LED 都由主机系统中的软件控制,并且当检测到较高层级的网络活动时,它也会处于“开启”状态。某些网卡也会使活动指示灯闪亮,指示存在网络流量;作为联网证据,这些要比链路LED 更可靠。但是,这些LED 都不能指示传输速度或双工设置情况,这需要另外调查加以证实。
可以通过自动协商过程来确定链路情况,在此过程中,链路双方相互交换有关传输速度和双工性能的信息。交换信息之后,链路双方互比性能,然后以最高的共同速度和双工匹配情况开始进行通讯。如果链路双方中的任何一方配置有误或驱动程序功能异常,那么该过程就无法达成共同设置,而且通讯会时断时续或完全中断。
连接至网络接口后,LinkRunner 首先尝试与另一端能找到的“链路伙伴”建立链接,而这个“链路伙伴”可以是网络连接器(集线器或开关),也可以是某个PC 机的网卡。LinkRunner 遵循IEEE 802.3 标准规定的自动协商过程,它是硬件控制(而非软件控制)的链路指示器。在成功自动协商之后,LinkRunner 的LED 呈浅绿色,同时在LinkRunner 屏幕的左上角显示传输速度和双工设置情况。
检查整个网段的活动
如果在电缆上可以看到网络流量,那么LinkRunner 会在主屏幕的“利用率条形图”上指示流量水平。但需要注意的是,如果连接到某个单独的交换机端口(非共享介质),那么就只能看到广播帧的流量,这种流量在低流量网络上断断续续、很不连贯。
如果您正在检测某个共享的以太网环境,而这个环境仍在使用集线器而不是交换机,那么您的网络很可能是半双工运行方式。半双工以太网受限于尝试同时传输信号的工作站个数,以及所要传输的帧的大小。如果尝试同时传输信号的工作站过多,以太网的性能可能会因冲突而明显下降。如果您所测试的网络是每个工作站均连接在单独的交换机端口上,那么就不用考虑站点超额情况。
虽然发生冲突是半双工以太网运行过程中的正常现象,但是当冲突数量开始随网络流量的增大而增加时,网络流量也会由于必要的重新传输操作而开始大幅度增加。这样,网络的性能就会突然“直线下降”,这是由于帧、冲突和重新传输操作的数量盘旋式上升及其速率的快速增长造成的。由于性能下降,所以用户就会感觉到延迟并会提交故障单。在大多数网络中,以太网的流量水平并不重要,应该查找其他方面的问题。通过提供网段使用情况的统计信息,LinkRunner 能够提供给用户网络性能异常信息的关键线索。
将DHCP 作为诊断工具
如果可以建立链接并且合理使用,那么用户就会按PING 测试所对应的按钮。然后,LinkRunner 将尝试从DHCP 服务器获得IP 地址。通常,DHCP 是一种基于广播的技术。因此,它要求每个子网使用单独的DHCP 服务器(价格昂贵、难以管理)或者使用DHCP 中继代理服务器,当客户端和服务器处于同一物理子网时,这种代理服务器可以在两者之间传递请求和回复。路由器上的这些定向广播辅助程序是那些想在中央位置运行DHCP 服务器的大型企业的一种常用工具。客户端或LinkRunner的自动DHCP 配置失败会导致DHCP 中继系统发生故障。
虽然,必要时LinkRunner 能接受手工或静态IP 配置,但是现在大多数网络都能使用DHCP。获取DHCP 地址的过程体现了本地电缆、本地集线器或交换机端口的耐久性,以及与DHCP 服务器相连的网络基础设施情况。在简单操作中,附近大多数网络基础设施达到第三层。
PING本地目标和远程目标
在网络历史上,PING操作已经成为排除网络故障的一种最常用的方法。在常用的每种Internet可用操作系统中,PING操作是大多数网络技术人员在排除网络故障的过程中首要采取的一个步骤。为何这一简单工具如此有用?
在操作中,PING就像海洋学中使用的声纳(SONAR)一样。PING工具发送一种能从目标设备(能够做出“回应应答”)“反射”回来的信号(通常是ICMP“请求回应”帧),这个“反射”信号告知发送方目标系统是否存在,以及信号到达目标设备和返回所用的时间。
配置DHCP服务器所提供的地址之后,LinkRunner会立刻向DNS(域名服务)服务器和默认的路由器发送PING测试,这两个地址均由DHCP配置过程提供。可以最多为LinkRunner预配置四个额外的目标IP地址,并且将其中一个作为自动进行PING测试的地址。如果某些关键网络服务,如WEB应用程序、用户认证等的PING操作成功,那么就表示客户端的服务本身有效。
PING操作成功表示两台设备间存在着端到端第三层链接。如果需要进一步分析,那么只需将请求的往返总时间作为已知值,就可以进行有帮助的诊断,以便获得更详细的分析数据。但是,ICMP请求是低优先级的网络流量,而且当链路上的某台路由器或目标设备忙碌时,就会放弃这个请求。这就是为什么发送一系列PING请求,给目标设备更多响应机会的原因。
企业网的外部服务器也能成为PING操作的目标设备,用以检验广域网(WAN)从客户端或本地站点至远程站点的连通性。如果安装了防火墙的服务器响应了PING操作,但是没有安装防火墙的服务器却没有响应,那么网络技术人员就应该查找路由器或其他网络边界基础设施是否出现故障。如果某些服务器有响应,而另外一些却没有响应,那么网络技术人员应查找这些特殊网段出现故障的原因。如果对于外部服务器和内部服务器(包括应用程序和服务器),PING操作均有效,但是客户端对PING操作却没有响应(实际上,也就是接受那些服务),那么就表示物理传输以外的其他层级上出现故障。PING成功就意味着其他网络流量也能到达目标服务器,如果仍无法访问那些服务,那么问题可能与服务器或用户的登录帐户有关。
下一步该做什么?
如果最初的“快速检测”无法确定或解决问题,那么下一步活动就应该明确两个方向。
如果检测表明无法建立以太网链接,那么就要仔细检查网络电缆是否存在严重问题。
如果快速检测成功、并显示链路及合理网段流量水平、通过DHCP获得了地址,同时还成功地PING了关键网络服务器,那么可以在其他网络层级的较高技术层面来解决问题,或者由用户帐户管理员或个人电脑技术人员查找工作站配置问题。
电缆检测
首先要检查将工作站或设备连接到网络墙壁接口的跳线。为此,只需将电缆的一端插入LinkRunner的网络接口,同时将另一端插入线序适配器插座中,就可进行快速的电缆连通性及正确性检测。如果跳线正常,那么将它再次插入墙壁或地板接口内,并作为进一步检测的组件。
查找电缆问题的下一步就是检查配线间和本地交换机中的电缆。在布满电缆的配线间中,很难从众多电缆中正确挑选出坏电缆,这种做法也很费时间,但是LinkRunner提供了两项功能,使查找坏电缆的工作变得既简单又迅速。首先,LinkRunner可以向电缆发出音频信号,然后可以利用音频探测器进行追踪。使用标准的音频探测器,可以系统地检查电缆直至听见坏电缆发出的音乐。当不能肯定电缆是否连接在交换机上,或者没有文档指示电缆与哪个配线间或交换机相连时,该方法将非常有用。
找到用户电缆的远端位置之后,即可使用LinkRunner线序适配器或某个可选的LinkRunner电缆编号附件(LinkRunner Cable ID Accessories)断开该链路,并检测全部水平电缆的连接和线对是否正常。
同时,Link Runner会发出音频信号,并尝试让交换机端口链接路每隔三秒钟闪亮一次。利用这个功能,可以方便地查找与电缆连接的端口。找到端口位置之后,就要将该电缆连接到其他未使用的端口上。通常,相邻端口或故障端口会仍然显示链路正常,因此切换到不同的端口可能会解决问题。
如果集线器或交换机端口检测结果正常,那么可能是工作站有问题。可以将LinkRunner直接连接到工作站的网卡上来进行检测。与连接集线器或交换机类似,LinkRunner可以指示网卡的链路状态、传输速度及双工设置情况。如果显示链路正常,请重启PC机或使用PING之类的命令行工具,以触发网络流量并使用LinkRunner进行监控。如果LinkRunner报告无任何流量,那么即使PC机显示正在传输,也需要检查绑定部件和PC机上的其他配置参数。如果LinkRunner同时报告链路和PC机的流量,那么需要进一步诊断PC机的联网配置情况。
高层级诊断
如果工作站建立了网络链接,接下来就要确认工作站的寻址与它所连接的子网相符。确认工作站使用了恰当的协议堆栈并且配置正确。最后,技术人员必须检验所有必需的程序组件和数据库正常。通常,首先要从工作站配置中删除协议或网卡,然后再次重装进行检验。如果所有这些组件的位置和配置都正常,而且工作站仍然显示网络和应用程序连接错误,那么此时就要在区域技术水平之外逐步查找问题。
非凡工具,打造卓越业绩
LinkRunner价格经济、接口简单,它是一种使用广泛的工具,适于部门技术人员手持(或挂在腰带上)使用。只有“众口皆碑”的网络设备才能消除笔记本电脑测试本身所固有的不确定性。
正如网络技术人员所说,假设是“众口皆碑”的客户端设备,那么它所带来的问题要远远多于它能解决的问题,而且当网络支持和台式机客户端分属不同的小组时,不但会导致技术问题,还会导致政治问题或组织问题。当故障单上所指的设备不是台式机,而是网络基础设施组件时,这就是一个比较棘手的技术问题(尽管也有简单的政治因素)。
在这种情况下,即便没有常规设备诊断屏幕,那么通过查找(排除)链路本身的故障,也会迅速找到问题所在。当在部门或小组范围内就可以解决问题,而无需将每个问题逐级上报给IT专业技术人员时,问题会会更快、更有效地预以解决。可以在受过高级故障诊断培训的技术人员和工程师中间小范围地使用高级工具。故障诊断方案的目的是确保充分发挥高级人材和技术资源的优势。
福禄克网络的LinkRunner链路通是一款价格经济的超便携式工具,它可以在网络故障诊断过程的初期阶段助技术人员一臂之力。
LinkRunner是一种适于机构整体部署的简易工具,它能帮助一线技术人员查找基本的连接故障,以及向更高层的技术人员报告故障单之前,解决物理层级出现的问题。
LinkRunner是现场检测基本网络连接情况的理想之选,它可以解决许多网络问题,而且也是解决更复杂问题的必要前提。当技术人员利用LinkRunner进行现场故障检测时,它能确定各种网络运行重要参数,并提供解决ISO 7层堆栈中较高等级所诱发的故障的基本信息。
当网络经理将基础设施继续迁移或升级到“开关到桌面”时,他们体会到全开关基础设施的好处:分割网络流量,避免网络内的以太网错误传播。但是,这种开关基础设施“隐藏”了影响各链路性能的较低层问题,让一线技术人员只能猜测连接的状态。