网络管理中的“一大隐患”
两年前,北京网通的网络管理员还能轻松维护网络,管理全网设备,为北京网通的业务系统提供高效的运行平台。但随着业务的不断增加,网络规模日渐复杂,北京网通的网络管理人员有一天突然发现 “总是忙于救火,顾此失彼,不能及时处理并发的网络故障。”这一现象严重影响了网络环境的稳定,会导致用户终端异常,成为北京网通潜在的一大隐患。
考查一系列行业案例后,北京网通高层意识到了问题所在——传统的手工运维暴露了越来越多的问题,以自动化、流程化代替传统手工运维势不可挡。最终,北京网通选定在电信行业具有卓越声誉的国产网管软件厂商—游龙科技为合作伙伴,着手组建网管系统。经过近一年的调研、沟通和交流,游龙科技针对北京网通的网管系统进行了一系列的规划和设计,并提供了完善健全的SiteView ECC系统管理解决方案。
分布式网管 “全力解忧”
谈到网管系统一期工程,北京网通综合信息中心网监孙淼介绍说,“非常成功。主要包括主体监测和二次开发两个部分。”应用SiteView ECC 的卓越性能监测,北京网通逐步实施了分布式的监测架构,全面、深入监控北京网通网络系统;针对网络管理需求,北京网通与游龙科技共同开发了IT资源管理和故障知识管理两个子系统,寻觅到个性化网管利器。
北京网通目前的网络设备绝大多数是市场上的主流设备如CISCO、华为等大型交换机、路由器,此外还有大量的服务器及数目众多的PC设备。游龙科技高级工程师王华说,“网络环境虽很复杂,不过SiteView ECC足以应对,分布式监测架构能满足集中管理的需求。”
北京网通部署了一个SC设备(一级),三个SE设备(二级),最后就是终端设备,此外还有一个DB与SC相接,如下图所示。其中SC是中心控制平台,通过其可以实现实时监控、报表生成、报警发送等功能;在SE上安装相关的监测器,可以对终端实施相应的监测,并且进行采集数据操作,然后通过Web service发送给DB;DB主要负责收集数据,并进行处理分析,当SC对DB发出一个命令时,就反馈数据给SC,SC根据其判断规则来判断网络系统是否处于正常运行状态。
“倾心护航”业务系统
一期网管系统目前主要监测IP增值业务中最重要的三项,分别是:一、BBN,北京网通的门户网站,用户通过网站进行业务申报、缴费以及其它一些相关业务,是网络管理重点维护对象;二、流媒体,主要有在线视频播放、互联网直播、视频会议等功能,是关键应用系统;三、AIOBS/CBS综合计费管理系统,用户可以采用现金、支票、银行划帐等多种缴费方式缴费,是保障北京网通收益的关键。
对于BBN,主要监测支撑北京宽带网正常运行的Web服务器的CPU、内存、磁盘等的使用情况,并且可以发送数据包检测URL,此外还对一些FTP服务器、DNS等进行监测。这些监测实现了SiteView ECC对网站访问情况的实时跟踪检测,如果不能正常访问会及时以短信、声音、颜色等形式报警,网络工程师能及时明确故障信息,进行快速处理。
对于流媒体服务的监测,主要是通过监测北京网通全网的网络流量来实现。在线视频播放、互联网直播以及视频会议都对带宽提出了比较高的要求,因此网络管理员必须明确网络流量。SiteView ECC通过对一些网络设备的接口流量进行监测控制,并根据要求进行管理,能保证全网处于有效、平稳的运行状态,为用户的业务需求提供了良好的应用平台。
对于计费系统,SiteView ECC主要监测其统计数据的数据库,通过监测数据库文件系统、表空间(Tablespace)使用情况、事物日志空间的使用情况、数据库死锁、数据库进程的监控等一系列性能参数,并通过软件让程序定时执行一些重要的与关键应用相关的SQL语句,如果查询时间超过阀值或查询结果不正确,表明数据库出现问题。如此一来,能保障计费系统的数据信息处于稳定状态,保障了北京网通的网络高效运转。
“精心管理”资产与知识
二次开发出的两个子系统也有着重要的应用。IT资源管理子系统能统计北京网通内所有的网络设备、服务器以及一些相关备件的设备信息,方便网络管理员进行维护管理,此外还提供信息检索功能,通过手工录入设备信息后,网络管理员能轻松查询到提供关键服务的设备信息,并进行实时监控管理。故障知识管理子系统能充当起网管管理员的故障知识库角色,通过其故障知识系统能了解各种故障的处理方法;通过其故障信息检索功能能查询网络设备出现故障的时间及具体故障信息;通过自定义故障知识系统能将遇到的一些新的故障存贮到故障知识系统中,方便日后进行查询应用。
----天极网