作者简介:1998年毕业于大连理工大学,化工机械硕士,擅长网络开发,精通各种网络协议,专心研发SiteVIEw综合网管系统。2000年至今,先后完成联通3次WAP网管项目、海南航空全网网管项目、移动梦网全国网络管理系统等上百个IT运维管理项目。
导语:由于电信行业的特殊性,要求更全面、更稳定、更先进的网络运维系统才能够确保各种应用系统的正常运行。
小李在江西一家电信运营商工作,他每天的工作任务是对电信核心业务的网络运行状态进行监测,在每天的工作中,误报问题是在网络监测过程中最让他头疼的事情。一直以来,对于核心业务的监测,都是通过采用程序脚本的方式进行,管理起来很麻烦。
小程序的大麻烦
根据业务的发展需要,这家电信运营商的IT部门会对业务内容直接撰写程序脚本,这些程序脚本包括对业务系统的监测、判断条件、报警等。它们被集中放在主服务器上,监控网络的运行状态。每新增一项新业务,都需要IT部门写一个新的程序脚本,对新业务的运行状态进行监控。
网络运维工程师在工作中普遍存在一个难题。程序脚本的主要作用是对业务进行监控,比如出现网络负载的状况,程序脚本就在这个时候发挥作用,但是每个程序脚本都是相对独立的,一个主服务器上可能同时运行几千个脚本,缺乏整体管理,而且程序脚本之间会产生冲突,当业务进行更改,程序脚本也要随之更改。
小李最初也尝试了很多不同的方法,试图解决这种问题,但是始终治标不治本,根本无法对复杂错综的程序脚本进行统一管理和维护。电信行业每天都会有新的业务产生,随着业务的不断增加,脚本也随之不断增加,脚本的叠加重合现象使得误报现象越来越严重,给网络管理带来了很大的负担。
2006年年初,随着业务体系建设越来越全面,单位的领导也认识到了这方面的问题,单一的网络系统已经不能满足他们的需要,只有平台化的运维系统,全面统一的进行监管,才能满足对于业务系统和应用系统的运维需求,为业务层的提供支撑。
由于电信行业的特殊性,要求更全面、更稳定、更先进的网络运维系统才能够确保各种应用系统的正常运行。这个概念确定后,小李开始不断地和网管类厂商接触,也接触了很多网络运维管理系统。在众多厂商中,游龙科技项目组专门针对小李的所在单位的业务状况,开发了一套免费的工具,应用于管理那些“麻烦”的程序脚本,作为前期的系统测试。
数据采集“两级化”
随着新业务不断扩充,导致数据量增长过猛,网络中经常出现负载状况,而且数据传输不够稳定。小李解释说:“面对这种情况,我们需要选择集中非代理式监测方式,因为这种方式不需要在被监测对象上安装任何代理软件,对被监测对象的性能影响甚微,系统的维护和升级都十分方便。”
“而且还要克服B/S应用系统的界面操作以及传输性能低的缺点,采用增量传输和局部刷新的技术,最高限度的降低应用程序的网络传输压力,达到我们满意的响应速度,轻松实现对多种操作平台的网络环境进行统一集中管理。”小李还补充说道。这种监测方式对被监测服务器的性能几乎没有任何影响,也可以避免使用代理软件而引起的一系列潜在安全问题。
经过多方面的考虑取舍,部署SiteVIEw ECC之后,小李只需要通过一台监测主机,就可以同时监测到几台到几百台服务器。可全面监测服务器的各种资源,包括CPU、内存、服务进程、文件和磁盘分区等。
对于电信级的网络来说,通过安装全网分布式网管系统,管理人员通过总部或管理中心的虚拟网管系统不仅可以马上了解各省网络的运行状况,而且可以定时接收各省提交的报告统计。系统定期就会通过邮件以图表的形式发布给相关的管理者。
报表内容包括服务器的各种性能指标、网络设备的各种运行指标、故障发生的时间、故障处理的时间和处理方式、网管人员的响应时间、各种性能数据统计分析等。同时,对于警报设置和报表统计,总部和各级网络管理人员都可以自定义设置,得到不同的数据信息。“两级数据同步采集”也是一种新一代的数据采集技术。
监控管理 可靠第一
小李对网络运维的安全性和可靠性也十分重视,在选型的过程中,特意挑选能够拥有双机热备份解决方案的产品,用于实时备份系统数据和配置信息,确保系统长期、稳定、高效运行。他说:“若装有网管软件的机器出现问题,系统出现故障就无法迅速查寻、定位,这将会给我们的正常运营造成很大的影响。”
他利用一台备份监测主机对SiteView ECC监测主机进行实时扫描,一旦发现故障,就可以通过远程操作重启SiteView ECC监测主机,同时启动自身的SiteVIEw ECC备份系统,从而保障企业信息平台7×24高效、稳定地运行。
从年初到现在,通过半年多的测试,系统运行状况良好,而且将程序脚本和零散的系统进行了有效的集中管理和监控。而且通过SiteVIEw ECC方案,仅用了三天就完成了全部部署,提高了对业务网络监测的安全性,减低了管理复杂度。
在对业务进行监测的管理过程中,短信告警、业务实施报警等方式为小李的单位提供了很大的便利,通过这些告警实现手段,小李和他的同事可以在很多地方通过拨号等手段远程控制,及时的解决问题。
小李后来评价说:“SiteVIEw ECC通过分布式的网络架构,可以面向网络中的各种应用,内置拥有100多种监测器。监测对象从网络设备到服务器资源,从数据库性能到企业商务应用,并可根据我们的需求定制专门的监测器。真正实现了对网络基础架构及其应用的全面深度监测,为我们提供了真正业务应用层次的服务水平保证。”