某油田网络故障分析报告
一、网络拓扑图示意图
二、网络存在问题
big400出口在网络高峰期时上网速度慢、严重丢包,但big400直连网段之间用户通信正常。
三、检查信息中心网络的健康状况发现的问题
1、Big400与直连出口设备NetScreen100之间的端口问题
Big400端口port3:15状态:auto off,100M,full;
出口防火墙NS100端口trust状态:auto on,100M,half。
两边状态不一致,是造成大流量丢包的原因之一。
目前已将Big400和Netscreen100之间的端口状态设为100M,全双工。
2、Big400、NS100路由配置问题
Big400作为全网的核心交换,上面存在全网路由信息,包含:
172.16.0.0/24——172.16.31.0/24直连路由
默认缺省路由,下一跳指向NS100。
NS100作为出口设备,包含路由信息:
172.16.0.0/16(汇聚路由),下一跳指向big400
默认缺省路由,下一跳指向internet。
从上面两设备的路由配置,可以发现,当big400下连用户发wins报文(目的IP为172.16.255.255)或进行主机扫描(目的IP为172.16.32.0---172.16.255.255 )时,会造成报文在big400和NS100之间循环转发,直到TTL为0才将报文丢弃!因此,大量的垃圾报文拥塞big400与Netscreen之间的链路,而且NetScreen需要为这些报文做会话连接,加重了NetScreen的负载。
见下图,在Big400出口链路用协议分析仪sniffer捕获的报文:
以上Big400和NG100路由存在的问题,可以在Big400上添加一条汇聚路由172.16.0.0/16指向一个空接口来解决。因为,根据路由最长匹配原则,172.16.0.0/16网段中包含的具体路由如果在Big400上不存在,则会匹配到该汇聚路由,从而将相应报文丢弃,不再往NS100转发。消除了非法报文循环转发的隐患。
四、网络目前存在问题
以上两问题已得到解决。但是在网络高峰期,Big400出口仍有丢包。
怀疑NS100的处理能力有限所致。测试时抛开Big400,NS100直连用户在网络高峰期上网出现严重丢包。此时,重启NS100,网络一切恢复正常。9月14日晚上10:20左右重启NS100后,经过24小时监控,直到9月15日晚上11:00网络运行一切正常。在9月15日晚,网络高峰期(出口流量21Mbps),网络未发现异常。
因此,需要特别关注NS100的处理能力、数据流的处理机制,为彻底解决中原油田信息中心的网络问题找出根源!
五、信息中心网络问题处理建议
1、尽快跟NetScreen厂家联系,查找NetScreen100存在的问题
从测试中发现,每当网络出现故障时,重启NS100,则网络恢复正常。因此值得怀疑NS100作为网络中心的出口防火墙,其会话处理能力、数据转发能力是否足够?NS100上面配置的策略是否合适?针对目前信息中心的网络情况是否有更优的解决方案?这都需要跟NetScreen厂家做深入的探讨。
2、做好网络规划,使得网络具有良好的伸缩性
由于信息中心的网络规模不断的扩大,需要对整网做远景的规划,使得网络具有良好的伸缩性。其中路由规划是重点,网络从原来的平面结构变成多层次的结构为以后的建设迈出了重要的一步。
Big400作为核心三层交换机,具有全网的路由信息,其他设备接入到核心网络时,路由需要详细的配置,以防出现上述发现的路由环路问题。
3、与Big400互连的设备注意端口的工作状态
为了使设备的端口工作于最佳状态,Big400上的所有端口已将自协商关闭。因此,当有新的设备接入到Big400时,将注意对端设备的端口状态,确保设备之间的端口状态一致。