1. 路由环导致网络丢包
这是一个实际发生的分析网络大量丢包原因的案例,用户的网络丢包现象很严重,给用户造成了很大的困扰,我们试图通过流量分析的手段来分析造成网络丢包的原因。
1.1. 网络环境
用户的网络是一个覆盖全省的网络环境,包括省中心局域网和跨地市的广域网构成,并同全国的广域网络相连。网络拓扑如下:
用户网络环境图
1.2. 网络异常现象描述
该网络丢包现象严重,如果通过省局域网向地市网络或全国网络发包,每发出 10 个 PING 包将只能收到 7 个 REPLY 包,丢包率在 30% 左右,这样,网络丢报对一些网络应用运行产生很大的影响,应用运行缓慢,甚至有些应用无法正常运行。
在此期间,网络设备的运行没有发现异常,局域网和广域网的物理链路也未发现异常。
1.3. 分析手段
造成网络丢包可能的原因很多,包括链路层原因和网络层问题,而网络拥塞也是造成网络丢包非常可能的原因。为了分析是否是由于网络拥塞引起的网络丢包,我们采用流量分析的手段进行分析定位。
我们对省局域网交换机到二级网路由器链路的网络流量进行了监控,其中二级网路由器的局域网络接口为10M,我们在局域网交换机上设置镜像口(SPANPORT),将该链路流量镜像到一个百兆网络接口上,并用Sniffer协议分析仪接入该镜像口,监控分析该链路的网络流量来确定是否存在流量异常现象。
[1] [2] [3] [4] 下一页
1.4. 网络流量分析过程
1. 网络总体流量监控
我们首先通过Sniffer Pro的History Samples(历史抽样)功能监控该镜像链路上的网络利用率状况,我们得到如下结果:
该链路到利用率情况
该链路每秒钟实际传输数字
从以上的监控结果中我们可以看到,在大约每 40 秒的周期内,该链路中的网络流量会出现15秒的峰值,而且非常规律,峰值流量大约为20Mb/s,考虑到路由器同交换机的接口为 10Mb/s (全双工工作时为 20Mb/s ),则我们看到这时的网络利用率为100%!
通过 Sniffer 对该链路流量进行监控分析,我们很直观的可以看到该链路出现周期性的网络拥塞,而这个周期和网络的丢包时间规律非常吻合,我们可以非常肯定的认定,这种流量的异常峰值是导致网络中大量的丢包的重要原因。
2. 找出产生网络流量最大的主机
当网络出现拥塞时,我们需要对造成拥塞的原因进行分析,一般首先我们先分析产生流量最大的主机,我们利用 Sniffer 的 Host Table 功能,将该网络所有计算机产生的网络流量按照发出数据包的包数多少进行排序,结果如下图。
Host Table分析每台主机到流量
从图 3-14 中我们看到, IP 地址为 10.22.0.25 的主机发出数据包最多,远远超过了其他主机,相应产生的流量也最大,该主机向网络中大量发送数据是造成网络拥塞的重要原因。