XX电信网络故障分析报告
一、某运营商网络故障现象描述
该运营商城域网建设采用LAN、ADSL等多种接入技术。对于ADSL用户报文采用802.1Q封装,实现二层透传到达BAS,由BAS提供相应的服务;而LAN接入用户则由三层交换机来实现三层快速转发,市局和各县局网络形成辐射状星型结构。
安图、敦化方向的接入为城域网的重要组成部分,由于光纤资源的原因,敦化局通过安图局汇接到市局中心,具体见该运营商安图、敦化方向的网络拓扑图:
该方向由于接入用户多(特别是敦化MA5100下连用户),因此有网络流量大、汇接层交换机需要透传更多VLAN ID等特点。在用户上网的高峰期(一般为中午1点至3点,晚上8点至12点),出现如下现象:
1、安图、敦化ADSL用户上网速度慢,ping BAS的IP或长春DNS地址出现严重丢包,丢包率达到10%左右。
2、安图、敦化ADSL用户pinge Alpine3808地址不出现丢包。
3、安图、敦化LAN接入用户上网没有出现异常现象,ping BAS的IP或长春DNS地址不出现丢包。
4、在安图、敦化Flex24上ping BAS的任一个IP或长春DNS地址均出现严重丢包,丢包率在10%左右。
5、在安图、敦化的Flex24上ping Alpine3808的IP地址不出现丢包。
二、网络故障分析及定位
从上面描述的故障现象看,问题似乎与BAS的相关性比较大。是否与BAS的处理能力有关呢?事实上,BAS还负担着市局、其他地市大量的用户,其他用户没有出现类似的网络故障。与BAS分布式的结构有关吗?从客户工程师了解到BAS关于安图、敦化用户配置部分与其他地方是一致的。
为了准确地定位问题所在,我们从下而上对安图、敦化方向的网络健康状况做了全面的检测。
1、首先在安图对MA5100报文转发情况进行检测
在安图MA5100下找一ADSL用户做测试机,测试示意图如下:
pc向202.98.0.68发300个ping报文,pc最终显示发送了300个包,接收225个报文,丢包率25%。
在Flex24上将21端口的报文镜像到19端口,在19端口通过sniffer捕获报文。
从19端口捕获到的报文看,217.62.100.11向202.98.0.68发送了300个icmp echo
request报文,202.98.0.68向217.62.100.11回了225个icmp echo reply报文。
从检测结果看,MA5100对报文的转发正常,丢包出现在上级网络。
2、对安图的Flex24报文转发情况进行检测
为了检测Flex24的报文转发情况,采用上述类似的测试手段。在Flex24上将Flex24的24端口镜像到19端口(关闭原先的镜像配置,启用新的镜像配置),pc再向202.98.0.68发300个ping报文,pc最终显示发送了300个包,接收224个报文,丢了76个报文,丢包率25%。
从Flex24的19端口捕获到的报文看,217.62.100.11向202.98.0.68发送了300个icmp echo equest报文,202.98.0.68向217.62.100.11回了224个icmp echo reply报文,丢弃了76个。
从检测结果看,76个报文显然在Flex24的上级网络被丢弃,问题出现在上级网络。
3、对Alpine3808的报文转发进行检测
原先计划对Alpine3808报文转发检测采用上述类似的手段,但由于现场的种种限制(Alpine3808的镜像端口上不能准确捕获到所需报文,怀疑Alpine3808镜像有问题;若采用HUB接入到链路中来捕获链路中报文,也可以达到目的,但HUB于链路中的光电收发器端口协商存在问题,一边端口工作在半双工、另一边端口工作在全双工,因此回导致网络工作异常,没有采用该方式),采用了另外一种手段。
由于在BAS上ping(源IP为218.27.194.2)218.27.194.9,在用户上网高峰期出现严重丢包,而ping 218.62.89.129不出现丢包;在安图Flex24上ping(源IP为218.27.194.9)218.62.100.1同样出现严重丢包。因此断定Alpine3808三层转发正常而二层转发异常!
218.27.194.2 ping 218.27.194.9之间的通信在Alpine上是实现二层透传;218.27.194.2 ping 218.62.89.129 之间的通信在Alpine上是实现三层转发。
218.27.194.9 ping 218.62.100.1之间的通信稍为复杂点,218.27.194.9向218.62.100.1发icmp echo request报文在Alpine3808上是通过三层转发,但218.62.100.1向218.27.194.9回icmp echo relpy报文时,在Alpine上是通过二层转发(这是因为218.62.100.1/24和218.27.194.2/192在 BAS上均为直连网段,218.62.100.1向218.27.194.9的报文只在BAS做三层转发,其他设备只需二层透传)。
种种迹象表明Alpine3808二层转发存在严重问题!
4、进一步确认故障点
从故障现象看,用户报文在Flex24、Alpine3808上通过三层转发的不会出现丢包现象;而通过二层转发的均有丢包想象。
再次检测Flex24的二层转发情况:
在用户上网的高峰期,Apline3808上ping(源IP为218.27.194.1)敦化Flex24的IP(218.27.194.10),不会出现丢包,显然报文在安图Flex24上实现二层转发,再次证明Flex24的二层转发正常。
问题只能出现在Alpine3808的二层转发上。
三、对故障现象的一一解释
1、安图、敦化ADSL用户上网速度慢,ping BAS的IP或长春DNS地址出现严重丢包,丢包率达到10%左右。
现象解释:ADSL用户报文通过Alpine3808二层透传到达BAS,因此出现丢包。
2、安图、敦化ADSL用户ping Alpine3808地址不出现丢包。
现象解释:ADSL用户和Alpine3808之间的通信,与Alpine3808二层透传无关。
3、安图、敦化LAN接入用户上网没有出现异常现象,ping BAS的IP或长春DNS地址不出现丢包。
现象解释:LAN接入用户上网报文在Alpine3808上通过三层转发,因此不丢包。
4、在安图、敦化Flex24上ping BAS的任一个IP或长春DNS地址均出现严重丢包,丢包率在10%左右。
现象解释:BAS向Flex24相应的报文,在Alpine3808上是实现二层透传,因此丢包。
5、在安图、敦化的Flex24上ping lpine3808的IP地址不出现丢包。
现象解释:Flex24与Alpine3808之间的通信,与Alpine3808的二层透传无关,因此不丢包。