A.1.1 故障现象:网络性能降低的同时伴有FCS差错
CSMA/CD算法在冲突发生时会引起校验和无效(即FCS差错),在发生次数不多的情况下属于正常现象,因此FCS差错与冲突同时发生、且发生次数在合理的范围内时就无需担忧。对于本故障现象,可以利用协议分析仪来检测某段时间内冲突发生的次数与FCS差错的次数并分析它们之间的特性曲线,如果在这两者之间找不到对应关系的话,则可能是如下原因之一:
原因一:网络中存在噪声和干扰。
在网络设备没有接地或接地不正确的时候就会产生噪声干扰,可以用电缆扫描仪或万用表来检测网络中的噪声电平。一个10Base2/10Base5网络中只能有一个接地连线,如果还存在另一个连线接地(如网卡差错或电缆损坏)的话,则由于两个地之间存在压降而引起电缆中的电流泄漏。
原因二:电缆路由上有电磁干扰。
复印机、电梯、手机以及寻呼机带来的电磁干扰都可能会引起FCS差错,可以用万用表来检测干扰情况并使用电缆测试仪来检测噪声情况。在检测电磁干扰时,可以检查电缆路由上是否存在电梯、电机、变电器、灯带以及带有高时钟频率或X射线仪器的计算机系统。
原因三:网卡有故障。
在检查是否由网卡故障引起FCS差错时,可以检查按网络节点排序的所有无效数据包(大多数协议分析仪都能自动生成这类标准的统计报告),如果发现某个节点比较可疑的话,则可以检测该节点的活动率(以数据包/秒为统计单位)与该节点所处网段的FCS差错发生次数。如果发现两者之间存在某种对应关系,那就有机会找到故障源。需要记住的是,由于网卡故障经常是间歇性的出现(如网卡达到一定温度时才出现),因此需要经过较长时间的监测才有可能得到准确和重复出现的故障结果。
原因四:接头(如NIC、墙插、MAU、中继器、集线器等)松动或损坏。
定位这类故障源的方法就是仔细检查网络路径上的所有连接情况。
A.1.2 故障现象:网络性能降低的同时伴有滞后冲突
以太网中冲突次数的增加常常与线缆有问题(如线缆段过长)、网卡损坏、级联的中继器数量过多、终端电阻损坏或缺少等原因有关,如果能确定冲突属于滞后冲突还是正常冲突,将有助于我们缩小故障源的范围,滞后冲突的可能原因如下:
原因一:线缆长度超过了特定网络拓朴所能允许的最大长度。
此时只需使用线缆测试仪测量一下线缆的长度即可。
原因二:网络中级联的中继器数量过多。
可以用网桥代替其中的一个中继器,或者改变网络的配置。
原因三:网卡或MAU损坏。
利用协议分析仪收集发送无效数据包最多的站点的运行统计数据,并收集冲突发生次数与活动站点的统计数据以检查两者之间是否存在对应关系,如果这些方法无法找到故障源的话,就必须使用网络分段法来排除网络故障了。
A.1.3 故障现象:网络性能降低的同时伴有早期冲突
原因一:终端电阻损坏或缺失。
10Base2和10Base5以太网必须带有50Ω的终端电阻,检查网络中所有需要终端电阻的地方是否均安装了正确的终端电阻,其阻抗可以用万用表来测量(阻抗值应介于48Ω~52Ω之间)。
原因二:T型接头松动或损坏。
检查网络中的所有接头,以确定是否有松动或损坏现象。
原因三:网络中的节点数过多。
检查每个网段中的MAU数量,一个10Baes2网段中最多不能超过30个MAU,而一个10Base5网段中最多也只能数据U讥2 /10Base5Mbit/s有100个MAU.
原因四:线缆被扭折。
可以使用线缆扫描仪来定位并替换被扭折的线缆。
原因五:电缆与IEEE 802.3不兼容。
IEEE 802.3的10Base5电缆每隔2.5米就以一种颜色加以标记,为了减少连接点处的反射干扰,接头的插入点应选择在这些颜色的标记处。此外要记住,并不是所有的BNC接头都使用50Ω的电缆,尽管以太网能在75Ω的电缆上传输几十米之远,但是长度的增加迟早会引发网络故障,因而在检测网络故障时要检查所用电缆的规范。
A.1.4 故障现象:网络速度慢、响应时间长(冲突与FCS差错均处于正常范围)
原因一:传输路径上的网桥或路由器的缓存溢出。
检查路由器或网桥的统计数据(如CPU使用率、端口使用率等),利用协议分析仪检测哪个站点产生的经由网桥或路由器转发的流量最大?是否有超时现象出现?一般可以用ping命令来测试通过网桥或路由器的响应时间,以查明网络互连设备是否是引起故障的部分原因,如果是的话,就需要重新配置网络(如将部分服务器或客户机移到其他网段)以减轻重载互连设备的流量。
原因二:光纤链路的传输问题。
在光纤链路衰耗过大或发射光功率过低的情况下,如果光纤链路的传输距离过长可能会引起性能劣化(即使没有出现任何FCS校验差错)。此时可以用ping命令来检测有问题的光纤链路的响应时间,并检查光纤耦合器及线路衰耗的设置情况。
原因三:存在本地网段路由。
本地路由是网络速度减慢的常见原因,常常发生于子网地址不同、但连接在同一个LAN交换机下的两个节点之间的连接上,且LAN交换机连接在一个路由器下,这种本地路由有时也称为one-armed路由。此时,尽管这两个节点均连接在同一个交换机下,但它们之间的数据包必须经过路由器的路由之后才能到达对方。
A.1.5 故障现象:间歇性的出现网络连接故障、网络性能降低以及帧对齐差错。
原因一:网卡在每个FCS之后还发送了一些额外的比特。
可以使用协议分析仪捕获在FCS之后有额外比特的数据帧(称为dribble数据帧或帧对齐差错的数据帧),从数据帧的源地址中就可以找到有故障的网卡。
原因二:最大传输距离超出了以太网的规范。
数据包能否到达最终目的地取决于发送站点和接收站点,在两个站点相距较近时一般没有什么问题,但是在两个站点相距较远、且处在同一个网段中时就有可能会出现连接问题。此时就需要尽力找出这类连接问题是否只与某些特定的节点有关,可以使用线缆测试仪来检测传输路径上的线缆长度和质量,必要时可以在传输路径上插入一个网桥或路由器。
原因三:如果在传输路径上级联了过多的网桥或路由器,将会导致信号的传输延时增加和协议超时(如TCP超时),可以使用ping命令或响应时间代理来检测响应时间。
A.1.6 故障现象:网络连接出现间歇性故障的同时伴有短包。
原因:网卡有故障。
可以使用协议分析仪捕获短包并从短包的源地址中找到发送节点,如果源地址字段损坏,则可采用前面讲述的相关测试方法来找到有故障的网卡。
A.1.7 故障现象:网络连接出现间歇性故障的同时伴有超时传输包
原因一:由于在10Base2和10Base5以太网中存在两个接地连接,因而在网线中产生直流电流。
可以使用电缆测试仪来检测网线中的直流电流。
原因二:网卡损坏。
网卡损坏有时会产生jabber数据帧(即超长数据帧),导致所处网段出现连接故障。可从协议分析仪捕获的jabber数据帧的源地址字段中找到失效网卡的位置。
A.1.8 故障现象:网络连接出现间歇性故障的同时伴有帧间距过短现象
原因:帧间距过短引起数据包丢失。
如果以太网中的站点不能维持正常的最小帧间距(10Mbit/s以太网中为9.6μs,100Mbit/s以太网中为0.96μs)的话,某些集线器设备就无法正确处理接收到的数据包。此时,数据包有可能会转变为jabber数据包。在进行故障检测时,可以用协议分析仪来测量帧间距(可由数据包的时间戳得到帧间距),之后,再从协议分析仪捕获的数据帧的源地址字段中找到失效网卡的位置。
A.1.9 故障现象:经由网桥互连的传输路径上出现间歇性的网络连接故障
原因:由于网桥使用了负载均衡功能而打乱了数据包的到达次序。
检查网桥的在必要时关闭网桥的负载均衡功能。
A.1.10 故障现象:经由路由器互连的传输路径上出现间歇性的网络连接故障
原因:路由器连接在重载WAN链路或所连接的WAN链路质量较差。
排除这类故障可以使用协议分析仪由器所连接的WAN链路的使用率,FCS差错率以及误码率,此外,分析路由器端口的日志也有助于我们找到故障原因。
A.1.11 故障现象:单个节点与网络失去连接
单个节点突然与网络完全失去连接的主要原因如下:
l MAU连接松动;
l 连接电缆断开、短路或有噪声干扰;
l 网卡失效。
此时需检查电缆、接头、网卡是否有问题,在必要时应予以替换。为了确定故障是否是节点本身,可以用一个工作正常的节点(如笔记本电脑)完全替换到有故障的节点,如果网络连接恢复正常的话,则表示故障源在节点内部,否则表示故障源在网络侧。
原因二:网卡配置有误,如接头激活有误(如应激活AUI接头的却激活了双绞线接头)或选择的中断资源已被占用。
此时可利用ping命令(ping 127.0.0.1)检查网卡的工作是否正常以及数据包能否被正确的发送和接收,此外,还应检查最近是否有人在网络中安装了软件或硬件。当然,也可以采用原因一中的方法,用一个工作正常的节点完全替换故障节点,以确定故障源在节点本身还是在网络侧。
原因三:网卡损坏或保险丝被烧断。
使用外接MAU时需要检查其电系统是否完好。使用ping命令(ping 127.0.0.1)来检查网卡的工作是否正常以及数据包能否被正确的发送和接收。
原因四:不兼容的网卡把外接MAU发送的“心跳信号”当成是SQE信号,进而发生差错。
此时,应监视MAU上的LED,如果每欠发送数据时SQE LED都点亮的话,则应关闭MAU的心跳模式(也就是把MAU的工作模式从Ethernet 2.0切换到IEEE802.3)。
原因五:由于网桥工作于保护模式下而没有激活学习模式,因而其老化功能将有故障的节点地址从地址表中删除了。
原因六:网桥或路由器的过滤器设置不正确。
检查过滤器的设置情况并与故障节点的地址相比较,以确定是否因过滤器的设置不当而引起了节点的连接故障。特别是在网桥使用了备份路径或负载均衡机制之后,更应检查过滤器的设置是否与这些功能相冲突。
原因七:MAC-IP地址映射有问题,这主要是由于静态IP地址发生了变化或网络中同时配置静态IP地址和DHCP.
A.1.12 故障现象:网络中的某个网段与其余网段之间失去了桥接连接
原因一:网桥的端口配置不正确(如端口没有被激活、端口的运行模式不正确(如应为10Mbit/s的却配成100Mbit/s)、连接失效(如电缆、接头以及插板松动)或布线错误等)。
检查网桥的安装和配置是否正确。
原因二:由于网桥工作于保护模式下而没有激活学习模式,因而其老化功能将有故障的节点地址从地址表中删除了。
检查网桥的地址表和工作模式(网桥的学习模式是否打开?)。
原因三:网桥或路由器的过滤设置不正确。
检查网桥或路由器的过滤器设置情况,特别是要检查使用了通配符的过滤项。
A.1.13 故障现象:网络中的某个网段与其余网段之间失去了路由连接
原因一:路由器的端口配置不正确(端口没有被激活、端口的运行模式不正确(如10Mbit/s设成了100Mbit/s)、连接失效(如电缆、接头以及插板松动)、协议没有被激活或布线错误等)。
检查路由器的安装和配置是否正确。
原因二:路由器的地址表、映射表或路由表的配置有误。
检查路由器的配置。
原因三:路由器的过滤器设置有误。
检查路由器的过滤器设置情况,特别是要检查使用了通配符以及有可能阻塞备份路由或负载分担路由的过滤项。
原因四:与路由器WAN端口相连的WAN链路失效。
检查WAN链路的工作是否正常。
原因五:没有设置默认网关。
检查路由器中是否配置了默认网关。
原因六:子网掩码配置有误。
全面检查网络文档中有关子网掩码的所有配置情况。
原因七:定时器配置有误。
检查路由器中不同协议的定时器参数配置是否正确,并与这些定时器的默认值相比较,特别是在网络中使用了不同厂商的路由器设备时尤为重要。
A.1.14 故障现象:客户机出现间歇性的网络连接故障
客户机出现周期性的网络连接故障,虽然能ping通,但数据包时有丢失。
原因一:NIC或交换机/路由器的配置有误。
NIC或交换机/路由器的配置有误,致使连接双方工作在不同的工作模式下,此时应检查NIC以及交换机/路由器端口的配置是否正确。
原因二:NIC或交换机/路由器的工作模式配置有误(一方被配置为手动工作模式,而另一方被配置为自动协商工作模式)。
检查NIC以及交换机/路由器的端口配置情况,避免使用自动协商工作模式。
原因三:主机忙或处于重载状态,服务器遇到问题。
检查服务器的运行统计数据及其响应时间。
A.1.15 故障现象:10/100BaseT自动协商进程太过频繁,吞吐量很低
原因:通信双方未达成一致(一方为全双工方式,另一方为半双工方式)。
A.2 以太网中的常见差错
下面以字母顺序列出了以太网中最常见的故障原因:
l AUI电缆损坏;
l 网桥地址列表的配置不正确,网桥工作在保护模式下;
l 网桥过滤器设置不当;
l 网桥过载;
l 网桥的老化功能删除了某些地址表项;
l 级联的网桥或中继器太多,从而引发超时和响应时间过长;
l 电缆长度超标;
l 连接器松动或损坏:接咔、墙插、MAU、Hub、网桥、路由器;
l 电磁干扰;
l 外部MAU损坏;
l 路由器、网桥或Hub的物理连接故障(电缆、连接器和插入模块松动;背板上的电缆连接错误);
l 接地时;
l 帧间距过短;
l 网络被多处接地;
l NIC配置不正确;
l 网桥负载均衡功能引起的数据包失序;
l 光组件(如光Hub端口)的功率时;
l 路由器的过滤器设置不当;
l 路由器配置不正确(端口未激活、协议未激活、运行模式不正确等);
l 路由器过滤;
l 路由协议属性项配置不正确(如地址表、映射表、子网掩码、默认网关、路由表和定时器);
l 路由协议的(OSPF Hello定时器、Dead定时器、IGRP Active定叶器的设置不正确);
l 终端电阻损坏或丢失(10Base2、10Base5);
l WAN链路中断、过载或质量低劣(BER非常高)。