当前网络迅速发展,并承载了许多重要的商业应用和服务,同时网络用户也越来越多。在这种网络环境下,网络工程师除了要完成诸如将设备添加至网络的简单任务外,更多时候他们还需要去即时处理和解决一些复杂的网络问题,以保证网络正常快速地运行。
本白皮书讨论了技术人员经常可能遇到的十个网络问题,并介绍了它们的现象、原因和解决办法。
问题 1 – 端口无法连接网络
现象: 将电脑、电话、无线接入点或打印机插入墙壁上的网络插孔,而网络连接不正常。交换机端口的连接指示灯和网卡的连接指示灯都不亮。
原因: 若没有修复墙壁插孔上的网络连接,则时常会发生掉线或无法连接的问题。在许多企业中,只有那些经常使用的连接才被修复。当移动了办公室或会议室后,有时会发现那些不常使用的网络插孔并没有被测试过,或是那些无法连接的插孔可能是由于登记错误导致的。此外,交换机端口可能被强制关闭。
解决办法: 检查和确认交换机端口是否已被激活,且网络连接已被修复过。当任何设备被移动到办公室时,请务必对新的网络连接进行测试,确保他们能够正常工作。就IP电话而言,也有可能是电话的电源供应不足。
问题 2 – 无法获取到 IP地址
现象:网络瘫痪或出现故障而不能正常运行。操作系统可能会提示客户端当前无法从DHCP服务器获取到IP地址。检查网卡的状态后,发现没有分配IP地址。
原因:没有收到来自DHCP服务器分配的IP地址。DHCP服务器的IP地址耗尽、服务器的服务瘫痪了、终端设备可能被配置为使用静态IP地址而不是通过DHCP分配、终端设备的DHCP请求从来没有到达服务器端,这些都可能导致客户端无法获取到IP地址。
尤其是如果一个新的设备配置一个虚拟局域网(VLAN),没有建立与服务器的服务请求连接时,设备肯定不能获取到IP地址。即将一个新设备配置到一个VLAN时,若没有将DHCP请求中继到DHCP服务器,就会导致请求不能发送到DHCP服务器端。
解决办法: 关键问题是多少用户出现了同样的问题,一个用户还是多个用户?如果只有一个用户受到影响,那么请确认该客户端的网络设置是否配置为使用动态主机配置协议(DHCP)。
下一步,检查交换机的端口被划分到哪个VLAN,检查属于该VLAN的其他设备能否获取到IP地址。如果他们也不能获取到IP地址,问题原因可能是路由器没有将DHCP请求转发到DHCP服务器。如果多个子网内的许多设备都出现了这个问题,那么可能是DHCP服务器出现了问题,即服务器的DHCP服务可能没有运行,或者它的IP地址已经耗尽。
问题 3 – 无法连接到应用服务器
现象: 当用户试图打开一个应用程序时,系统可能会提示无法连接到该应用程序服务器。当使用电子邮件应用或客户关系管理(CRM)应用时可能会出现这种问题。反映到服务台的常见投诉是网络瘫痪了,而这可能并不是真正的原因。
原因: 许多原因都可能导致客户端无法连接到应用服务器。关键是需要询问用户这个问题是经常发生,还是断断续续发生?如果用户终端已获取了一个正确的IP地址,那么可能是用户和服务器间的路由有问题。这种情况下,可以通过一个简单的ping测试来验证。如果连接时断时续,则可能是由于服务器太繁忙,而不能及时响应客户端的请求所导致的。
解决办法: 如果使用ping测试后发现路由没有问题,那么请检查服务器的负载和资源。检查服务器是否正忙于执行一个诸如备份的任务?如果不是这样的话,请检查客户端和服务器之间的网络负荷,且侧重关注广域网连接(如果有的话)。
通常,客户端和服务器之间的网络利用率过高也可能导致客户端能连接到应用服务器。最好的办法是使用一个SNMP工具来监测这些链路上的网络使用率。另外,寻找所有交换机和路由器上的以太网错误,这些错误可能导致客户端与服务器间的数据包丢失。
问题 4 –VLAN配置错误
现象:当在网络上建立诸如无线宽带或IP电话的新服务时,通常要用VLAN来隔离其与其他用户间的流量。这就要求对承载这些服务的交换机端口配置正确的VLAN。如果VLAN配置不正确,那么这个服务可能无法正常运行。IP电话如果没有经来电管理设备注册授权过,那么连接到该电话的个人电脑可能就无法连接到关键服务器,或者无线用户可能没有获取到适于该无线环境的正确IP地址。
原因: 没有对承载这些服务连接的交换机进行正确配置。也许在公司内部并没有沟通好配置哪些端口来支持新服务。
解决办法:通过测试,验证该端口支持哪些VLAN。若条件允许,使用一个VLAN标签生成特定VLAN的业务,检查这个端口上是否配置了VLAN。通过检查DHCP服务器提供的IP地址,来确定VLAN配置在了哪些端口上。另外,检查交换机的配置来验证VLAN配置。
问题 5 – 双工方式不匹配
现象: 网络能够连接,而双工方式不匹配,会导致网络性能很差。这种情况下,交换机和网卡的链路指示灯都是亮着的。而网络性能却受到很大的影响,吞吐量会下降到100Kbps或者更低水平。
原因: 网络连接的一侧设备工作在全双工(能够同时发送和接收数据)模式下,而另一侧的设备工作在半双工(在同一时刻只能执行发送或接收)模式。全双工侧的设备不需要等待即可不断发送数据,不论对方能否收到数据它都会发送。
半双工侧设备在发送前必须等待,直到它不接收数据才能开始发送。这意味着全双工侧设备有可能会中断半双工方的数据传输,造成半双工侧中止传输。如果传输被中止,将需要重传这个数据帧。这将大大减少半双工侧设备所能使用的带宽。
解决办法: 一般情况下,若网络两侧设备的双工方式不相互匹配,采取的常用办法就是把网络连接的一侧设备(通常是交换机)强制配置为全双工,而让另一侧设备(例如个人电脑)配置为自适应网络链路状态。
理想的情况是:自适应功能能够确认对方的全双工设置,并与这个链路设置相匹配。然而事实却未必如此。被强制设置为全双工模式的设备不再发送正确的信号。而网络另一侧的设备恰恰需要这些信号来确定链路的速度和双工方式,以及自适应对方链路设置。
因此,在这种情况下,需要自适应链路的设备不得不去猜测链路的双工方式。在不能确认双工方式的情况下,自适应功能将默认链路状态为半双工方式。这就是大多情况下,网络发生双工方式不匹配的主要原因。为了解决这个问题,需要将网络上所有的连接都设置为自适应——除非你确实有别的原因。 在这些事件中,如交换机间的连接,一定要将两侧设备设置为全双工。
问题 6 – 应用性能缓慢
现象: 应用程序运行缓慢。它可能在某一界面上冻结或在访问数据时停止运行。通常情况下,网络链路状态不佳是造成这些问题的主要原因。
原因: 确定网络应用程序的性能问题可以帮助服务器维护人员定位问题源。许多问题都可能导致应用程序运行缓慢。其中最常见的原因是在服务器在生产时间进行备份操作,数据库服务器的响应缓慢,以及网络中丢包情况较严重。对于一位网络技术员来说,最重要的事情就是首先确定是服务器还是网络造成了响应速度缓慢。
要确定这一点,可以从一个客户端捕获流量。寻找客户端和服务器之间的任何重传数据包。如果存在重传现象,则表示网络传输过程中有数据包丢失,这会严重影响应用程序的性能。如果客户端和服务器之间不存在任何重传,问题可能出在服务器上,这种情况下可以严格监测服务器。
解决办法: 在追踪一个故障时,虽然数据包分析仪的使用比较困难,他们往往都配有简单计数器,可以显示TCP重传。使用该计数器可以帮助我们确定客户端和服务器之间的网络是否存在数据包丢失的现象。
查找客户端和服务器之间的任何交换机和路由器的以太网错误(帧检测序列错误,校准错误或碰撞),这些错误都能引起丢包现象。如果没有错误,则观察广域网上是否有因链路利用率过高而导致的丢包现象。
问题 7 – 打印故障
现象:有时候也会出现打印故障。打印机也许没有问题,而发送到打印机上的任务可能不能正常执行。
原因: 首先需要确定是否只有一位用户遇到了这个问题,还是几位用户都遇到了同样的问题。如果只有一位用户遇到了,那么可能是他的电脑没有正确连接到打印服务器。如果不是这个原因,则可能是客户端与打印机间的网络连接有故障。数据包丢失可能会导致打印问题,打印机上的网络连接故障也可能会引起打印问题。
解决办法: 检查打印机的配置,确保它有一个正确的IP地址,并且可以连接到打印服务器(如果打印服务器和打印机是分离开的)。有时,更新打印机驱动程序也能够解决打印问题。总体来说,需要确保打印机是网络可达的,以及所有打印机驱动程序是最新的。
问题 8 –电缆故障
现象: 客户的电脑终端能够连接到网络,网络性能却很差。电脑终端可能根本无法连接网络。
原因: 在当今网络,千兆链路连接到桌面系统是常见的。千兆链路需要四对电缆,所以任何性能低于5类线的电缆都不能支撑千兆连接。对于比较老旧的建筑物,必须考虑到这个问题。另外,任何数量的电缆如果退捻(通常靠近RJ- 45端口或接线板)可能会导致信号的损失。这将导致交换机端口或网卡出现帧检测序列错误(FCS)。
解决办法: 当出现由于电缆问题造成的网络故障时,大多数情况下,都需要更换电缆。如果是由于电缆无捻导致的,那么重新加捻电缆一般能够解决这个问题。当需要承载如千兆链路或以太网供电的新技术时,必须使用5类电缆或者更好的电缆。
问题 9 – DNS 故障
现象: 用户不能访问互联网或关键应用。可能是网络瘫痪了。
原因: 问题可能归咎于域名服务(DNS)故障。客户端无法根据服务器的IP地址解析出服务器的名称,所以发送不了连接请求。在客户端配置了错误的DNS服务器通常会导致这个问题,客户端发送的DNS请求不属于服务器的数据库,或者网络中会有数据包丢失。DNS是一个基于UDP的协议,所以丢失的数据包也不会重传,因此会导致DNS故障。
解决办法: 检查客户端的配置和设置的DNS服务器。如果服务器配置错误,则在客户端上更改所设置的服务器,或在提供域名服务的服务器上调整配置。
多次重复测试DNS服务器与客户端间的连接,确认之间是否有因数据包丢失而导致响应时延的情况。如果有数据包丢失,请检查客户端和服务器间的以太网错误。捕获失败的DNS请求,确认是否有来自服务器的DNS响应。最好是能够启动一个工具,该工具能够不断测试DNS服务器,并在有问题时产生告警。
问题 10 –客户端不能连接无线网络
症状: 客户端能够检测到无线接入点,但是不能接入无线网络。
原因:安全认证、无线信道干扰和信号盲区可能会导致这个问题。由于无线信号是不可见的,如果没有专业无线工具的帮助,就很难追踪到这些问题。
解决办法:使用一个无线监测工具测量受影响地区的信号强度,如果可能的话,进行实地勘察,找出该地区的恶意接入点或不明接入点。可能是由于无线信道重叠而产生干扰信号,从而影响了接入无线网络的用户感知。
检查周围其他接入点产生的干扰信号,或者其他干扰设备(如微波炉、无绳电话)产 生的噪声。监控客户端试图进行关联连接的接入点,密切关注连接失败出在哪个步骤——关联、认证还是授权。
总结
我们列出了技术人员在当前网络中经常可能遇到的10个问题。在多数情况下,能够将问题定位到一个或多个事情上,并很快解决问题。
请将常见问题的解决办法记录下来,与其他技术人员分享,从而也能快速解决故障。如果有合适工具配合的话,就能快速简单地定位和解决问题,及时恢复网络的正常运行。