企业网管是一项极富挑战性的工作。局域网中大大小小、奇奇怪怪的故障已远远超出了我们的想象。笔者最近就遇到了两起怪异的网络故障,下面还原其过程,希望对处理类似故障有所帮助。
怪异的频繁掉线
前不久,网管辞职,朋友接手了公司的网络管理。这是一家广告公司,网络规模不大,计算机数量大概有40台。公司有4个部门,各部门通过一台小型交换机连接到核心交换机。核心交换机的Uplink口连接TP-LINK宽带路由器,路由器通过ADSL连接到Internet,网络拓扑见图1.朋友上任不到一天就遇到了网络故障,具体表现为:企业外网基本上两小时自动掉一次线,然后过一分钟又自动连接上。这期间虽然耽误时间只有一分钟,但由于公司很多广告设计都是多人在线协作完成,公司的视频点播系统对网络的连通性要求很高,因此,这一分钟的掉线对公司的影响还是比较大的。
故障分析
朋友检查了节点间的线缆连接以及员工们的计算机系统,排除了硬件连接和病毒因素,但故障依旧。朋友找笔者帮忙。就笔者日常维护网络经验来看,断网主要由两方面引起:本地链路不稳及感染蠕虫所致。联系电信部门对ADSL链路进行检查,排除了链路故障,于是将重点放到蠕虫病毒上。
笔者把重点放在具有ARP欺骗特性的病毒上。之后,笔者和朋友详细检查了所有员工的计算机,没有发现任何问题。同时检测发现,当出现断线时,ARP缓存表里的网关MAC地址与正常上网时一致。这说明断网并不是因为ARP欺骗引起的。
排查否定了病毒和链路因素。那么还有什么可能造成如此蹊跷的网络故障呢?为了更好地定位故障,笔者决定使用分割法进行分析,也就是说将网络各个区域隔离开来检查。首先,笔者关闭了大多数员工计算机,只让一台笔记本上网,故障依旧。看来问题不是出现在计算机上。难道是交换机或者路由器出现了问题?
接下来把笔记本直接连接路由器上网,结果还是两小时自动断一次,之后又恢复连接。因此,基本可以断定故障在路由器或线路本身。接着,用笔记本直接连接ADSL猫,在系统中手工建立拨号连接后拨号上网,自动断线问题没有再出现。这说明线路是好的,ADSL猫也没有任何问题,肯定是宽带路由器在作祟。
故障解决
于是笔者登录路由器进入管理界面,一一比对各个参数设置信息,结果发现在“网络参数→WAN口设置”处的拨号设置被设置为“按需连接,在有访问时自动连接,自动断线等待时间15分钟”。这就是说当有人要访问外部Internet时宽带路由器才会拨号上网,而且当网络需求在15分钟之内没有时就会自动断线。笔者将其修改为“自动连接,在开机和断线后自动连接”后,经过一段时间的测试,企业内网再也没有出现怪异的断网现象。
笔者事后了解到,原来是前网管为泄愤修改了宽带路由器的拨号连接设置才造成了如此蹊跷的网络故障。笔者在本次排故过程中走了不少弯路,没有想到人才是网络安全最重要的因素。不过,文中通过的层层推理分析解决网络故障的方法希望对大家有所帮助。