初步了解&问题描述:
前几天接到一位朋友求助,一个150多台机器的有盘换无盘的网吧,用了2台系统虚拟盘服务器,1台游戏虚拟盘服务器,说是装了网维大师系统虚拟盘1个月之后,大概每天晚上8~10点左右开始频繁出现客户机集体卡死,然后蓝屏,蓝屏代码77或者7e居多,重启后,卡在dhcp分配ip结束之后的界面上不动,重启网维大师系统虚拟盘服务之后就好,偶尔在凌晨2点左右也会出现这种问题。
后来换了个交换机好了一个星期,之后又开始出现类似问题,部分客户机卡死,蓝屏重启,重启后到dhcp分配完ip界面就卡死的问题,必须重启系统虚拟盘服务才会恢复正常。
折腾了一个多星期了都无果,老板已经要抓狂了,因为每天都会出问题,顾客已经是怨声载道,生意逐步开始滑落……
初步判断:
根据初次了解的情况来看,有点纠结,首先第一个非常可疑的地方,最初是正常的,用了大概一个月之后开始出现问题,期间未更换过软件版本,都是最新的1010,所以初步定位是硬件故障所致,用了一段时间之后可能因为硬件质量或者寿命的关系,出现了问题。因为这位兄台说,换了交换机之后好了一段时间,根据个人的经验来说,一个普通的傻瓜交换机,背板也有48Gbps的带宽,在150台机器的网吧做核心交换机肯定是够的,于是建议他把下面接入交换机D-LINK2204拿去做核心交换机观察。
深度纠结:
但是这个问题另外一个奇怪的地方,每天晚上8~10点左右最爱出问题,根据绝大部分网吧的上座率来分析,这个时间段应该是人比较多,问了一下这个时间段人是比较多,但是白天人也挺多,而且有时候人少时也会出现问题,所以判断这个时间段爱出问题有可能是巧合,或者是人为破坏,也可能是和净网先锋等某些部门的监管软件有关系,所以就建议他把网吧的这类服务器关掉测试。
最后一个疑点,重启服务就好,所以除了硬件故障也可能是软件自身bug,虽然俺在顺网上班,但是处理问题还是蛮公正的,毕竟是新产品,难免出现bug,于是根据自己对软件的一些了解,来排查软件上可能遇到的问题,于是就远程连接服务器,查看软件日志,发现在我朋友说重启的时间范围内,确实发现软件重启的记录,但是后来才得知,我所看到的软件重启记录无论是程序自己挂掉,还是手工重启服务(后面分享如何判断服务是挂掉了,还是因为手工重启了服务),都会看到这条记录,所以当时询问朋友的现象只是,当客户机卡死时,服务器进程还在不在,比如ControlServer.exe和DiskLessServer.exe,或者当时服务器cpu使用率和网络使用率是否很高,但是当时只观察了一次,发现进程是在的,cpu使用率不高,网络利用率没注意,那么按照这个说法来看,说明服务并没自动崩溃,软件的重启日志是因为客户机卡死之后,手工重启服务导致的,此时陷入冥想,只好先把日志发给同事分析,结果说是有很多客户机的网络连接被关闭掉了,问题可能处在网络上,于是这点也验证了换交换机后好了一周的说法,那么重启服务就好的疑团还是无法揭开,于是建议朋友用memtest测试服务器内存是否有问题,用硬盘哨兵测试硬盘是否有问题,但是因为测试内存需要停止服务,为了不影响客户机使用,之后次日观察。
时间很快,一日过去了,测试也初步有了结果:
1、交换机换了,仍然有挂的。
2、测试内存,无坏块,测试硬盘无错误记录,包括系统日志也全无磁盘错误记录,完全正常。
3、再看软件日志,还是和之前的日志无两样。
说实话,这个反馈结果完全是出乎意料的,因为按照经验来说,软件虽然是新出的,但是稳定性还真没这么差的,既然之前分析日志是说网络断开,那么再从网络上入手吧,结果发现网卡做了汇聚,而实际上当前测试的交换机是不支持汇聚的,同时这块主板上集成的2块网卡也不是同一型号,一个pci-e的,一个pci的,于是建议朋友把网卡汇聚拆掉再观察。
时间还是很快,又一日过去了,测试也有了再次反馈:
1、网卡汇聚取消了,仍然会挂……
到这里我一定要晕一下 ,完全没有道理嘛,想想前因后果,问题51%以上是处在硬件上,后来在测试过程中发现服务进程都在的,而且软件的服务重启日志都是手动的,并没自动崩溃的记录,那么硬件故障几率可以提升到90%以上了,于是建议朋友拿一台客户机做测试,弄3块全新的回写盘来做测试,来排除服务器主板自身问题,或者集成网卡问题,或者是硬盘检测不到的错误来排除问题,……另外把2个服务器分开带机,一个服务器带一部分,看看客户机挂掉时,到底是哪个服务器上挂的。
就在百般纠结无语之时,问题另一头的哥们发现服务器中毒了,远程一看,OMG,确实是中毒了,而且服务端的程序都感染了病毒,中的还是很令人抓狂的Win32.Almanahe.D病毒,这个病毒就类似威金一样,会破坏执行程序……
连游戏虚拟盘也一起都中毒了……
此时终于豁然开朗,nnd,估计是病毒搞出来的乱子,因为问题搞了很久,发现一线希望,当然啥问题都往病毒上想了,于是认为此次问题是由于病毒引起的,不觉间,大家心情都好了一下,于是开始处理病毒,由于工程太过浩荡,服务器,客户机,游戏处理病毒,一天过去了……(这里的感染型病毒处理方法后面分享)
一日之后,病毒终于搞定,服务器,客户机,拿软件扫描横直都没病毒了,那就观察吧,一面看电影,一面等崩溃,时间一点一点的过去,来到了北京时间8点整,等啊等,噩耗一直没有传来,一直加班等到晚上12点,依然没事,真是满心欢喜,跟朋友联系说,先观察下吧,估计就是病毒问题,先回家洗洗谁了,到家1点左右,再上网询问出问题没?得到的答案是,没出问题,于是安心睡了……
结果第二天上班,一上QQ,nnd,又报告崩溃,我也差点跟着崩溃了,见过纠结的,没见过这么纠结的,无语,远程看来是搞不定了,脑袋呈现糊状,到现场搞吧,于是一路上不管任何疑云,一点一点理思路,到了现场,期间朋友对我的诉苦,烟酒过程略1000字 ,接着处理问题吧。
逐步观察以下问题:
1、服务器分开带,看看到底是哪些机器挂的。
2、客户机挂的时候到底是什么状态。
3、客户机挂的时候,服务器什么状态,能否ping通,进程是否在,cpu使用率是否高,网络利用率是否高。
欢迎访问最专业的网吧论坛,无盘论坛,网吧经营,网咖管理,网吧专业论坛
https://bbs.txwb.com
关注天下网吧微信/下载天下网吧APP/天下网吧小程序,一起来超精彩
|