【常见排查对象】
可能的导致系统中断问题方面:
硬盘故障 : 在服务器上找到-我的电脑-右键-管理-事件查看器-系统,(如果您是Server2008操作系统,请在我的电脑-右键-管理-诊断-事件查看器-Windows日志-系统中查看),这里看下有没有来源是NTFS、disk、ftdisk、atapi的警告或错误,然后也可以下载个硬盘哨兵,确认是否有磁盘故障或相应提示。下载链接:硬盘哨兵。
cpu温度过高:CPU故障,或温度过高,前者可能性较低,但CPU温度过高后,可能会出现各种问题,CPU自我保护,降频等,都可能出现。下载个鲁大师检测下服务器CPU温度。
服务器内存故障 :在服务器上找到-我的电脑-右键-管理-事件查看器-系统(Server2008操作系统,在我的电脑-右键-管理-诊断-事件查看器-Windows日志-系统中查看)一般都有很直观的中文提示。
网卡异常 :服务器是万兆网卡环境,可以尝试重新插拔万兆网卡光纤模块,或者使用千兆网卡测试观察。 把主网卡IP修改成千兆网卡带机看看是否正常 。如果是千兆网卡,可以确认下千兆网卡是否有优化 中断节流的参数,有开启的可以把它禁用掉 ,再看看是否正常
上述几个硬件方面问题是最方便查看排查的,一般优先去检查排除,如果这些选项看下来都没什么异常的,接下来可以去看看硬件驱动方面的一些问题。
要想快速确认是否由驱动程序造成的问题,可以使用一下工具
1、DPC Latency Checker
DPC Latency Checker 这个小工具进行检查。延迟过程调用(DPC)与系统中断的处理相关, 当中断处理程序需要延迟一个低优先级的任务时,便会调用 DPC。
DPC Latency Checker 可以通过实时音、视频流来分析当前系统是否能妥善处理内核态设备驱动的延迟,它是快速找出驱动问题的好帮手,而且无需安装,如果你看到出现红条则表示有高延迟。
要找到驱动程序中断问题的根源,你得逐个回滚或更新驱动程序到最新版本,并不断通过 DPC Latency Checker 进行测试。
2、LatencyMon
此外,大家也可以安装 LatencyMon 这款延时监控软件,以帮助快速发现高 DPC 计数的驱动程序文件。
具有高 DPC 计数的驱动可能导致大量中断,我们主要看Hghest execution(ms);如图:
工具使用说明和下载链接这里有下载
【总结】