Windows Server崩溃的方式有很多种,但绝大多数都属于三大类:旧版杀毒软件、不兼容的存储驱动程序和过多的过滤驱动。在分析了来自世界各地近十年差不多1000次的系统崩溃后,我可以确认这些都是你想要避免的隐患。
下面让我们来详细看一下这三种服务器系统崩溃的细节,并分别介绍一下避免它们的最佳方法。
杀毒软件
到目前为止,最常见的Windows Server崩溃是由旧版杀毒软件所致。所有的杀毒软件都是使用设备驱动程序,更具体地说是“过滤驱动”来拦截I / O(读/写)请求并执行额外的检查。杀毒软件驱动程序将检查的内容与已知的病毒定义文件进行对比,以确保没有感染病毒。
过滤驱动包含内核模式的代码,它们会与操作系统底层的内核函数和数据结构相互作用这些函数和数据结构包括那些预期会在相应设备驱动调用时呈现的预定义参数和数据类型。如果函数传递的数据类型错误或参数数目不对,就会发生导致内核模式中系统崩溃的错误。
当开发人员在不同版本的操作系统之间(如服务包更新或新版本操作系统发布)修改这些内核函数或数据结构时,问题就出现了。虽然微软在测试设备驱动程序对所有操作系统改变的兼容性方面做得很好,但它显然没有测试第三方设备驱动程序来确保它们可兼容。因此,当旧版杀毒驱动程序偶然遭遇了这些更改,最终就会导致系统崩溃。其它过滤驱动也容易受到这种问题影响,但是杀毒软件驱动程序是最容易受影响的一个。
让我们来看一个例子:
下面是一个Stop 0x8E bugcheck -KERNEL_MODE_EXCEPTION_NOT_HANDLED的系统崩溃。在Windows debugger中用命令!analyze –v显示了它的堆栈模式。从下往上读,我们就看到一个NtCreateFile的函数调用,最终引入了buggydrv,从而导致bugcheck。使用命令!lmi buggydrv可以显示出驱动程序的日期是2006年,而操作系统Windows Server 2003 SP2是2007年发布的。现在我们就知道,旧版的杀毒驱动程序并没有对新版的操作系统进行测试。
在这个例子中,此种系统崩溃已经被厂商标识为已知问题并文档化,新版杀毒软件已经可以用来避免系统崩溃。事实上,绝大多数你遇到的Windows Server崩溃,都曾在别人身上发生过,它们的解决方法通常已经记录在互联网上的某个地方。因此,很重要的一点是,一定要记住即使只是一个服务包更新。在更新操作系统时也该第一时间与第三方厂商确认是否有相应的软件更新。
存储驱动程序不兼容
另一种最常见的系统崩溃是由不兼容的存储驱动程序所致。如你所知,第三方存储厂商提供设备驱动程序来控制它们的主机总线适配器(HBA)并用于访问存储设备。像Qlogic、Emulex和惠普(HP)等厂商都有不同的设备驱动程序,但它们都依赖于微软的Storport驱动程序。Storport驱动程序提供一套通用程序,这些特定的厂商驱动程序在执行I / O操作时使用它们。
这种问题的出现方式与杀毒软件驱动程序的不兼容性很相似。当厂商修改其专用的驱动程序时,它们必须重新与当前版本的Storport进行测试,以确保仍然兼容。同样的道理,当更新Storport版本时,所有的HBA驱动程序也必须重新测试,以保证它们仍然与新版的Storport驱动程序兼容。在Windows Server 2003中当你需要考虑Storport的50多个修补程序时,这才是一个真正的挑战。
经验法则是,在更新Storport驱动之前与你的第三方厂商确认HBA驱动程序是否有相应的更新,反之亦然。如何才能知道哪个存储驱动程序依赖于Storport?幸运的是,有一个叫Dependency Walker(depends.exe)的免费工具,可以揭示驱动程序间的依赖关系。
下载并解压缩后,运行depends.exe,使用文件下拉菜单选择你所关注的驱动程序。在这个例子中,我选择了驱动程序Hpcisss2.sys,它应用于HP的磁盘阵列。正如你下面可以看到的,该工具显示,驱动程序Hpcisss2依赖于STORPORT.SYS和Ntoskrnl.exe。
过多的过滤驱动
第三种最常见的Windows Server崩溃类型与安装了太多的过虑驱动时的堆栈溢出条件相关。任何可以拦截I / O请求并执行额外功能的驱动程序都被认为是一个过滤驱动。我们已经知道,杀毒驱动程序就是一个过滤驱动。其它过虑驱动包括磁盘配额管理、磁盘镜像和备份代理等,在这里我只列举了几个。
虽然安装多个过滤驱动本身不会有问题,但是在当这些驱动程序以递归的方式相互调用并因此耗尽了有限的内核堆栈空间时,情况就会发生改变。根据计算机体系结构((x86=12 KB,x64=24 KB),所有设备驱动程序使用的内核堆栈空间是有限的。当内核堆栈空间耗尽时,就会出现一个Stop 0x7F bugcheck导致系统崩溃,就像微软数百篇文档的描述一样。
根本没有办法提供额外的内核堆栈空间来容纳更多的过虑驱动。唯一的选择是识别这些过滤驱动,禁用或卸载其中不需要的那些。有一个内置在Windows Server操作系统中的工具叫FLTMC(过滤器管理器控制程序),它可以让你识别出安装的过滤驱动。
正如你看到的,有很多原因会导致Windows Server崩溃。但是绝大多数服务器停机都是由上述的原因造成的。你完全可以通过两种方式解决这些问题,它们是在升级Windows操作系统或更新相关的热修补程序的同时更新第三方驱动程序和限制未使用的过滤驱动的数量。
本文来源:不详 作者:佚名