内存容量不足主要是由于服务器同一时间处理并发太多,占用太多的内存资源,导致服务器处理响应不过来,产生当机。
内存质量问题主要是内存芯片出厂前的芯片故障或内存厂商装配时的虚焊等。
内存资源冲突的问题主要是在运行操作系统或应用软件时,由于系统线程抢占资源或软件应用程序争抢内存地址而产生的内存资源冲突,从而导致服务器死机的现象。
解决的方法只能是采购员与操作员在进行装配和升级、测试等工作时,持严谨的技术态度,认真细致的检查硬件的每个环节;对于内存资源冲突的问题,主要通过选用冗余支持的内存和在并发高峰期来临前进行内存清理等工作来避免。
5)硬盘故障
硬盘引起当机的故障主要是由于使用时间长久、读写次数过多引起了磁道、扇区损坏的故障,再加上硬盘各部位的老化、磁盘碎片与垃圾文件过多等。
在一些有实力的公司,每隔两三年,会对正运行的服务器磁盘进行更新换代,将旧硬盘数据向新硬盘实现迁移,并将旧硬盘替换到一些测试或者办公备用等地方,最大限度的避免了硬盘故障引起的当机现象。大家可以以此为参考,参照成本预算等因素,尽量在磁盘损坏之前进行更新换代,避免引起重要数据的损毁。
磁盘碎片与垃圾文件在每时每刻的运行中都会产生,由于磁盘碎片过多或垃圾文件过多,造成可用空间资源过少时,也可能会在服务器多程序运行时当机。解决的办法是定期对磁盘碎片与垃圾文件进行清理。
6)电源故障
电源引起当机的故障主要是风扇坏掉或电子器件与线路损坏等。
现在市面上的服务器厂家批量采用的电源很多都是HIPRO
电源由于风扇或其中电子器件与线路故障引起的当机,除了需要进行防尘处理外,基本没什么特殊的防范准则,因为随机的偶然性,大多数情况下只能在当机出现的时候,拿备用电源替换,尽量减少当机引起的运行时间损耗的问题。
7)操作不当
一般情况下,机房的空间都是尽量有效利用的。打个比方,如果需要对机柜内的一部服务器拆开进行硬件升级,在它上面还码放了几部机架式服务器,为了不中断上面几部服务器的运行,可能需要二至三个操作人员协作才能将上面几部服务器托起,并把需升级的服务器拖出。这个过程看起来很简单,不过如果没有什么移机经验,冒失地跑上去拖拽抬放,很可能就导致上面几部服务器内硬盘部件因振动而与总线接触不良,从而导致当机。
另外,主板故障引起的服务器当机基本都需要返厂修理,与电源故障原由基本相同,其处理方法在次不再赘述。
本文来源:PConline服务器频道 作者:大兵