《2022年如何去排除服务器故障呢?.docx》由会员分享,可在线阅读,更多相关《2022年如何去排除服务器故障呢?.docx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2022年如何去排除服务器故障呢?如何去解除服务器故障呢?本文主要分三部分:第一部分讲的是服务器故障解除的基本原则性问题;其次部分讲解并描述了一些服务器硬件故障解除的实例;第三部分讲解并描述了一些服务器软件故障解除的实例。第一部分 服务器故障解除的基本原则性问题一、服务器开机无显示应怎么办1、检查供电环境,零-火;零-地电压2、检查电源指示灯,假如亮,正常吗3、按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗4、是否更换过显示器,更换另一台显示器5、去掉增加内存6、去掉增加的CPU7、去掉增加的第三方I/O卡8、检查内存和CPU 插的是否牢靠9、Clear CMOS10、更换主要备件,如系统板
2、,内存和CPU二、服务器故障排错的基本原则是什么1、尽量复原系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件b:资源配置:清除CMOS,复原资源初始配置c:BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序d:TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗2、从基本到困难a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,视察故障现象改变并处理b:硬件上从最小系统到现实系统:指从可以运行的硬件起先逐步到现实系统为止c:软件上从基本系统到现实系统:指从基本操作系统起先逐步到现实系统为止3、交换对比a:在最大可能相同的条
3、件下,交换操作简洁效果明显的部件b:交换NOS载体,既交换软件环境c:交换硬件,既交换硬件环境d:交换整机,既交换整体环境三、服务器故障解除须要收集哪些信息服务器信息:1、机器型号2、机器序列号(S/N:如:NC00075534)3、Bios 版本4、是否增加其它设备,如网卡,SCSI 卡,内存,CPU5、硬盘如何配置,是否做阵列, 阵列级别6、安装什么操作系统及版本(Winnt 4, Netware, Sco, others)故障信息:1、在POST时,屏幕显示的异样信息2、服务器本身指示灯的状态3、报警声和BEEP CODES4、NOS的事务记录文件5、Events Log 文件确定故障类
4、型和故障现象:1、开机无显示2、上电自检阶段故障3、安装阶段故障和现象4、操作系统加载失败5、系统运行阶段故障其次部分 服务器硬件故障处理几例硬件故障是指服务器硬件出现异样而导致的各类错误。由于服务器构成比较困难,因此在检查的时候必需仔细、细致。下面以一台万全4500为例说明。(例子,在实际问题中假如遇到相像现象,也须要详细问题详细分析,不要盲目套用)有一台万全4500,配有256M内存,运用一个PIII XEON 500带2M高速缓存的处理器。开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪耀(指示灯三灯闪耀是服务器的另一种报警方式,我会在文后说明)。
5、这种错误一般是处理器电压调整模块(VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时状况就比较困难了,必需经过仔细慎重的思索。因为CPU板块在整个服务器中,占有举足轻重的地位,假如它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压错的状况也有5%左右。我们立即把CPU调换在另一CPU插槽中,开机后依旧是刚才的那种故障。所以在初步推断中,可以解除是CPU板块坏。这时,取出CPU细致擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依旧无显示。相对处理器坏的状况来说处理器电压模块(VRM)出现故障的状况比较大。于是马上在另一台万全45
6、00中取下一个处理器电压模块,安装在此服务器中。开机后,服务器依旧没有任何显示,系统日志上依旧提示CPU电压为0伏的信息,系统指示灯三灯依旧不停在闪耀。这时的状况就比较明显了。于是马上从另一台万全 4500中取下一个CPU安装后,开机正常。总结:在服务器的修理中,线索都会显得扑朔迷离,一般来说不行能一次就可以精确地推断出问题的所在。这样就要求相关人员要有信念及耐性。出现错误一般的流程是通过系统日志上的信息来解决,假如没有解决问题再找出其它因素,然后再看日志信息。总之,服务器出错后,必需一步一步解决,没有捷径可言。又如:有一台万全4200开机不显示,发觉开机时系统日志没有任何信息,且系统指示灯不
7、亮。初步推断是电源方面出现了错误。经过细致检查,发觉服务器的电源是正常的,因此最大的可能就是服务器的电源管理板出现故障。更换电源管理板后,开机显示正常。但这时,新的问题来了:自检时,用CTRL+M不能检测到硬盘。硬盘在别的服务器上是正常的,因此马上清除此服务器的CMOS,但依旧不正常。立即上网找到此服务器的最新BIOS,升级BIOS后也不能解决问题。又检查硬盘笼子和服务器里的数据线及电源线后依旧出错。这时,一般状况会怀疑是服务器的I/O板(输入输出板块)有问题。但就在这个时候,我发觉在I/O板上有一个非联想的旧式网卡,马上去除此网卡后服务器就一切正常。硬件故障并不单单指硬件有问题,它也指硬件之
8、间不兼容。因为服务器的正常运作须要各部件之间的大力协调。建议大家在选购各元件时,都采纳同一品牌原装的,并且要采纳能发挥服务器性能的元件(上例中的旧式网卡即使正常也会严峻影响服务器性能),这样才不会发生莫明其妙的故障。还有一种状况:用户须要把他的万全3200升级到双网卡,我建议他购买原装网卡,但当他看到万全 4500的网卡是采纳的INTEL 82559芯片后,断然确定不运用原装网卡而采纳另一品牌也采纳INTEL 82559的网卡。过了几天,他打电话给我说,他的新网卡不能运用网络冗余及数据校验,并怀疑服务器有问题。修理工程师带了一个INTEL 82559网卡到用户那里,细致检查了服务器的环境完全正
9、常后,把INTEL 82559网卡安装到机器上后一切正常。这个例子更加说明白,要发挥服务器的最大性能及功能,必需运用原品牌原装的配件。非原品牌非原装的配件,不能支持服务器的某些功能,严峻的会影响到服务器的正常运用。要避开硬件故障发生频率,服务器管理人员必需留意服务器的运用环境完全正常。比较重要的服务器必需在恒温、恒湿的环境;电压也要符合,不仅要采纳UPS,还必需接地线,必需是左零线、右火线,零地电压在13伏。在开、关服务器上必需符合正常的流程。工作人员必需严格执行操作流程。一般状况来说,服务器修理人员对于硬件故障只要有丰富的阅历都能很快找出故障所在,假如不能解决就必需快速与服务器的售后服务中心
10、020-32487454联系。第三部分 服务器常见软故障解决思路与实例服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必需更加深思熟虑。导致服务器出现软件故障的缘由有许多,最常见的是服务器 BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的修理方法。有一台万全3500服务器,配置为双PIII 500带521K高速缓存的CPU、512M内存。开机后,系统日志报电压调整模块异样(VRM)的错误,报错的信息是:Voltage Regulator Module (VRM) over/under-vol
11、tage 2.88V/0V。从表面来看,极有可能是服务器的电压调整模块或其它硬件出现故障,极简单导致维护人员认为是硬件故障。维护人员立即运用其它万全3500的硬件来测试,发觉即使运用新的配件,此服务器依旧报VRM错。就在一筹莫展的时候,修理工程师带来了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的.FIRMWARE后,服务器复原马上正常。FIRMWARE升级方法是, 1) 用软盘启动计算机,然后插入firmware软盘并运行上面的相关文件cabrillo; 2) 系统刷新BMC(主板限制器)和HSC(热插拔背板限制器);
12、 3) 然后系统询问执行第几个选项(通常为2); 4) 然后系统询问服务器的电源配置(通常为2); 5) 假如回答有两个电源,系统询问服务器是否有协助风扇即在第三个电源(冗余电源)的位置上 是否有风扇(通常为N); 6) 然后系统询问是否重写 BMC kernel use area;(通常为N)然后系统询问是否输入一个asset tag; (通常为N) 7)最终系统询问在刷新后是否要重新启动系统;(通常为Y)。这种升级方法也适合刷新系统BIOS等,吩咐的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因
13、为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应当常常更新服务器的FIRMWARE及BIOS,只是在升级之前应当当心谨慎,错误的升级方法将会导致严峻的后果。目前流行的中高档服务器都拥有强大的管理程序,为客户供应了便利的管理途径;服务器也拥有各种操作系统下的驱动程序,便利了客户在各种操作系统中的运用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户运用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只须要刚好更新这些程序就可以避开这类故障。当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无
14、法正常运用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的最好的方法就是在系统中首先禁止此类管理工具,再视察服务器是否还是异样。由于管理工具是随着系统启动而启动的,所以应首先避开它的启动。以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。假如是驱动程序有问题的话,就以平安模式进入系统,看是否正常。但是须要留意的是,在平安模式中,系统速度变慢是正常的(特殊是磁盘I/O方面)。服务器的维护人员就应当常常在服务器网站上下载最新的管理工具程序及驱动程序。这样会削减很大一部份软件故障的发生。相比之下,
15、软件冲突造成的故障推断比较困难,须要管理人员有比较丰富的阅历以及敏锐的视察力。曾经有一位用户说,他有一台万全的服务器无法安装SQL SERVER 2000,已经重装N次NT了,解除是系统故障。而这唯一的服务器又将作为特别重要数据库服务器,因此特别焦急。于是修理工程师去了他的公司查看。这台服务器所在的机房是特别标准、完善的机房,检查了这台服务器的状况,发觉并没有硬件上的故障,于是解除了光驱读盘力差的可能。但是,用户刻的SQL SERVER 2000光盘引起了工程师的怀疑,工程师让他拿出了正版的 SQL SERVER安装,结果还是不行。在安装的过程中,没有出现丝毫错误,可就是在运行的时候会自动退出
16、,没有任何提示。但是,我在管理工具中的事务查看器的系统日志中却发觉了一条信息:windata.exe导致一个无效的数据溢出。Windata是用户自己编写的一个程序,而且是随操作系统启动而启动的程序。我马上结束掉这个进程后,再运行SQL一切正常。对于此类软件故障,操作员最好先查看有关的日志,看看系统中是否有可疑的进程。目前的服务器无论是高端还是低端,对于SQL等标准程序的支持是相当牢靠的,所以解除的重点就是结束可疑进程。还有一种软件故障是人为因素造成的,它一般是人为误操作(包括没按操作流程的操作)、意外关机(包括电源突然不供电)或非正常关闭应用程序造成的。人为误操作因素只要加强管理都可以避开此类故障发生。在这里就具体说明意外关机或非正常关闭程序造成故障的方法。正常关闭系统程序特别重要,尤其是WEB服务器,一个用户就是因为没有正常关闭系统程序而经验了一次数据损坏甚至丢失的经验。第12页 共12页第 12 页 共 12 页第 12 页 共 12 页第 12 页 共 12 页第 12 页 共 12 页第 12 页 共 12 页第 12 页 共 12 页第 12 页 共 12 页第 12 页 共 12 页第 12 页 共 12 页第 12 页 共 12 页