《IBMXSeries解决问题汇总讲解学习.doc》由会员分享,可在线阅读,更多相关《IBMXSeries解决问题汇总讲解学习.doc(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Good is good, but better carries it.精益求精,善益求善。IBMXSeries解决问题汇总-IBMXSeries解决问题汇总1:x445开机加电无显示故障故障现场:开机加电无显示故障;双电源、双CPU、8条内存操作内容:单CPU测试1.去掉一颗CPU和VRM测试,开机正常2.加入去掉的CPU和VRM测试,开机正常3.刷新BIOS问题总结:多CPU配置机器大部分时候开机加电无显示大多都是由于CPU的VRM接触不良导致,在有能力的情况下做单CPU测试:故障现场:X345的信息指示灯亮灯报错,但光路LED没亮灯操作内容:查看ErrorLog,里面有SingleBit
2、Error,更换内存问题总结:日志里面有SingleBitError,更换内存就好了。3:故障现场:X346的信息指示灯亮灯报错,具体显示PS2错误或光诊断面板没有出现相关的硬件报错信息操作内容:确定不是硬件问题,F1进入BIOS看postenventlog为空进入adv-BMCsetting清除BMClog。关闭服务器红灯消失。重起现象还存在,把电源去电几分钟就好了这个是ibm服务器的bmc的一个bug现在可以更新bmc解决这个问题。一般换电源背板就可以解决,在单电源状态下,故障现象:PS2灯报错。有部分机器出厂时就有这个问题:标配单电源,却误报第二个电源未接,所以PS2灯亮。是电源背板微码
3、识别错误,导致误报。将电源背板更换成07版本以上就可以了。可打800电话报修,上门更换。若加载两个正常的电源,原故障消失,但又出现Fan故障。你所加载的电源,肯定是直接从别的X346机器上拔下来的。事实上如果加插冗余电源,则X346要求风扇也必须满配,否则报错。问题总结:X346通病,电源换一个位置就差不多没问题了,或者试试关掉电源几分钟再开机4:关于cpu不同级问题故障现场:X366-1RC,使用个标配的CPU时正常,当加入第二个CPU时出现不定时无故重起操作内容:TheCPUsinthismultiprocessorsystemarenotallthesamerevisionlevel.T
4、ouseallprocessorstheoperatingsystemrestrictsitselftothefeaturesoftheleastcapableprocessorinthesystem.Shouldproblemsoccurwiththissystem,contacttheCPUmanufacturertoseeifthismixofprocessorsissupported.系统日志。F1进入Bios,进入cpu信息p1levels17,p2levels2相差太远了解决方法更换第二个cpu问题总结:CPU不在一个等级上(服务器的cpu都是xeon话支持smp技术,但是一样的C
5、PU使用时一定要确定是否在一个等级)5:故障现场:X260的服务器8IRAID卡,通过SERVERGUIDE光盘进入进行RAID配置进,行RAID配置的过程中却没有发现任何磁盘操作内容:下载了SERVERRAID8.20光盘后。给客户的升级了13N2227的FIRMWARE和BIOS后问题总结:X260服务器内部架构属于X3架构,与X366内部类似。同样安装了8IRAID卡。X260为新机型需要用FRU号为39R8729的那块卡才行,原先的13N2227这块卡不行。或升级13N2227这块卡的FIRMWARE和BIOS。通过SERVERRAID8.20启动后能够正常认出硬盘并进行了RAID配置
6、6:X236+6M认不出盘故障现场:X236+了6M卡和6块146GSCSI盘操作内容:在读取6M阵列卡BIOS时却一直处于6分钟的搜索硬盘过程,但一个盘都没有认出,进入CTRL+I对6M卡的BIOS进行了RESTORFACTOR,但是却一直卡在PROSSING的这个过程中。6M卡进行了重新插拔,更换PCI槽口,以及更换SCSI槽口结果仍然没有效果。咨询提示提示:1、先把所有硬盘拔下。2、开机进6M卡BIOS重新进行RESTORFACTOR。3、一块一块的逐个添加磁盘。成功问题总结:每次新添加一块磁盘的时候在6M卡BIOS读秒的时候大概是需要1分10秒左右。其中有一次我是一下子添加了2块盘用掉
7、2分钟多点。那是不是因为6块盘一起上的时候6M卡搜索磁盘的读秒时间不够所造成磁盘没有搜索到呢有待证实。7:HBA卡驱动错误故障现场:服务器NMI/PCI/LOG灯亮,进系统时蓝屏操作内容:刷新BIOS/BMC/CPLD/DIAGNOSTIC。1.抓去BMC日志保存2.检查机器内部PCI卡,PCI4槽位上接了一块Qlogic的HBA卡,这张卡接的非常松,感觉根本没有插上3.拔掉HBA卡开机测试一切正常,清空日志,断电再将HBA卡重新插回去开机测试,在windows2003自检硬件过程中系统又蓝屏,同时NMI/PCI/LOG灯亮。4.重新去除HBA卡开机后正常进入系统,考虑机器微码比较老,先把微码
8、用updateexpress4.05光盘刷到最新版本,再接回HBA后正常进入系统,但是这时在系统中提示要重新安装HBA卡的驱动程序,客户自行找了一个驱动安装上后重新启动,重启后检测硬件故障又出现了。这样可以判断应该是HBA卡驱动的问题。5.开机按F8进入操作系统,将HBA卡驱动删除,然后查看HBA型号,安装针对该型号驱动后,一切正常,多次重启都无故障。问题总结:硬件故障的排除步骤8:更换8863机器硬盘服务故障现场:88631RC,5块硬盘,RAID5,ID0硬盘频繁离线,每次重新拔插都能正常rebuild操作内容:1.安装serveraidmanager8.40版,安装过程无报错,在重新启动
9、服务器关闭操作系统过程中有几个软件的报错2.重启过程中在通过windows2000启动进度条之后系统蓝屏,蓝屏代码c0000218,上一次正确配置、安全模式均出现次故障3.查看raid卡日志并未发现有明显的报错,想查看阵列是否有坏条带,但是在8i日志中并未看到有坏条带这一相关信息,向同事请教也未发现有相关信息;将raid卡BIOS和Firmware同样升级到8.40(5.20.11835)后故障同样。客户有相同机器,安装的系统版本也一致,通过另外一台机器创建紧急修复磁盘对操作系统进行紧急修复(手动和快速两种方式)后故障依旧。通过internet上搜索,有朋友通过故障恢复控制台进入使用chkds
10、k/r指令修复了该故障,尝试相同方法,故障依旧。(网上的朋友是单硬盘模式,可以修复该类硬盘坏区故障,由于客户使用的是raid5阵列,所以这种修复无效)4.考虑客户数据问题,在原有操作系统上覆盖安装windows2000server后先把重要数据备份出来,之后再重新安装了一遍操作系统5.然后使用serveraidsupportcd8.40光盘引导服务器将ID0硬盘手工设置为defunct状态,再将其拔出,插上新硬盘,硬盘这时开始自动rebuild,由于硬盘中数据量不是很大,5块73.4G硬盘同步时间大约为30分钟,同步全为后台自动操作,在同步期间服务器重启多次,重启到检测阵列卡过程中停止,提示阵列卡发现有硬盘missing或者arrayisrebuilding,提示三种操作:a.直接安回车,接受现在的状态;b.按ctrlh(后面忘了是什么,等待查hmm);c.按ctrlm(后面忘了是什么,等待查hmm);所以在每次重启过程中都需要手动按下回车之后才会进入操作系统6.刷新5个硬盘的微码到同一版本T107,结束服务关闭本页(2009-6-115:27:59)-