《IBM小型机巡检报告.doc》由会员分享,可在线阅读,更多相关《IBM小型机巡检报告.doc(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、IBM小型机巡检报告IBM小型机巡检报告1、机器型号#unameuMIBM,7029-6E3IBM,01100550A2、检查系统硬件设备故障灯是否有亮3、系统错误报告#errpt-dH-TPERM/硬件的错误报告IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTIONFE4C0250530085308PHsysplanar0UNDETERMINEDERRORBFE4C0250529091308PHsysplanar0UNDETERMINEDERROR#errpt-dS-TPERM/软件的错误报告#errpt-aj*|more/具体的错误信息#errpt-dH
2、-TPERM/tmp/hwerror.log/可以把错误的报告存成一个文件3、有否给root用户的错误报告#mailMail5.2UCBAIX5.XType?forhelp./var/spool/mail/root:5messages3new5unreadU1rootThuMay1509:5324/884diagelamessagefromp615”U2rootFriMay1604:0724/884diagelamessagefromp615N3rootSatMay2413:0823/874diagelamessagefromp6155、检查hacmp.out,smit.log,bootlog
3、等#lssrc-gcluster/#lssrc-gclusterSubsystemGroupPIDStatusclstrmgrEScluster16334active一般上hacmp.out的位置:/usr/sbin/cluster/或者/tmp/,然后找到最近的hacmp.out文件,察看有没有错误信息6、文件系统检查#df-kFilesystem1024-blocksFree%UsedIused%IusedMountedon/dev/hd413107210156823%22684%/dev/hd214417923125698%3605611%/usr/dev/hd9var131072117
4、04811%4182%/var看看有没有超过90%使用率的,建议用户改善7、逻辑卷有否stale的状态#lsvg-lrootvgLVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot111closed/syncdN/Ahd6paging441open/syncdN/Ahd8jfslog111open/syncdN/Ahd4jfs111open/syncd/hd2jfs11111open/syncd/usrhd9varjfs111open/syncd/var如果系统还有其他卷组,也需要察看8、内存交换区的使用率是否超过70%#lsps-aPageSpacePhys
5、icalVolumeVolumeGroupSize%UsedActiveAutoTypehd6hdisk0rootvg512MB1yesyeslv9、系统性能是否有瓶颈#topas#vmstat110kthrmemorypagefaultscpurbavmfrerepipofrsrcyinsycsussyidwa001100294086180000004602750199000110031408616000000156254109900011003140861600000036288400990#iostat110tty:tintoutavg-cpu:%user%sys%idle%iowait
6、0.0394.00.00.0100.00.0Disks:%tm_actKbpstpsKb_readKb_wrtnhdisk00.00.00.000hdisk10.00.00.000cd00.00.00.00010、网络与通讯检查#netstatinNameMtuNetworkAddressIpktsIerrsOpktsOerrsCollen01500link#20.9.6b.3e.6.ac1964053400en0500192.168.0192.168.0.111964053400lo016896link#1267041300lo016896127127.0.0.1267041300#nets
7、tat-rn/察看路由情况RoutingtablesDestinationGatewayFlagsRefsUseIfExpGroupsRouteTreeforProtocolFamily2(Internet):127/8127.0.0.1U7142lo0-192.168.0.0192.168.0.11UHSb00en0-=#vi/etc/hosts/察看hosts文件有否特殊的定义#ping*#lsattr-Elinet0/路由的检测authm65536AuthenticationMethodsTruehostnameh24HostNameTruegatewayGatewayTrueroute
8、net,0,172.16.23.81RouteTruebootup_optionnoSerialOpticalNetworkInterfaceTruerout6FDDINetworkInterfaceTrue11、有否符合要求的系统备份第一次去可以先询问客户关于备份的策略#ls-l/image.data/看看系统有没有备份的image文件,记录最后备份日期-rw-r-r-1rootsystem9600May1917:31/image.data#lsvg-lrootvg/察看有否符合要求的数据备份和保护LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd4jfs111op
9、en/syncd/hd2jfs11111open/syncd/usrhd10optjfs111open/syncd/optoraclelvjfs2801601open/syncd/oracleloglv00jfs2log111open/syncdN/Atestlvjfs10201closed/syncd/tmp/test如何察看数据保护方式RAID10/RAID5,RAID的Hotspare属性是否打开#smittyssaraid?Change/ShowAttributesofanSSARAIDArray检查EnableUseofHotSpares属性是否为YES12、系统Dump设置是否正确
10、#sysdumpdevlprimary/dev/hd6secondary/dev/sysdumpnullcopydirectory/var/adm/rasforcedcopyflagTRUEalwaysallowdumpFALSEdumpcompressionOFF#sysdumpdevPp/dev/hd6s/dev/sysdumpnull#sysdumpdev-P-c13、HACMP测试#/usr/sbin/cluster/diag/clconfig-v-tr/ClusterVerification输出结果无Fail#/lssrc-gcluster14、maxpout,minpout系统参数
11、如果系统中运行了HACMPsmittychgsysy,将High/Lowwatermark从0/0修改为33/24#lsattr-Elsys0|grepmaxpout/maxpout用途:对文件指定未决I/O的最大数目值:缺省值:0(不检查);范围:0到n(n应该是4的倍数加1)#lsattr-Elsys0|grepminpout/指定一个基点,在该基点处,已达到maxpout的程序可以继续写入文件值:缺省值:0(不检查);范围:0到n(n应该是4的倍数,且大于或等于4小于maxpout)15、syncd参数#grepsyncd/sbin/rc.boot/sync()被syncd调用的间隔时间
12、nohup/usr/sbin/syncd10/dev/null2&1&值:缺省值:60;范围:1到任何正整数显示:grepsyncd/sbin/rc.boot或vi/sbin/rc.boot更改:更改在下次引导后有效,而且是永久有效。备用方法是使用命令kill来终止守护程序syncd并用命令/usr/sbin/syncdinterval从命令行重新启动它。诊断:当syncd正在运行时,文件的I/O被阻塞了。调整:在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整性对于HACMP而使syncdinterval明显缩小,会导致性能下降。更改命令为:#vi/sbin/r
13、c.boot16、aio参数/异步I/O可调参数#lsdev-C|grepaio察看状态是否是available#lsattr-Elaio0minservers1MINIMUMnumberofserversTruemaxservers10MAXIMUMnumberofserversTruemaxreqs4096MaximumnumberofREQUESTSTruekprocprio39ServerPRIORITYTrueautoconfigavailableSTATEtobeconfiguredatsystemrestartTruefastpathenableStateoffastpathTr
14、ue#smitaio/可以更改参数17、检查errdaemon,srcmstr是否正常运行#ps-ef|greperr#ps-ef|grepsrc18、系统硬件诊断#diag-DiagnosticRoutines-SystemVerification-AllResources-F7或者Esc+719、补丁程序PTF是否满足要求,当前系统补丁版本#oslevelr5300-04#instfix-i|grepAllfilesetsfor5.3.0.0_AIX_MLwerefoundAllfilesetsfor5300-01_AIX_MLwerefound.Allfilesetsfor5300-02
15、_AIX_MLwerefoundAllfilesetsfor5300-03_AIX_MLwerefound.Allfilesetsfor5300-04_AIX_MLwerefoundAllfilesetsfor5300-05_AIX_MLwerefound.#lscfg-vp/检查所有设备的微码20、收集系统信息放到/tmp/ibmsupt#snap-ac/运行#snap-ac,生成文件snap+s/n.pax.Z扩展阅读:IBM小型机巡检报告河南建行IBM小型机日常维护第一篇:日常维护部分第二篇:故障处理部分第1章AIX系统管理日常工作(检查篇)1.1常用的命令CPUMemoryvmstat
16、,psDiskNetwork标准UNIX命令(包vmstat,sar,ps括HP、SUN等)AIX详细输出AIX非常详细输出Tprofsyscalls,emstattopasiostat,sar,vmstat,netstat,nfsstatsvmon,rmsstrace,tracefilemon,fileplacetraceentstattrace,iptrace分析工具topastopastopas1.2语法介绍1.2.1vmstat:检查内存、CPU、进程状态#vmstat26kthrmemorypagefaultscpu-rbavmfrerepipofrsrcyinsycsussyidw
17、a10281328127700000013237567651340202813281277000000127338131990002028132812770000001323161319900020281328127700000012031712699000202813281277000000146316127990020281328127700000013031712599000202813281277000000135316127990002028132812770000001293171249900020281328127700000013330412799000r:正在运行的进程b:被
18、阻挡的进程avm:活动的虚内存,单位4kbfre:自由列表,位4kbpo:页换出pi:页换入sy:系统占用CPUid:空闲CPUwa:等待的CPU1.2.2sar:检查CPU、IO例如:sar-u130sar-PALL110语法:sar-abckmqruvwyAintevalrepetition-bbuffer活动-c系统调用-k内核进程统计.-m消息及信号量活动-q正在运行的队列数及等待队列数-r页交换统计-uCPU利用-PCPU负载.1.2.3PS:检查进程状态命令ps:显示当前SHELL重所有进程ps-ef:显示系统中所有进程,f显示更详细信息ps-uoracle:显示oracle用户进
19、程psemoTHREAD:显示线程信息psau;psvg:按使用时间显示进程(最近一次调用)psaux:按使用时间显示进程(进程启动)1.2.4svmon:显示进程占用内存svmonG:显示系统占用内存svmon-Ccommand_name:显示某个用户进程占用内存svmon-Ppid显示某个进程占用内存svmonS:显示段占用内存1.2.5iostat:显示磁盘IOtty:tintoutavg-cpu:%useriowait0.04.00.91.395.4Disks:%tm_actKbps%sys%idle%2.5tpsKb_readKb_wrtnhdisk058.4218.341.2172
20、920hdisk116.885.621.44280hdisk250.6223.955.6110020hdisk316.885.621.44280hdisk40.00.00.000hdisk543.4279.169.813960hdisk60.00.00.000hdisk716.427.220.20216hdisk80.00.00.0hdisk99.4156.011.4hdisk1016.427.220.2cd00.00.00.0netstat,entstat:显示网卡信息netstaten0:显示en0信息netstats:显示网络信息netstat-m显示网络stat-i显示网卡状态nets
21、tat-Ien01显示eno网卡塞(1秒间隔)no:显示tcpip参数设置noa:显示tcpip所有参数当前设置no-otcp_keepalivetime=7202100设置tcp_keepalivetime等于3600000秒nod恢复默认值注:该方法在重启后失效0007800136001.2.61.2.1.2.8其它命令检查文件系统df-k检查设备lsdev-C检查物理卷lspv检查交换区lspsalsps-s检查系统硬件配置lscfgvpprtconf检查软件lslpp-l操作系统版本检查oslevelruname-a操作系统补丁检查Instfixi|grepML检查系统盘的镜像lspv
22、lrootvg检查逻辑卷lsvgo|lsvgil|more系统dump分区检查sysdevdumplsysdumpdev-ebootlistmnoraml-o系统引导顺序检查AIO参数检查lsattr-Elaio0IO参数设置smittychgsyssyncddaemon的数据刷新频率IBM双机检查more/sbin/rc.bootlssrcgcluster/usr/sbin/cluster/clstat-aerrpt|moreerrptdHerrpt-dSPsef|grepsrcmstPsef|greperrdemon系统日志检查系统关键进程检查操作系统备份与恢复1.3用SMIT备份#smi
23、ttymksysb进行系统备份当COMMANDSTATUS页面中Command:OK出现后,表示备份成功。取出制作完毕的磁带,在磁带上的标签上注明备份机器的名称和序列号1.4手工备份#mksysbi/dev/rmt1.5恢复系统bootinfoe检查系统所带的磁带机是否能启动系统,如果返回值是1,表示该磁带机支持启动系统,如果返回值是0,就是不支持。插入备份带,检查设备启动顺序:bootlistmserviceo如果需要,将启动顺序改为从磁带启动:bootlistmservicermt0重启机器,系统从磁带读数据,根据提示恢复系统。故障处理部分1.6收集故障信息对于判断诊断故障原因修复系统非常
24、重要1.7系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog可备份下来或拷贝到别的机器上分析errpt命令的使用(普通用户权限也可使用)#errpt|more列出简短出错信息ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION192AC0710723100300T0errdemonErrorloggingturnedoff0E017ED10720211000PHmem2Memoryfailure9DBCFDEE0701000000T0errdem
25、onErrorloggingturnedon038F25800624131000UHscdisk0UNDETERMINEDERRORAA8AB2410405130900TOOPERATOROPERATORNOTIFICATIONTIMESTAMP:MMDDHHMMYY(月日时分年T类型:P永久;T临时;U未知永久性的错误应引起重视C分类:H硬件;S软件;O用户;U未知#errpt-dH列出所有硬件出错信息#errpt-dS列出所有软件出错信息#errpt-ajERROR_ID列出详细出错信息#errpt-aj0502f666FailureCausesADAPTERCABLELOOSEORDEF
26、ECTIVERecommendedActionsPERFORMPROBLEMDETERMINATIONPROCEDURESCHECKCABLEANDITSCONNECTIONSDetailDataSENSEDATA0000000000000000000000000000000000000000000000001.8控制面板上的LED代码8位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码4位代码通常是Exxx3位代码通常为0yyy只看后3位8位和4位代码可查看系统服务手册(ServiceGuide)3位代码可查看系统诊断手册(DiagnosticInformationforMu
27、ltipleBusSystem)闪动的888,系统崩溃硬件或软件原因造成按reset键会显示更多内容888-102一般为软件故障888-102-207例外系统会产生一个dump888-102-xxx-0C9系统正在做dump,请等待888-102-xxx-0C0系统dump完成可关电重启888-103或105硬件故障一般有SRN代码及位置代码1.9SMS(SystemManagementService)故障记录如何进入SMS菜单当主控台出现键盘图标后(LED显示E1F1时)按1键选择Utilities选择ErrorLog,抄下8位故障代码在SMS中还可以更改系统启动顺序表1.10MAIL#mail系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查修复系统会定时提醒root1.11运行故障诊断程序(Diagnostic)对系统硬件进行检查和诊断当发现有硬件故障时应立即使用diag#diag选高级诊断AdvanceDiagnostic)选问题诊断ProblemDetermination)或选系统检查SystemVerification)(选PD会对系统错误记录进行分析)diag运行后会给出SRN代码故障设备名称及百分比地址代码等对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析第 11 页 共 11 页