《2022年巡检常用命令 .pdf》由会员分享,可在线阅读,更多相关《2022年巡检常用命令 .pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、IBM AIX 小型机巡检常用命令及流程第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。参考值:温度(摄氏)10 40湿度8%80%第二:就是关于电源的检测,这个只要不是新装机,一般没问题。参考值:零-地电压小于 1V 火-地电压200-240V(补充:当然59 系列的机器相间380V,相地 240V)第三:关于报错。主要查看硬件的永久性报错#errpt-dH|pg软件的永久性报错#errpt-dS|pg 还有系统又没又报警灯第三:机器的序列号:#uname-Mu 第四:操作系统版本:#oslevel-r 注:有时候不能使用是因为系统版本低的原因第五:其他检测执行 sysdump
2、dev l(检查 dump 是否设置为always allow sysdump)执行 sysdumpdev e(检查当前dump 大小应该为主dump 设备的大小的80以下)执行 lsvg-l rootvg(检查有否 stale状态的逻辑卷)执行 lsps-s(检查内存交换区占用情况)执行 df k(检查文件系统的分配状况,一般不要超过80%)执行 lsdev Cc disk(检查硬盘状态为available)执行 lsdev Cc adapter(检查 PCI 卡状态为available)执行 lsdev Cc tape(检查磁带机状态为available)执行 lsdev Cc proce
3、ssor(检查 CPU 状态为 available)执行 lsattr El sys0|grep autorestart(检查系统crash 后是否自动重新启动)执行 lsattr El sys0|grep cpuguard(检查 CPU GUARD 是否开启)执行 lsattr El mem0(检查内存状态正常size=goodsize)执行vmstat 2 iostat,topas 观察 us,sy,pi,po,(内存占用率,硬盘读写速度等检查是否有性能瓶颈)执行 netstat in 和 netstat rn(观察网络状态)执行 entstat d enX(检测网卡运行速率与交换机速率是
4、否匹配)(网卡速率由10M半工改为自适应时,缺省网关会丢失。更改网卡速率后需要在系统中执行smitty route 操作重新激活缺省路由。如果进行网卡速率的调整,请务必小心。)执行 ping 命令(检查网络连接状况)执行 lsdev C|grep aio(检查异步IO 是否可用)执行 lssrc g cluster(查看是否有三个进程均为active 状态)(这个主要看起了几个 HA 的进程了,有的时候是一个或两个)执行/usr/sbin/cluster/clstat a(查看 cluster 状态是否正常)检查/etc/hosts,确保双机配置中IP 别名不会存在包含关系(share_ip1
5、 包含了 share_ip)执行#more/usr/es/adm/cluster.log#more/usr/es/sbin/cluster/history/*#cat/tmp/hacmp.out(检查这三个日志中是否有error 或者 fail.)检查 7133 面板上的指示灯,如果黄灯亮则需要诊断问题HOTspare 磁盘检测1、检查是否有raid 保护#smitty ssaraid-List All Defined SSA RAID Arrays 2、检查是否有Hot Spare#smitty ssaraid-List Components in a Hot Spare Pool 对于 7
6、133,执行 Smitty ssaraid?List All Defined SSA RAID Arrays查看 7133 raid 状态,正常应该为good 状态。对于 7133,执行 Smitty ssaraid?Change/Show Use of an SSA Physical Disk 查看 7133 硬盘状态,正常应该为 member 或者 spare状态对于 FastT,分别登录上两个controller(登陆方法后面详细讲解),查看是否有错误日志。记录检查结果cpu(主频*数量)#lsattr-El proc0 名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 4
7、页 -内置磁盘个数:#lsdev-Cc disk 网卡信息:#lsdev-Cc adapter 系统属性:#lsattr-E-l sys0 1 系统错误报告(Error Log)的检查:硬件故障检测命令:#errpt-d H-T PERM 若有故障执行命令#errpt-a-d H-T PERM/tmp/harderror.log保存,分析结果报告给客户软件故障检测命令:#errpt-d S-T PERM 若有故障执行命令#errpt-a-d S-T PERM/tmp/softerror.log保存,分析结果报告给客户2 有否发给root 用户的错误报告(mail):#mail(1)观察所有未读
8、消息,注意有关diagela 的消息。(2)常用命令:h Display headings of group containing message t Display messages in or current message.n Display next message.q Quit(3)对发现的问题详细分析,结果报告给客户3 文件系统的检查:命令:#df k%Used 为文件系统的使用率。所有文件系统的使用率不能大于80%4 通信系统的检测:(1)网卡的状态命令:#ifconfig a 输出判断:en0:flags=e080863 inet 192.9.200.2 netmask 0 x
9、ffffff00 broadcast 192.9.200.255 en1:flags=e080863 inet 192.9.201.1 netmask 0 xffffff00 broadcast 192.9.200.255 主备网卡的flag 为 UP 属正常。同时检查ip 地址和 netmask 是否正确。(2)路由的检测命令:#lsattr El inet0 authm 65536 Authentication Methods True hostname h24 Host Name True gateway Gateway True route net,0,172.16.23.81 Rou
10、te True bootup_option no Serial Optical Network Interface True rout6 FDDI Network Interface True(3)网络的检测命令:#ping ip address 输出判断:用 ping 命令对/etc/hosts 文件中的IP 地址进行操作,检测网络是否联通。5系统 DUMP 设置的检查命令:#sysdumdev l 输出判断:结果应为primary/dev/hd6 secondary/dev/sysdumpnull copy directory/var/adm/ras forced copy flag TR
11、UE always allow dump FALSE dump compression OFF 若不正确请用下列命令修改:#sysdumdev P p/dev/hd6 s/dev/sysdumpnull 6系统硬件诊断:命令顺序为:(1)#diag(2).Enter(3).Diagnostic Routines(4).System Verification(5).All Resources(6).F7 输出判断:结果应为No trouble was found.7补丁程序(PTF)的检查(1)系统维护补丁版本为ML09,检查命令为:#instfix i|grep ML 8系统参数的检查名师资料
12、总结-精品资料欢迎下载-名师精心整理-第 2 页,共 4 页 -(1)HIGH water mark for pending write I/Os#lsattr-El sys0|grep maxpout 输出判断:结果应为maxpout 33 HIGH water mark for pending write I/Os per file True(2)LOW water mark for pending write I/Os#lsattr-El sys0|grep minpout 输出判断:结果应为minpout 24 LOW water mark for pending write I/Os
13、 per file True 更改命令为:#chdev-l sys0-a maxpout=33-a minpout=24(3)Syncd 参数#grep syncd/sbin/rc.boot 输出判断:结果应为nohup/usr/sbin/syncd 10 /dev/null 2&1&更改命令为:#vi/sbin/rc.boot(4)aio 参数#lsdev-Cc aio 输出判断:结果应为aio0 Available Asynchronous I/O#lsattr-El aio0 输出判断:结果应为minservers 1 MINIMUM number of servers True max
14、servers 10 MAXIMUM number of servers True maxreqs 4096 Maximum number of REQUESTS True kprocprio 39 Server PRIORITY True autoconfig available STATE to be configured at system restart True fastpath enable State of fast path True 更改命令为:#smitty aio(5)Limits 文件的设置:#ulimit a 输出判断:结果应为time(seconds)unlimit
15、ed file(blocks)2097151 data(kbytes)262144/尤其是这项参数stack(kbytes)32768 memory(kbytes)32768 coredump(blocks)2097151 nofiles(descriptors)2000 更改命令为:#vi/etc/security/limits 更改 data为 524288 9.集群状态检查smitty ssaraid List All Defined SSA RAID Arrays hdisk1 40263B2E0DF74CK system good 91.1GB RAID-5 array(如果是goo
16、d 就正常)IBM 巡检流程1、检查系统硬件情况:设备故障灯是否有亮2、系统错误报告(errlog)3、有否发给root 用户的错误报告(mail)4、检查 hacmp.out,smit.log,boot.log 5、关键系统的文件使用率不大于80%6、逻辑卷有否stale 7、内存交换区使用率是否超过70%8、内存交换区的大小是否为物理内存的1.5 倍9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)10、通信(网卡、IP、路由表、ping、etchosts、DNS 设置等)11、是否有数据保护方式如RAID10RAID5,是否有 Hot spare 12、系统 DUMP 设
17、置是否正确13、检查系统参数是否正确1)etcenviroment 中的 TZ 不能有夏时制2)如有数据库:Aioavailable 3)HACMP 中IO pacingHigh Water MarkLow Water MArk3324 4)HACMP 中Syncd10 5)HACMP 中Power Monitoroff 14、检查 rootvg 是否有镜象名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 4 页 -15、检查 errdemon,srcmstr 是否正常运行16、机房环境(电压、湿度)17、系统性能:有否性能瓶颈(topas,vmstat)18、补丁程序(PTF)、
18、微码(是否需要升级)19、HACMP测试:Cluster Verification 20、系统硬件诊断21、运行#snap-ac,生成文件snap+sn.pax.Z 22、机器清洁注 115 为 A 类维护(季度维护),1618 为 B 类维护(半年维护),1922 为 C 类维护(年度维护)1、检查系统硬件情况:设备故障灯是否有亮2、系统错误报告(errlog)errpt-d H-T PERM对有怀疑的进一步errpt-aj 错误代码more3、有否发给root 用户的错误报告(mail)mail 4、检查 hacmp.out,smit.log,boot.log#cd tmpls hacmp
19、.out找到时间最近的字节不为零的文件,vi 查看如果怀疑系统曾经有调整操作,检查smit.log alog-ot boot 5、关键系统的文件使用率不大于80%#df k(查看%Used)6、逻辑卷有否stale#lsvg-l 卷组名称(查看状态是否有stale 的逻辑卷)7、内存交换区使用率是否超过70%#lsps a(查看占用率是否超过70%)8、内存交换区的大小是否为物理内存的1.5 倍命令同上现在原则有所改变,2G 内存以下可按照1.5 倍的标准,2G 内存以上如果交换区占用率不高,可用2GB 标准9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)口头询问:系统备份、
20、数据备份检查磁带机面板,提醒用户清洗10、通信(网卡、IP、路由表、ping、etchosts、DNS 设置等)#netstat in#netstat rn#netstat I#vi etchosts(检查 DNS 相关文件内容)11、是否有数据保护方式如RAID10RAID5,是否有 Hot spare 如果是 7133,diag Task SelectionSSA Service Aids Link Verification,smitty ssaraid FAStT 产品使用其管理软件Storage Manager 查看ESS使用 ESS 控制台查看12、系统 DUMP 设置是否正确sys
21、dumpdev-l 13、检查系统参数是否正确1)etcenvironment 中的 TZ 不能有夏时制#vi etcenvironment检查环境变量TZ,其格式应该是这样:TAIST-8,而不能是TAIST-8TAIDT-7这样的格式2)如有数据库:Aioavailable#lsdev-Cgrep aio(查看其状态是否available)如不是:smitty chgaio,将状态修改为available,重启系统3)HACMP中 IO pacingHigh Water MarkLow Water MArk3324 如果系统中运行了HACMP#smitty chgsysy,将 HighLo
22、w water mark从 00 修改为 3324 4)HACMP中 Syncd10 如果系统运行了HACMP 查看 etcinittab,将 syncd 后次参数修改为10,然后 telinit q,kill-9 syncds PID 5)HACMP中 Power Monitor off 14、检查 rootvg 是否有镜象lsvg-l rootvg 查看镜像15、检查 errdaemon,srcmstr 是否正常运行#ps-efgrep err#ps-efgrep src16、机房环境(电压、湿度)基本要求:零地电位差不得大于1V;严格要求:零地电阻=1(国内没几个能做到,=3 就差不多了
23、)湿度:45%70%17、系统性能:有否性能瓶颈(topas,vmstat)18、补丁程序(PTF)、微码(是否需要升级)#instfix-igrep ML 查看补丁级别及是否完整;#lscfg vp 检查所有硬件设备微码19、HACMP测试:Cluster Verification(smitty hacmp Cluster Configuration Cluster Verification)20、系统硬件诊断diag Advanced Diagnos.Problem Determination21、运行#snap-ac,生成文件snap+sn.pax.Z 22、机器清洁名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 4 页 -