《AIX操作系统下应用系统的维护与性能优化.pdf》由会员分享,可在线阅读,更多相关《AIX操作系统下应用系统的维护与性能优化.pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、技T e c h n o l o g yA IX 操作系统下应用系统的维护与性能优化中国工商银行江西省分行宋利辉邹佐来应用维护是一项细致的工作,在工作中除了要求技术人员工作严谨、认真负责外,还要求技术人员必须具备在各种突发事件中较高的处理能力和工作经验。随着工商银行两大数据中心的建立,工行核心业务数据集中到数据中心,各一级分行的工作重点转移到柜面业务系统、综合前置系统和历史数据查询系统等外围系统的维护工作方面,其中A I X 操作系统在工行的使用比较广泛。在应用维护方面,工行使用A I X 操作系统的应用主要有:综合前置系统、跨行支付系统、客户对账系统、历史数据查询系统、国际业务结算系统5 个
2、应用系统。通过几年来的工作实践,我们积累了一些A I X 操作系统环境下应用系统的维护及性能优化的经验,归纳为5 个方面,供同行借鉴。一、A I X 系统数据安全措施在I B M 小型机硬件配置期间,就应该考虑数据的安全性,系统资源的配置要满足容错处理的要求。主要应考虑以下几点:生产主机发生硬件故障后,备机可以马上自动接管应用系统;提高操作系统的硬件冗余,尽量减少单点故障对系统的影响;加强系统备份,减少系统版本升级造成的影响。针对以上要求,可以采取一些安全措施,主要是硬件资源的冗余备份、系统软件和应用软件的合理分布以及高可靠性集群软件的使用。我们的经验是:把A I X 操作系统和H A C M
3、 P(H i g hA v a i l a b i l i t yC l u s t e rM u l t i-P r o-c e s s i n g)软件安装在r o o t v g 上,因为r o o t v g 损坏,系统将无法运行,即使通过备份磁带恢复,也会造成系统停机。因此在磁盘空问充裕的情况下,可考虑对r o o t v g 作镜像。具体做法是将主机的两块内置硬盘做r o o t v g 镜像,这样可提高系统的安全性,防止单块硬盘损坏对系统的影响,即使内置硬盘坏了一块,系统仍可正常运行。在建立r o o t v g 镜像时,应尽量使用连接在不同S C S I 上的硬盘,以做到负载均
4、衡。另外,为提高系统的容错能力,可对磁盘阵列上的硬盘进行镜像配置(R A I D 0)或R A I D 5 冗余配置,配置为d a t a v g,在上面安装数据库和应用程序。为提高节点可靠性,可搭建H A C M P 集群环境,做到双机热备,即在2 台互为备份的主机上配置H A C M P 参数,满足系统热备要求。在日常操作方面,要做好系统备份工作,定期对生产机做两个或两个以上的介质备份。1 r o o t v g 的配置将h d i s k 0 和h d i s k l 做成m i r r o r,配置为r o o t v g。把h d i s k 0、h d i s k l 加到r o
5、o t v g:s m i t t ye x t e n t v gh d i s k l、h d i s k 0-r o o t v g。做m i r r o r:m i r r o r v g c2r o o t v g。在h d i s k 0、h d i s k l 上创建b o o tI M A G E:b o s b o o t a dh d i s k 0,b o s b o o ta dh d i s k l。改变启动设备的顺序:b o o t l i s t mn o r m a lh d i s k 0,h d i s k lc d 02 H A C M P 工作原理H A
6、 C M P 主要是对群集(c l u s t e r)资源的管理,根据应用复杂程度和配置的不同,其群集资源的接管时间在3 0 秒到3 0 0 秒不等,完全不需要人工干预。一个群集中的资源通常包括:应用程序、硬盘、卷组(V G)、文件系统、N F S 文件系统、I P 地址等。资源分属三类资源组(R e s o u r c eG r o u p):层递式(C a s c a d i n g)、替换式(R o t a t i n g)、同时存取式(C o n c u r r e n t)。不同类型的资源组对应不同的接管方式。一个群集中可以有几个资源组,它们可以分别是不同类型,因此,资源接管的方式
7、可以多种多样,配置十分灵活。中国金融电脑2 0 0 5 年第6 期5 1 万方数据术T e c h n o l o g y我们一般采用的是层递式方式,即热备份工作方式,其工作原理是:N o d e A 和N o d e B 都是资源组a 的成员,该资源组a 被设置成层递式方式,N o d e A 对其拥有最高优先级。因此N o d e A 在群集中处于a c t i v e 状态时,它会控制资源组a 中的所有资源,此时N o d e B 处于闲置(i d l e)状态,仅当N o d e Ad o w n 掉时,N o d e B 才会接管资源组a,一旦N o d e A 重新加入群集,N o
8、 d e B 将释放资源组a,N o d e A 重新取得控制权。N o d e B 发生任何故障,不会造成任何影响。二、A I X 系统维护经验1 故障信息的收集收集故障信息对于判断、诊断故障原因,修复系统非常重要。我们通过检查系统错误报告(e r r o r l o g)、发给r o o t 用户的错误报告(m a i l)和检查h a c m p o u t,s m i t 1 0 9,b o o t 1 0 9 等内容来判断系统是否发生故障,根据故障信息进行相应的处理。(1)系统故障记录e r r d e m o n 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息,故障记录
9、文件为v a r a d m r a s e r r l o g,可备份下来或拷贝到别的机器上分析,使用e r r p t 命令(普通用户权限也可使用)。#e r r p tI m o r e列出简短出错信息#e r r p t dH列出所有硬件出错信息#e r r p t dS列出所有软件出错信息#e r r p t a jE R R O R I D列出详细出错信息(2)控制面板上的L E D 代码(3)S M S(S y s t e mM a n a g e m e n tS e r v i c e)故障记录当主控台出现键盘图标后(L E D 显示“E l F l 时”)按1 键。选择“U
10、 t i l i t i e s”,选择“E r r o rL o g”,抄下8 位故障代码。(4)M a i l 检查系统出现故障后会向r o o t 用户发m a i l,报告出错信息。通常系统出现故障后没有进行检查修复,系统还会定时以m a i l 方式提醒r o o t 用户。(5)运行故障诊断程序对系统硬件进行检查和诊断,当发现有硬件故障时应立即使用d i a g。5 2 中国金融电脑2 0 0 5 年第6 期#d i a g 选高级诊断(A d v a n c e dD i a g n o s t i c)选问题诊断(P r o b l e mD e t e r m i n a t
11、 i o n)或选系统检查(S y s t e mV e r i f i c a t i o n)d i a g 运行后会给出S R N 代码、故障设备名称及百分比数、地址代码等。(6)其他用于收集系统信息的命令l s d e v C系统设备信息l s p v查看物理卷信息l s v g查看卷组信息l s l p p查看文件组信息l s a t t r查看设备参数设置1 s c f g查看V P D(V i r t u a lP r o d u c tD a t a)信息2 系统硬件故障定位I B M 小型机硬件故障定位方法包括小型机机柜上的显示面板上的C h e c k p o i n t
12、s 信息,E r r o rC o d e 和S R N s。C h e c k p o i n t s 检查点是系统加电C M O S 初始化程序(I P L,I n i t i a lP r o g r a mL o a d)运行后显示在机柜的显示面板上一系列信息。I P L 流程如下:当系统加电后,自动进入I P L 流程,I P L 流程包括4 个步骤,(至)S e l w i c cP r o c e s s o r 的初始化,始于系统加电,直到O K 显示在机柜上的显示面板上为止。这个步骤会显示8 x x x 或9 x x xc h e c k p o i n t s 代码。由S
13、e r v i c eP r o c e s s o r 引导的硬件初始化,始于按下机柜上的白色电源开关。这个步骤会显示9 x x xc h e c k p o i n t s。“9 1 F F”是最后的代码,标志着第3 步的开始。系统固件的初始化,一个系统处理器接管控制并继续初始化系统资源,这个步骤会显示E x x x。“E 1 0 5”是最后的代码,标志着第4 步骤A I X 启动的开始。在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分)。A I X 启动,当A I X 开始启动时,显示面板上的代码为0 x x x,同时位置码会出现在第二行。当A I X 的登录窗口出现在控制台
14、上时,第4 步骤结束,同时显示面板上再无任何信息显示。当系统运行发现错误时,S R N s 码(S e r v i c er e q u e s tn u m b e r s,服务请求码)会以X X X X X X 的形式显示在显示面板上,同时在A I X 的e r r o A o g 中也会进行登记;当S S A磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的S R N s,同时黄色的显示灯会闪动,在A I X 的 万方数据e r r o r l o g 中会登记相应错误信息,在出现问题后记录下代码,并告之I B M 公司解决。3 软件问题处理软件故障情况错综复杂,下面列举几个常见
15、的故障处理方法。(1)文件系统空问不够查看有没有“满”的文件系统。特别是、v a r、t r a p,不要超过9 0。文件系统满可导致系统不能正常工作,尤其是A I X 的基本文件系统。如(根文件系统)满则会导致用户不能登录。用d f _ k 查看。#d f k查看A I X 的基本文件系统除u s r 文件系统,其他文件系统都不应太满,一般不超过8 0。处理方法1:删除垃圾文件#d u s k$I s o r t r nI h e a d查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件(要区分哪些目录是文件系统的m o u n tp o i n t,哪些是文件系统的子目录
16、)。删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于删除的文件正被某个程序打开。只有当这个程序停止后,空间才释放,有时甚至需要重启系统。处理方法2:增加文件系统大小#s m i t t yc h j f s只要卷组(V G)中有剩余空问,文件系统可以在任何时候加大。(2)检查文件系统的完整性#u m o u n tf i l e s y s t e m n a m e f s c k-yf i l e s y s t e m n a m e注意:文件系统必须先u m o u n t,再做检查和修复,否则将导致未知的后果。(3)查看卷组信息查看是否有“s t a l e”状态的逻辑卷
17、。若有,用s y n c v g命令修复。(4)检查内存交换区使用率检查使用率是否超过7 0,若超过则用c h p s-s Xp g n a m e 增加x 个P P 或用m k p s a n s Xm y v g 在m y v g 上增加一个P P 数为x 的内存交换区。(5)小型机内存泄漏问题小型机出现内存泄漏,即系统或应用进程无法将使技T e c h n o l o g y用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法F O R K子进程,就会造成系统瘫痪。通常我们可以用p s 和s a r命令来查看小型机内存和C P U 占用率的大概情况以
18、及各进程的内存和C P U 占用率的发展趋势。使用p s 命令,可查看内存和C P U 占用率的基本情况。找出其中占用内存数不断变大的进程,这个进程可能就已经发生了内存泄漏。4 I B MH A C M P 双机热备系统的管理和维护(1)H A C M P 双机系统的启动以r o o t 用户身份分别进入系统各节点,执行群s m i tc l s t a r t 命令。(2)H A C M P 双机系统的关闭以r o o t 用户身份分别进入系统各节点,执行#s m i tc l s t o p 命令。(3)查询H A C M P 双机系统的状态在双机系统的运行中,操作员只有知道双机系统的当前
19、状态,才有可能对双机系统出现的异常情况进行恢复处理,保证双机系统的高可用性和高容错性。查询H A C M P 双机系统的状态,以r o o t 用户身份进入需要查询的节点,用#l s s r c gc l u s t e r 命令检查H A C M P 双机软件在该节点是否已启动,系统显示3 个a c t i v e 的信息,则说明H A C M P 双机软件已正常启动。在确认双机软件H A C M P 正常启动的情况下,在命令行执行#u s r s b i n c l u s t e r c l s t a t a 命令查看双机系统的当前状态。5 网络故障处理(1)网络不通的诊断过程i f
20、e o n f i g 查看网卡是否启动(u p);n e t s t a t i 查看网卡状态;I e r r s l p k t s 和O e r r s O p k t s 是否 1;p i n g 本机网卡地址;p i n g 其他机器地址,如不通,在其机器上用d i a g检测网卡是否有问题。在同一网中,子网掩码应一致。(2)网络配置的基本方法如需修改网络地址、主机名等,一定要用c h d e v命令。#c h d e v li n e t 0 一ah o s t n a m e=m y h o s t c h d e v le n 0 一an e t a d d r=7 1 1 2
21、 0 1 5 17 一an e t m a s k=2 5 5 2 5 5 2 5 5 0 7中国金融电脑2 0 0 5 年第6 期5 3 万方数据术T e c h n o l o g y查看网卡状态:#l s d e v C c i f确认网络地址:#i f e o n f i ge n 0启动网卡:#i f e o n f i ge n 0u p配置路由,有两种方式加入路由:a 永久路由#c h d e v一1i n e t 0一ar o u t e=7 1 1 2 1 1 5 2 7 11 2 0 1 5 2 5 4 7b 临时路由#r o u t ea d d1 1 2 1 1 5 _
22、 21 1 2 0 1 5 2 5 4用命令n e t s t a t 一1 3 3 查看路由表6 旧M 公司的巡检流程I B M 公司的巡检流程,对我们日常维护应重点关注的事项有所帮助,大家可以借鉴一下。(1)检查系统硬件情况:设备故障灯是否亮。(2)系统错误报告。(3)检查是否有发给r o o t 用户的错误报告。(4)检查h a c m p o u t,s m i t 1 0 9,b o o t 1 0 9。(5)关键系统的文件使用率不大于8 0。(6)逻辑卷有否s t a l e。(7)内存交换区使用率是否超过7 0。(8)内存交换区的大小是否为物理内存的1 5 倍。(9)检查备份情况
23、(是否有系统备份、用户数据备份,磁带机是否需要清洗)。(1 0)检查通信设置(网卡、I P、路由表、p i n g、e t c h o s t s、D N S 设置等)。(11)是否有数据保护方式如R A I D l 0 R A I D 5,是否有H o tS p a r e o(1 2)系统D U M P 设置是否正确。(1 3)检查系统参数是否正确。(1 4)检查r o o t v g 是否镜像。(15)检查e r r d e m o n,s r e m s t r 是否正常运行。(1 6)检查机房环境(电压、湿度)。(1 7)检查系统性能:是否存在性能瓶颈(t o p a s,v m s
24、 t a t)。(1 8)检查补丁程序(P T F)、微码(是否需要升级)。(1 9)进行H A C M P 测试:C l u s t e rV e r i f i c a t i o n。(2 0)进行系统硬件诊断:运行故障诊断程序(D i a g n o s t i c)。5 4 中国金融电脑2 0 0 5 年第6 期三、A I X 系统参数优化A I X 内核属于动态内核,核心参数基本上可以自动调整,因此当系统安装完毕后,应考虑修改的参数一般包括以下内容。1 系统用户的最大登录数m a x l o g i nm a x l o g i n 的具体大小可根据用户数设定,可以通过s m i
25、t t yc h l i c e n s e 命令修改,该参数记录在e t c s e c u r i t y 1 0 9 i n c f g 文件中,修改在系统重新启动后生效。2 系统用户的l i m i t s 参数这些参数位于e t c s e c u r i t y d i m i t s 文件中,可以把这些参数设为一1,即无限制,可以用v i 修改e t c s e c u r i t y 1 i m i t s 文件,所有修改在用户重新登录后生效。3 P a g i n gS p a c e检查P a g i n gS p a c e 的大小,在物理内存 2 G,可作适当调整。同时
26、在创建P a g i n gS p a c e 时,应尽量分配在不同的硬盘上,提高其性能。利用s m i t t yc h p s 修改原有P a g i n gS p a c e 的大小或利用s m i t t ym k p s 增加一块P a g i n gS p a c e。4 系统核心参数配置利用l s a t t r-E l s y s 0 检查m a x u p r o c,n f i n p o u t,m a x-p o u t 等参数的大小。m a x u p r o c 为每个用户的最大进程数,通常如果系统运行O r a c l e,应调整m a x u p r o e,将
27、D e f a u l t:1 2 8 调整到5 0 0,m a x u p r o c 增加可以马上生效。当应用涉及大量的顺序读写而影响前台程序响应时间时,可考虑将m a x p o u t 设为3 3,m i n p o u t 设为1 6,用s m i t t yc h g s y s 命令设置。5 文件系统空间的设定一般来说,文件系统、u s r、v a r、t m p 的使用率不应超过8 0,t m p 建议至少为3 0 0 M,文件系统满将导致系统不能正常工作,尤其是A I X 的基本文件系统,如(根文件系统)满则会导致用户不能登录。用d f 查看:#d f _ k(查看A I X
28、 的基本文件系统),利用s m i t t yc h f s 扩展文件系统的空问。6 激活S S AF a s t W r i t eC a c h e利用s m i t t ys s a f a s t w 激活每一个逻辑盘h d i s k n 的 万方数据F a s t W r i t eC a c h e:选择硬盘后,把E n a b l eF a s t W r i t e 改为Y e s 后,回车即可。7 H i g hw a t e rm a r kf o rp e n d i n gw r i t eI O sp e rf i l e(m a x p o u t)和L o ww
29、 a t e rm a r kf o rp e n d i n gw r i t eI O sp e rf i l e 配置其缺省值为0,在双机环境中一般应将H i g hw a t e rm a r k 设为3 3,L o ww a t e rm a r k 设为2 4,这两个参数可用s m i t t yc h g s y s 来设置。8 s y n c dd a e m o n 的数据刷新频率该值表示刷新内存数据到硬盘的频率,缺省值为6 0,一般可改为2 0,也可根据实际情况更改。该参数通过s b i n r c b o o t 酉e 置,将n o h u p u s r s b i n
30、 s y n c d6 0 d e v n u l l2&1&参数中的6 0 改为2 0 即可。四、A I X 系统备份和恢复备份和恢复是系统管理员经常要做的事情,主要包括r o o t v g 备份和用户数据备份。1 操作系统和系统程序的备份#t c t l f d e v r m t Or e w i n d#s m i tm k s y s b在“备份设备或文件”中添人“d e v r m t O”后回车,系统会运行很长时间,等到屏幕显示O K 后拿出磁带。这时候,系统备份完成。m k s y s b 仅备份r o o t v g 中已安装的文件系统。2 用户数据备份(1)常用磁带机选项
31、d e v r m t 0:若选择d e v r m t 0,在插入磁带和写完一次磁带时,磁带机都将磁带反绕到头。因此,下一次备份文件将覆盖本次备份。d e v r m t 0 1:若选择d e v r m t 0 1,则插入磁带和写完一次磁带时,磁带机均不反绕磁带。因此,一盘磁带可以连续备份几个文件或文件系统。(2)#s m i tf s选择“备份文件系统”,输入要备份的“文件系统名称”,输入“d e v r m t O 1”,重复上述操作即可在同一盘磁带上备份多个文件系统。3 r o o t v g 的恢复启动机器进入维护模式,当出现“W e l c o m et oB a s e技T e
32、 c h n o l o g yO p e r a t i n gS y s t e mI n s t a l l a t i o na n dM a i n t a n e n c e”时,选3“S t a r tM a i n t e n a n c eM o d ef o rS y s t e mR e c o v e r y”,要恢复系统,继续选4“I n s t a l lf r o maS y s t e mB a c k u p”,出现“C h o o s em k s y s bD e v i c e”画面,选“d e v r m t 0”并插入磁带后回车,系统自动恢复操作系统
33、。4 用户数据恢复#t c t l f d e v r m t 0r e w i n d#s m i tf s选择“恢复文件系统”,添入“设备名称”和“目标目录”,系统会自动恢复相应目录。五、A I X 系统E t 常检查A I X 系统日常检查工作是应用维护非常重要的部分,可以把系统故障排除在萌芽阶段,以下日常检查很有参考价值。(1)硬件检查检查各指示灯状态和各物理设备的可用情况。(2)进程检查检查是否有死进程,使用p s e f 命令列出正在运行的所有进程的各种信息。(3)文件系统是否满适用d f _ k 命令可以以k 为单位检查文件系统的使用率。(4)检查系统出错E l 志使用e r r
34、 p tI m o r e 命令检查,清除现有的l o g:E r r c l e a r0。(5)检查系统合法非法登录情况使用L a s t 命令检查登录地点。(6)检查系统是否有巨大的C o r e 文件生成使用f i n d 一n a m ec o r e p r i n t 命令检查。对C o r e 文件,一般直接删除即可。(7)系统性能检查 C P U 性能:使用V m s t a t,t o p a s 命令检查。内存使用情况:使用t o p a s,v m s t a t 命令检查。检查I O 平衡使用情况:使用i o s t a t 命令检查。交换空间使用情况:使用l s p s a 命令检查。(8)M a i l 检查回中国金融电脑2 0 0 5 年第6 期5 5 万方数据AIX操作系统下应用系统的维护与性能优化AIX操作系统下应用系统的维护与性能优化作者:宋利辉,邹佐来作者单位:中国工商银行江西省分行刊名:中国金融电脑英文刊名:FINANCIAL COMPUTER OF CHINA年,卷(期):2005(6)被引用次数:1次 引证文献(1条)引证文献(1条)1.边琦.孙沛 AIX系统性能监控软件的设计期刊论文-内蒙古师范大学学报(自然科学汉文版)2007(5)本文链接:http:/