《AIX操作系统下应用系统的维护与性能优化.doc》由会员分享,可在线阅读,更多相关《AIX操作系统下应用系统的维护与性能优化.doc(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、操作系统下应用系统的维护与性能优化 应用维护是一项细致的工作,在工作中除了要求技术人员工作严谨、认真负责外,还要求技术人员必须具备在各种突发事件中较高的处理能力和工作经验。随着工商银行两大数据中心的建立,工行核心业务数据集中到数据中心,各一级分行的工作重点转移到柜面业务系统、综合前置系统和历史数据查询系统等外围系统的维护工作方面,其中操作系统在工行的使用比较广泛。在应用维护方面,工行使用操作系统的应用主要有:综合前置系统、跨行支付系统、客户对账系统、历史数据查询系统、国际业务结算系统个应用系统。通过几年来的工作实践,我们积累了一些操作系统环境下应用系统的维护及性能优化的经验,归纳为个方面,供同
2、行借鉴。一、系统数据安全措施在小型机硬件配置期间,就应该考虑数据的安全性,系统资源的配置要满足容错处理的要求。主要应考虑以下几点:生产主机发生硬件故障后,备机可以马上自动接管应用系统;提高操作系统的硬件冗余,尽量减少单点故障对系统的影响;加强系统备份,减少系统版本升级造成的影响。针对以上要求,可以采取一些安全措施,主要是硬件资源的冗余备份、系统软件和应用软件的合理分布以及高可靠性集群软件的使用。我们的经验是:把操作系统和( )软件安装在上,因为损坏,系统将无法运行,即使通过备份磁带恢复,也会造成系统停机。因此在磁盘空间充裕的情况下,可考虑对作镜像。具体做法是将主机的两块内置硬盘做镜像,这样可提
3、高系统的安全性,防止单块硬盘损坏对系统的影响,即使内置硬盘坏了一块,系统仍可正常运行。在建立镜像时,应尽量使用连接在不同上的硬盘,以做到负载均衡。另外,为提高系统的容错能力,可对磁盘阵列上的硬盘进行镜像配置()或冗余配置,配置为,在上面安装数据库和应用程序。为提高节点可靠性,可搭建集群环境,做到双机热备,即在台互为备份的主机上配置参数,满足系统热备要求。在日常操作方面,要做好系统备份工作,定期对生产机做两个或两个以上的介质备份。的配置将和做成,配置为。把、加到: 、 。做: 。在、上创建 : , 。改变启动设备的顺序: , 工作原理主要是对群集()资源的管理,根据应用复杂程度和配置的不同,其群
4、集资源的接管时间在秒到秒不等,完全不需要人工干预。一个群集中的资源通常包括:应用程序、硬盘、卷组()、文件系统、文件系统、地址等。资源分属三类资源组( ):层递式()、替换式()、同时存取式()。不同类型的资源组对应不同的接管方式。一个群集中可以有几个资源组,它们可以分别是不同类型,因此,资源接管的方式可以多种多样,配置十分灵活。我们一般采用的是层递式方式,即热备份工作方式,其工作原理是:和都是资源组的成员,该资源组被设置成层递式方式,对其拥有最高优先级。因此在群集中处于状态时,它会控制资源组中的所有资源,此时处于闲置()状态,仅当 掉时,才会接管资源组,一旦重新加入群集,将释放资源组重新取得
5、控制权。发生任何故障,不会造成任何影响。二、系统维护经验故障信息的收集 收集故障信息对于判断、诊断故障原因,修复系统非常重要。我们通过检查系统错误报告、发给用户的错误报告和检查等内容来判断系统是否发生故障,根据故障信息进行相应的处理。 ()系统故障记录 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息,故障记录文件为/,可备份下来或拷贝到别的机器上分析,使用 命令(普通用户权限也可使用)。 列出简短出错信息 列出所有硬件出错信息 列出所有软件出错信息 列出详细出错信息()控制面板上的 代码 ()( )故障记录当主控台出现键盘图标后(显示“时”)按键。选择“”,选择“ ”,抄下位故障代
6、码。() 检查系统出现故障后会向用户发,报告出错信息。通常系统出现故障后没有进行检查修复,系统还会定时以方式提醒用户。 ()运行故障诊断程序对系统硬件进行检查和诊断,当发现有硬件故障时应立即使用。 选高级诊断( ) 选问题诊断( )或选系统检查( ) 运行后会给出代码、故障设备名称及百分比数、地址代码等。 ()其他用于收集系统信息的命令 系统设备信息 查看物理卷信息 查看卷组信息 查看文件组信息 查看设备参数设置 查看( )信息系统硬件故障定位 小型机硬件故障定位方法包括小型机机柜上的显示面板上的信息, 和。检查点是系统加电初始化程序 (, )运行后显示在机柜的显示面板上一系列信息。 流程如下
7、:当系统加电后,自动进入流程,流程包括个步骤, 的初始化,始于系统加电,直到显示在机柜上的显示面板上为止。这个步骤会显示或 代码。由 引导的硬件初始化,始于按下机柜上的白色电源开关。这个步骤会显示 。“”是最后的代码,标志着第步的开始。系统固件的初始化,一个系统处理器接管控制并继续初始化系统资源,这个步骤会显示。“”是最后的代码,标志着第步骤启动的开始。在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分)。启动,当开始启动时,显示面板上的代码为,同时位置码会出现在第二行。当的登录窗口出现在控制台上时,第步骤结束,同时显示面板上再无任何信息显示。 当系统运行发现错误时,码( ,服务请求
8、码)会以的形式显示在显示面板上,同时在的中也会进行登记;当磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的,同时黄色的显示灯会闪动,在的中会登记相应错误信息,在出现问题后记录下代码,并告之公司解决。 软件问题处理软件故障情况错综复杂,下面列举几个常见的故障处理方法。 ()文件系统空间不够查看有没有“满”的文件系统。特别是/、/、/,不要超过。文件系统满可导致系统不能正常工作,尤其是的基本文件系统。如/ 根文件系统满则会导致用户不能登录。用查看。 查看的基本文件系统除/文件系统,其他文件系统都不应太满,一般不超过。 处理方法:删除垃圾文件 查找出当前目录下占空间最大的子目录,逐层往下直
9、到找出占空间最大的文件(要区分哪些目录是文件系统的 ,哪些是文件系统的子目录)。删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于删除的文件正被某个程序打开。只有当这个程序停止后,空间才释放,有时甚至需要重启系统。 处理方法:增加文件系统大小 只要卷组中有剩余空间,文件系统可以在任何时候加大。 ()检查文件系统的完整性 注意:文件系统必须先,再做检查和修复,否则将导致未知的后果。 ()查看卷组信息查看是否有“”状态的逻辑卷。若有,用命令修复。 ()检查内存交换区使用率检查使用率是否超过,若超过则用 增加个或用 在上增加一个数为的内存交换区。 ()小型机内存泄漏问题小型机出现内存泄漏,
10、即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法子进程,就会造成系统瘫痪。通常我们可以用和命令来查看小型机内存和占用率的大概情况以及各进程的内存和占用率的发展趋势。使用命令,可查看内存和占用率的基本情况。找出其中占用内存数不断变大的进程,这个进程可能就已经发生了内存泄漏。 双机热备系统的管理和维护 () 双机系统的启动 以用户身份分别进入系统各节点,执行 命令。() 双机系统的关闭 以用户身份分别进入系统各节点,执行 命令。()查询 双机系统的状态 在双机系统的运行中,操作员只有知道双机系统的当前状态,才有可能对双机系统出现的异
11、常情况进行恢复处理,保证双机系统的高可用性和高容错性。查询双机系统的状态,以用户身份进入需要查询的节点,用 命令检查双机软件在该节点是否已启动,系统显示个的信息,则说明 双机软件已正常启动。在确认双机软件 正常启动的情况下,在命令行执行 / 命令查看双机系统的当前状态。网络故障处理 ()网络不通的诊断过程 查看网卡是否启动();查看网卡状态;/和/是否;本机网卡地址;其他机器地址,如不通,在其机器上用检测网卡是否有问题。 在同一网中,子网掩码应一致。 ()网络配置的基本方法 如需修改网络地址、主机名等,一定要用 命令。 查看网卡状态: 确认网络地址: 启动网卡: 配置路由,有两种方式加入路由:
12、 永久路由 , 临时路由 用命令 查看路由表 公司的巡检流程公司的巡检流程,对我们日常维护应重点关注的事项有所帮助,大家可以借鉴一下。()检查系统硬件情况:设备故障灯是否亮。()系统错误报告。()检查是否有发给用户的错误报告。()检查,。()关键系统的文件使用率不大于。()逻辑卷有否。()内存交换区使用率是否超过。()内存交换区的大小是否为物理内存的倍。()检查备份情况(是否有系统备份、用户数据备份,磁带机是否需要清洗)。()检查通信设置(网卡、路由表、/、设置等)。()是否有数据保护方式如/是否有 。()系统设置是否正确。()检查系统参数是否正确。()检查是否镜像。()检查是否正常运行。()
13、检查机房环境(电压、湿度)。()检查系统性能:是否存在性能瓶颈。()检查补丁程序()、微码(是否需要升级)。()进行测试: 。()进行系统硬件诊断:运行故障诊断程序()。三、系统参数优化内核属于动态内核,核心参数基本上可以自动调整,因此当系统安装完毕后应考虑修改的参数一般包括以下内容。系统用户的最大登录数 的具体大小可根据用户数设定,可以通过 命令修改,该参数记录在/文件中,修改在系统重新启动后生效。系统用户的参数 这些参数位于/文件中,可以把这些参数设为即无限制,可以用修改/文件,所有修改在用户重新登录后生效。 检查 的大小,在物理内存时,应至少设定为物理内存的倍,若物理内存,可作适当调整。
14、同时在创建 时 应尽量分配在不同的硬盘上,提高其性能。利用 修改原有 的大小或利用 增加一块 。系统核心参数配置 利用 检查,等参数的大小。为每个用户的最大进程数通常如果系统运行应调整,将:调整到,增加可以马上生效。当应用涉及大量的顺序读写而影响前台程序响应时间时,可考虑将设为设为,用 命令设置。文件系统空间的设定 一般来说,文件系统/、/、/、/的使用率不应超过,/建议至少为,文件系统满将导致系统不能正常工作,尤其是的基本文件系统,如/根文件系统满则会导致用户不能登录。用 查看:(查看的基本文件系统),利用 扩展文件系统的空间。 激活 利用 激活每一个逻辑盘的 :选择硬盘后,把 改为后,回车
15、即可。 / 和 / 配置其缺省值为,在双机环境中一般应将 设为 设为,这两个参数可用 来设置。 的数据刷新频率 该值表示刷新内存数据到硬盘的频率,缺省值为,一般可改为,也可根据实际情况更改。该参数通过/配置,将/ / 参数中的改为即可。四、系统备份和恢复备份和恢复是系统管理员经常要做的事情,主要包括备份和用户数据备份。操作系统和系统程序的备份 在“备份设备或文件”中添入“/”后回车,系统会运行很长时间,等到屏幕显示后拿出磁带。这时候,系统备份完成。仅备份中已安装的文件系统。用户数据备份()常用磁带机选项 / 若选择/,在插入磁带和写完一次磁带时,磁带机都将磁带反绕到头。因此下一次备份文件将覆盖
16、本次备份。/若选择/则插入磁带和写完一次磁带时,磁带机均不反绕磁带。因此,一盘磁带可以连续备份几个文件或文件系统。() 选择“备份文件系统”,输入要备份的“文件系统名称”,输入“/”,重复上述操作即可在同一盘磁带上备份多个文件系统。的恢复启动机器进入维护模式,当出现“ ”时,选 “ ”,要恢复系统,继续选“ ”,出现“ ”画面,选“/”并插入磁带后回车,系统自动恢复操作系统。用户数据恢复 选择“恢复文件系统”,添入“设备名称”和“目标目录”,系统会自动恢复相应目录。五、系统日常检查系统日常检查工作是应用维护非常重要的部分,可以把系统故障排除在萌芽阶段,以下日常检查很有参考价值。()硬件检查检查各指示灯状态和各物理设备的可用情况。()进程检查检查是否有死进程,使用 命令列出正在运行的所有进程的各种信息。()文件系统是否满适用 命令可以以为单位检查文件系统的使用率。()检查系统出错日志使用 命令检查,清除现有的 。()检查系统合法/非法登录情况使用命令检查登录地点。()检查系统是否有巨大的文件生成使用 / 命令检查。对文件,一般直接删除即可。()系统性能检查性能:使用 命令检查。内存使用情况:使用,命令检查。检查平衡使用情况:使用命令检查。交换空间使用情况:使用 命令检查。()检查