《系统运维方案.pdf》由会员分享,可在线阅读,更多相关《系统运维方案.pdf(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、运维技术方案运维技术方案陕西思宇信息技术有限公司1 1运维服务目标及服务范围运维服务目标及服务范围通过购买专业运维服务 , 进一步加强未央区城市管理监督指挥系统运行维护,对指挥系统维护流程提供先进的管理理念与流程,并通过专业的技术支持为数据中心运行维 护工作提供专业的技术平台,满足未央区城市管理监督指挥系统大数据量安全存储的要求,可以满足多种 应用运行环境稳定的要求,可以满足系统及数据高效、可靠和安全运行的要求, 可以满足运行设备统一管理、及时的故障恢复的要求,可以保证在应用系统和硬件设备平台正常运行,满足省本级数据库和应用系统的建设需要,达到高效、稳定、安全和高扩展性的要求,为实现信息化建设
2、的可持续发展奠定集中统一的设施基础。设备及软件清单:一、系统软硬件维护序号12345678内容工程投影机(SONY)高级投影金属硬屏幕(三星)液晶监视器、MYWAY双基色 LED 屏会议室用投影仪(SONY)会议室用电动伸缩幕布核心汇聚网络交换机/博达接入网络交换机-指挥中心/博达制造商上海 SONY 中国有限公司江苏张家港市电教器材厂西安英特安防设备有限公司西安上海 SONY 中国有限公司江苏张家港市电教器材厂上海博达数据通信有限公司上海博达数据通信有限公司数量单位说明维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常
3、运行1台1台6台1台1台1台2台1台91011121314151617181920212223242526272829303132333435363738394041424344接入网络交换机-执法中队端/博达配套光模块/博达高端服务器中端服务器上海博达数据通信有限公司上海博达数据通信有限公司11台22个4台5台1台1台160232台块台台台维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行
4、除尘保养除尘保养维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行保养维修维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行维护设备正常运行保养维修除尘保养IBMIBM北京邦诺存储科IPSAN 存储设备技有限公司上海博达数据通防火墙/博达信有限公司UPS艾默生蓄电池冠军电池柜艾默森配电柜国产专业型笔记本电脑THINKPAD执法票据打印专用笔THINKPAD记本电脑指挥中心办公工作站联想各执法中队/督查室监联想控指挥工作站针式票据打印机爱普生KVMRaritan机柜42U华
5、为机柜-6U国产矩阵输入输出箱美国/派尔高带线缆输入后面板扩美国/派尔高展板视频输入卡美国/派尔高视频输出卡美国/派尔高带 BNC 接头后面板输美国/派尔高出板串口通讯卡美国/派尔高128*32 矩阵美国/派尔高控制键盘美国/派尔高工作台、椅国产彩色多功能激光一体惠普机路由器华为光模块H3C交换机H3C防火墙H3C空调 5P格力空调 2P格力防静电地板 100 平米电源柜国产3台10161523111台台台台台台台6块6块2块2块11110块台台套1台12221314台个台台台台组台45464748495051风机、新风卡巴斯基杀毒软件赛门铁克备份软件Windows Server 2008操作
6、系统数据库中间件150192112台套套保养维修更新、升级更新、升级北京卡巴斯基科技有限公司赛门铁克软件北京有限公司微软OracleOracle套补丁升级,系统检测套补丁升级,备份,渗透测试套硬件及系统软件的运月维,驻场工程师一名单位说明维护设备正常运行维护设备正常运行工程师日常巡检维修二、外设硬件维护序号1234内容前端摄像机、视频信号线路、摄像机云台控制线路、接电的故障排除、设备维修监控主机的设备检测、系统维护、扩容、故障排除立杆、设备箱、防雷设施维护设备清洁(每半年一次)数量100点100点5固定摄像机拆除6固定摄像机安装7移动监控车运行及维护三、移动摄像头迁移序号内容100点维护设备正
7、常运行台200摄像机除尘次10点预估拆除监控点10点预估安装监控点3辆保证车辆正常运行数量1616数量1单位点点单位批单位说明预估拆除监控点预估安装监控点说明预估监控点设备意外损坏更换说明100 个摄像头,每个摄像头功率 100W预估变更取电监控点10 个1移动摄像机拆除2移动摄像机安装四、设备意外损坏更换序号1内容设备意外损坏更换五、外设设备运行序号12内容摄像头电费交纳监控点取电位置意外变更数量100点10点2 2服务内容服务内容2.12.1运维类别运维类别乙方为甲方提供的运行维护服务,主要包括以下以下四个方面内容:网络设备(交换机、防火墙等)主机设备(服务器)基础软件(数据库、中间件)其
8、他硬件(视频监控设备)桌面设备(打印机、笔记本、台式机、投影仪)2.22.2 运维内容运维内容2.2.12.2.1 交换机交换机服务描述服务描述1.检查设备的运行状态是否正常,接口状态是否正常,有无报警。2.设备系统版本: 查看设备的软件版本是否是最新版本,是否存在已知的可能导致运行不正常的问题。3.检查设备电源状态信息:查看系统电源工作情况是否正常,要求电源都工作正常。4.检查设备风扇状态信息: 查看系统风扇工作情况是否正常,要求风扇都工作正常。5.检查设备板卡运行状态信息:查看系统板卡工作情况是否正常,要求板卡都工作正常。6.检查设备的温度状态:查看设备的温度是否正常,要求设备工作温度在
9、5-70 度之间。7.检查设备 flash 信息:查看系统flash 空间使用情况是否正常,要求 Flash 空间利用率低于 80%。8.检查内存信息: 查看系统内存使用情况是否正常,要求“Mem”占用率要低于 80%。9.检查 CPU 信息:查看系统内存使用情况是否正常,要求“CPU”占用率要低于 70%。10.检查设备运行时间:查看设备的运行时长,要求连续运行时间应服务内容例行巡检在 1 个月以上(4 周)。11.检查设备系统时钟信息:查看设备进时钟信息,要求设备的系统时钟偏差在 5 分钟以内。12.检查光模块输入功率信息:要求设备可插拔模块的输入光功率不超过正常范围。13.检查光模块工作
10、温度信息:要求设备可插拔模块的温度保持在温度上下限之间。14.登录用户口令安全性:为保证设备的安全性,要求设备登录用户的口令采用加密方式显示。15.VRRP 状态: 运行 VRRP 协议的接口在稳定时组状态为 Master、 Slave或是 Backup。16.OSPF 邻居状态:基于 OSPF 协议正常运行的考虑,要求 OSPF 协议的邻居必须稳定处于 FULL 状态。17.事件日志告警信息:是否有错误或告警日志,观察设备运行参数。18.对设备系统配置及系统更改信息进行归档。20.每季度到现场对维保设备进行巡检,对硬件设备运行状态进行检查和分析,及时发现故障隐患,并排除系统故障或调整系统性能
11、,必要时更换故障部件,完成巡检和故障处理报告。远程:1、网络架构标准化、可扩展性、可用性、可靠性、高性能性、安全性及可管理性等检查;2、系统日志分析;3、网络系统通讯状态检查;4、检查网络流量、通讯流量控制、网络访问安全、通讯数据类型的转发、VLAN 划分等;现场:1.查看设备运行参数;2.提供重要事件的现场支持服务(例如网络割接、设备搬迁、设备升级、网络拓扑调整等)。3.对设备系统配置及系统更改信息进行归档。4.完成在巡检发现的隐患、故障的解决;5.处理日常的网络故障;响应时间:一级:10 分钟(交换机宕机、网络中断等造成严重后果)二级:30 分钟(交换机告警、不影响正常使用)三级:60 分
12、钟(巡检、业务咨询等)响应支持优化改善服务时间交付方式交付成果1.CPU、内存等系统运行瓶颈分析;2.结合系统软硬件的系统运行状况,进行网络整体拓扑结构化分析;3.IOS 设备微码的使用管理支持及相关升级服务;日常运维 5x9;应急响应 7x24现场/远程巡检报告、服务报告2.2.22.2.2 服务器服务器服务描述服务描述检查硬件设备日常的物理安全维护主机的系统主板、CPU(含 CPU 板)、内存条或内存板等关键部件维护系统电源及附属设备例行巡检维护各种存储设备,包括内置磁盘或外置磁盘阵列、磁带库、光驱等设备维护各种适配器卡和显示设备、磁盘RAID 卡等设备维护系统和 I/O 卡、SCSI 背
13、板等设备维护所有连接设备的各种线缆服务内容远程:1、数据备份与恢复服务2、配置维护服务3、数据清理服务现场:1、硬件故障修复服务;2、技术支持服务;3、辅助故障定位服务;4、应急方案设计与预演服务;5、完成在巡检过程发现的隐患、潜在的故障;响应时间一级:10 分钟(服务器宕机、应用瘫痪等造成严重后果)二级:30 分钟(服务器告警、不影响正常使用)三级:60 分钟(巡检、业务咨询等)1.系统健康检查服务2.性能分析与调优响应支持优化改善巡检频度服务时间交付方式交付成果巡查:1 次/天,巡检:1 次/季(具体可以根据客户需求提供)日常运维 5x9;应急响应 7x24现场/远程巡检报告、服务报告2.
14、2.32.2.3 数据库数据库服务内容服务描述服务描述检查操作系统 cpu 空闲率检查磁盘空间是否不足检查操作系统错误日志检测数据库是否启动,侦听是否正常(客户端)检查和启动实例(服务器端)检测和启动侦听(服务器端)检查状态不是“online”的数据文件检查数据缓冲区命中率检查数据字典缓冲区命中率检查 LIBRARYCACHE 命中率检测使用率大于 80%的表空间检查 Job 是否正常了解数据库备份情况检查阅读 oracle 的报警日志(服务器端)检查当前数据库中表和索引最大可能的数据量检查当前所有用户名和是否锁定检查当前具有 dba 权限的用户名例行巡检检查当前用户的所有角色检查当前用户使用
15、空间的信息检查所有表空间的大小和当前使用率查出最大读的热点文件查出最大写的热点文件检查最近的归档日志生成信息检查当前重做日志的信息备份的数据库所有文件(物理全备)检查 mount 点的数据大小分布检查无效的 trigger检查不起作用的约束检查主键失效的表检查没有主键的表获得当前重建数据库所需要的 ddl 和用户信息当运维的数据库发生故障或存在异常问题时,工程师提供7*24小时的热线响应及电话指导支持,必要时赶到客户现场,进行故障(或问题)的修复,并在承诺时间内排除故障或解决问题或恢复客户业务系统的正常运行。远程:1、数据库日常监控服务2、数据库补丁与升级服务3、数据库主动巡检服务响应支持4、
16、数据库备份与恢复服务现场:1、数据库故障修复服务2、数据库迁移及数据清理服务3、重大事件现场顾问支持服务响应时间:一级:10 分钟(数据库宕机等造成严重后果)二级:30 分钟(数据库告警、不影响正常使用)三级:60 分钟(巡检、业务咨询等)优化改善巡检频度服务时间交付方式交付成果1、数据库性能优化服务按客户的实际需求双方商定(具体可以根据客户需求提供)日常运维 5x9;应急响应 7x24现场/远程巡检报告、服务报告2.2.42.2.4 中间件中间件服务描述服务描述检查 JDK 版本信息检查 weblogic 版本信息检查 web 应用包配置和运行状态检查 EJB 包配置和运行状态检查 JDBC
17、 连接池配置和运行状态例行巡检检查日志信息状态当运维的系统发生故障或存在异常问题时,工程师提供 7*24 小时的热线响应及电话指导支持,必要时赶到客户现场,进行故障(或问题)的修复,并在承诺时间内排除故障或解决问题或恢复客户业务系统的正常运行。远程:1、主动巡检服务2、应用中间件启、停服务现场:1、中间件故障修复服务2、中间件技术支持服务响应支持3、辅助故障定位服务响应时间:一级:10 分钟(中间件不可用等造成严重后果)二级:30 分钟(中间件告警、不影响正常使用)三级:60 分钟(巡检、业务咨询等)1、中间件升级服务优化改善2、中间件配置调优服务3、中间件架构调优巡检 1 次/季,出现故障按
18、合同约定时间内到达现场(具体可以根据客户需求提供)日常运维 5x9;应急响应 7x24现场/远程巡检报告、服务报告服务内容巡检频度服务时间交付方式交付成果2.2.52.2.5 操作系统操作系统服务描述服务描述1)系统空间使用情况,文件系统是否有“满”.2)查看卷组信息,有没有stale状态的逻辑卷3)检查内存交换区(paging space)使用率是否超过 70%4)当前操作系统版本5)系统性能检查:CPU 性能、内存使用情况、检查IO 平衡使用情况、交换空间使用情况6)网络检查7)检查系统合法/非法登陆情况8) 检查系统是否有巨大的 Core 文件生成9)网卡的状态、IP 地址、路由表等例行
19、巡检10) snap -a 来搜索 AIX 系统的大部分配置信息11) 查看错误报告服务内容12)有否发给 root 用户的错误报告(mail)13)查看系统信息14)检查 hacmp.out,smit.log,boot.log15)查看卷组信息,有没有stale状态的逻辑卷16)使用 iostat 命令监控 I/O17)查看系统定时备份情况18)HACMP远程:1、操作系统日常监控服务2、操作系统补丁与升级服务3、操作系统主动巡检服务4、操作系统备份与恢复服务响应支持5、操作系统日志清理服务现场:1、操作系统故障修复服务2、操作系统主动巡检服务3、重大事件现场顾问支持服务响应时间:一级:10
20、 分钟(操作系统不可用等造成严重后果)二级:30 分钟(操作系统告警、不影响正常使用)三级:60 分钟(巡检、业务咨询等)优化改善1、操作系统参数配置及优化服务巡检频度服务时间交付方式交付成果1 次/季(具体可以根据客户需求提供)日常运维 5x9;应急响应 7x24现场/远程巡检报告、服务报告2.2.62.2.6 视频监控视频监控服务描述服务描述检查网络架构的可用性、可靠性、高性能性、安全性及可管理性等;提供设备使用管理支持及相关升级服务;分析系统日志;检查网络系统通讯状态;检查录像运行;调整及清洁云台、固定式枪机;及时排除发现的有隐患的系统问题;提供重要事件现场支持服务(例如割接、设备搬迁、
21、现网测试、组网方案等);根据客户报修及年度巡检(具体可以根据客户需求提供)日常运维 5x930 分钟现场服务报告服务内容巡检频度服务时间响应时间交付方式交付成果2.32.3 系统软件运维系统软件运维乙方为甲方提供的运行环境保障工作,提供三线技术支持服务。编号编号服务项目服务项目服务内容服务内容服务时间服务时间1、在维护协议有效期限内,客户将获得电话支持,由陕西思宇信息技术有限公司公司资深工程师提供技术服务,进行技术咨询,故障分析,远程诊断,并对严重问题迅速升级, 包括将问题升级到专家组或派遣当原厂工程师迅速到达现场。电话支持服务为每周7 天,每天7 天24 小远程支持 24 小时。时2、陕西思
22、宇信息技术有限公司公司会通过邮件系统为客户提供技术支持服务:定期发放系统检查报告,提供技术文档等。3、通过指定电话、邮箱提供远程故障诊断和解决方案的远程支持服务。1、 对于客户IT系统突发性的故障或突发性的性能下降,7 天24 小现场支持时陕西思宇信息技术有限公司公司工程师将根据与客户12编号编号34服务内容服务内容服务时间服务时间协商确认的服务级别和故障紧急程度, 在规定时间内到达现场,排除故障,响应支持服务时间为每周7 天,每天 24 小时。2、对于客户报告的各类问题,我方工程师将本着最小化故障时间,采用现场服务、邮件支持、远程等形式进行指导和解决。 陕西思宇信息技术有限公司公司会对客户反
23、映的技术问题进行问题级别划分, 对严重程度进行级管理,应用户请求,我们可提供不限次数和时间的现场服务。1、根据客户需求,陕西思宇信息技术有限公司公司将定期对客户的系统软件进行健康检查。 并提交相应的系统健康检查报告,巡检报告将评估该 IT 系统的可用性、安全性、稳定性和性能现状,并就发现的问题或隐患提出我方建议的解决方案。2、对可能会产生其他一些影响的问题,或者优化方案系统巡检 需要用户增加资源(如性能瓶颈可能是缺乏某硬件资源)每月我们将在提交的报告中详细描述问题的成因,影响范围,建议的解决方案,以及解决问题的风险,交予用户评估。3、指定专人按月到场例行巡检,提供系统健康检查,配合信息安全加固
24、工作进行补丁升级服务, 提供软硬件平台升级的测试环境。性能诊断此服务指对用户的 IT 系统进行性能方面的分析、评估、与性能调按需调整,以提高该系统的整体性能。优服务项目服务项目2.42.4 硬件产品维护硬件产品维护硬件产品维护服务内容如下:编号编号服务项目服务项目1服务范围服务范围网络设备应用软件服务内容服务内容服务服务时间时间远程支持通过指定电话、 邮箱提供远7 天24程故障诊断和解决方案的小时远程支持服务对不能通过远程支持方式7 天24解决或紧急事件, 指定专人小时提供 2 小时到达现场服务指定专人按月到场例行巡检, 提供硬件健康检查和系统补丁升级服务。每季2现场支持设备清单3系统巡检备品
25、备件服务网络设备、主机设备4硬件设备针对客户现有硬件产品范7 天24围建立备件库, 提供备件服小时务。3 3运维人员组织架构运维人员组织架构3. 13. 1运维组织结构介绍运维组织结构介绍我公司将在此运维项目中投入业务水平高、技术能力强的运维人员和质量控制人员,采用陕西思宇信息技术有限公司严格规范的运维管理模式,进行全方位管理。为了进一步确保运维项目的进度与质量,陕西思宇信息技术有限公司公司在项目运维阶段、质量管理、 技术文档等方面进行严密规范的部署。陕西思宇信息技术有限公司公司的运维队伍组成包括:运维项目总负责人(常务总经理兼任) ;运维管理委员会(项目经理、甲方代表、监理代表) ;运维驻点
26、服务小组;技术支持专家组;备品备件供应小组;文 档 管 理 小 组3. 23. 2 运维成员职责运维成员职责项目经理职责:1) 项目经理受公司总经理任命和委托,全权负责运维项目合同的各项条款的履行。2) 对运维项目的优质、高效、安全负全责。驻场工程师职责:1) 负责对小型机、服务器、存储设备相关的申报事件进行处理和解决。2) 负责对小型机、服务器、存储设备提供日常性能和运行状况监控,对故障进行分析处理及建立完善预警机制。3) 负责保障机房服务器正常运行,遵循用户的安全保障管理要求。4) 接受用户对服务器维护事件的督办、检查,协助服务台完成对用户、意见进行回访和事件统计、分析。对服务过程和反馈的
27、意见进行改进,同时接受服务台的绩效考评工作。5) 及时提供服务器运行和问题处理情况,并向用户负责,并按周、月、季、年提交运维运维服务工作进度总结和计划。6) 负责整理和归纳服务器日常维护知识库,提交至运维服务平台。7) 负责整理和提交服务器运维过程资料和相关配套维护文档。技术支持专家职责:1) 为客户提供 7X24 小时的故障响应电话支持。2)接听客户服务热线电话和接收(电话/Email/Fax 等)客户服务请求;3) 通过网络或电话为客户提供即时的远程技术支持,包括软硬件故障的诊断和排除,客户端软件的安装和设置。4) 协调多方服务团队,及时跟进未完成的服务请求并及时更新系统信 息和状态;备品
28、备件管理员职责:1) 组织实施备品备件的订购、运输及入库工作;2) 负责汇总待料备件,及时采购或调拨,并主动向项目经理说明待料原因、追踪处理。3.33.3 运维成员组织结构运维成员组织结构针对本次维保项目我公司配备了 5 名专职人员具体如下表:4 4运维质量保证措施运维质量保证措施4. 14. 1 质量控制管理质量控制管理按照相应的 ITSS 质量体系标准及国家规定进行质量控制,还以相应的规范要求对设计质量,施工质量、材料和设备质量进行管理、要求、控制。公司的施工阶段性内部验收制度, 是质量控制管理的有利保证。 工程的每一个 阶段完成时,公司技术支持部门都要按有关部门规范和要求进行严格的内部验
29、收。 验收标准整体上高于用户验收标准。4.24.2 进度控制管理进度控制管理针对本次项目我公司结合客户要求做出如下运维计划:序号123456789101112名称存储系统巡检报告PC 服务器网络设备机房空调巡检报告UPS 巡检报告数据库系统运维中间件系统运维问题报告月总结报告季度总结报告年总结报告定期培训人员驻点工程师/技术支持专家驻点工程师驻点工程师/技术支持专家驻点工程师驻点工程师驻点工程师/技术支持专家驻点工程师/技术支持专家驻点工程师/技术支持专家驻点工程师驻点工程师/技术支持专家驻点工程师/技术支持专家/项目经理技术支持专家周期每周每周每周每周每季每周每周问题解决后每月每季度每半年每
30、季度5 5运维流程及服务方式运维流程及服务方式5.15.1 服务方式服务方式针对本次项目我公司为保证各系统的稳定可靠的运行我公司根据该项目的具体要求提供三种方式的技术支持服务,分别为:现场服务、远程技术支持服务、 针对甲方运维人员的技术培训服务。现场服务对客户的系统进行现场维护和巡检,驻点工程师对各个应用系统完成定期巡检, 同时输出巡检报告提交给客户,驻点工程是还应对客户的故障设备进行维修和更 换备件服务。为了让客户得到更及时和更快的服务,驻点工程师还提供7X24 小 时的故障响应电话支持。远程技术支持服务远程技术服务主要是通过电话或其他方式受理客户和驻点工程师的疑难问题,通过沟通来指导客户或
31、驻点工程师解决问题,同时远程技术服务工程师还通过电话或者其他方式与客户主动沟通来提高客户管理和运维能力。技术培训服务为提高客户的运维人员的技术水平及运维管理能力,我公司将派遣具有丰富实 施经验的技术专家定期对客户进行相关专业(主机、存储、数通、网络、安全、 机房环境等)的培训。培训可以采用灵活多样的方式如面对面交流、课堂授课、邮件沟通等。5.25.2 运维流程运维流程我公司除培训服务外,为本项目提供两种服务方式:一种为技术人员现场值守,另一种是定期巡检结合故障现场服务。1.技术人员现场值守运行维护服务的基本操作流程如下图所示 :2.定期巡检结合故障现场运行维护服务的基本操作流程如下图所示:6
32、6具体服务项目及输出文档具体服务项目及输出文档6.16.1 小型机、小型机、pcpc 服务器、网络设备及存储系统服务器、网络设备及存储系统小型机 、 pc 服务器 、 网络设备及存储系统运维部分主要分为三部分 , 分别为 小型机存储系统运维、pc 服务器运维、网络设备运维。小机存储系统运维内容主要包含小型机设备、光纤交换机、存储设备三部分主要从以下几个方面进行维护:1、检查设备各部件的状态灯;2、检查并处理设备的错误日志;3、硬件设备的全面检查;4、网络配置的检查及测试;5、操作系统性能分析;6、核对各小型机配置信息,根据需要调整配置;7、检查设备的微码版本;8、检查存储设备运行情况;针对如上
33、要求输出如下检测报告:小型机系统巡检报告设备名:检测项目电源风扇设备型号:检测方式检查主电源灯状态检查直流电源指示灯状态检 查 直 流 电 源 风扇 状 态广品序列号:说明指示灯常绿表示系统正在运行指示灯常绿表示电源供电正常检查风扇是否散热正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常处理器检查 CPU 的数量及状态。CPU 状执行命令:lsdev -态为 Available,表示 CPU 使Cc processor用正常检查内存数量及状态。size 与内存执行命令: lsattrgoodsize 的数量相等表示内- El memO存使用正常检查磁盘的数量及状态。 磁盘状执行命令
34、: lsdev -态为 Available,表示 磁盘使Cc disk用正常检查系统中配置了哪些适配器及使用状态。各个适配器 的状态为 Available,表示各个适配执行命令:lsdev - Cc adapter器目前工作正常。若适配器状态为 Define,则表示该设备已经被配置但是 未被当前系统使用。磁盘适配器分页空间执行命令: lsps -a检查分页空间的分配数量及利用率。Size 为已分配的分页空间数量;%Used 为目前系统的分页空间使用率,该值若超过70%,表示系统内存不足。正常不正常系统镜像执行命令: lsvg - 1检查系统卷组的镜像状态。rootvg各个逻辑卷的 PPs 数量
35、应该为LPs 数量的整数倍 ,倍数 大于 1并且能被 PVs 整除 ,表示卷组已经作镜像。各个逻辑卷的 LVSTATE 应该为 syncd,否则表示镜像不同步。正常不正常文件系统执行命令: df -k检查已经挂载的文件系统的使(临时)/var (日志文件)这些动态文件系统的使用 率最好保持在 70%以下。正常用状态。重点检查/(根) /tmp不正常错误日志执行命令: errpt检查系统日志是否有硬件或软件方面的永久错误。若发 现错误类型为 P 的信息,则需要注意。正常不正常网卡配置 情况执行命令:ifconfig - a检查各个网卡的配置情况,状态是否为 UP,检查 ip 地 址和子网掩码等配
36、置是否正确。正常不正常正常不正常系统备份执行命令:lsmksysb检查磁带备份的可读性。 若没有-V -f /dev/rmtO错误显示,则表示备份 磁带的数据是有效可恢复的。客户确认:巡检结论:用户签字工程师签字存储系统设备巡检: :设备名称:检查时间:年月日时检査项目:1.检查存储硬件情况:设备故障灯是否有亮SAN 交换机端口 LE: D状态2.存储系统故障报告(Problem Log):Problem Log/Serviceable Event有否硬件故障3.存储系统运行状态:View Storage Facility State /CdaPreverify / View RIO Topo
37、logy4.通信:/Master Console/SMC/HMC和存储设备的通信6.存储设备内部状态:7.存储系统硬件状态:双控制器同时正常工作电池、电源和风扇模块物理硬盘和逻辑盘8.微码(Microcode)是否满足最低要求9.是否启用了 Call Home10.收集存储设备基本信息存档正常 不正常正常 口不正常口正常 口不正常Good Degraded OfflinedRebuilding正常 不正常正常 不正常口正常 不正常是 否是 否口是 口否是 否是 否有无正常不正常口正常 不正常正常 口不正常本年度第次检查检查结果:目前存在的问题:改进措施或建议:检查结论:客户签字:日期:年月日工
38、程师签字:日期:年月日服务器设备巡检:一、硬件情况设备型号机柜及设备温度设备面板设备连线设备电源设备风扇Kvm系统板CPUMEMI/O 板RAID 卡以太网卡SCSI 卡HBA 卡本地盘及逻辑盘设备使用磁阵 PV系统其它扩展卡设备故障灯设备 P/NIP:正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常正常不正常备注message 系统日志中注意:warning、机柜及设备温度二、系统基本运行情况检查系统日志系统日志备份及清理检查方式win: eventvwr 或管
39、理事件查看器系统linux:检查以下日志等/var/log/boot.log/var/log/messages本周期的检查情况正常不正常正常不正常正常不正常error 等特征的日志信息/var/log/wtmp(last) 正常不正常/var/log/secure主机上磁阵 PV 或分区配置及状态win:磁盘管理diskmgmt.msceventvwr正常不正常正常不正常系统日志中也可以看到相关提示或异常信linux:fdisk -lCPU 平均使用率(命令或网管采集)内存平均使用率(命令或网管采集)文件系统或磁盘win:任务管理器linux: #top,vmstat,sarcat /proc
40、/cpuinfowin:任务管理器 或 Memlinux:#free、topcat /proc/meminfowin:磁盘管理cat /etc/fstab交换区使用情况win:任务管理器linux:#freecat /proc/swapsDisk I/O 负载情况系统进程情况占用内存的 10 个占用 cpu 的 10 个检查双机运行情况win:perfmonlinux:# iostat -d 2ps -aux | sort -k4nr |head -n 10 或 top -Mps -aux | sort -k3nr |head -n 10 或 top -Pclustatcat /var/log
41、/messagesifconfig a检查其他管理软件操作系统概览正常不正常息cpu 占用率除数据库外不建议超过 90%内存占用率除数据库外不建议超过 80%系统卷不要出现任何占满;使用情况(OS 及应用) linux: #df -k 、-hIO 等待一般不超过 40%注意过度占用资源的进程,是否为正常应用win:如多路径软件winmsd、systeminfo 系统 devmgmt.msc 设备信息netstat -r ipconfig /all arp -alinux:export LANG=en 环境变量指定dmesg 详细信息hostname 主机名 cat /etc/hosts 名字解
42、析uname -a、-r OS 版本ifconfig -a , ifenslave -a 网络信息netstat -rn 路由信息rpm -a 软件安装sfdisk -g , fdisk -l 主机所挂磁盘信息客户确认:巡检结论:用户签字工程师签字网络设备巡检:设备名称:设备名称:设备型号:设备型号:观察面板指示灯有(无)红灯2、从本网络中的某台 PC 机上 ping 下属的分支机构和部局Ping 对方 IP 地址通1、检查设备面板指示灯状态,看是否有红灯报警的某台服务器3.管理级用户控制:远程登录用户必须设置密码。检查是否需要密码才能进入管理级别用户。4. Telnet 登录控制:Telne
43、t 口令和 Super 口令的设置要不同,使用密文格式。5. 接口配置:不使用端口置为 shutdown 状态。Displaycurrent-configuration不通完善不完善完善不完善完善不完善6. FE/GE 口配置:Display完善不完善端口模式(包括速率、双工模式)配置对接双方必须一致;current-configura端口实际工作模式必须与对端一致。tionDisplay interface7. telnet 和串口登录:telnet 和串口两种方式能正常登录。8. 端口统计数据:查看各个使用的端口收发统计数据是否正常,异常报文是否有增长。09.电源状态查看:各电源模块工作状
44、态正常。10. CPU 占有率:CPU 占有率应正常,与当前开展的业务类型和转发流量相符。11.系统当前正在发生的告警信息:有告警及时处理。12.内存使用情况:内存占有率。客户确认:完善不完善Displayinterface完善不完善Display systemdevice完善不完善Display system cpu完善不完善Display alarm完善不完善Display memory完善不完善巡检结论:用户签字工程师签字6.26.2 空调巡检、机房、监控巡检空调巡检、机房、监控巡检一、设备档案信息设备档案信息室内机型号:二、二、设备运行信息设备运行信息场地电压情况场地电压情况:Vab_
45、 Vcb_Vac_室内机机身编号接触器、空开状态!正常!不正常电压波动情况电源进线紧固控制显示部分:控制显示部分:!正常!不正常!是!否最高波动范围部件电源线已紧固屏幕显示状况系统功能及告警功能设定_V!是!否!正常!不正常!正常!不正常控制板输入电压_V参数设定及控制动作冷凝器部分冷凝器部分:底座固定情况!正常!不正常电控(电气、控制) !正常!不正常性能冷凝翅片清洁情况!正常!不正常冷凝器运行电流A 对应冷凝压力_PSIG室内风机组件:室内风机组件:风机运行电流风机轴承工作情况风筒叶轮固定情况保温部分:保温部分:设备内部保温部分制冷管路保温部分加湿工作电流加湿控制功能供水电压!正常!不正常
46、!正常!不正常1=_A 2=_A!正常!不正常!正常!不正常皮带磨损情况皮带轮固定情况空气滤网洁净度!正常!不正常!正常!不正常!正常!不正常风帽保温部分水管路保温部分!正常!不正常!正常!不正常加湿工作及排水状况:加湿工作及排水状况: A!正常!不正常!正常!不正常加湿水盘清洁状况加湿水盘的排水蒸发器集水槽排水运行声音低压回气过热度干燥过滤器指示状态除湿控制功能!正常!不正常!正常!不正常!正常!不正常!正常!不正常1#_PSIG1#_PSIG!正常!不正常!正常!不正常压缩机运行检查:压缩机运行检查:压缩机工作电流1#_A2#_A高压1#_PSIG1#_PSIG!正常!不正常压缩机发热情况
47、!正常!不正常液镜指示状态除湿状态检查:除湿状态检查:湿度控制设定解热状态检查:解热状态检查:加热电流I1_A I2_AI3_A!绝对湿度 !相对湿度!正常!不正常加热保护功能动作!正常!不正常水冷机组和冷冻水机检查:水冷机组和冷冻水机检查:进水温度 T1进出水压力差客户确认:巡检结论:出水温度 T2阀门控制功能!正常!不正常用户签字工程师签字安全监测监控系统巡检安全监测监控系统巡检单位名称巡检日期巡检地点巡检内容巡检人负责人员1监控机房通风、散热、净尘、供电等设施。2每季度进行一次设备的除尘、 清理, 扫净监控设备显露的尘土。3监控设备运行正常,信号传输正常、外壳有可靠接地。4检测其各项技术
48、参数及监控系统传输线路质量,处理故障隐患,确保设备各项功能良好,能够正常运行。5对容易老化的监控系统部件每个季度进行一次全面检查,一旦发现老化现象应及时维修或更换等。6每个月进行一次对监控系统的检测、维护、数据备份、故障排除等并制作报表报告用户。7对长时间工作的安防监控设备每个季度定期维护一次。8对监控系统设备的运行情况进行监控,分析运行情况,及时发现并排除故障。9根据用户的监控系统经常出现的故障或者有可能出现的故障及时提出日常维护和日常使用建议。10在设备使用过程中存在的使用上的问题应解释清楚指导正确使用,并提出合理化建议。巡检结果处理情况客户确认:巡检结论:用户签字工程师签字机房巡检表:巡
49、检人:巡检人:巡检时间:巡检时间:(一)定期常规维护(一)定期常规维护检查结果检查结果维护内容维护内容周日周日1.检查服务器 UPS、空调电源电压是否正常。2.检查机器设备的开关、连线、插头插座等是否正常,有无错位、松动。3.检查网络设备的各种指示灯和运行状况是否正常。4.查看服务器硬件是否告警。周一周一周二周二周三周三周四周四周五周五确认人:确认人:5.检查 IBM P750 小机是否有硬件告警。6.检查存储设备的运行状态、是否有硬件告警。7.记录室内温度8.查看 IMC 平台所有办公网络运行情况9.查看 VMware 的运行情况,是否有告警报错10.查看数据的备份情况11.查看机房的动力环
50、境监测平台运行情况,是否有告警。(二)是否完成定期常规维护,如果存在问题,请进行问题描述及处理记录(如果没有,可以填写无)No.1 1无无问题及现象描述问题产生原因处理方法处理结果2 23 36.36.3 数据库系统运维服务数据库系统运维服务6.3.1 ORACLE DB 维护方法维护方法数数据据库库启启动动:1、以 oracle 用户用户登录,sqlplus /as sysdbasqlplus startup2、以 oracle 用户或 ora816 用户登录sqlplus /as sysdbasqlplusstartup nomuntsqlplus alter database mount