《运维项目工作总结-参考(共18页).docx》由会员分享,可在线阅读,更多相关《运维项目工作总结-参考(共18页).docx(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上xxxx运维服务工作总结目 录专心-专注-专业1 概述2011年对于XXXX来说是具有历史意义的一年,XXXX成功上线到接入第一个业务系统:集团采购门户系统,揭开了XXXXXXXX认证的一个新的篇章,XXXX公司作为XXXX的运维服务方,在历史的一年即将过去,通过对XXXX运维工作进行年度总结,从中发现工作中的不足,在以后的工作中逐渐改善。2 运维项目背景3 运维目标XXXX公司为XXXX系统提供运行维护服务包括,XXXX软件系统、系统相关的主机设备、操作系统、数据库和存储设备的运行维护服务,保证XXXX系统整体的正常运行,降低整体管理成本,提高XXXX系统的整体服务
2、水平。同时根据日常维护的数据和记录,提供XXXX系统的整体建设规划和建议,更好的为XXXX发展提供有力的支持。同时XXXX公司为XXXX系统提供业务协维服务,包括业务系统接入前期业务支撑、业务系统接入后期业务支撑,为业务系统提供专业的业务指引、开发指引,方便各业务系统快速接入XXXX系统。XXXX系统的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等。XXXX公司通过运行维护服务的有效管理来提升XXXX系统的服务效率,结合用户现有的环境、组织结构、IT资源和管理
3、流程的特点,从流程、人员和技术三方面来规划用户的网络信息系统的结构。将用户的运行目标、业务需求与IT服务的相协调一致。XXXX公司提供的服务的目标是,对用户现有的XXXX系统基础资源进行监控和管理,及时掌握网络信息系统资源现状和配置信息,反映XXXX系统资源的可用性情况和健康状况,创建一个可知可控的IT环境,从而保证XXXX系统的各类业务应用系统的可靠、高效、持续、安全运行。4 运维人员配备XXXX运维团队驻点工程师业务协维工程师二线专家XXXX运维人员梯队结构人的因素是决定运维服务好坏的最重要的因素,合理的人力配置能够提高运维的质量和效率,保障运维工作的顺利开展, XXXX公司通过人力资源的
4、整合与配置,形成了驻点工程师、业务协维、二线专家的人员梯队结构,更好地适应XXXX运维工作的开展。驻点工程师担着XXXX运维工作的主动发起者的角色,通过主动对XXXX系统,从硬件、软件各方面进行巡检,保证XXXX正常运行。 业务协维工程师站在业务的角度,解决XXXX用户的业务问题,协助XXXX公司运营人员。二线支持为用户提供专业技术更强的技术支持服务,深入研究疑难事件和问题,并在需要提供现场服务的情况下及时到现场为用户排忧解难。通过三方面人员间的明确分工和紧密配合,形成了较为合理的运维人力配置。XXXX公司人员配备如下:工作角色姓名合同要求实际发生情况工作量(人月)服务周期工作量(人月)服务周
5、期5 运维工作总结5.1 1-8月份1月份到8月份,XXXX处于系统测试与部署阶段,XXXX公司提供的服务为系统进行全面测试、部署、业务协维、协助XXXX机房搬迁等内容,共计提供215人天运维服务工作,其中XXXX上线测试投入4人共56人天;系统部署上线共投入3人共 48人天;XXXX机房搬迁投入1人共8人天;二线支撑投入1人共83人天;XXXX系统优化投入1人共20人天。 运维工作量按月分布图工作类型1月2月3月4月5月6月7月8月合计所占比例系统测试 (人天)000001823155616.2%系统部署 (人天)0000008404816.2%XXXX机房搬迁(人天)00000080816
6、.2%XXXX优化(人天)015000032209.3%二线支撑(人天)4573101219238321%总计(人天):4207310306180215100%5.1.1 XXXX系统测试与部署XXXX按照XXXX基地实际业务需求定制开发,开发项目组内部测试通过后,需提交到运维人员内部及XXXX内部进行测试验证,运维人员内部由XXXX公司的业务协维工程师和驻点工程师3人共同完成,包括XXXX基本的业务功能,如ZS申请、ZS审核、ZS下载、ZS批量申请等,共完成测试用例138起。根据XXXX需求文档及测试用例严格执行,业务功能基本符合要求后,XXXX公司工程师正式部署上线XXXX系统。 5.1.
7、2 协助XXXX机房搬迁XXXX在7月份进行机房搬迁,XXXX工程师协助XXXX局方完成服务器的搬迁,包括服务器的网络调试、XXXX系统的应用部署等。5.1.3 二线专家支撑1-8月份二线支撑服务主要包括以下工作:l 对XXXX开发人员及测试人员提供专业的知识指导。l 制定XXXX系统现网作业方案(版本升级方案、新版本的产品说明;patch升级 方案,打完patch后的产品说明;系统调整方案;相应的升级回退方案)l 解答XXXX等局方人员的技术难点。部分工作明细:工作类型工作任务工作描述其他业务OFFLINEXXXX、OCSP数据库连接一段时间后超时分析日志发现oracle连接在建立8小时后会
8、自动断开,故需要使用连接池来避开这个问题。对OFFLINEXXXX、OCSP与数据库的连接方式进行改造,改为连接池方式,解决了问题。远程支持XXXX tomXXXXt启动异常其他业务局方希望XXXX能支持以前采购的BJXXXX的key,相关改造工作的调研沟通得知此批KEY厂商为飞天,与飞天的技术人员沟通,提出改造需求,由他们评估改造可行度,将结果反馈给局方。其他业务XXXX控件对多厂家key的支持与需要支持的厂家技术人员联系,给他们说明需要定制的需求,并跟进进度。5.1.4 XXXX系统优化针对XXXX部署上线进行全面测试后出现的BUG进行修复:优化类型内容描述修复BUG对OFFLINEXXX
9、X、OCSP增加数据库连接池,解决这两个模块应用与数据库连接一段时间后超时的问题。修复BUG因为审计页面存在多个元素id为log,导致OCSP审计页面显示异常,修复此问题。修复BUG除RA外,其他分系统的审计功能有问题,点“审计”页面弹出窗口提示“该密钥集未被定义”。因为审计功能记录日志时,指定操作员ZS容器为ipass-key,因为容器不对,初始化时出错。修复此问题。修复BUG数量统计导出excel乱码,因为产生excel文件内容时没有指定字符编码,修复此问题。修复BUGXXXX企业ZS管理查询结果只有一条ZS时,不能做吊销。因为页面JS有错,修复此问题。5.2 9-12月份9-12月份,X
10、XXX平衡运行的同时,成功接入集团采购门户系统与XXXX基地4A系统,为这两个系统提供最高级别的安全保障。按XXXX公司的要求,XXXX公司配备的4位运维人员,包括两位驻点工程师与两位业务协维工程师,到XXXX基地现场办公,能够及时响应XXXX局方的要求。XXXX公司为XXXX提供全面的运维服务,包括硬件巡检、软件巡检、XXXX系统巡检、业务协维、二线专家支撑等,共计445人天,其中硬件巡检46人天,软件巡检46天,XXXX系统巡检90天,故障处理2天,业务协维174天,二线专家支撑87天,其中10人天为晚上加班。运维工作量按月分布图工作类型9月10月11月12月合计所占比例硬件巡检与监控(人
11、天)111211124610%系统软件巡检与监控(人天)111211124610%XXXX系统巡检与监控(人天)222322239020%XXXX系统故障处理(人天)110020%二线支撑(人天)222022238729.4%业务协维(人天)4440444617421%总计(人天):111108110116445100%5.2.1 系统运维支撑 5.2.1.1 系统巡检方式5.2.1.1.1 远程方式 因XXXX系统机房部分办公设备还没准备好,所以只能通过远程连接服务器方式,对各个服务区及服务器进行巡检,巡检内容如下:区域服务器地址5.2.1.1.2 现场方式现场巡检方式是驻点工程师通过到达X
12、XXX机房内部,通过观察各服务器硬件指示灯、风扇运行等,检查服务器系统运行状态,巡检的服务器数量如下:设备名字数量(单位:台)Linux服务器8Unix服务器6磁带库服务器1交换机17加密机7防火墙105.2.1.2 系统维护巡检内容5.2.1.2.1 远程方式巡检内容l 检查服务器CPU使用情况l 检查服务器硬盘使用情况(针对home目录)l 检查服务器内存使用情况l 检查系统进程运行情况l 通过查看日志,检查系统运行情况5.2.1.2.2 现场方式巡检内容l 各服务器指示灯l 各服务器风扇运行状态l 交换机指示灯状态l 检查机房实时温度是否达标l 检查机房设备温度是否过热l 检查机房卫生是
13、否符合要求l 有无临时接线搭线未清理5.2.1.3 系统运行分析5.2.1.3.1 系统CPU分析各服务器CPU运行均都处于正常指标(CPU使用率=85%)范围内,具体如下:5.2.1.3.2 系统内存分析各服务内存使用正常,没有发生内存占满或内存溢出等故障,保证了各服务进行的运行:5.2.1.3.3 系统硬盘空间分析 各服务器空间以小幅度的速率增长,健康状况良好:5.2.1.3.4 系统进程运行分析服务器的应用进程处于正常状态,具体如下:区域服务器地址系统名字进程检查情况5.2.1.3.5 系统故障分析XXXX系统9-12月出现故障情况如下,在故障发生的第一时间,运维人员收到监控系统的邮件通
14、知,并在收到邮件通知的第一时间进行处理,并把故障原因通报XXXX公司相关负责人,在完成后进行记录、整理,输出相应的故障报告等:故障出现时间故障服务器故障起因故障影响是否修复2011-9-24 11:30网络问题因为8.1和8.2服务器做的是负载均衡8.2出现暂时连接不上,不影响业务的正常运行已修复(机器网络不通,重启后恢复正常。2011-10-25 数据库服务器硬件问题 目前未对外提供服务,本次故障未造成对外服务的影响。已修复5.2.1.4 现网作业工作任务简介任务描述执行人备注制作模板生成个人,企业,服务器模板,有效期为3年 签发操作员ZS签发LA操作员ZS模板备份系统现有模板进行备份系统升
15、级系统920版本部署上线,并进行功能测试防火墙操作核查防火墙配置系统升级XXXX V001R001B004版本的上线升级核实数据去后台数据库核实数据系统部署安装部署XXXX业务监控系统系统备份去机房配合粟钫对防火墙进行配置、对ocsp数据库进行排错定位、对备份服务器的配置硬件支持现场协助惠普工程师处理数据库服务器问题,最后硬件故障解决, p数据库恢复正常IDS加电检查检查绿盟的IDS入侵检测设备加电情况渗透测试配合华为对XXXX系统进行入侵检测和渗透测试软件验收XXXX软件验收KMC、XXXX部分应急演练配合XXXX局方进行XXXX系统应该演练5.2.2 业务协维5.2.2.1 系统业务管理
16、l 创建ZS模板:因项目需求创建项目适用ZS模板,并做好模板备份工作。l 创建受理点:为项目创建新受理点,配置人员等。l 创建应用类型:为集团采购部项目创建单独应用类型,便于项目ZS量的统计及数据分析。l 操作员权限分配:一方面满足项目需求,另一方面根据安全规范分配。l 系统升级上线业务功能测试,保证系统业务功能的可用性与完整性。l XXXX系统内部全面测试:完成内部系统测试,为XXXX系统软件功能验收测试做好充足准备。l 系统监控系统功能部署前测试及功能演示等工作。l 参与XXXX系统定制开发需求的评审并提出修改意见,与开发人员配合讨论确认方案,保障开发前需求评审及方案制定工作顺利完成。l
17、配合南基4A系统接入的联调测试。5.2.2.2 运营支撑内容l 受理集团的上线。l 等。l 平台相关人员对XXXX的问题。5.2.2.3 ZS业务客户服务与支持受理集团的ZS业务客服咨询与故障投诉申报;ZS业务流程咨询、ZS使用问题技术支持。1) 指引、FAQ等日常文档输出:ll XXXX业务系统接入指引l CMXXXX Open API需求规格说明书2) 系统业务测试:系统920版本部署前测试,及功能演示,上线后功能验证等工作。3) 系统业务测试:系统1129版本部署前测试,及功能演示,上线后功能验证等工作。5.2.2.4 运营数据分析此图为2011年XXXXZS发放分析指标分析说明:l5.
18、2.3 专家服务5.2.3.1 运维体系的建立制定规范制度:规范ZS发行、客户服务等工作流程行为,基于经验、结合CMXXXX的业务特性,制定了CMXXXX数字ZS发行规范、CMXXXX数字ZS客户服务规范等文档。为建立健全运维、运营体系提供了坚实的基础。5.2.3.2 输出文档l XXXXCMXXXX应急响应计划l CMXXXX系统运维规范l CMXXXX行规范l CMXXXX客户服务规范5.2.3.3 运维、系统二线支撑l 机房网络现场调试l 网管监控方案及讨论l 定制开发需求评审l 部署方案审核l 现网作业密码管理l XXXX 明年发展规划5.2.3.4 运营优化根据项目支撑情况,提出日常
19、运营优化建议:l 规范ZS申请流程l 规范ZS使用流程l 规范UKEY使用流程5.2.3.5 XXXX应用接入。5.2.3.6 运维风险评估渗透测试:为了保障XXXX系统的安全性,应XXXX基地要求,地XXXX进行渗透测试,从外网到内网全方位、漏洞渗透等,取得了良好的效果。5.2.4 系统定制开发根据应用项目的特性、运营人员提出的优化需求,进行需求分析、评审,输出解决开发,协调资源进行定制开发工作,把控定制开发质量。1) XXXX支持二级审核开发及上线改造XXXX,使其支持二级审核。对应用类型配置其下ZS的审核级别。如果是一级审核,。2) 系统监控功能的需求分析及评审对CMXXXX系统业务进行
20、监控,当系统异常时通过邮件方式通知系统维护人员。系统暂时不考虑对系统权限的管理控制。3) 系统定制开发功能的测试环境搭建。部署XXXX定制开发到测试环境,完成测试组内测试,进而运营人员针对业务功能进行测试并已完成测试。目前XXXX11月版本已部署上线,验证工作也已基本结束。6 规范运维流程随着运维工作的逐渐开展,在与XXXX公司的工作配合过程中,通过引入XXXX公司的服务运营管理平台(somp),规范了运维工作流程,包括事件管理流程等。所谓事件,是指系统运行过程中突然出现的造成服务中断或服务质量下降的突发现象。事件管理流程通过对事件的相关环节进行规范,从事件的记录开始,经过分类和初步支持、调查
21、与诊断、解决和恢复,直到与客户确认后事件的关闭,流程中的各个环节前后相连,流转有序,并规定每一环节处理的最长时限。通过事件记录员、事件分析员以及事件经理等角色的明确,责任到人。从而达到在发生事件后,能在最短的时间内解决并恢复客户中断的服务,提高客户满意度。XXXX公司通过开发XXXX业务流程监控系统,定时对XXXX业务流程进行监控拨测,在XXXX发生故障第一时间通过邮件或短信的方式通知运维工程师,运维工程师第一时间进行故障处理并上报XXXX相关负责人,并在故障出理完成后,输出故障报告给XXXX公司,使得对每次故障做到跟踪、归纳总结的作用。7 总结与明年展望随着2011年的脚步慢慢走远,XXXX
22、公司在XXXX公司的大力支持下,XXXX运维工作已经步入正轨,按XXXX公司和XXXX的要求完成了对XXXX的维护工作,保障了XXXX的平稳运行,通过回顾总结今年的工作,也发现运维工作中存在不足的地方,XXXX公司力争在以后的工作中改进。2011只是XXXX运维工作的一个起点,2012年随着更多XXXX外部与内部业务系统的接入,XXXX也面临着越来越大的负载,同时运维工作也面临新的挑战,无论是对XXXX系统能力保障、业务人员协维能力,都将给XXXX公司和XXXX公司提出更高的要求,需要运维人员能力提升到另一个高度,XXXX公司在面对挑战面前,非常有信心,在XXXX公司的指导和支持下,对现有运维人员进行技术能力、业务能力等多方面提高,根据业务发展要求,增加各方面资源投入,明年会更加出色的完成XXXX运维工作,把运维工作更加规范化、专业化,更上新台阶。