运维应急服务方案.doc

上传人:阿宝 文档编号:4289982 上传时间:2021-08-04 格式:DOC 页数:14 大小:564.40KB
返回 下载 相关 举报
运维应急服务方案.doc_第1页
第1页 / 共14页
运维应急服务方案.doc_第2页
第2页 / 共14页
点击查看更多>>
资源描述

《运维应急服务方案.doc》由会员分享,可在线阅读,更多相关《运维应急服务方案.doc(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、运维应急服务方案1.1 灾难应急措施1.1.1 应急措施体制图与总则l 一旦发生灾难,由负责人XXX主导:首先保人员安全;其次保关键设备、数据安全;三是保一般设备安全。l 人员疏散的程序是:运行人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出。l 人员灭火的程序是:首先切断所有电源,启动自动喷淋系统,运行人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。l 人员若在疏散时如有受伤情况,立刻拨打120电话向近邻的医院请求支援。1.1.2 大型灾难紧急行动方案1.1.2.1 发生水害、火害等自然灾害时报警措施

2、:l 严格遵守火警处理流程;l 关闭供电总闸;l 启用灭火设备进行灭火,并打火警电话119;l 全力保护重要的数据备份,并转移到安全地点;l 完全灭掉各种明火;l 尽量保护好火灾现场,协助有关方面勘察分析火灾发生的原因、造成的损失、提出批评防范措施和需要改进的地方;l 对发生火灾造成的损失、原因等做好记录,经部门负责人、联社领导审阅后,向上级主管部门全面汇报。1.1.2.2 防雷措施l 一旦被雷击后,使设备无法正常运行。由运职人员立刻通知越秀工商主管部门,叙述情况。l 由越秀工商指派相关负责人主导。l 现地防雷措施:为防止高压雷电波侵入设备,可在设备前端采用多种防雷装置。例如,在网络设备前设三

3、级避雷装置可有效分流限压,防止感应雷电波的侵入,三级避雷装置指电源端、UPS端、服务器端。防雷措施主要针对直击雷和感应雷,一般做法是装设避雷针。由于广州雨季约在4月8月,在这段期间必须每月做一次防雷设备的测试。除4月8月外,必须4个月做一次防雷装置的测试。避雷针接地的接地电阻应4。1.1.2.3 断电处理措施l 通讯1、市电中断后,运行人员应立即切换到备用电源-UPS。2、运行人员应立即查明原因,并向上一级汇报。3、立即致电资源调度组长,并协助恢复电源。l 现地的设备检查1、巡查内部设备是否损坏。2、如有损坏,将设备型号及生产日期记录,向设备抢救员汇报,若设备未过保修期,应立即联系厂家进行送修

4、。l 备用工具1、应定期1个月报一次备件需求,以防网络中断后,备件烧损,能立即更换。2、备件可存放在库房,由库管做为保管。l 市电中断演习1、所有市电中断后,运行人员应立即关闭所有从UPS取电的不必要电气设备,检查UPS状态、所剩电量,然后检查设备运行情况。2、向上一级汇报初步情况。3、致电资源调度组长共同查明原因,尽可能缩短断电时间。时刻与上级保持联系反映最新情况。4、故障解决。向上级报告故障已处理以及报告处理全过程。5、撰写文档做好故障发生时间、处理方法和故障原因的记录。1.1.2.4 设备入水措施l 通讯1、发生设备入水后,可由服务工程师向越秀工商汇报入水后机器情况。2、汇报后主要由服务

5、工程师组织人力,进行实施。l 场地需求1、负责人应立即向上一级领导申请场地。2、人力(包括司机)3、运输工具(车一辆)l 工具需求1、机器入水后需要向资源调度领取螺丝刀、插线板、硬件备件等工具。2、用电吹风将机体及零件吹干。l 设备入水预演一、设备入水1、机器因天灾造成计算机入水,首先第一步机器不能通电,避免硬件烧损。2、将机器存放在干处,不得放在燥湿,有水处。3、主机入水立即将水倒出,这样才能将损害减低到最低。4、将主机机箱盖开启,用电吹风将机体及零件吹干,请注意将电吹风与机体保持一定距离,以免高温对元器件的损伤。5、确认零件吹干后,插电点燃确认机器能否正常进入系统,如有出现软硬故障、需要立

6、即更换,使机器能正常进入正常工作状态。6、机器确认完好正常后,运往现场。二、笔记本入水1、立即取下笔记本电脑的电源及电池,如有外接或抽换式模块零件(如光驱、硬盘、软驱、扩充内存等)一并取下。2、千万不要再开机了,否则会对笔记本电脑造成更严重的损害。3、将笔记本电脑体内的水尽量倒光,并在第一时间内送到服务站由受过训练的专业工程师处理,这样才能将损害减低到最低程序。(如条件不允许,无法及时联络到服务站,可先采取一列应急处理措施后再送至服务站处理。)4、找一条柔软的湿纸巾或软布将污渍轻轻擦去,并尽量避免磨损表面。 5、用电吹风将机体及零件吹干,请注意将电吹风与机体保持一定距离,以免高温对元器件的损伤

7、。三、汇报情况1、由负责人向上一级汇报这一次抢修情况进入反馈。2、对这次工作做出总结。1.1.2.5 数据及设备撤离计划l 将数据备份磁带、UNIX系统及SYBASE系统软件转移到安全地方;l 将服务器、阵列、集线器转移到安全地方;l 将前置机及远程数据通讯器转移到安全地方;l 将有关外部设备转移到安全地方。1.1.2.6 资源备份(硬件、软件、数据)l 单机及外部设备采用硬件备份。1.1.2.7 快速恢复l 环境正常以后,将硬件设备恢复到原来状态,若数据有错误,利用最近日期的数据备份磁带进行恢复。1.2 运行服务应急方案紧急故障应急措施应以快速恢复客户使用为目标,第一时间将客户使用状态恢复到

8、正常,避免或尽量减少因故障而导致的损失。1.2.1 启动应急流程在【问题管理】流程中,当服务主管收到服务台人员或助理提交的运维工作单,并判断该问题属于重大事故时,则启动应急处理流程。重大事故包括以下几种情况:l 大范围系统中断l 区域性系统崩溃l 关键业务中断l 大范围病毒爆发l 系统严重破坏l 数据严重破坏根据重大事故的紧急程度和状态不同,服务主管可采取以下方式启动应急流程:u 当紧急事件发生时,投标人的运行人员首先要进行故障分析,确定故障的范围和程度,确认为紧急故障的,在查找原因和解决问题的同时,要同步将故障解决情况通报给部门领导、及向客服中说明事件发生的状况。如需其他部门协助的,需要请求

9、相关部门共同尽快解决故障。u 对于病毒突发事件,当病毒大面积地感染终端,投标人的现场服务人员将已感染的终端从局域网中断开,投标人的运行人员将第一时间收集病毒信息,并向现场人员提供有针对性的应急方案;如果应急方案没有效果,要立即和杀毒软件厂方联络,由双方共同协同提供有效的应对措施。u 对于网络中断事件,投标人的运行人员首先要判断中断原因,如果是局域网本地设备或线路造成的,依网络运行处理流程优先快速处理;如果是电信服务提供商造成的,要立即联络电信技术部门解决问题。u 对于系统故障事件,投标人的运行人员首先要启用备用系统,再判断故障类型:硬件损坏、操作系统故障、软件故障。硬件损坏的情况,首先向服务器

10、供应商报障;操作系统故障多数情况都和硬件故障同时出现,处理方式相同;软件故障如果是由购买的软件造成的,立即向软件厂商寻求技术支持;如果是公司自行开发的软件,立即向相关人员联系并排除故障。u 对于自然灾害性事件,运行管理人员要尽可能将设备转移到安全地带,将损失降低到最少。u 对于电力中断事件,由于机房多采用UPS防止断电带来的系统停机现象,在UPS还能供应电力期间恢复供电,对系统使用不会有影响;但遇到特殊情况导致供电部门在短期内不能恢复供电时,如有备用发电设备要启用备用发电设备供电,否则要关闭所有设备,确保突然断电造成设备损坏。u 在故障排除之后,运行管理人员要填写故障记录,如果故障是由于项目实

11、施中存在的隐患造成的问题,具体操作请参见上层文件网络系统维护管理指引。故障记录汇总到“系统运行故障记录表”,重大事故由故障处理人填写故障报告。1.2.2 成立应急小组启动应急流程申请单获批准后(包括口头批准),由信息主观部门负责组建应急小组。应急小组由多方人员组成,例如信息中心代表、运维部代表、服务主管、客户代表、供应商代表以及其他第三方人员等。应急小组对发生的重大事故进行讨论分析并制定应急处理方案。运维小组会根据实际人员需求情况从公司本部调配足够人员加入到应急小组。运维小组会根据实际需求情况从公司本部调配足够的资金以保障事件处理经费需求。1.2.3 应急处理过程运维服务商根据应急小组制定的应

12、急处理方案具体实施应急处理活动,并将实施过程和结果记录在应急处理过程记录中。涉及到客户现场服务的应取得客户的签字确认。应急处理实施过程中涉及需要协调配合的工作由服务主管填写资源申请单,说明需要获得的资源、需要协调配合的工作等,经应急小组审批通过后由相关人员代表配合实施。应急处理实施过程中涉及需要采购的,由服务主管填写资源申请单,说明需要采购的产品名称、型号/规格/功能、厂商/供应商、费用等。资源申请单经应急小组审批通过后由运维工程师实施采购,并将采购过程和结果记录在资源申请单中,应急小组对采购结果进行确认。应急处理实施过程中涉及需要变更的,由服务主管填写变更请求表,说明变更内容、变更原因、变更

13、方案等,经应急小组批准后直接由运维工程师根据变更请求表中的变更方案实施变更,并将变更过程和结果记录在变更日志中。所有应急处理活动均应记录在应急处理过程记录中。具体涉及到网络紧急故障处置,我们以恢复使用为第一目标。在确认设备故障情况下,将第一时间采用备机备件恢复网络功能;在链路故障情况下,启动备用链路进行通讯恢复,并积极配合链路运营商恢复链路;在大面积病毒爆发情况下,利用趋势病毒爆发阻止功能,首先阻止网络病毒传播途径,阻止病毒源,并积极联系厂商获取最新病毒码对全网进行病毒处置。1.2.4 应急处理结果评估应急处理过程完成后,服务主管向应急小组提交应急处理过程相关表单,包括启动应急流程申请单、应急

14、处理过程记录、资源申请单、变更请求表、变更日志等。应急小组对应急处理结果进行评估和确认,并在应急流程评估单中填写评估意见。如果应急小组评估意见为达到要求(即问题得到解决并恢复服务),则应急流程结束。如果应急小组评估意见为未达到要求,则由应急小组讨论分析原因,根据分析结果可采取以下措施:l 如果需要继续进行应急处理,则由应急小组提出应急处理方案,进行应急处理过程;l 如果不需要继续进行应急处理: 如果有新的问题产生,则由服务主管填写运维工作单,转【问题管理】流程处理; 如果有新的变更需求,则由服务主管填写变更请求单,转【变更管理】流程处理; 否则应急流程结束。应急流程结束时,由服务主管在运维工作单中记录应急处理结果及关联表单编号。配置管理员对应急处理结果进行检查,登记新的配置项或更改后的配置项。1.2.5 统计和报告由助理每月或每季度对应急流程情况进行统计,形成应急流程管理报告,并提交给服务主管。应急流程管理报告内容包括:启动应急流程次数(不同类别的次数)、原因分析、影响分析、完成情况、所需时间、各项资源利用情况、费用情况、意见和建议等。应急流程管理报告经服务主管确认后提交数据部。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 施工组织

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁