《服务器应用系统应急预案.docx》由会员分享,可在线阅读,更多相关《服务器应用系统应急预案.docx(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、服务器应用系统应急预案 最好的沉淀1. 服务器应用系统出现故障(1) 当服务器应用系统出现故障,系统管理员应当立即初步确定故障的严重程度, 估计出现故障的应用系统故障排除需要的时间,并根据应用系统需要保障的无故障运 行时间,采取不同的应用系统恢复策略。(2) 如果应用系统不能停机,立即启用热备份系统进行工作。如果业务系统不能停机, 而故障又可以在10 分钟之内排除,那么系统管理员立即排除故障,恢复系统正常运行。业务系统可以停机而故障又可以在小时内排除,应该断开服务器的网络连接,处理服务器故障,尽快排除故障,恢复系统运行。应用系统可以停机但故障排除不能在小时之内完成,而业务系统有冷备份系统,应该
2、断开服务器的网络连接,通知系统管理员启动冷备份系统,完成业务系统的安装、设置,并进行数据的恢复,保证系统正常运行。业务系统可以停机,而又没有冷备份的业务系统,那么系统管理员备份现有系统的数据和程序,如果不能进行备份系统的数据和程序,系统管理员在确定了业务系统有之前备份的情况下,重新修复或安装操作系统,并重新安装或修复业务系统并恢复 最新备份的数据。 如果备份丢失或不存在, 系统管理员应该报告分管经理, 并求助技术支持商,完成对硬盘数据的恢复。(3) 系统管理员在业务系统出现故障时, 应该及时查找本地的数据备份, 本地的数据备份损坏或丢失,应该立即从异地数据备份复制业务系统的数据备份到本地。(4
3、) 系统管理员应在确认安全的情况下,重新启动故障服务器系统;重启系统成 功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商 和技术支持, 请求援助, 分析故障原因, 若经设备厂商或技术支持认定是硬件损坏,那么需要请求厂商更具维修协议, 进行保修或维修。 在服务器硬件正常的情况下,尽快做好系统软件的恢复或重新安装,之后再进行业务系统的恢复或重新安装,再进行业务系统的数据恢复,业务系统完全恢复正常运行后,重新启用恢复的业务系统服务器,再将备用系统停掉。(5)应急预案技术措施,如果出现网络病毒,黑客攻击等,系统管理员采用瑞 星杀毒软件或卡巴斯基杀毒软件和360 木马查杀工具等,对
4、整个计算机进行杀毒。对不能确定是否为病毒的文件。 如果出现不良信息, 系统管理员程要设法找到不良信息的文件或不良信息存在数据库中的位置, 对非法信息,进行手工删除, 或编程删除,若不能清除,采用程序和数据备份进行恢复。2、软件系统故障应急预案(1) )发生服务器软件系统故障后,系统管理员应立即对服务器进行查看,分析故障原因, 采取并及时报告分管经理; 同时安排将故障服务器脱离网络,保存系统状态不变, 取出系统镜像备份磁盘, 保持原始数据, 按照系统恢复应急预案进行。(2) 处置结束后 , 系统管理员应将事发经过、处置结果等在调查工作结束后一日内报告分管经理。(3) )技术措施:系统管理员在故障
5、发生后立即查看服务器系统状态,如果是系统软件出现故障,并且能进入系统, 且可以清晰定位故障原因, 并可以立即排除, 那么立即进行排除。 如果估计在 3 小时之内都不能定位故障原因, 那么报告分管经理,请求系统软件厂商及技术支持协助排除, 或根据技术支持的建议进行重新安装操作系统和业务系统。排除操作系统故障的方法,检查操作系统进程是否都 正常,有无非法进程, 操作系统文件有无损坏丢失, 是否受到病毒和木马程序侵害,黑客攻击。如果不是操作系统故障,应该只是对业务系统进行检查,检查方法,查看业务系统代码和数据是否被破坏,损坏,丢失,如果丢失,从正确的备份进行恢复。3、服务器硬件故障应急预案(1) )
6、发生服务器设备硬件故障后,系统管理员应及时报告分管经理,并组织查找、确定故障设备及故障原因,进行先期处置。(2) )根据系统恢复应急预案, 确定故障的服务器上的业务系统的应急恢复措施。(3) 处置结束后 , 系统管理员应将事发经过、处置结果等在调查工作结束后一日内报告分管经理。(4) 技术措施:初步判断硬件故障的方法,观察系统能否正常启动,记录启动 时显示器屏幕上的提示信息, 记录服务器状态指示灯状态, 记录系统状态显示屏上的信息, 系统管理员初步判断服务器硬件故障后, 咨询硬件厂商、 技术支持确定硬件故障的具体原因和故障部件,并联系进行维修。4、业务数据损坏应急预案 发生业务数据损坏时, 系
7、统管理员应及时报告信息分管经理, 检查、备份业务系统当前数据。 系统管理员负责调用备份服务器备份数据,若备份数据损坏,调用异地备份数据,应及时完成数据恢复工作。系统管理员应待业务数据系统恢复后,检查历史数据和当前数据的差别, 由相关系统操作员补录数据; 重新备份数据,并写出故障分析报告,在调查工作结束后一日内报告分管经理联系运维方操作说明:突发事件发生通知服务器1. 发生突发事件后立即通知服务方成和立应服急务技器术原小厂组商,成立应急小组,该小组由服务方工程师、我方技术人员、原厂商三方共同组成。制定处理方案否2. 应急小组分析突发事件造成原因,确定硬件、软件方面故障,研究可操作性,分析处理过程
8、各种意外情可况操,作影性响分析范围,制定事件处理方案。如分析需各更种换意硬外件应对应急小组讨论通过后制定紧急采购方案,以上方案制定后上小报组各内级审核领导审核通过。3. 待领导审核通过后对服务器数据应急备份,组织实施维护方案(主末管通审过核将重新制定方案),制定操作方案实施过程中如发生意外事件,应立即上报分管经理,分析出现原因,及时处理意外事件。通过分管经理审核4. 维护方案完成后核查突发事件确是定维否护处方理案完成,如已经处理结束,视情况决定是否需要还原否总经理审核数据,并将事件记录存档,如末完成,再次分析原因,重新制定操作方案。应急备份组织实施实施过程中是如必要还原备份是否还原备份故障能否成功处理完成维护整理存档上报意外排除意外制定意外处流程图