《软件系统应急管理预案.docx》由会员分享,可在线阅读,更多相关《软件系统应急管理预案.docx(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、系统应急管理预案2020年12月目录一、目的2二、适用范围21、危险事件等级定义分类22、应急响应流程21)事件报警与确认22)对系统进行检查23)安全审计及事故分析34)消除隐患、恢复正常运行35)重新启动系统36)安全报告、归档3三、应急处理措施31)一般故障32)重大故障33)特大故障3四、故障处理时限4一、目的为应对*系统信息安全突发事件,确保系统的运行安全和数据安全,结合项目实际情况,特制定本应急预案。主要立足防范和消除以下危害情况的出现:1、系统运行过程中数据库异常,导致数据丢失,系统不能正常运行;2、系统运行过程中,应用服务程序异常,导致系统异常系统不能正常运行;3、系统运行过程
2、中,服务器间网络连接异常,导致系统异常系统不能正常运行。二、适用范围本预案适用*系统可能发生的系统安全和数据安全突发事件。1、危险事件等级定义分类(1)一般故障:指系统出现轻微错误或瑕疵,具体包括:个别图片无法显示个别信息内容出现明显错误、个别服务和功能无法正常使用等(2)重大故障:指出现系统出现异常,但不影响系统日常使用,具体包括:局部页面错误、部分功能无法使用,部分信息内容出现明显错误等。(3)特大故障:指系统崩溃,应用服务停止,导致大规模用户无法使用系统,出现数据丢失,具体包括:系统服务无法启动、数据库无法连接、系统程序异常和数据库文件损坏等。2、应急响应流程1)事件报警与确认工作人员对
3、数据库服务器、应用系统的运行状况以及网络情况进行监及时发现系统的异常和网络故障,一旦发现异常情况需及时通知项目维护相关人员进行原因的排查和故障的处理。2)对系统进行检查(1)检査网络连接:需要相关网络管理人员配合检査;(2)检查应用服务器性能指标,检查的内容包括:Web Sphere进程是否正常、CPU使用率、内存使用率;(3)检査后台数据库服务器性能指标,检査内容包括:数据库服务器双机状态、数据库进程是否正常、数据库服务是否启动、CPU使用率、内存使用率。3)安全审计及事故分析通过系统日志、网络设备日志、数据库访问日志等,对事件进行审计对损失进行评估,追査事件的发生原因。4)消除隐患、恢复正
4、常运行根据审计结果,排除系统隐患,恢复系统正常运行。5)重新启动系统启动数据库服务器启动应用服务器。6)安全报告、归档提供故障分析报告,分析故障原因,修正预案处理流程并归档。三、应急处理措施1)一般故障工作人员第一时间迅速准确判断事件原因,提交项目组进行处置。2)重大故障按规定及时向信息中心报告。报告内容主要包括故障范围、影响范围事件性质、事件发展趋势和采取的措施等。信息中心召集相关责任部门共同协商解决。必要时可以停止系统运行。3)特大故障按规定及时向*报告,并要实行报告势态进程。*根据系统故障发展态势,现场指导组织派遣应急支援力量。具体措施如下:(1)系统无法登录系统无法正常登录一般由于应用
5、服务器与数据库服务器之间网络连接异常或数据库服务未启动导致,处理措施如下: 检査应用服务器与数据库服务器之间网络连接是否正常,若应用服务器与数据库服务器之间网络连接异常,恢复应用服务器与数据库服务器网络解决,重新启动系统; 应用程序后台服务是否运行正常; 检査数据库服务器数据库服务是否运行正常,如数据库服务器服务未启动则启动数据库服务器数据库服务,重新启动系统; 若以上方案均无法解决系统无法登录问题,抓取并保存系统出错信息及日志文件,简单判断异常部位,通知系统维护相关人员,保留现场,分析查找原因。(2)系统应用连接数据库超时数据库连接超时,一种情况是应用服务器与数据库服务器网络连接异常另一种情
6、况是系统数据源出错,处理措施如下: 应用服务器与数据库服务器网络连接异常,排除网络连接异常故障,重启数据库服务器和应用服务器; 系统数据源出错,重新配置系统数据源。 以上方案无法解决系统故障时,应停止系统后台服务,防止不知情用户继续投递数据。抓取并保存系统出错信息及日志文件,简单判断异常部位,通知系统维护相关人员,保留现场,分析查找原因。(3)满意度调查系统应用服务启动正常,却无法访问系统如果满意度调査系统应用服务启动正常,无法访问系统。现场处理措施如下: 系统应用程序包出现故障,需重新部署系统应用程序包; 系统数据源出错,需重新配置数据源。(4)应用服务器系统故障应用服务器操作系统故障,重新安装操作系统,重新部署满意度系统。部署完毕启动数据库服务和应用服务。四、故障处理时限1)出现网络中断、系统设备故障或停电、图像丢失、设备状态异常报警时,及时负责安排故障处理工作,并组织人员恢复。在发现故障或接到故障通知后,可在2小时内响应,在接到通知后24小时内进行处理。2)对于一些容易诊断的故障,立即进行针对性维修,故障排除时间不超过8小时,对不易诊断或维修的仪器故障,若72小时内无法排除,使用备机以满足监控需求。3)对于重大软硬件系统故障,在24小时内使系统恢复运行,对于应用系统引发的系统异常或故障,在接到通知后及时采取措施进行解决处理。