《XXXX银行XXX管理系统应急预案v10.docx》由会员分享,可在线阅读,更多相关《XXXX银行XXX管理系统应急预案v10.docx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、XXX银行XXXX管理系统应急预案V1.0XXXXXX2016 年8月目 录1总则51.1适用范围51.2系统重要等级52应急组织架构52.1应急执行小组53系统资产配置说明53.1系统功能简述53.2基础环境配置53.3物理架构图63.4系统关联关系图63.5系统关键文件说明63.6数据备份策略63.7监控预警措施64系统应急场景分类及描述64.1故障场景分类64.2硬件故障场景74.2.1主机硬件故障导致服务器宕机74.2.2设备硬盘异常74.3通用软件故障场景74.3.1操作系统(AIX)文件系统空间利用率高94.3.2操作系统(AIX)用户无法登陆94.3.3操作系统(AIX)内存不足
2、94.3.4操作系统(AIX)CPU繁忙94.3.5操作系统(AIX)磁盘繁忙94.3.6中间件(Weblogic) Crash94.3.7中间件(Weblogic)内存溢出94.3.8中间件(Weblogic)挂起94.3.9中间件(Weblogic)占CPU高94.3.10数据库(Oracle)性能异常94.3.11数据库(Oracle)文件损坏94.3.12数据库(Oracle)归档日志满导致挂起94.3.13数据库(Oracle)表空间OffLine94.3.14数据库(Oracle)实例监听宕掉94.4应用软件故障场景94.4.1用户无法登陆WEB应用界面114.4.2WEB应用无法
3、启动114.4.3可进入登陆界面但登陆异常114.4.4WEB应用响应缓慢或无响应114.4.5WEB中某一联机交易大面积异常报错114.4.6对外服务端进程异常114.5其他异常情况114.5.1网络攻击114.5.2治安事件114.5.3人为破坏114.5.4电力故障114.5.5火灾等事故造成系统瘫痪115系统重建116应急演练117持续改进12附件2:XXX管理系统双机切换方案12文档修订记录作 者修订内容简述修订日期修订前版本号2016-08-14V1.01 总则为进一步健全XX银行XXX管理系统应急处置工作机制,防范系统运行风险,有效处置系统突发事件,保证对客户的业务连续性,依据X
4、X银行信息科技突发事件应急预案有关规定制定本预案。1.1 适用范围1. 本预案适用于预防和处置XXX管理系统的突发事件。2. 本预案所称突发事件,指XXX管理系统出现异常,影响业务的持续开展,影响客户业务办理,需要启动应急处置措施应对的事件。1.2 系统重要等级2 应急组织架构2.1 应急执行小组3 系统资产配置说明3.1 系统功能简述XXX管理系统的主要的功能有: 功能框架如下图:3.2 基础环境配置设备名称类型用途物理位置服务IP管理IP3.3 物理架构图3.4 系统关联关系图3.5 系统关键文件说明3.6 数据备份策略3.7 监控预警措施4 系统应急场景分类及描述4.1 故障场景分类系统
5、故障场景按照故障特点分为五类:硬件故障场景、通用软件故障场景、应用软件故障场景、网络故障场景和其它故障场景。1. 硬件故障场景:主要包含系统硬件方面的故障场景。例如服务器异常宕机、设备CPU异常、设备内存异常、设备磁盘异常、设备网卡异常等。2. 通用软件故障场景:主要操作系统、数据库软件、中间件等方面的故障场景。例如AIX操作系统异常、Weblogic服务异常、系统数据库崩溃等。3. 应用软件故障场景:主要包含业务应用系统方面的故障。例如系统应用响应缓慢或无响应、应用进程异常、系统应用无法启动、交易异常报错等。4. 网络故障场景:主要包含与网络相关的故障场景。例如WEB与DB间网络异常或不可用
6、、IP地址异常或出现冲突、数据传输中出现异常丢包等5. 其它故障场景:主要包含系统相关的外联系统、外部环境等方面的故障。例如机柜异常掉电、与外联系统交易异常、设备被人为破坏等。4.2 硬件故障场景n 主机硬件故障导致服务器宕机n 设备硬盘异常4.2.1 主机硬件故障导致服务器宕机故障说明: 处理时间 现象 现场保护 应急方法 操作步骤 验证方式4.2.2 设备硬盘异常4.3 通用软件故障场景通用软件常见故障事件列举如下:n 操作系统(AIX)文件系统空间利用率高n 操作系统(AIX)用户无法登陆n 操作系统(AIX)内存不足n 操作系统(AIX)CPU繁忙n 操作系统(AIX)磁盘繁忙n 中间
7、件(Weblogic)Crashn 中间件(Weblogic)内存溢出n 中间件(Weblogic)挂起n 中间件(Weblogic)占CPU高n 数据库(Oracle)性能异常n 数据库(Oracle)文件损坏n 数据库(Oracle)表死锁n 数据库(Oracle)归档日志满导致挂起n 数据库(Oracle)表空间OffLinen 数据库(Oracle)实例监听宕掉4.3.1 操作系统(AIX)文件系统空间利用率高4.3.2 操作系统(AIX)用户无法登陆4.3.3 操作系统(AIX)内存不足4.3.4 操作系统(AIX)CPU繁忙4.3.5 操作系统(AIX)磁盘繁忙4.3.6 中间件(
8、Weblogic) Crash4.3.7 中间件(Weblogic)内存溢出4.3.8 中间件(Weblogic)挂起4.3.9 中间件(Weblogic)占CPU高4.3.10 数据库(Oracle)性能异常4.3.11 数据库(Oracle)文件损坏4.3.12 数据库(Oracle)归档日志满导致挂起4.3.13 数据库(Oracle)表空间OffLine4.3.14 数据库(Oracle)实例监听宕掉4.4 应用软件故障场景通用软件常见故障事件列举如下:n 用户无法登陆WEB应用界面n WEB应用无法启动n WEB应用响应缓慢或无响应n WEB中某一联机交易大面积异常报错n 对外服务端
9、进程异常n 对外服务端无法启动4.4.1 用户无法登陆WEB应用界面4.4.2 WEB应用无法启动4.4.3 可进入登陆界面但登陆异常4.4.4 WEB应用响应缓慢或无响应4.4.5 WEB中某一联机交易大面积异常报错4.4.6 对外服务端进程异常4.5 其他异常情况4.5.1 网络攻击4.5.2 治安事件4.5.3 人为破坏4.5.4 电力故障4.5.5 火灾等事故造成系统瘫痪5 系统重建6 应急演练1. 每年进行一次应急演练。2. 每季至少进行1次备份数据恢复,出具恢复测试报告。3. 演练完成后编写XXX管理系统应急演练总结报告,包括演练时间、演练内容、参加人员、演练中发现的问题、原因分析
10、、应对措施。7 持续改进应急预案持续改进遵循以下原则:1. 根据每次应急演练的经验、风险分析,及时更新本应急预案分册。2. 当事故发生后,总结应急处置经验,形成应急场景,加入本应急预案分册。3. 当发生重大系统架构、系统软/硬件变更时更新本应急预案分册。4. 当监管部门的监管文件、XX银行应急管理办法变更后,及时更新本预案分册。5. XX银行信息系统突发事件总体应急预案发生变更后,XXX组织及时更新本应急分册。6. XXX部门定期对XXX管理系统突发事件风险防范措施进行评估,对应急管理的策略、机制、方法、流程等不断完善。附件:XXX管理系统应急小组成员联系方式附件2:XXX管理系统双机切换方案