《在线交流平台应急预案2015.docx》由会员分享,可在线阅读,更多相关《在线交流平台应急预案2015.docx(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、安信证券股份有限公司安信证券股份有限公司在线交流二期系统应急预案在线交流二期系统应急预案信息技术部信息技术部发布日期:2014 年 11 月 25 日系统编号:S032目录一、应急预案制定说明.2(一)制定目的.2(二)制定依据.2(三)适用范围.2应急处置原则.2二、应急组织架构.2三、系统概述.3(一)业务连续性要求.3(二)系统部署图.3(三)应急预案覆盖示意图.4四、应急处置流程.5(一)信息通报流程.5(二)技术处置流程.6五、技术处置方案.8(一)应急场景分类.8(二)已知场景处置方案.81.已知应急场景处置信息表.92.已知场景应急处置技术方案.111)技术处置方案 1:(ZXJ
2、L2-01)在线交流系统故障处理流程.112)技术处置方案 2:(ZXJL2-002)在线交流系统 app 程序故障处置方法.123)技术处置方案 3:(ZXJL2-003)在线交流系统 app 服务器故障处置方法.124)技术处置方案 4:(ZXJL2-004)在线交流系统线路故障处置方法.135)技术处置方案 5:(ZXJL2-005)在线交流系统数据库故障处置方法.13(三)未知场景处置策略.13六、应急所需资料.14(一)故障发布话术.14(二)设备位置信息表.14(三)应急联络通讯录.14(四)信息通报记录表.14(五)技术处置记录表.14七、版本更新记录.14一、一、应急预案制定说
3、明应急预案制定说明(一)制定目的用于指导在线交流二期系统发生故障后,对故障进行应急处理(二)制定依据本预案制定依据安信证券股份有限公司信息系统应急与容灾管理办法(修订)。(三)适用范围本应急预案启用总体适用范围为在线交流二期系统。应急处置原则应急处置原则(一)原则一:先报告,后处理。(二)原则二:先应急,后排障。(三)原则三:应急顺序应遵循最大限度减少损失,降低影响面原则。二、二、应急组织架构应急组织架构(一)组织架构说明在线交流二期系统故障发生后,信息技术部应根据故障情况成立应急工作小组,及时高效地开展应急处置工作。应急工作小组由信息技术部行政负责人、建设口分管领导、应用支持组负责人、应用支
4、持组运维人员、信息发布岗及其他部门相关人员组成。(二)组织架构图(三)职责说明备注:*标识的岗位为所有应急处置必备岗位。三、三、系统概述系统概述(一)业务连续性要求RTO:0.5 天天RPO:1 天天(二)系统部署图系统业务流图岗位岗位职责分工职责分工信息技术部现场指挥岗通过指挥,确保应急处置工作依据应急预案的要求有序进行。处置决策岗*负责根据现场故障影响及现有资源的情况,进行应急技术处置方案启用的综合决策。信息通报岗*根据影响范围必要时通知公司各部门应急处置工作小组成员。技术处置岗*进行故障分析、定位并根据决策启用技术处置方案业务支持协助进行技术情况的内部通报、影响面分析,对业务问题的解答。
5、关联部门风险管理岗组织安排人员负责 IT 故障风险报告的收集。客服中心应急专员组织安排客服人员统一话术和口径向客户发布故障公告、在线解答客户提出的问题。分销机构组通知分支机构做好客户解释工作营销服务中心通知分支机构做好客户解释工作(三)应急预案覆盖示意图四、四、应急处置流程应急处置流程(一)信息通报流程1.流程表信息通报流程信息通报流程序序号号概述概述工作内容工作内容岗位岗位1)初次报告发现问题后,立即向系统负责人口头报告情况。发现人系统负责人初步评估,识别为故障后向上级口头报告情况。系统负责人向客户服务中心咨询岗,营销服务中心业务岗通报故障情况。系统负责人根据故障等级,向信息技术部行政负责人
6、报告应用支持组组长2)持续报告1、故障时间超过 30 分钟,向信息技术部安全服务与质量管理系统负责人岗报告故障信息,报告要素包含:影响时间、范围、预计恢复时间、最大损失。2、系统恢复前需每 30 分钟持续通报。向所在地证监局报告故障情况。安全服务与质量管理岗3)恢 复后 报告内部报告1、向客户服务中心咨询岗、营销服务中心业务岗通报系统恢复情况。2、向运行口运行专员系统恢复情况。3、根据公司制度要求,报告风险管理部风险即时报告。4、若故障时间超过 30 分钟,需向安全服务与质量管理岗提交网络与信息安全事件情况报告书。系统负责任监管报告根据监管要求,向监管部门报告。安全服务与质量管理岗2.流程图(
7、二)技术处置流程1.流程表技术处置流程技术处置流程概述概述工作内容工作内容岗位岗位故障发现1)事件发现从监控系统或安信通、电话等渠道获得事件信息反馈,立即告知系统负责人。发现人2)故障定位根据报警信息,初步定位故障环节。系统负责人 A3)故障上报根据通报流程,进行故障影响范围、处置建议、预计恢复时间等报告。系统负责人 A应急4)应急准备1、应急预案,操作手册等纸质文档准备就绪。系统负责人 B响应2、应急处置各岗位人员到位,联系开发商人员就绪等准备。3、机器配件等准备就绪。5)应急决策根据现场收集的信息及所掌握资源,进行技术处置方案决策。处置方案决策岗6)应急处置进行应急处置:1、已知故障按照已
8、知故障原因应急场景进行处置,直至系统恢复正常。2、未知故障按照未知故障原因应急场景进行处置,直至系统恢复正常。系统负责人 A1、协助进行信息持续报告。2、统计故障影响程度:故障持续时间、失败转账笔数、失败转账总金额、失败客户数,故障产生单边帐数;向客服中心获取客户投诉人数,投诉涉及金额。3、为业务部门等提供技术支持。4、进行关键步骤操作的复核及记录。系统负责人 B系统恢复7)故障处置后环境恢复1、准备系统环境。2、修复原生产环境,收市后进行环境恢复。3、通知关联部门、人员。系统负责人8)应急总结1、在应急处置完毕 3 个工作内提交IT 运行事件报告2、根据公司要求,提交风险即时报告3、总结经验
9、包括故障认定、流程优化、监控完善,增加、修订应急预案和知识库等。系统负责人2.流程图五、五、技术处置方案技术处置方案(一)应急场景分类从故障原因是否已知的角度来看,应急场景可划分为已知应急场景和未知应急场景两大类。(二)已知场景处置方案1.已知应急场景处置信息表已知应急场景处置信息表已知应急场景处置信息表序序号号突发事件场景信息突发事件场景信息检查节点及操作检查节点及操作定位故障环节定位故障环节技术处置方案技术处置方案技术处置技术处置方案更新方案更新日期日期应急应急级别级别(初(初始)始)决策决策人人汇报汇报上级上级预计技术处预计技术处置时间(分置时间(分钟)钟)技术信息技术信息业务信息业务信
10、息(可可能)能)1)App 程序故障1Ping 报警服务器检查网络是否畅通或是机器死机2telnet 检查服务端口是否畅通 3 检查服务程序状态判断服务程序是否正常在线交流二期 app服务器*.*.*.*ZXJL2-002、ZXJL2-003应用支持组负责人应用支持组分管领导2)App 服务器硬件故障1 检查行情服务端口是否畅通 2 检查行情服务程序是否正常 3 检查服务器连接是否畅通 4 检查机器是否正常启动在线交流二期 app服务器*.*.*.*ZXJL2-002应用支持组负责人应用支持组分管领导3)数据库故障1Ping 报警服务器检查网络是否畅通或是机器死机2telnet 检查数据库服务
11、端口是否畅通在线交流二期 db服务器*.*.*.*ZXJL2-005应用支持组负责人应用支持组分管领导4)线路故障客户反馈无法在线咨询1Ping 外网 ip 检查网络是否畅通运营商网络ZXJL2-004、应用支持组负责人应用支持组分管领导2.已知场景应急处置技术方案1)技术处置方案 1:(ZXJL2-01)在线交流系统故障处理流程技术处置技术处置方案名称方案名称在线交流二期系统故障处理流程应急预案适用场景适用场景在线交流二期系统故障时的应急处理应急操作步骤应急操作步骤序号序号操作步骤操作步骤关键步骤操作结果关键步骤操作结果预计完成时间预计完成时间1.立即启动预案2.系统负责人第一时间组织进行故
12、障排查3.立即联系厂商负责人,要求协助排查和解决。4.立即上报应急处置工作小组5.立即通知建设口负责人6.建设组负责人向安全组、信息技术部负责人报告。组织在安信通向客服中心、分支机构公告。通知相关各岗位做好分工、协助7.安全组向公司危机管理工作小组报告8.公司危机管理小组向公司危机领导小组报告,并通知公司营运中心、营销服务中心、合规部、风险管理部等部门。开展舆情监控,实时了解互联网上是否有对本公司此次事件的报道,对有失实报道的情况,应联系相关媒体要求删帖或澄清。通知客服中心做好客户安抚工作,指导客户使用其它渠道咨询。9.初步查找故障原因,确定影响的范围,估算可能解决的时间10.如果需要的时间可
13、能超过1 天,则信息技术部负责人报告公司领导11.立即启动应急处置流程12.联系本组开发人员、供应商共同查找故障的原因,根据不同的原因进行紧急修复合计时间:系统恢复步骤系统恢复步骤1、系统恢复后,及时通报客服中心及各分支机构营业部。2、继续统计和确认受影响范围,确认妥善安抚受影响客户,持续开展舆情监控。3、安全组向公司危机管理工作小组报告。通报深圳证监局和交易所,报告交易恢复正常,填写网络信息安全事件报告书进行书面报告。4、评估事故造成的损失,制定善后解决方案。5、进行事故总结,内容包括事故原因、解决过程、补救措施、事后加固措施等,报公司领导、深圳证监局。2)技术处置方案 2:(ZXJL2-0
14、02)在线交流系统 app 程序故障处置方法技术处置技术处置方案名称方案名称在线交流单台 app 程序故障处置方法适用场景适用场景app 程序故障。应急操作步骤应急操作步骤序号序号操作步骤操作步骤关键步骤操作结果关键步骤操作结果预计完成时间预计完成时间1.查看 app 程序进程是否正常,查看 app 程序是否有连接数。重启 java app 程序。其它负载均衡的 app 服务器正常提供服务10 分合计时间:系统恢复步骤系统恢复步骤重新启动修复正常的在线交流 app 服务程序。3)技术处置方案 3:(ZXJL2-003)在线交流系统 app 服务器故障处置方法技术处置技术处置方案名称方案名称在线
15、交流单台 app 服务器故障处置方法适用场景适用场景app 服务器故障应急操作步骤应急操作步骤序号序号操作步骤操作步骤关键步骤操作结果关键步骤操作结果预计完成时间预计完成时间1停止服务程序工作端口。关闭故障服务器进行检修其它负载均衡的行情服务器正常提供服务。1 天合计时间:系统恢复步骤系统恢复步骤启动检修正常后的服务器,及 app 服务程序。4)技术处置方案 4:(ZXJL2-004)在线交流系统线路故障处置方法技术处置技术处置方案名称方案名称在线交流网络线路故障处置方法适用场景适用场景场景一:在线交流系统网络线路故障应急操作步骤应急操作步骤序号序号操作步骤操作步骤关键步骤操作结果关键步骤操作
16、结果预计完成时间预计完成时间11 通知客服中心,分支机构,做好客户解释和引导工作,并发布站点异常通告。2 通知运营商进行线路恢复。内网 ip ping 通,外网 ipping 不通1 天合计时间:系统恢复步骤系统恢复步骤针对场景一:线路恢复后,系统正常。5)技术处置方案 5:(ZXJL2-005)在线交流系统数据库故障处置方法技术处置技术处置方案名称方案名称手机证券所有站点行情故障处置方法适用场景适用场景场景一:数据库服务程序故障场景二:数据库服务器硬件故障应急操作步骤应急操作步骤序号序号操作步骤操作步骤关键步骤操作结果关键步骤操作结果预计完成时间预计完成时间1针对场景一:1 重启数据库服务程
17、序数据库服务端口不通10 分钟2针对场景二:1 引导客户使用其它渠道进行咨询 2重装一台数据库服务器,安装好数据库服务后,导入备份数据库进行数据恢复。3.app 服务器重新连接数据库服务器 4.通知客服中心验证相应服务是否恢复1 天合计时间:系统恢复步骤系统恢复步骤(三)未知场景处置策略六、六、应急所需资料应急所需资料(一)故障发布话术(二)设备位置信息表(三)应急联络通讯录(四)信息通报记录表(五)技术处置记录表七、七、版本更新记录版本更新记录版本号版本号修订内容修订内容修订修订/审核人审核人审批人审批人发布日期发布日期未知场景操作策略未知场景操作策略策略策略操作内容操作内容环境保存进行处置前,做好系统环境的保存(备份),必要时候可以回退。回退操作若系统前一日发生过重大变更的,在回退条件允许的前提下,可尝试回退处理。重启程序如果检测到某节点机器出现 CPU,内存利用率异常的,应检查系统进程 CPU、内存使用情况,尝试重启通讯程序。检查特有参数在程序界面均显示正常的情况下,应检查机器日期,时区设置是否正确,不正确时做修正。寻求协助联系开发商要求技术支持,结合开发商建议进行其他尝试。切换备机尝试切换备份机器。1.0云涛马欣2015.11.20备注:应急预案至少每年一次进行更新或者审核。