《2023年,云服务器故障应急预案.pdf》由会员分享,可在线阅读,更多相关《2023年,云服务器故障应急预案.pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 云服务器故障应急预案 一、目的 为了确保云服务器(以下简称云平台)使用过程中遇到突发事件后能正确、有序、高效地进行应急处理,保障工作的正常运转,结合实际,特制定本预案。二、适用范围 本预案适用于云平台中可能出现的各类突发事件。三、预案流程 云平台服务故障预防措施包括分析风险,建立检测体系,准备应急处理措施,控制影响扩大。3.1 上报 各部门在云平台使用过程中遇到突发问题导致系统无法正常运转时,报技术部系统对接人确认,情况属实立即报知运维工程师和数据库管理员。3.2 了解和分析 根据实际情况,技术部安排应急值班(附表 1),确保到岗到人,联络畅通,技术人员即时开展软件的检修工作,对具体情况进行
2、了解并进行初步判断、处理,并将初步情况上报运维工程师知晓。3.3 处理方法 3.3.1 如突发问题为操作系统引起 首先由技术人员对突发问题进行分析,确定引起问题的具体原因,如操作系统已无法启动,则由技术人员将具体情况通报运维工程师,进行系统备份恢复,如操作系统可启动,则由技术小组根据实际情况进行妥善快速处理。3.3.2 如突发问题为软件引起 首先由技术人员收集系统日志,对突发问题进行分析,确定引起问题的具体原因,通过讨论确定初步解决方案,并对突发问题进行初步解决,如仍无法解决,则由技术人员备份数据库后,重装云平台解决。3.3.3 如突发问题为网络引起 技术人员先将问题反馈给数据中心运维人员,协
3、调网络管理员进行初步检查后确定问题原因,并在最短时间内给予解决。在事件处理过程中,技术人员要随时将突发问题处理情况上报数据中心运维人员。三预案流程云平台服务故障预防措施包括分析风险建立检测体系准备应急处理措施控制影响扩大上报各部门在云平台管理员了解和分析根据实际情况技术部安排应急值班附表确保到岗到人联络畅通技术人员即时开展软件的检修工作对先由技术人员对突发问题进行分析确定引起问题的具体原因如操作系统已无法启动则由技术人员将具体情况通报运维3.3.4 如突发问题为数据库引起 技术人员先将问题反馈给数据库管理员和服务器运维人员,确定问题。数据库软件本身问题,可切换至实时备份数据库。也可以采用新建立
4、数据库,恢复备份的数据库文件,如果原云服务器都无法恢复,可以采用其他云服务器进行恢复。3.3.5 特殊情况处理 准备好阿里云平台的帐号、域名备案、服务器,如遇目前云平台 UCLOUD 都无法使用的特殊情况,全部迁移至阿里云平台。技术部负责每周二和周五 15 点检查 ucloud 余额情况,若余额低于 5000 元当天申请续费付款流程,确保余额大于5000 元;检查完成后,需登记云服务器例行检查记录表 注:定期对服务器进行检查,填写云服务器例行检查记录表。四、信息安全事件分类 4.1 有害程序事件 有害程序事件是指蓄意制造、传播有害程序,或是因受到有害程序的影响而导致的信息安全事件。有害程序是指
5、插入到信息系统中的一段程序,有害程序危害系统中数据、应用程序或操作系统的保密性、完整性或可用性,或影响信息系统的正常运行。三预案流程云平台服务故障预防措施包括分析风险建立检测体系准备应急处理措施控制影响扩大上报各部门在云平台管理员了解和分析根据实际情况技术部安排应急值班附表确保到岗到人联络畅通技术人员即时开展软件的检修工作对先由技术人员对突发问题进行分析确定引起问题的具体原因如操作系统已无法启动则由技术人员将具体情况通报运维 有害程序事件包括计算机病毒事件、蠕虫事件、特洛伊木马事件、僵尸网络事件、混合攻击程序事件、网页内嵌恶意代码事件和其它有害程序事件等 7 个子类。4.2 网络攻击事件 网络
6、攻击事件是指通过网络或其他技术手段,利用信息系统的配置缺陷、协议缺陷、程序缺陷或使用暴力攻击对信息系统实施攻击,并造成信息系统异常或对信息系统当前运行造成潜在危害的信息安全事件。网络攻击事件包括拒绝服务攻击事件、后门攻击事件、漏洞攻击事件、网络扫描窃听事件、网络钓鱼事件、干扰事件和其他网络攻击事件等 7 个子类。4.3 信息破坏事件 信息破坏事件是指通过网络或其他技术手段,造成信息系统中的信息被篡改、假冒、泄漏、窃取等而导致的信息安全事件。信息破坏事件包括信息篡改事件、信息假冒事件、信息泄漏事件、信息窃取事件、信息丢失事件和其它信息破坏事件等 6 个子类。4.4 信息内容安全事件 信息内容安全
7、事件是指利用信息网络发布、传播危害国家安全、社会稳定和公共利益的内容的安全事件。4.5 设备设施故障 三预案流程云平台服务故障预防措施包括分析风险建立检测体系准备应急处理措施控制影响扩大上报各部门在云平台管理员了解和分析根据实际情况技术部安排应急值班附表确保到岗到人联络畅通技术人员即时开展软件的检修工作对先由技术人员对突发问题进行分析确定引起问题的具体原因如操作系统已无法启动则由技术人员将具体情况通报运维设备设施故障是指由于信息系统自身故障或外围保障设施故障而导致的信息安全事件,以及人为的使用非技术手段有意或无意的造成信息系统破坏而导致的信息安全事件。设备设施故障包括软硬件自身故障、外围保障设
8、施故障、人为破坏事故、和其它设备设施故障等 4 个子类。4.6 灾害性事件 灾害性事件是指由于不可抗力对信息系统造成物理破坏而导致的信息安全事件。4.7 其他事件 其他事件类别是指不能归为以上 6 个基本分类的信息安全事件。五、应急处理 5.1 安全事件等级确定 信息安全事件分级的参考要素包括应用系统、数据系统、客户信息等公司重要信息。本公司将信息安全突发事件级别分为三级:一般、较大、重大。一般:公司较小范围出现并可能造成较大损害的信息安全事件。较大:公司部分网络与信息系统、网站受到大面积、严重冲击。三预案流程云平台服务故障预防措施包括分析风险建立检测体系准备应急处理措施控制影响扩大上报各部门
9、在云平台管理员了解和分析根据实际情况技术部安排应急值班附表确保到岗到人联络畅通技术人员即时开展软件的检修工作对先由技术人员对突发问题进行分析确定引起问题的具体原因如操作系统已无法启动则由技术人员将具体情况通报运维重大:公司大部分网络、信息系统、网站基本瘫痪,导致业务中断,造成信息泄密的安全事件,纵向或横向延伸可能造成严重社会影响或较大经济损失。5.2 预案启动 启动预案的权限。发生网络信息安全事件后,信息安全领导小组负责启动相应预案,指挥、处理相关的应急响应工作。启动预案的流程。应急响应小组接到报告后,应当立即上报信息安全领导小组有关负责人,并会同相关成员尽快组织专家组对突发事件性质、级别及启
10、动预案的时机进行评估,向信息安全领导小组提出启动预案的建议,报信息安全领导小组批准。如发生重大安全事件,则报告人应同时上报应急响应小组和信息安全领导小组有关负责人,应急响应小组应进行初步的应急处理,防止损害进一步扩大。启动预案后的应急处理。在信息安全领导小组作出启动预案决定后,应急响应小组立即启动应急处理工作。5.3 现场应急处理 现场应急响应小组应尽最大可能收集事件相关信息,明确事件类别及来源,保护证据,以便缩短应急响应时间。检查威胁造成的结果,评估事件带来的影响和损害:如检查系统、数据的完整性、保密性或可用性,检查攻击者是否侵入了系统,确定暴露出的主要危险等。三预案流程云平台服务故障预防措
11、施包括分析风险建立检测体系准备应急处理措施控制影响扩大上报各部门在云平台管理员了解和分析根据实际情况技术部安排应急值班附表确保到岗到人联络畅通技术人员即时开展软件的检修工作对先由技术人员对突发问题进行分析确定引起问题的具体原因如操作系统已无法启动则由技术人员将具体情况通报运维抑制事件的影响进一步扩大,限制潜在的损失与破坏。根除恶意代码造成的不良影响。在事件被抑制之后,通过对有关恶意代码或行为的分析结果,找出事件根源,明确相应的补救措施并彻底清除。与此同时,对于攻击源头在外网的,应报执法部门和其他相关机构将对攻击源进行定位并消除。清理系统、恢复数据、程序、服务。把所有被攻破的系统和网络设备彻底还
12、原到它们正常的任务状态。另外,恢复工作中如果涉及到涉密数据,需要额外遵照公司对于涉密数据的相关要求。5.4 报告和总结 应急响应小组应回顾并整理发生事件的各种相关信息,尽可能地把所有情况记录到文档中。发生重大信息安全事件的单位应当在事件处理完毕后 5 个工作日内将处理结果上报给公司。5.5 应急行动结束 根据信息安全事件的处置进展情况和现场应急处理工作组意见,应急响应小组应组织相关部门及专家组对信息安全事件的处置情况进行综合评估,并向信息安全领导小组提出应急行动结束建议,并报信息安全领导小组批准。应急行动是否结束,由领导决定。三预案流程云平台服务故障预防措施包括分析风险建立检测体系准备应急处理
13、措施控制影响扩大上报各部门在云平台管理员了解和分析根据实际情况技术部安排应急值班附表确保到岗到人联络畅通技术人员即时开展软件的检修工作对先由技术人员对突发问题进行分析确定引起问题的具体原因如操作系统已无法启动则由技术人员将具体情况通报运维附件 1:信息安全事件报告表 信息安全事件报告表 报告时间:(年/月/日/时/分)报告人:联系电话:发生信息安全事件的信息系统名称及用途:负责人:信息安全事件的简要描述(如以前出现过类似情况也应加以说明):初步判定的事故原因:当前采取的措施:本次信息安全事件的初步影响状况:本次信息安全事件的初步影响状况事件后果:三预案流程云平台服务故障预防措施包括分析风险建立
14、检测体系准备应急处理措施控制影响扩大上报各部门在云平台管理员了解和分析根据实际情况技术部安排应急值班附表确保到岗到人联络畅通技术人员即时开展软件的检修工作对先由技术人员对突发问题进行分析确定引起问题的具体原因如操作系统已无法启动则由技术人员将具体情况通报运维口业务中断 口系统破坏 口数据丢失 口其他 影响范围:口单台主机 口多台主机 口整个信息系统 口整个局域网 严重程度:口极严重 口很严重 口严重口一般 口不严重 联系方式:值班电话:传真:三预案流程云平台服务故障预防措施包括分析风险建立检测体系准备应急处理措施控制影响扩大上报各部门在云平台管理员了解和分析根据实际情况技术部安排应急值班附表确
15、保到岗到人联络畅通技术人员即时开展软件的检修工作对先由技术人员对突发问题进行分析确定引起问题的具体原因如操作系统已无法启动则由技术人员将具体情况通报运维附件 2:信息安全事件应急处理结果报告表 信息安全事件应急处理结果报告表 原事件报告时间:(年/月/日/时/分)联系电话:联系人:信息系统名称及用途:已采用的安全措施:信息安全事件的补充描述及最后判定的事故原因:本次信息安全事件的初步影响状况:事件结果:影响范围:严重程度:本次信息安全事件的主要处理过程及结果:针对此类信息安全事件应采取的保障信息系统安全的措施和建议:报告人签字:三预案流程云平台服务故障预防措施包括分析风险建立检测体系准备应急处理措施控制影响扩大上报各部门在云平台管理员了解和分析根据实际情况技术部安排应急值班附表确保到岗到人联络畅通技术人员即时开展软件的检修工作对先由技术人员对突发问题进行分析确定引起问题的具体原因如操作系统已无法启动则由技术人员将具体情况通报运维