2022年温江人民医院双活数据中心解决方案-华为 .pdf

上传人:Q****o 文档编号:26162221 上传时间:2022-07-16 格式:PDF 页数:44 大小:2.69MB
返回 下载 相关 举报
2022年温江人民医院双活数据中心解决方案-华为 .pdf_第1页
第1页 / 共44页
2022年温江人民医院双活数据中心解决方案-华为 .pdf_第2页
第2页 / 共44页
点击查看更多>>
资源描述

《2022年温江人民医院双活数据中心解决方案-华为 .pdf》由会员分享,可在线阅读,更多相关《2022年温江人民医院双活数据中心解决方案-华为 .pdf(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、神话区市政医院双活数据中心解决方案2016 年 11 月 9 日名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 44 页 - - - - - - - - - 1 项目概述 . 41.1 项目背景 . 41.2 需求分析 . 41.2.1 行业发展要求. 41.3 系统总体设计原则. 71.4 业务系统特征及灾备需求. 91.4.1 HIS门诊类 . 91.4.2 HIS住院类 . 91.4.3 EMR电子病历系统 . 10 1.4.4 PACS 影像系统 . 10 1.4

2、.5 LIS实验室检验系统 . 11 1.4.6 医院各类经营管理系统. 11 1.4.7 业务需求分析汇总. 12 2 双活数据中心解决方案. 13 2.1 总体架构设计. 13 2.2 存储层双活HyperMetro 技术 . 14 2.2.1 HyperMetro 双活集群原理 . 14 2.2.2 存储数据镜像. 15 2.2.3 存储数据修复. 16 2.2.4 逻辑错误保护. 17 2.2.5 高可靠仲裁防脑裂技术. 17 2.3 数据库层解决方案. 19 2.3.1 Oracle RAC技术 . 19 2.4 应用层解决方案. 21 2.4.1 Weblogic 集群技术 . 2

3、1 2.5 管理层解决方案. 26 2.5.1 灾备决策支持平台方案. 26 3 配置清单 . 28 4 相关产品及规格. 28 4.1 Tecal RH5885 V3机架服务器. 28 4.1.1 功能和价值 . 28 4.1.2 规格参数 . 29 4.2 OceanStor V3 系列存储 . 30 4.2.1 功能和价值 . 30 4.2.2 规格参数 . 30 4.3 FusionSphere 云操作系统 . 32 4.3.1 FusionCompute 虚拟化 . 32 4.3.2 FusionManager 云管理 . 35 4.3.3 规格参数 . 36 4.4 SNS系列 .

4、 36 4.4.1 功能和价值 . 36 4.4.2 规格参数 . 37 5 机房配套设备. 38 5.1 SAU-020 精密空调 . 38 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 44 页 - - - - - - - - - 5.2 HP3310KS UPS主机 . 41 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 44 页 - -

5、- - - - - - - 1 项目概述1.1 项目背景随着温江市政医院的业务量增长和业务的高速发展,医院对IT 系统的依赖程度越来越高,医院存在数据中心新建、升级扩容、业务迁移及整合的需求。使用特定规格产品设计,提供简单可靠、易于部署和管理、便于扩展和升级的IT基础架构, 以及业务迁移、 数据中心整合的专业服务, 为用户提供更好的投资保护,满足用户业务发展的需求。温江市政医院电子化工作经过多年的发展,信息技术已得到了广泛的应用,主要业务系统如 HIS,PACS,LIS,RIS,EMR 等都己基本实现了信息电子化,一个综合性多功能的医疗信息化服务体系已初步形成。随着温江市政医院业务对信息化依赖

6、程度越来越高,信息系统安全问题对业务的影响也日益增大。 数据集中的同时也意味着风险相对集中,在设备故障、 机房断电等各种灾难事件不断爆发的情况下,如何确保温江市政医院信息系统安全和业务持续运行已成为一项重要而艰巨的任务。对于温江市政医院这样的二甲医院,信息系统的业务连续性要求很高:从政策层面讲, 需要满足三级等保的要求; 对医院业务本身来说, 由于医院业务的特殊性,任何人为或自然因素所导致的应用或系统中断,都会造成医院巨大的经济和名誉损失及严重的法律后果。当前,为了满足医院信息系统7x24 小时业务连续性要求。 HIS,LIS 等核心业务系统,急需建设容灾保护,确保业务数据安全存储及保护,提升

7、业务连续性。为了达到上述目标, 温江市政医院对整个医院的硬件支撑平台进行统一梳理和总体方案设计, 以保证基础硬件系统的各个组成部分能够高效协同,对业务与应用提供强有力支撑;同时还需要确保总体方案可以落地实施。1.2 需求分析1.2.1 行业发展要求1.2.1.1国家灾难恢复规范要求国家对加强信息安全保障工作十分重视,先后出台了多项有关灾难备份的保名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 44 页 - - - - - - - - - 障措施。已出台的有关文件如下:20

8、03 年 9 月,中共中央办公厅、国务院办公厅下发了国家信息化领导小组关于加强信息安全保障工作的意见(中办发 200327 号)。该指导意见明确提出国家和社会各基础信息网络和重要信息系统建设要充分考虑抗毁性与灾难恢复,制定和不断完善信息安全应急处置预案。 灾备建设要从实际出发, 提倡资源共享、互为备份。文件要求:要高度重视灾难备份工作;灾难备份建设要从实际出发,提倡资源共享,鼓励社会力量参与灾难备份设施建设和提供技术服务;明确了 “ 谁主管,谁负责、谁运行,谁负责” 的建设及管理方针。2004 年 1 月 9 日,全国信息安全保障工作会议下发了关于做好国家重要信息系统容灾备份工作的通知 。该通

9、知明确指出国家重要信息系统容灾备份工作的主要目标是 “ 提高抵御灾难和重大事故的能力,减少灾难打击和重大事故造成的损失、确保重要信息系统的数据安全和作业连续性,避免引起社会重要服务功能的严重中断,保障社会经济的稳定” 。通知指出:国家重要信息系统容灾备份建设工作要坚持 “ 统筹规划、资源共享、平战结合” 的原则,充分调动和发挥各方面的积极性,全面提高抵御灾难打击能力和灾难恢复能力。与此同时,为贯彻落实27 号文件和中央领导的指示,国信办于2004 年 9月份下发了关于加强国家重要信息系统灾难备份工作的意见(信安通2004 11 号)。文件强调了 “ 统筹规划、资源共享、平战结合” 的灾备工作原

10、则;国家为此圈定了银行、保险、证券、税务、海关、民航、铁路、电力等必须建立灾难备份的八个重点行业,同时提出,灾难备份建设要从实际出发,提倡资源共享,可以采用自建、 共建和利用社会化服务等模式, 鼓励社会力量参与灾难备份设施建设,提倡使用社会化灾难备份服务,走专业化服务道路。2007 年 11月 1 日, 国家正式下发了信息安全技术信息系统灾难恢复规范(GB/T 20988-2007) 。 该规范作为我国目前颁布的第一部关于信息系统灾难恢复工作的行动指南和标准; 明确定义了灾备行业的规范用语;规范了整个灾难恢复的工作流程; 作为资料性附录, 提供灾难恢复预案的模板; 引入了灾难恢复的分级机制 (

11、目前确立为六个级别 )。规范指出要加快实施八个重点行业(银行、电力、铁路、民航、证券、保险、海关、税务)的灾难恢复工作。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 44 页 - - - - - - - - - 1.2.1.2医疗行业灾难恢复规范要求2002 年,卫生部印发医院信息系统基本功能规范 中第三章 、第四条门诊医生工作站分系统 运行要求在门诊医生工作站产生的各种医嘱信息是门诊药房、检验检查、门诊收费等系统的基本数据来源,在联网运行中,要求数据准确可靠,速度快,

12、保密性强,系统要求具有软、硬件应急方案,发生故障时,应急方案的启动时间应少于510 分钟。2011 年 11 月 29 日,为贯彻落实国家信息安全等级保护制度,规范和指导全国卫生行业信息安全等级保护工作,按照公安部关于开展信息安全等级保护安全建设整改工作的指导意见 (公信安 2009 1429 号)要求,卫生部结合卫生行业实际,研究制定了卫生行业信息安全等级保护工作的指导意见。2012 年,根据卫生部、国家中医药管理局发布的关于加强卫生信息化建设的指导意见 卫办发201238 号文件精神,卫生信息安全保障体系的建设,需要落实国家信息安全等级保护制度,依托于卫生信息系统安全风险评估工作,确保信息

13、安全和系统运行安全。 随着我国政务信息化建设的推进,不少应用系统急需统一的网络安全基础设施和安全应用支撑环境的支持,因此必须制定统一的标准规范, 加强安全保障体系的建设, 促进网络信任基础设施的发展,逐步建立和完善医药信息化安全保障的支撑环境。另外,本次建设的基层医疗卫生机构管理信息系统不仅仅涉及到基本的公共卫生及基本医疗服务,还牵涉到很多医药卫生监管单位的重要信息, 同时,本系统还涉及到很多的社会协调管理机构,如果因为安全问题导致系统瘫痪或者运营问题,而造成业务流程的减缓、 停顿,带来的损失和波及的范围也会非常巨大。为此,必须严格按照国家有关部门的要求,建设整个信息系统全面而深入的安全保障体

14、系。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 44 页 - - - - - - - - - 1.3 系统总体设计原则通过对用户需求的了解,结合医院应用系统的业务特点,推荐采用双活数据中心方案,双活数据中心的定义是指两个数据中心共享存储、网络以及服务器资源,两个数据中心同时对外提供服务,整个系统具有业务负载均衡和自动故障切换功能。存储双活作为整个系统的核心基础架构平台,主要解决以下两个核心问题。一是如何在两个数据中心间实现数据实时同步,从而保证异常情况下, 零数据丢失

15、(RPO=0 ) 。二是如何实现存储资源的虚拟化,提供可同时被两个数据中心主机访问的存储共享卷,从而实现主机应用集群的跨站点部署,保证异常情况下,应用的自动切换( RTO0) 。业界双活技术路线当前,存储业务通常有以下两种实现存储双活方案的架构。一种是基于专业的虚拟化存储设备来实现; 一种是基于磁盘阵列的同步复制技术,配合自动化的复制切换软件来实现。 由于两种架构采用了不同的技术方案,因此,在方案可靠性、业务连续性以及可扩展性方面都存在一定差异。华为公司针对本次灾备项目,将依据技术先进性、可扩充性、高可靠性、高可用性、成熟性、可管理性的总体设计思想; 结合华为公司众多灾备系统成功案例和实际经验

16、,进行整体的解决方案设计。技术先进性: 系统设计应采用当前先进而成熟的技术,不仅可以满足本期工程的需求,也应把握未来的发展方向。可扩充性: 在系统设计时应充分考虑可扩充性,从而确保新功能、新业务的增加在原有的系统平台上扩展和实现。高可靠性: 具备先进的灾备的设计;充分保证系统的高扩展能力和高容错能力,具有通道负载自动均衡能力和性能调节能力,提供极为充分的可靠性各项指标设计。高可用性: 在不停机情况下,实现不停机扩容、维护、升级等服务,提高性能以满足新的业务需求,具备7 24 365 连续工作的能力。成熟性: 应尽量选用经过大量运用、成熟可靠的系统。名师资料总结 - - -精品资料欢迎下载 -

17、- - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 44 页 - - - - - - - - - 可管理性: 要求配置实时性能监测管理软件。可对CPU 使用率、内存使用率、交换区使用情况、I/O 操作、队列状态、磁盘空间、卷磁盘错误、系统事件、系统中各进程对系统资源占用等性能和操作数据等服务器性能进行实时监控和管理。可实施性: 选用成熟的技术,成熟的案例经验和设计方案,制定详细的技术实施方案。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 -

18、 - - - - - - 第 8 页,共 44 页 - - - - - - - - - 1.4 业务系统特征及灾备需求以下简要分析典型的医疗业务系统及其对硬件支持平台和灾备的关键诉求。1.4.1 HIS 门诊类门诊业务是医院面向病人的直接窗口,医院每天都会有非常高的门诊量,在目前医疗资源相对紧张的情况下,门诊效率不仅关系到医院的收益,也关系到病人满意度的提升。门诊对网络 / 业务系统需求的典型特点就是快速响应 、 高可靠 ;避免响应慢、系统故障等问题,使病人等待的焦急性扩大。另外,门诊还有突发性强的特点,因为大量的门诊业务集中在上午,因此同时要求系统要有 足够的性能支撑突发。HIS系统对存储的

19、详细需求评估:根据业务特征,进行IOPS压力估算如下:设定每天就诊量为X,包括门急诊、住院诊疗设定系统复杂度为Y,由以下 3 项决定(1)一般情况,系统每人次要执行挂号、医嘱、检验、收费、取药5 项环节;(2)一般情况,每日交易的80在上午 4 个小时内完成,同时,峰值处理交易量是平均的 2 倍,则 80%/50%/4 0.4;(3)一般情况,系统每笔交易对应HIS数据库事务数为50,一个数据库事务平均产生 20 个 IO (一般 8k) , 数据库 customer 类的事务数占所有事务的45%,则 20*50/45% = 2222;则系统复杂度 Y = 5 0.4 2222 / 3600(

20、s) 1.25;HIS系统对存储 IOPS需求 = X*Y 1.4.2 HIS住院类住院业务是医院的重要业务组成部分;业务上包括病人的各种医嘱开具、医嘱执行数据,病人体征数据记录、住院费用记录结算等;为了提升效率,目前移动查房、移动护理等多种无线业务也在实施;而且随着技术的进步ICU监护、探视等视讯业务也逐步在主要业务中开展;这些业务对网络及IT 设施提出了 可靠存储、安全传输 等诉求,避免因数据丢失或错误引起各种纠纷。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 44

21、 页 - - - - - - - - - 1.4.3 EMR电子病历系统电子病历系统系统是医院内部支持电子病历信息的采集、存储和访问,并围绕提高医疗质量、 保障医疗安全、 提高医疗效率而提供信息处理和智能化服务功能的计算机信息系统。主要包括电子病历创建、住院病历管理、医嘱管理、检查检验报告管理、临床知识库、医疗质量管理与控制、电子病历查询、展现功能、打印/输出功能、系统扩展功能。EMR 系统包括数据库数据和文件数据,而且需要长期保存的病人电子病历,支持快速的书写提交修改。服务器响应快、连续性好,数据长期可靠存储。1.4.4 PACS 影像系统医学影像系统即为PACS系统,完成 各种影像数据进行

22、采集、存储、传输和处理,并进行 全院共享 ,PACS 影像具有单张数据量大、数量多的特点。-大型医院都在考虑上或已经上64 排 CT ,64 排的 CT在一次扫描中产生600+幅影像;以后平板CT每一圈扫描产生 1024 层影像;像素深度12bit,影像矩阵为 512x512时, 单幅图像 0.4MB, 影像深度 1024x2014时, 单幅图像约 1.5MB;平均按一次扫描产生320 副图像计算,则一次扫描产生的数据传输要求为128MB或 480MB;-普放(DR/CR/ 乳腺):可以达到 4Kx4Kx16bit/每幅,即 32MB/每幅,平均按一个病人一次拍 10 幅计算,则放射医生调用一

23、个病人时, 网上会涌出 320MB 的影像流。-导管室 (DSA) :传输按单序 20 秒计算,影像矩阵为 1Kx1Kx10bit/每幅,即1.25MB/幅,则放射医生调用一个病人时,网上会涌出“1.25MB/幅 x 25幅/秒 x 20 秒/序列” 625MB 的影像流。1、为保障良好的业务体验,从医生点击阅片到完成影像展示时间应在23秒以内,因此需要网络保障在1 秒内完成数据传输;2、PACS影像数据于其他医疗数据一样,需要长期可靠存储,根据国家法律法规要求,至少需要保证15 年以上的数据存储。整体而言, PACS 对支撑系统有以下要求: 存储容量大、存取速度快、网络带宽高。PACS 系统

24、对存储的详细需求评估:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 44 页 - - - - - - - - - 1、每天进行 PACS 影像检查的病患人数为X,一般情况下,进行影像检查的人数不会超过总就诊人数的30%。2、每人次检查产生的数据量为Y,一般情况下, 单次检查产生的数据量平均不会超过 50MB。3、阅片终端数量为P; 写带宽系数:3、业务写峰值的权重为Z,一般医院 80的业务会在上午4 小时内完成,同时,峰值处理交易量是平均的2 倍;则 Z = 80%/

25、50%/4 = 0.4 读带宽系数:4、业务读峰值的权重为Q,峰值时有 10的终端在工作, 5S内完成一位病患影像数据的调阅 ; 即 Q 10%/5 = 0.02 PACS 系统对存储需求:写带宽: X*Y*Z/3600s; 读带宽: P*Y*Q; 最大年增量: X*Y*365 1.4.5 LIS实验室检验系统LIS 系统主要完成各种体检数据、指标从终端体检设备到后台服务器的传输和存储。当前一般采用数据库存储技术,整体而言LIS系统对网络带宽、存储性能和存储容量要求相对较低, 但其对数据的 安全可靠传输及存储要求高,要做到数据的连续性保护。1.4.6 医院各类经营管理系统医院经营管理系统主要是

26、人、财、物的管理,包括人事、财务管理、药品药库管理等,这些系统的特点是 数据量不大,但是数据敏感 , 因此主要诉求是安全,包括传输安全、存储安全,避免数据泄露。根据数字化医院的发展及医院当前的规划,医院信息共享集成平台将是以业务为导向和驱动的、 可快速构建和运行管理应用软件系统的基础软件平台,它是一个消息交换中心和业务流程及智能化设备集成枢纽,根据标准协议与规范向医院各个子系统提供各种接口, 各系统利用该接口实现信息的上传下达从而实现各系统与其他系统的信息共享、 交换与联动。 基于全院级数据中心及其管理平台和名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - -

27、- - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 44 页 - - - - - - - - - 数据交换与信息集成平台, 支持对医院信息系统中各种类型数据(结构化与非结构化)的存储、清洗、抽取、装载及管理,实现辅助决策管理和智能挖掘,用于支持开发和部署医院各种应用系统。此类系统对网络带宽要求一般,主要是计算分析型, 因此主要要求 IT 平台能提供快速的分析处理能力 ,非常适合采用虚拟化技术来实现。1.4.7 业务需求分析汇总业务类型业务特点数据量业务连续性数据保护处理能力传输速度带宽关键需求HIS 数据库:支撑挂号、缴费等就诊流程。工作站众多,要求可靠快速

28、响应。小高高高快低网络快速传输、不丢包服务器响应快、连续性好数据存储可靠EMR 数据库 / 文件:长期保存的病人电子病历,支持快速的书写提交修改。中高高高快中服务器响应快、连续性好数 据 长 期 可 靠存储LIS 数据库:检验申请及结果数据、检验报告的传输和保存。小中高中中低网络快速传输、不丢包数 据 长 期 可 靠存储PACS 文件:单个文件大,单次访问数据量大;一般医院每年增长几十 TB影像文件。大中高中快高网络高带宽存储容量大、存取速度快,长期保存RIS 数据库:负责影像检查流程处理、影像报告等中中高高中中服务器响应快数 据 长 期 可 靠存储各类综合管理系统数据库:人财物、经营状况等管

29、理,数据敏感小中高快快中服务器响应快、连续性好数 据 长 期 可 靠存储鉴于贵院目前实际情况, 和医院业务连续性要求, 推荐 HIS系统,EMR系统,LIS系统, RIS系统, PACS 系统(基于 SAN存储架构)采用同城存储双活灾备;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 44 页 - - - - - - - - - PACS 系统(基于 NAS存储架构),OA系统等采用同城应用主备灾备模式或数据级主备(如通过阵列异步复制功能实现) 。2 双活数据中心解决方

30、案2.1 总体架构设计基于系统总体设计原则, 结合华为公司在医疗行业灾备系统成功案例和实际经验,推荐医疗行业灾备总体部署如下图:InternetGE 10 GE 8Gb FC医院主机房LAN医院灾备机房LANVPNHUAWEI TecalRH5885 V3FC SAN OceanStor5500 V3FC SAN HUAWEI Tecal RH5885 V3裸光纤OceanStor5500 V3虚拟化平台软件VMVMVMVMVMVMVMVMVMVM仲裁服务器原有业务服务器双活方案部署图架构描述1.医院生产中心与医院灾备中心通过裸光纤连接,实现数据复制和业务网络的访问;2.两套 存 储 系 统

31、物 理上 部 署 在 两 个数 据 中 心 之 间 , 通 过 存 储 系统HyperMetro 双活镜像技术在逻辑上组成一套存储系统,前端业务系统的数据会在两套存储上同时各保持一份,任意一套存储系统出现故障时均不会造成数据丢失,实现RPO=0 ,解决单数据中心存储故障导致业务停顿的问题;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 44 页 - - - - - - - - - 3.医疗应用(HIS/EMR等)的数据库层本期项目先采用现有HA 软件实现数据同步和灾备,

32、实现关键业务的跨数据中心灾备,一个数据中心故障,另一个数据中心可以快速恢复业务,减少业务中断时间。未来考虑通过升级为Oracle RAC以及应用集群化部署实现两个数据中心之间的数据库集群和负载均衡,实现RTO 0;4.将两个数据中心的虚拟化服务器构建成一个虚拟化集群,虚拟化集群中的服务器采用新增的RH5885V3服务器在加上原有华为RH5885 V3 服务器构成,将现有业务迁移至虚拟化平台,并通过虚拟化平台管理手段将业务分类后分别运行在两个数据中心的服务器上,当某台服务器故障时,该服务器上的虚拟业务可以在本数据中心其他服务器上自动恢复,如果整个数据中心的服务器全部故障,则自动在对端数据中心的服

33、务器上恢复业务。5.通过中间件集群,虚拟化集群和负载均衡技术实现两个数据中心之间的应用负载分担和故障实时切换;6.通过灾备管理平台实现灾备系统的可视化监控,实时查看数据的RTO和RPO指标,数据复制状态等。 。方案特点1. 实现 A-A 双活,数据零丢失,业务不中断。任一站点故障,业务自动切换至另一站点( RPO=0 ,RTO0) ,提供医院业务系统的可靠性;2. 两个数据中心同时提供业务,资源利用率提升100%;3. 灾备统一监控和决策平台,缩短决策时间,降低运维成本。2.2 存储层双活HyperMetro技术OceanStor系列产品的HyperMetro功能,可以实现存储双活架构,为两个

34、数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备和相同数据可用,最大化提高了业务连续性。2.2.1 HyperMetro 双活集群原理存储双活集群技术HyperMetro最大支持32 个存储控制器,向应用服务器提供无差异的并行访问,同时处理应用服务器的I/O 请求;各控制器间互为备份,均衡负载,控制器故名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 14 页,共 44 页 - - - - - - - - - 障后, 其承接的业

35、务自动切换到正常控制器,保证系统的可靠性、业务的连续性。集群间的通信支持 FC 或 10Ge 链路,通信包括集群心跳和数据镜像。其工作原理如下图所示。2.2.2 存储数据镜像通过 HyperMetro LUN 功能,保证两个站点磁盘阵列之间数据的实时同步。两台存储设备上的LUN 被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入两个数据中心的存储设备,保持数据实时一致。具体的IO 读写流程如下图所示。假如数据中心A 阵列收到写I/O,处理流程如下:1、申请写权限和记录写日志:数据中心A 阵列收到主机写请求,先申请HyperMetro LUN 的写权限; 获得写权限后, HyperM

36、etro将该请求记录写日志。日志中只记录地址信息,不记录具体的写数据内容;该日志采用具有掉电保护能力的内存空间记录以获得良好的性能。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 15 页,共 44 页 - - - - - - - - - 2、执行双写:将该请求拷贝2 份分别写入本地LUN 和远端LUN。通常情况下LUN是回写状态,数据会写入该LUN 的 Cache 就会返回。3、双写结果处理:等待两端LUN 的写处理结果都返回;4、响应主机:镜像卷返回写I/O 操作完成。如果任何一

37、个存储设备故障,采用日志记录故障期间数据的变化情况,待存储设备恢复正常后,将增量数据后台同步到修复的存储设备,整个过程对主机“ 透明 ” ,不会影响主机业务。2.2.3 存储数据修复单块磁盘可能会因为掉电等异常情况出现坏块。如果是可修复错误而且本端无法修复,因为远端站点有镜像数据,则会自动从远端站点获取数据来修复本地数据盘的坏块,进一步提高系统可靠性。假如数据中心A 阵列收到写I/O,镜像处理流程如下:申请读权限:阵列收到主机读请求,先确认HyperMetro的本地读权限。读本地 LUN 。读本地 LUN 结果返回,如果可修复错误,执行错误修复。重定向远端读。远端读返回。读结果返回。本地写入修

38、复。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 16 页,共 44 页 - - - - - - - - - 2.2.4 逻辑错误保护当遭遇病毒攻击或人为误操作等异常时,数据中心的数据可能被破坏。采用虚拟快照技术,在操作前对现有数据卷激活快照,实现本地数据保护。虚拟快照采用写前拷贝(COW )技术,仅将变化的数据拷贝至快照卷,系统资源占用少。当原卷数据被错误修改或删除,需要进行恢复时,采用快照对原卷进行回滚,实现数据恢复, 并且,快照卷可分别映射给主机进行数据测试和挖掘,不影响生产

39、业务。结合华为容灾管理软件,激活快照前触发数据库完全检查点,待数据下盘完成后,激活快照, 保证快照数据完全满足数据库的一致性要求,快速拉起数据库。2.2.5 高可靠仲裁防脑裂技术为保证各种异常情况下,存储双活集群能够进行仲裁,建议设计第三方仲裁站点,以保证极端场景下的业务连续性。极端场景包括: 出现数据中心整体故障或中间链路故障等场景,存储集群仍然可以访问仲裁服务器进行仲裁,保证业务可靠性和数据一致性。有仲裁站点的场景如下图所示,为保证任一数据中心整体故障或中间链路故障等极端场景下,主机业务的连续性, 方案建议采用仲裁服务器。这样,可以保证极端灾难场景下,存储集群仍然可以访问仲裁服务器进行仲裁

40、,保证业务可靠性和数据一致性。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 17 页,共 44 页 - - - - - - - - - 第三方仲裁站与两个数据中心之间通过网线互联。仲裁服务器可以运行在虚拟机上。当出现任一数据中心整体故障或中间链路故障等极端场景,整个集群的仲裁过程如下:主中心与备中心之间的中间链路断开,导致两个数据中心集群发生分裂,进而两个中心之间的存储虚拟化平台发生“ 脑裂 ” ,存储虚拟化平台从一个大集群分裂为两个小集群;根据集群 “ 脑裂 ” 的通用原理, 当

41、大集群分裂为两个小集群时,每个小集群分别抢占第三方仲裁服务器, 抢占成功的小集群“ 获胜 ” , 将继续对外提供服务,为应用提供存储访问空间;未抢占到仲裁信息的小集群则自动退出集群,不再对外提供服务;当中间链路恢复时,“ 自动退出的小集群” 检测到中间链路由故障变为正常,尝试与“ 继续服务的小集群” 握手通信, 经过握手通信两个小集群再次组成一个大集群,以 Active-Active模式提供服务,互相之间实现冗余。下图列出了基于仲裁服务器模式,各种故障场景下双活业务是否存活的概要。H1 和 H2 表示组成双活HyperMetro LUN的两个阵列,C 表示对应的仲裁服务器。名师资料总结 - -

42、 -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 18 页,共 44 页 - - - - - - - - - 无仲裁站点的场景若无第三方仲裁站点,建议用户在某个数据中心部署仲裁服务器,业务表现和上述的描述大致一致,但如果仲裁服务器所在的数据中心整体故障,双活业务停止。若无仲裁服务器,用户可以设置其中一端阵列为优先站点,另一端为非优先站点。当发生脑裂场景, 或者非优先站点故障时,优先站点上的lun 继续提供服务, 非优先站点的lun停止提供服务。 不足之处在于当两阵列之间失去联系,可能是站点间链路丢失或其中

43、一个阵列故障。系统不能区分这两种情况,当优先站点阵列故障时,非优先站点不能接管双活业务,双活业务停止。2.3 数据库层解决方案2.3.1 Oracle RAC技术技术概述RAC全称Real Application Clusters,是 Oracle 数据库高可用技术的一种,也是Oracle 数据库支持网格计算环境的核心技术。从10g 版本开始Oracle 推出了 Oracle Clusterware 集群软件,使得RAC不再依赖于第三方厂商得集群软件实现多节点并发的集群数据库。如图所示,一组 Oracle RAC数据库服务器组成一个集群,他们之间通过高速内网相互联,共享缓存。 用户通过外部网络

44、连接到数据库集群,当数据库服务器有单点故障时,上层用户不会受到任何影响。数据库集群共享下层的SAN存储。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 19 页,共 44 页 - - - - - - - - - Oracle RAC是 Oracle 数据库高可用技术之一,也是 Oracle 数据库支持网格计算环境的核心技术, 可提供多节点并发的数据库应用,并通过监听客户端和服务器端实现负载均衡,把用户连接分配到不同的节点上执行。Oracle Extended RAC在 Oracle

45、RAC技术基础上提供了一种跨数据中心的双活集群架构,当单中心故障时, 另外一个数据中心存活的节点可自动接管业务,接管过程对上层业务透明,用户无感知。基于 Oracle Extended RAC ,构建双活数据中心来并行承担相同业务,提高数据中心的整体服务能力和系统资源利用率成为可能。在这种场景下, 两个数据中心互为备份,当单数据中心故障时,业务可以能自动切换到另一数据中心,业务不中断。Oracle Extended RAC的核心是共享存储子系统,通过共享访问数据文件、重做日志文件、控制文件和参数文件的方式,确保各节点都能进行读写操作,且在单个节点出现故障时,剩余节点能够自动接管并恢复数据库。双

46、活架构数据中心方案采用共享卷技术,将跨数据中心的存储空间以共享方式提供给上层应用访问,满足Oracle RAC 共享存储需求,使得两个数据中心的节点可构成一个跨数据中心Oracle Extended RAC集群。Oracle Extended RAC集群配合Oracle 监听器技术, 可实现客户端在数据中心间业务双活访问和负载均衡;配合Oracle 透明应用程序故障转移(TAF )技术,当服务器或单数据中心故障时,使客户端能够在新的连接中继续工作,防止业务中断。构建以 Oracle Extended RAC为数据平台的双活数据中心,底层以虚拟化智能存储和智能光传送平台为基础,以100km 光传

47、输距离为限,解决了传统灾备中心不能承载业务和自动业务切换的问题, 为应用系统提供最高的业务连续性保障,确保业务系统发生设备故障、甚至单数据中心故障时,业务无感知自动切换,实现RPO (Recovery Point Objective)和 RTO(Recovery Time Objective)都为零。以 Oracle Extended RAC为数据平台的双活数据中心,其亮点和优势如下:高可用性: 两中心数据实时镜像同步,任一数据中心故障,另一数据中心可自动接管业务,实现RPO=0 、RTO=0 。结合存储虚拟化层的快照技术,可防止人为误操作导致的数据错误或者丢失,保护数据完整性。名师资料总结

48、- - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 20 页,共 44 页 - - - - - - - - - 灵活数据访问: 两数据中心存储、 网络和应用各层级都以双活的方式对外提供服务,业务就近访问,自动负载均衡,为用户提供更加灵活的数据访问方式。高效资源利用: 华为存储的虚拟化技术,可统一接管不同厂商、不同品牌的存储设备,充分利用现有存储设备资源,保护客户投资;快照技术, 为用户提供可靠性验证、报表统计、业务查询等功能。统一管理: 华为存储统一管理平台,提供对设备、 资源和业务的集中管理,简化灾

49、备业务配置流程,并实现端到端业务监控,实时展现系统状态,如数据状态、复制状态等。适用场景基于 Oracle Extended RAC分布式集群技术的双活数据中心,其适用场景如下:大量的读操作,大量的客户连接,需要较高的系统性能支撑数据库响应能力受到硬件的束缚,试图通过Scale-Out 来进行性能提升小型机虽然能在垂直领域提供较好单个节点的性能,但是价格较高人员有限, 不想通过水平扩展(拆库)来解决单个节点的性能问题(因为会带来较高的数据库维护成本)需要防止单点故障,以保证业务连续性技术特点基于 Oracle Extended RAC 的华为双活数据中心架构,在双中心距离小于100km 的情况

50、下,其事务处理能力基本无影响,且双活的特性可以支撑单数据中心故障时,业务无缝自动切换,数据零丢失。作为数据平台上实现的双活架构,该方案不依赖于具体的应用,可方便的扩展到所有支持远程集群的应用系统。2.4 应用层解决方案2.4.1 Weblogic集群技术技术概述WebLogic Server 群集由多个WebLogic Server 服务器实例组成, 这些服务器实例同时运行并一起工作以提高可缩放性和可靠性。对于客户端而言,群集是一个WebLogic Server 实例。构成群集的服务器实例可以在同一台计算机上运行,也可以位于不同的计算机上。可以通过向现有计算机上的群集中添加更多的服务器实例来增

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁