温江人民医院双活数据中心解决方案1-华为(共54页).docx

上传人:飞****2 文档编号:8191203 上传时间:2022-03-15 格式:DOCX 页数:54 大小:3.35MB
返回 下载 相关 举报
温江人民医院双活数据中心解决方案1-华为(共54页).docx_第1页
第1页 / 共54页
温江人民医院双活数据中心解决方案1-华为(共54页).docx_第2页
第2页 / 共54页
点击查看更多>>
资源描述

《温江人民医院双活数据中心解决方案1-华为(共54页).docx》由会员分享,可在线阅读,更多相关《温江人民医院双活数据中心解决方案1-华为(共54页).docx(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选优质文档-倾情为你奉上神话区市政医院双活数据中心解决方案2016年11月9日1 项目概述1.1 项目背景随着温江市政医院的业务量增长和业务的高速发展,医院对IT系统的依赖程度越来越高,医院存在数据中心新建、升级扩容、业务迁移及整合的需求。使用特定规格产品设计,提供简单可靠、易于部署和管理、便于扩展和升级的IT基础架构,以及业务迁移、数据中心整合的专业服务,为用户提供更好的投资保护,满足用户业务发展的需求。温江市政医院电子化工作经过多年的发展,信息技术已得到了广泛的应用,主要业务系统如HIS,PACS,LIS,RIS,EMR等都己基本实现了信息电子化,一个综合性多功能的医疗信息化服务体系已初

2、步形成。随着温江市政医院业务对信息化依赖程度越来越高,信息系统安全问题对业务的影响也日益增大。数据集中的同时也意味着风险相对集中,在设备故障、机房断电等各种灾难事件不断爆发的情况下,如何确保温江市政医院信息系统安全和业务持续运行已成为一项重要而艰巨的任务。对于温江市政医院这样的二甲医院,信息系统的业务连续性要求很高:从政策层面讲,需要满足三级等保的要求;对医院业务本身来说,由于医院业务的特殊性,任何人为或自然因素所导致的应用或系统中断,都会造成医院巨大的经济和名誉损失及严重的法律后果。当前,为了满足医院信息系统7x24小时业务连续性要求。HIS,LIS等核心业务系统,急需建设容灾保护,确保业务

3、数据安全存储及保护,提升业务连续性。为了达到上述目标,温江市政医院对整个医院的硬件支撑平台进行统一梳理和总体方案设计,以保证基础硬件系统的各个组成部分能够高效协同,对业务与应用提供强有力支撑;同时还需要确保总体方案可以落地实施。1.2 需求分析1.2.1 行业发展要求1.2.1.1 国家灾难恢复规范要求国家对加强信息安全保障工作十分重视,先后出台了多项有关灾难备份的保障措施。已出台的有关文件如下:2003年9月,中共中央办公厅、国务院办公厅下发了国家信息化领导小组关于加强信息安全保障工作的意见(中办发200327号)。该指导意见明确提出国家和社会各基础信息网络和重要信息系统建设要充分考虑抗毁性

4、与灾难恢复,制定和不断完善信息安全应急处置预案。灾备建设要从实际出发,提倡资源共享、互为备份。文件要求:要高度重视灾难备份工作;灾难备份建设要从实际出发,提倡资源共享,鼓励社会力量参与灾难备份设施建设和提供技术服务;明确了“谁主管,谁负责、谁运行,谁负责”的建设及管理方针。2004年1月9日,全国信息安全保障工作会议下发了关于做好国家重要信息系统容灾备份工作的通知。该通知明确指出国家重要信息系统容灾备份工作的主要目标是“提高抵御灾难和重大事故的能力,减少灾难打击和重大事故造成的损失、确保重要信息系统的数据安全和作业连续性,避免引起社会重要服务功能的严重中断,保障社会经济的稳定”。通知指出:国家

5、重要信息系统容灾备份建设工作要坚持“统筹规划、资源共享、平战结合”的原则,充分调动和发挥各方面的积极性,全面提高抵御灾难打击能力和灾难恢复能力。与此同时,为贯彻落实27号文件和中央领导的指示,国信办于2004年9月份下发了关于加强国家重要信息系统灾难备份工作的意见(信安通200411号)。文件强调了“统筹规划、资源共享、平战结合”的灾备工作原则;国家为此圈定了银行、保险、证券、税务、海关、民航、铁路、电力等必须建立灾难备份的八个重点行业,同时提出,灾难备份建设要从实际出发,提倡资源共享,可以采用自建、共建和利用社会化服务等模式,鼓励社会力量参与灾难备份设施建设,提倡使用社会化灾难备份服务,走专

6、业化服务道路。2007年11月1日,国家正式下发了信息安全技术信息系统灾难恢复规范(GB/T 20988-2007) 。该规范作为我国目前颁布的第一部关于信息系统灾难恢复工作的行动指南和标准;明确定义了灾备行业的规范用语;规范了整个灾难恢复的工作流程;作为资料性附录,提供灾难恢复预案的模板;引入了灾难恢复的分级机制(目前确立为六个级别)。规范指出要加快实施八个重点行业(银行、电力、铁路、民航、证券、保险、海关、税务)的灾难恢复工作。1.2.1.2 医疗行业灾难恢复规范要求2002年,卫生部印发医院信息系统基本功能规范中第三章 、第四条门诊医生工作站分系统运行要求在门诊医生工作站产生的各种医嘱信

7、息是门诊药房、检验检查、门诊收费等系统的基本数据来源,在联网运行中,要求数据准确可靠,速度快,保密性强,系统要求具有软、硬件应急方案,发生故障时,应急方案的启动时间应少于510分钟。 2011年11月29日,为贯彻落实国家信息安全等级保护制度,规范和指导全国卫生行业信息安全等级保护工作,按照公安部关于开展信息安全等级保护安全建设整改工作的指导意见(公信安20091429号)要求,卫生部结合卫生行业实际,研究制定了卫生行业信息安全等级保护工作的指导意见。2012年,根据卫生部、国家中医药管理局发布的关于加强卫生信息化建设的指导意见卫办发201238号文件精神,卫生信息安全保障体系的建设,需要落实

8、国家信息安全等级保护制度,依托于卫生信息系统安全风险评估工作,确保信息安全和系统运行安全。随着我国政务信息化建设的推进,不少应用系统急需统一的网络安全基础设施和安全应用支撑环境的支持,因此必须制定统一的标准规范,加强安全保障体系的建设,促进网络信任基础设施的发展,逐步建立和完善医药信息化安全保障的支撑环境。另外,本次建设的基层医疗卫生机构管理信息系统不仅仅涉及到基本的公共卫生及基本医疗服务,还牵涉到很多医药卫生监管单位的重要信息,同时,本系统还涉及到很多的社会协调管理机构,如果因为安全问题导致系统瘫痪或者运营问题,而造成业务流程的减缓、停顿,带来的损失和波及的范围也会非常巨大。为此,必须严格按

9、照国家有关部门的要求,建设整个信息系统全面而深入的安全保障体系。1.3 系统总体设计原则通过对用户需求的了解,结合医院应用系统的业务特点,推荐采用双活数据中心方案,双活数据中心的定义是指两个数据中心共享存储、网络以及服务器资源,两个数据中心同时对外提供服务,整个系统具有业务负载均衡和自动故障切换功能。存储双活作为整个系统的核心基础架构平台,主要解决以下两个核心问题。一是如何在两个数据中心间实现数据实时同步,从而保证异常情况下,零数据丢失(RPO=0)。二是如何实现存储资源的虚拟化,提供可同时被两个数据中心主机访问的存储共享卷,从而实现主机应用集群的跨站点部署,保证异常情况下,应用的自动切换(R

10、TO0)。 业界双活技术路线当前,存储业务通常有以下两种实现存储双活方案的架构。一种是基于专业的虚拟化存储设备来实现;一种是基于磁盘阵列的同步复制技术,配合自动化的复制切换软件来实现。由于两种架构采用了不同的技术方案,因此,在方案可靠性、业务连续性以及可扩展性方面都存在一定差异。华为公司针对本次灾备项目,将依据技术先进性、可扩充性、高可靠性、高可用性、成熟性、可管理性的总体设计思想;结合华为公司众多灾备系统成功案例和实际经验,进行整体的解决方案设计。l 技术先进性:系统设计应采用当前先进而成熟的技术,不仅可以满足本期工程的需求,也应把握未来的发展方向。l 可扩充性:在系统设计时应充分考虑可扩充

11、性,从而确保新功能、新业务的增加在原有的系统平台上扩展和实现。l 高可靠性:具备先进的灾备的设计;充分保证系统的高扩展能力和高容错能力,具有通道负载自动均衡能力和性能调节能力,提供极为充分的可靠性各项指标设计。l 高可用性:在不停机情况下,实现不停机扩容、维护、升级等服务,提高性能以满足新的业务需求,具备724365连续工作的能力。l 成熟性:应尽量选用经过大量运用、成熟可靠的系统。l 可管理性:要求配置实时性能监测管理软件。可对CPU使用率、内存使用率、交换区使用情况、I/O操作、队列状态、磁盘空间、卷磁盘错误、系统事件、系统中各进程对系统资源占用等性能和操作数据等服务器性能进行实时监控和管

12、理。l 可实施性:选用成熟的技术,成熟的案例经验和设计方案,制定详细的技术实施方案。1.4 业务系统特征及灾备需求以下简要分析典型的医疗业务系统及其对硬件支持平台和灾备的关键诉求。1.4.1 HIS门诊类门诊业务是医院面向病人的直接窗口,医院每天都会有非常高的门诊量,在目前医疗资源相对紧张的情况下,门诊效率不仅关系到医院的收益,也关系到病人满意度的提升。门诊对网络/业务系统需求的典型特点就是快速响应、高可靠;避免响应慢、系统故障等问题,使病人等待的焦急性扩大。另外,门诊还有突发性强的特点,因为大量的门诊业务集中在上午,因此同时要求系统要有足够的性能支撑突发。HIS系统对存储的详细需求评估:根据

13、业务特征,进行IOPS压力估算如下: 设定每天就诊量为X,包括门急诊、住院诊疗 设定系统复杂度为Y,由以下3项决定 (1)一般情况,系统每人次要执行挂号、医嘱、检验、收费、取药5项环节; (2)一般情况,每日交易的80在上午4个小时内完成,同时,峰值处理交易量是平均的2倍,则 80%/50%/4 0.4; (3)一般情况,系统每笔交易对应HIS数据库事务数为50,一个数据库事务平均产生20个IO(一般8k) , 数据库customer类的事务数占所有事务的45%,则 20*50/45% = 2222; 则系统复杂度Y = 50.4 2222 / 3600(s) 1.25; HIS系统对存储IO

14、PS需求 = X*Y 1.4.2 HIS住院类 住院业务是医院的重要业务组成部分;业务上包括病人的各种医嘱开具、医嘱执行数据,病人体征数据记录、住院费用记录结算等;为了提升效率,目前移动查房、移动护理等多种无线业务也在实施;而且随着技术的进步ICU监护、探视等视讯业务也逐步在主要业务中开展;这些业务对网络及IT设施提出了可靠存储、安全传输等诉求,避免因数据丢失或错误引起各种纠纷。 1.4.3 EMR电子病历系统电子病历系统系统是医院内部支持电子病历信息的采集、存储和访问,并围绕提高医疗质量、保障医疗安全、提高医疗效率而提供信息处理和智能化服务功能的计算机信息系统。主要包括电子病历创建、住院病历

15、管理、医嘱管理、检查检验报告管理、临床知识库、医疗质量管理与控制、电子病历查询、展现功能、打印/输出功能、系统扩展功能。EMR系统包括数据库数据和文件数据,而且需要长期保存的病人电子病历,支持快速的书写提交修改。服务器响应快、连续性好,数据长期可靠存储。 1.4.4 PACS影像系统医学影像系统即为PACS系统,完成各种影像数据进行采集、存储、传输和处理,并进行全院共享,PACS影像具有单张数据量大、数量多的特点。大型医院都在考虑上或已经上64排CT,64排的CT在一次扫描中产生600+幅影像;以后平板CT每一圈扫描产生1024层影像;像素深度12bit,影像矩阵为512x512时,单幅图像0

16、.4MB,影像深度1024x2014时,单幅图像约1.5MB; 平均按一次扫描产生320副图像计算,则一次扫描产生的数据传输要求为128MB或480MB;普放(DR/CR/乳腺):可以达到4Kx4Kx16bit/每幅,即32MB/每幅,平均按一个病人一次拍10幅计算,则放射医生调用一个病人时,网上会涌出320MB的影像流。导管室(DSA):传输按单序20秒计算,影像矩阵为1Kx1Kx10bit/每幅,即1.25MB/幅,则放射医生调用一个病人时,网上会涌出“1.25MB/幅 x 25幅/秒 x 20秒/序列”625MB的影像流。1、为保障良好的业务体验,从医生点击阅片到完成影像展示时间应在23

17、秒以内,因此需要网络保障在1秒内完成数据传输;2、PACS影像数据于其他医疗数据一样,需要长期可靠存储,根据国家法律法规要求,至少需要保证15年以上的数据存储。整体而言,PACS对支撑系统有以下要求:存储容量大、存取速度快、网络带宽高。PACS系统对存储的详细需求评估:1、每天进行PACS影像检查的病患人数为X,一般情况下,进行影像检查的人数不会超过总就诊人数的30%。 2、每人次检查产生的数据量为Y,一般情况下,单次检查产生的数据量平均不会超过50MB。 3、阅片终端数量为P; 写带宽系数: 3、业务写峰值的权重为Z,一般医院80的业务会在上午4小时内完成 ,同时,峰值处理交易量是平均的2倍

18、;则Z = 80%/50%/4 = 0.4 读带宽系数: 4、业务读峰值的权重为Q,峰值时有10的终端在工作,5S内完成一位病患影像数据的调阅; 即Q 10%/5 = 0.02 PACS系统对存储需求: 写带宽:X*Y*Z/3600s; 读带宽:P*Y*Q; 最大年增量:X*Y*365 1.4.5 LIS实验室检验系统LIS系统主要完成各种体检数据、指标从终端体检设备到后台服务器的传输和存储。当前一般采用数据库存储技术,整体而言LIS系统对网络带宽、存储性能和存储容量要求相对较低,但其对数据的安全可靠传输及存储要求高,要做到数据的连续性保护。 1.4.6 医院各类经营管理系统医院经营管理系统主

19、要是人、财、物的管理,包括人事、财务管理、药品药库管理等,这些系统的特点是数据量不大,但是数据敏感,因此主要诉求是安全,包括传输安全、存储安全,避免数据泄露。根据数字化医院的发展及医院当前的规划,医院信息共享集成平台将是以业务为导向和驱动的、可快速构建和运行管理应用软件系统的基础软件平台,它是一个消息交换中心和业务流程及智能化设备集成枢纽,根据标准协议与规范向医院各个子系统提供各种接口,各系统利用该接口实现信息的上传下达从而实现各系统与其他系统的信息共享、交换与联动。基于全院级数据中心及其管理平台和数据交换与信息集成平台,支持对医院信息系统中各种类型数据(结构化与非结构化)的存储、清洗、抽取、

20、装载及管理,实现辅助决策管理和智能挖掘,用于支持开发和部署医院各种应用系统。此类系统对网络带宽要求一般,主要是计算分析型,因此主要要求IT平台能提供快速的分析处理能力,非常适合采用虚拟化技术来实现。 1.4.7 业务需求分析汇总业务类型业务特点数据量业务连续性数据保护处理能力传输速度带宽关键需求HIS数据库:支撑挂号、缴费等就诊流程。工作站众多,要求可靠快速响应。小高高高快低网络快速传输、不丢包服务器响应快、连续性好数据存储可靠EMR数据库/文件:长期保存的病人电子病历,支持快速的书写提交修改。中高高高快中服务器响应快、连续性好数据长期可靠存储LIS数据库:检验申请及结果数据、检验报告的传输和

21、保存。小中高中中低网络快速传输、不丢包数据长期可靠存储PACS文件:单个文件大,单次访问数据量大;一般医院每年增长几十TB影像文件。大中高中快高网络高带宽存储容量大、存取速度快,长期保存RIS数据库:负责影像检查流程处理、影像报告等中中高高中中服务器响应快数据长期可靠存储各类综合管理系统数据库:人财物、经营状况等管理,数据敏感小中高快快中服务器响应快、连续性好数据长期可靠存储鉴于贵院目前实际情况,和医院业务连续性要求,推荐HIS系统,EMR系统,LIS系统,RIS系统,PACS系统(基于SAN存储架构)采用同城存储双活灾备;PACS系统(基于NAS存储架构),OA系统等采用同城应用主备灾备模式

22、或数据级主备(如通过阵列异步复制功能实现)。2 双活数据中心解决方案2.1 总体架构设计基于系统总体设计原则,结合华为公司在医疗行业灾备系统成功案例和实际经验,推荐医疗行业灾备总体部署如下图:双活方案部署图l 架构描述1. 医院生产中心与医院灾备中心通过裸光纤连接,实现数据复制和业务网络的访问;2. 两套存储系统物理上部署在两个数据中心之间,通过存储系统HyperMetro双活镜像技术在逻辑上组成一套存储系统,前端业务系统的数据会在两套存储上同时各保持一份,任意一套存储系统出现故障时均不会造成数据丢失,实现RPO=0,解决单数据中心存储故障导致业务停顿的问题;3. 医疗应用(HIS/EMR等)

23、的数据库层本期项目先采用现有HA软件实现数据同步和灾备,实现关键业务的跨数据中心灾备,一个数据中心故障,另一个数据中心可以快速恢复业务,减少业务中断时间。未来考虑通过升级为Oracle RAC以及应用集群化部署实现两个数据中心之间的数据库集群和负载均衡,实现RTO0;4. 将两个数据中心的虚拟化服务器构建成一个虚拟化集群,虚拟化集群中的服务器采用新增的RH5885V3服务器在加上原有华为RH5885 V3服务器构成,将现有业务迁移至虚拟化平台,并通过虚拟化平台管理手段将业务分类后分别运行在两个数据中心的服务器上,当某台服务器故障时,该服务器上的虚拟业务可以在本数据中心其他服务器上自动恢复,如果

24、整个数据中心的服务器全部故障,则自动在对端数据中心的服务器上恢复业务。5. 通过中间件集群,虚拟化集群和负载均衡技术实现两个数据中心之间的应用负载分担和故障实时切换;6. 通过灾备管理平台实现灾备系统的可视化监控,实时查看数据的RTO和RPO指标,数据复制状态等。l 方案特点1. 实现A-A双活,数据零丢失,业务不中断。任一站点故障,业务自动切换至另一站点(RPO=0,RTO0),提供医院业务系统的可靠性;2. 两个数据中心同时提供业务,资源利用率提升100%;3. 灾备统一监控和决策平台,缩短决策时间,降低运维成本。 2.2 存储层双活HyperMetro技术OceanStor系列产品的Hy

25、perMetro功能,可以实现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备和相同数据可用,最大化提高了业务连续性。2.2.1 HyperMetro双活集群原理存储双活集群技术HyperMetro最大支持32个存储控制器,向应用服务器提供无差异的并行访问,同时处理应用服务器的I/O请求;各控制器间互为备份,均衡负载,控制器故障后,其承接的业务自动切换到正常控制器,保证系统的可靠性、业务的连续性。集群间的通信支持FC或10Ge链路,通信包括集群心跳和数据镜像。其工作原理如下图所示。2.2.2 存储数据镜像通过Hype

26、rMetro LUN功能,保证两个站点磁盘阵列之间数据的实时同步。两台存储设备上的LUN被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入两个数据中心的存储设备,保持数据实时一致。具体的IO读写流程如下图所示。假如数据中心A阵列收到写I/O,处理流程如下:1、申请写权限和记录写日志:数据中心A阵列收到主机写请求,先申请HyperMetro LUN的写权限;获得写权限后,HyperMetro将该请求记录写日志。日志中只记录地址信息,不记录具体的写数据内容;该日志采用具有掉电保护能力的内存空间记录以获得良好的性能。2、执行双写:将该请求拷贝2份分别写入本地LUN和远端LUN。通常情况下

27、LUN是回写状态,数据会写入该LUN的Cache就会返回。3、双写结果处理:等待两端LUN的写处理结果都返回;4、响应主机:镜像卷返回写I/O操作完成。如果任何一个存储设备故障,采用日志记录故障期间数据的变化情况,待存储设备恢复正常后,将增量数据后台同步到修复的存储设备,整个过程对主机“透明”,不会影响主机业务。2.2.3 存储数据修复单块磁盘可能会因为掉电等异常情况出现坏块。如果是可修复错误而且本端无法修复,因为远端站点有镜像数据,则会自动从远端站点获取数据来修复本地数据盘的坏块,进一步提高系统可靠性。假如数据中心A阵列收到写I/O,镜像处理流程如下:申请读权限:阵列收到主机读请求,先确认H

28、yperMetro的本地读权限。读本地LUN。读本地LUN结果返回,如果可修复错误,执行错误修复。重定向远端读。远端读返回。读结果返回。本地写入修复。2.2.4 逻辑错误保护当遭遇病毒攻击或人为误操作等异常时,数据中心的数据可能被破坏。采用虚拟快照技术,在操作前对现有数据卷激活快照,实现本地数据保护。虚拟快照采用写前拷贝(COW)技术,仅将变化的数据拷贝至快照卷,系统资源占用少。当原卷数据被错误修改或删除,需要进行恢复时,采用快照对原卷进行回滚,实现数据恢复,并且,快照卷可分别映射给主机进行数据测试和挖掘,不影响生产业务。结合华为容灾管理软件,激活快照前触发数据库完全检查点,待数据下盘完成后,

29、激活快照,保证快照数据完全满足数据库的一致性要求,快速拉起数据库。2.2.5 高可靠仲裁防脑裂技术为保证各种异常情况下,存储双活集群能够进行仲裁,建议设计第三方仲裁站点,以保证极端场景下的业务连续性。极端场景包括:出现数据中心整体故障或中间链路故障等场景,存储集群仍然可以访问仲裁服务器进行仲裁,保证业务可靠性和数据一致性。有仲裁站点的场景如下图所示,为保证任一数据中心整体故障或中间链路故障等极端场景下,主机业务的连续性,方案建议采用仲裁服务器。这样,可以保证极端灾难场景下,存储集群仍然可以访问仲裁服务器进行仲裁,保证业务可靠性和数据一致性。第三方仲裁站与两个数据中心之间通过网线互联。仲裁服务器

30、可以运行在虚拟机上。当出现任一数据中心整体故障或中间链路故障等极端场景,整个集群的仲裁过程如下:主中心与备中心之间的中间链路断开,导致两个数据中心集群发生分裂,进而两个中心之间的存储虚拟化平台发生“脑裂”,存储虚拟化平台从一个大集群分裂为两个小集群;根据集群“脑裂”的通用原理,当大集群分裂为两个小集群时,每个小集群分别抢占第三方仲裁服务器,抢占成功的小集群“获胜”,将继续对外提供服务,为应用提供存储访问空间;未抢占到仲裁信息的小集群则自动退出集群,不再对外提供服务;当中间链路恢复时,“自动退出的小集群”检测到中间链路由故障变为正常,尝试与“继续服务的小集群”握手通信,经过握手通信两个小集群再次

31、组成一个大集群,以Active-Active模式提供服务,互相之间实现冗余。下图列出了基于仲裁服务器模式,各种故障场景下双活业务是否存活的概要。H1 和H2 表示组成双活HyperMetro LUN的两个阵列,C表示对应的仲裁服务器。无仲裁站点的场景若无第三方仲裁站点,建议用户在某个数据中心部署仲裁服务器,业务表现和上述的描述大致一致,但如果仲裁服务器所在的数据中心整体故障,双活业务停止。若无仲裁服务器,用户可以设置其中一端阵列为优先站点,另一端为非优先站点。当发生脑裂场景,或者非优先站点故障时,优先站点上的lun继续提供服务,非优先站点的lun停止提供服务。不足之处在于当两阵列之间失去联系,

32、可能是站点间链路丢失或其中一个阵列故障。系统不能区分这两种情况,当优先站点阵列故障时,非优先站点不能接管双活业务,双活业务停止。 2.3 数据库层解决方案 2.3.1 Oracle RAC技术技术概述RAC全称 Real Application Clusters,是Oracle数据库高可用技术的一种,也是Oracle数据库支持网格计算环境的核心技术。从10g版本开始Oracle推出了Oracle Clusterware 集群软件,使得RAC不再依赖于第三方厂商得集群软件实现多节点并发的集群数据库。 如图所示,一组Oracle RAC数据库服务器组成一个集群,他们之间通过高速内网相互联,共享缓存

33、。用户通过外部网络连接到数据库集群,当数据库服务器有单点故障时,上层用户不会受到任何影响。数据库集群共享下层的SAN存储。Oracle RAC是Oracle数据库高可用技术之一,也是Oracle数据库支持网格计算环境的核心技术,可提供多节点并发的数据库应用,并通过监听客户端和服务器端实现负载均衡,把用户连接分配到不同的节点上执行。Oracle Extended RAC在Oracle RAC技术基础上提供了一种跨数据中心的双活集群架构,当单中心故障时,另外一个数据中心存活的节点可自动接管业务,接管过程对上层业务透明,用户无感知。基于Oracle Extended RAC,构建双活数据中心来并行承

34、担相同业务,提高数据中心的整体服务能力和系统资源利用率成为可能。在这种场景下,两个数据中心互为备份,当单数据中心故障时,业务可以能自动切换到另一数据中心,业务不中断。Oracle Extended RAC的核心是共享存储子系统,通过共享访问数据文件、重做日志文件、控制文件和参数文件的方式,确保各节点都能进行读写操作,且在单个节点出现故障时,剩余节点能够自动接管并恢复数据库。双活架构数据中心方案采用共享卷技术,将跨数据中心的存储空间以共享方式提供给上层应用访问,满足Oracle RAC共享存储需求,使得两个数据中心的节点可构成一个跨数据中心Oracle Extended RAC集群。Oracle

35、 Extended RAC集群配合Oracle监听器技术,可实现客户端在数据中心间业务双活访问和负载均衡;配合Oracle透明应用程序故障转移(TAF)技术,当服务器或单数据中心故障时,使客户端能够在新的连接中继续工作,防止业务中断。构建以Oracle Extended RAC为数据平台的双活数据中心,底层以虚拟化智能存储和智能光传送平台为基础,以100km光传输距离为限,解决了传统灾备中心不能承载业务和自动业务切换的问题,为应用系统提供最高的业务连续性保障,确保业务系统发生设备故障、甚至单数据中心故障时,业务无感知自动切换,实现RPO(Recovery Point Objective)和RT

36、O(Recovery Time Objective)都为零。以Oracle Extended RAC为数据平台的双活数据中心,其亮点和优势如下:l 高可用性:两中心数据实时镜像同步,任一数据中心故障,另一数据中心可自动接管业务,实现RPO=0、RTO=0。结合存储虚拟化层的快照技术,可防止人为误操作导致的数据错误或者丢失,保护数据完整性。l 灵活数据访问:两数据中心存储、网络和应用各层级都以双活的方式对外提供服务,业务就近访问,自动负载均衡,为用户提供更加灵活的数据访问方式。l 高效资源利用:华为存储的虚拟化技术,可统一接管不同厂商、不同品牌的存储设备,充分利用现有存储设备资源,保护客户投资;

37、快照技术,为用户提供可靠性验证、报表统计、业务查询等功能。统一管理:华为存储统一管理平台,提供对设备、资源和业务的集中管理,简化灾备业务配置流程,并实现端到端业务监控,实时展现系统状态,如数据状态、复制状态等。适用场景基于Oracle Extended RAC分布式集群技术的双活数据中心,其适用场景如下:l 大量的读操作,大量的客户连接,需要较高的系统性能支撑l 数据库响应能力受到硬件的束缚,试图通过Scale-Out来进行性能提升l 小型机虽然能在垂直领域提供较好单个节点的性能,但是价格较高l 人员有限,不想通过水平扩展(拆库)来解决单个节点的性能问题(因为会带来较高的数据库维护成本)l 需

38、要防止单点故障,以保证业务连续性技术特点基于Oracle Extended RAC的华为双活数据中心架构,在双中心距离小于100km的情况下,其事务处理能力基本无影响,且双活的特性可以支撑单数据中心故障时,业务无缝自动切换,数据零丢失。作为数据平台上实现的双活架构,该方案不依赖于具体的应用,可方便的扩展到所有支持远程集群的应用系统。 2.4 应用层解决方案2.4.1 Weblogic集群技术技术概述WebLogic Server 群集由多个 WebLogic Server 服务器实例组成,这些服务器实例同时运行并一起工作以提高可缩放性和可靠性。对于客户端而言,群集是一个WebLogic Ser

39、ver 实例。构成群集的服务器实例可以在同一台计算机上运行,也可以位于不同的计算机上。可以通过向现有计算机上的群集中添加更多的服务器实例来增加群集的容量,也可以向群集中添加计算机以承载递增的服务器实例。群集中的每个服务器实例必须运行同一版本的 WebLogic Server。技术特点应用程序故障转移 简单的说,故障转移是当应用程序组件(在下列部分中通常称作“对象”)正在处理某个特定作业时,某些处理任务部分由于任何原因而变得不可用,已失败对象的副本将结束此作业。对于能够接管失败对象的新对象:必须存在可接管作业的已失败对象的副本;必须存在对于其他对象和管理故障转移的程序可用的信息,从而定义所有对象

40、的位置和操作状态,以便在完成其作业之前确定第一个失败的对象;必须存在对于其他对象和管理故障转移的程序可用的信息(关于正在进行中的作业的进度),以便接管中断作业的对象了解在第一个对象失败之前完成的作业量,例如,已更改的数据以及过程中已完成的步骤。WebLogic Server 使用基于标准的通信技术和工具:多播、IP 套接口、以及 Java 命名和目录接口 (JNDI) 来共享和维护群集中有关对象可用性的信息。这些技术允许 WebLogic Server 确定某个对象在结束其作业之前已停止,以及用于完成已中断作业的对象副本的位置。WebLogic Server 支持自动或手动将群集服务器实例从一

41、台计算机迁移到另一台计算机。可迁移的受管服务器被称作“可迁移服务器”。本功能适用于要求高可用性的环境。确保“单元集服务”的不中断可用性 当承载服务器实例失败时,在任何给定的时间,单元集服务必须仅在单个服务器实例上运行,例如 JMS 和 JTA 事务恢复系统。为自动迁移配置的受管服务器在失败时将被自动迁移到另一台计算机。简化重新定位受管服务器的过程以及其承载的所有服务是规划系统管理进程的一部分。管理员可以从管理控制台或命令行中启动受管服务器的迁移。服务器迁移过程会将整个受管服务器(包括 IP 地址和承载的应用程序)重新定位到预先定义的可用主机集中的一个。负载平衡 负载平衡是在环境中跨计算资源与网

42、络资源平均分发作业和关联的通信。对于即将发生的负载平衡:必须存在可以执行特定作业的对象的多个副本;有关所有对象的位置和操作状态的信息必须可用。集群架构WebLogic Server集群在客户机看来是单一的服务器,可以使用简单的URL来寻址。 实际上,该URL必须映射到集群内的多台服务器,以保证连接请求可以在该集群内负载均衡,并且可以透明地进行故障切换。1) 跨数据中心WAN集群WebLogic集群可以配置在广域网(WAN)上。在这种情况下,尽管配置成单一的集群,但WebLogic Server实例在物理上可能位于不同的数据中心、属于不同的局域网(LAN),并且可能相距很远。这些配置通常用于灾难

43、恢复,或者提供从地理上分布的客户机到全球分布的应用程序(不同的数据中心托管相同的应用程序)的快速本地访问。实现数据中心间的应用级双活WAN集群方案:在构成WAN集群的两个或者多个LAN之间有可靠的、高吞吐能力的连接。该连接可以是专用线路,或者其他受控的“宽管(fat pipe)”型连接。从WebLogic集群的角度来看,这种情况与简单的LAN情况没什么差别。集群可以为持久性状态使用内存中(in-memory)复制,并且两个LAN之间的所有路由器必须允许多播和点到点连接的TCP/IP。要使WAN集群高度可用,应该跨WAN生成复制组,以便主和副服务器不在同一数据中心。值得推荐的是,在这种情况下,只

44、能使用基于磁盘的持久性(基于JDBC或者文件)。利用这种配置,子集群不能相互通信。然而,他们使用持久的状态存储设备通过Internet进行复制。使用文件和数据库复制产品(用于文件的Veritas,用于数据库的Oracle等)可以实现这一功能。但是,磁盘存储器复制可能不是实时的,即:它可能根据配置的时间间隔进行复制。测试表明:基于JDBC的持久性比基于文件的持久性要快得多。在此方案中,如果主数据中心发生故障,请求将被重路由到另外一个备数据中心,对象的状态将从持久性存储器中重载,但自最后一次成功复制之后,可能有些信息没有被复制,因而可能丢失。为了使WebLogic WAN集群能够实现,必须使用像A

45、lteon、F5、和Resonate这样的第三方全局负载均衡器(Global Load Balancer)(也称为Global Content Manager)。为了实现最高的可用性,WAN 集群可能需要大量的网络和系统资源。2) WebLogic Server支持几种访问模型的技术: DNS负载均衡 代理服务器(WebLogic代理,或者使用WebLogic插件的第三方Web服务器) 硬件负载均衡器 DNS负载均衡访问WebLogic Server集群最简单的方法是使用映射到所有集群服务器的IP地址的单一DNS(域名系统)名称。当一个DNS名称映射到多个地址时,DNS服务器将循环使用该列表,

46、连续查找这个DNS名称。这提供了一种简单的负载均衡和故障切换方式。每次客户机解析URL,它都将得到循环的下一个地址。这样可以保证客户机连接均匀地在集群中得到均衡。如果某一客户机请求失败,客户机可以通过再一次查找该名称来故障切换该请求,并用新地址重新尝试。对某些应用程序而言,这是一种简单但足以解决问题的方法。但是,它不具备其他解决方案可提供的性能和可管理水平。 代理服务器访问集群的另一种方法是使用代理回该集群的其他Web服务器。代理服务器可以是含有WebLogic Server的Web服务器,或者是具有WebLogic 插件的Apache、Netscape或者Microsoft Web Server。代理服务器被设置为将某些类型的请求重定向到支持它的服务器上。例如,可以配置代理服务器处理静态HTML页面请求,而将针对Servlet和Java Server Page的请求重定向到支持代理的WebLogic集群。代理服务器的作用类似于硬件负载均衡器,因为代理服务器执行负载均衡、在支持它的集群中的多台服务器之间分配请求。当会话建立时,它继续代理该会话的所有请求到单一的服务器。如果该服务器发生故障,它将任务切换到副服务器。 硬件负载均衡器硬件负载均衡器克服了DNS方法的缺点,它工作在IP级而不是在命名级。同时,硬件负载均衡器比代理服务器所实现

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 教育教学

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁