《物理安全容灾数据学习教案.pptx》由会员分享,可在线阅读,更多相关《物理安全容灾数据学习教案.pptx(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、物理安全物理安全(nqun)容灾数据容灾数据第一页,共52页。物理(wl)安全 容灾容灾概述容灾标准相关(xinggun)关键技术数据容灾技术应用容灾技术 第1页/共52页第二页,共52页。高频(o pn)数据备份需求需求对象需求:经常发生变化的数据对象需求:经常发生变化的数据数据恢复的需求:需要恢复到具体某个时间点的状态数据恢复的需求:需要恢复到具体某个时间点的状态 Redo Redo,UndoUndo恢复恢复可能引起数据丢失的原因可能引起数据丢失的原因逻辑错误逻辑错误(由误操作由误操作,软件更新等引起的数据污染软件更新等引起的数据污染)物理物理(wl)(wl)错误错误(由介质损毁引起的数据
2、丢失由介质损毁引起的数据丢失,如雪灾、如雪灾、地震、恐怖袭击等引起的数据丢失地震、恐怖袭击等引起的数据丢失)实际备份中的需求实际备份中的需求数据量太大,以至于无法在有限的时间段内完成备份数据量太大,以至于无法在有限的时间段内完成备份备份失败。例如在备份时,有数据从一个未备份的目备份失败。例如在备份时,有数据从一个未备份的目录移动到已经备份过的目录录移动到已经备份过的目录备份的数据不能使用。因为备份时该文件正在进行写备份的数据不能使用。因为备份时该文件正在进行写操作操作热备份严重影响应用系统的性能热备份严重影响应用系统的性能数据的存储技术能否是与应用无关的数据的存储技术能否是与应用无关的第2页/
3、共52页第三页,共52页。高频数据保护技术(jsh)分类第3页/共52页第四页,共52页。快照(kui zho)存储技术什么是快照?什么是快照?是特定数据集的一个完整可用拷贝,该数据集包含源数据在拷贝点是特定数据集的一个完整可用拷贝,该数据集包含源数据在拷贝点的静态映象;快照可以是数据再现的一个副本或者复制。的静态映象;快照可以是数据再现的一个副本或者复制。“快照快照”通常被定义为一组文件、目录或卷在某个特定时间点的副通常被定义为一组文件、目录或卷在某个特定时间点的副本。本。“快照快照”这个名字的含义与这个名字的含义与“照片照片”相似,它所捕获的是一组相似,它所捕获的是一组特定数据在某个时间点
4、的映像。特定数据在某个时间点的映像。快照有三种基本形式:基于快照有三种基本形式:基于(jy)(jy)文件系统式的、基于文件系统式的、基于(jy)(jy)卷管卷管理器理器/虚拟化式的和基于虚拟化式的和基于(jy)(jy)系统式的。对应不同类型的实现主体系统式的。对应不同类型的实现主体主机文件系统主机文件系统(包括服务器、台式机、笔记本电脑包括服务器、台式机、笔记本电脑)逻辑卷管理器逻辑卷管理器(LVM)(LVM)存储虚拟化装置存储虚拟化装置主机虚拟化管理程序主机虚拟化管理程序网络附加存储系统网络附加存储系统(NAS)(NAS)磁盘阵列磁盘阵列数据库数据库第4页/共52页第五页,共52页。快照(k
5、ui zho)的价值快速备份快速备份/恢复恢复(huf)(huf)快照可以迅速建立,并可用作传统备份和归档的数据源,所以快照可以迅速建立,并可用作传统备份和归档的数据源,所以快照可以缩小或消除备份窗口;快照可以缩小或消除备份窗口;快照存储在磁盘上,可以快速直接存取,从快照恢复快照存储在磁盘上,可以快速直接存取,从快照恢复(huf)(huf)比比从磁带恢复从磁带恢复(huf)(huf)速度快得多。速度快得多。多个恢复多个恢复(huf)(huf)点点基于磁盘的快照使存储设备有灵活和频繁的恢复基于磁盘的快照使存储设备有灵活和频繁的恢复(huf)(huf)点(或点(或称恢复称恢复(huf)(huf)点
6、目标:点目标:RPORPO),可以快速通过不同时间点的快),可以快速通过不同时间点的快照尽快恢复照尽快恢复(huf)(huf)数据。数据。快照增多的代价是提高成本。快照增多的代价是提高成本。第5页/共52页第六页,共52页。快照(kui zho)工作原理分类快照全拷贝快照分离(fnl)镜像(“Splitting”a mirror)差分快照写即拷贝(CoW:Copy On Write)写即重定向(RoW:Redirect On Write)第6页/共52页第七页,共52页。快照复制技术快照复制技术分离镜像(分离镜像(“Splitting”a mirror“Splitting”a mirror),
7、克隆),克隆快照所创建的是数据的完整副本快照所创建的是数据的完整副本差异复制差异复制保存的是数据变化的内容保存的是数据变化的内容Copy-on-write(COW)Copy-on-write(COW)写即拷贝写即拷贝,复制写快照复制写快照COWCOW跟踪数据卷的写操作和数据块变化。当某个数跟踪数据卷的写操作和数据块变化。当某个数据块发生改变时,在将旧的数据覆盖之前,首先将该据块发生改变时,在将旧的数据覆盖之前,首先将该块的旧数据复制到预留的快照卷,然后再更新块的旧数据复制到预留的快照卷,然后再更新(gngxn)(gngxn)数据卷。数据卷。Redirect On WriteRedirect O
8、n Write(RoWRoW)写即重定向)写即重定向RoWRoW跟踪数据卷的写操作和数据块变化。当某个数据跟踪数据卷的写操作和数据块变化。当某个数据块发生改变时,在数据卷上的旧数据不覆盖,首先将块发生改变时,在数据卷上的旧数据不覆盖,首先将该块的新数据复制到预留的快照卷,然后再将该新数该块的新数据复制到预留的快照卷,然后再将该新数据的索引重定向到数据卷。据的索引重定向到数据卷。第7页/共52页第八页,共52页。差分快照(kui zho)实现:CoWp源盘快照(kui zho)前写块1abcdefgh01234567i8访问(fngwn)阵列源卷1.写操作(p写入块1)p第8页/共52页第九页,
9、共52页。差分(ch fn)快照实现:CoWp源盘快照快照(kui zho)前写块1z快照后写块6apcdefgh01234567i8访问(fngwn)阵列源卷快照索引和日志地址数据1.写操作(p写入块1)2.产生快照3.快照后写入z到块6:不一次性写入先将块6内容移入日志z写入源卷g66gz第9页/共52页第十页,共52页。CoW特点(tdin)源盘保持(boch)最新状态两次写操作适合什么恢复?第10页/共52页第十一页,共52页。差分快照(kui zho)实现:RoWp源盘快照(kui zho)前写块1abcdefgh01234567i8访问(fngwn)阵列源卷1.写操作(p写入块1)
10、p第11页/共52页第十二页,共52页。差分(ch fn)快照实现:RoWp源盘快照快照(kui zho)前写块1z快照后写块6apcdefgh01234567i8访问(fngwn)阵列源卷快照索引和日志地址数据1.写操作(p写入块1)2.产生快照3.快照后写入z到块6:源卷块6内容不变z写入日志6z第12页/共52页第十三页,共52页。RoW特点(tdin)源盘保持初始状态一次写操作适合(shh)什么恢复?第13页/共52页第十四页,共52页。虚拟(xn)磁盘快照NeoStor时间点映像(yn xin)快照资源区域快照(kui zho)拷贝业务继续访问可以被分配给其它应用使用快照拷贝第14页
11、/共52页第十五页,共52页。1234567891011121234567891011122712第一次做快照时,快照资源区无数据.内存(ni cn)中仅维护源卷的一个地址映射.源卷快照(kui zho)快照!源卷有新块写入时,旧块数据首先被写到快照(kui zho)资源区。新块写入旧块移走快照拷贝实现 Copy-on-Write 第15页/共52页第十六页,共52页。2712123456789101112123456789101112拷贝(kobi)过程源虚拟盘快照(kui zho)资源区数据拷贝时,先检查快照资源区的块是否包含数据,如果有数据就直接复制到拷贝卷;如果没有数据,则直接从源卷上
12、复制未改变(gibin)过的数据;最终结果是产生一个源卷在快照点的数据副本。快照拷贝卷快照拷贝实现 Copy-on-Write 第16页/共52页第十七页,共52页。每小时(xiosh)一次的自动快照快照(kui zho)资源源资源(zyun)数据卷9am初始快照(无数据)10am11am12pm147102581136912新数据块写入10:00-10:5914710258113691211:00-11:59新数据块写入147102581136912数据块9:00-9:59147102581136912新数据块写入267910112267910112旧数据块保存在快照资源区旧数据块保存在快照
13、资源区旧数据块保存在快照资源区267267910TimeMark第17页/共52页第十八页,共52页。每小时一次的自动(zdng)快照快照(kui zho)资源源资源(zyun)数据卷9am初始快照(无数据)10am11am12pm147102581136912新数据块写入10:00-10:5914710258113691211:00-11:59新数据块写入147102581136912数据块9:00-9:59147102581136912新数据块写入26791011226791011212:17pm 应用报错需要恢复应用在 10am的状态!267267910TimeMark第18页/共52页
14、第十九页,共52页。10:00am!111234581269107新数据(shj)块写入10:00-10:5914710258113691211:00-11:59新数据(shj)块写入1471025811369121122679109am10am11am12pm147102581136912数据(shj)块9:00-9:59新数据块写入147102581136912267910267910112267147102581136912126910127111234581269107112112910TimeMark每小时一次的自动快照快照资源源资源数据卷初始快照(无数据)第19页/共52页第二十页
15、,共52页。什么(shn me)是CDP?CDP:Continuous Data Protection CDP数据保护技术需要实时(sh sh)复制所有版本的更新数据,是数据保护技术的最高级别 第20页/共52页第二十一页,共52页。CDP技术(jsh)驱动器层次产生的驱动器层次产生的CDPCDP备份数据不会带来明显的写操作备份数据不会带来明显的写操作延迟,适用于极高频背景下的数据复制延迟,适用于极高频背景下的数据复制 CDPCDP备份系统常用的部署方式是为业务盘配置备份系统常用的部署方式是为业务盘配置CDPCDP数据数据盘。盘。在在driverdriver层次为业务盘驱动器配置相匹配的层次为
16、业务盘驱动器配置相匹配的CDPCDP盘驱动器,盘驱动器,当业务盘发生写操作(当业务盘发生写操作(WW)时,在)时,在driverdriver层次复制写操作,层次复制写操作,并保存到并保存到CDPCDP数据盘中。数据盘中。备份数据的写入操作与业务盘中的数据更新操作几乎是备份数据的写入操作与业务盘中的数据更新操作几乎是同步进行的同步进行的CDPCDP盘中的备份数据需要建立专用的数据组织结构,以盘中的备份数据需要建立专用的数据组织结构,以加快数据的写入过程,并提供与之对应的数据检索方法加快数据的写入过程,并提供与之对应的数据检索方法(fngf)(fngf)。CDPCDP盘中保存了所有版本的写操作数据
17、,随着时间的延盘中保存了所有版本的写操作数据,随着时间的延长,数据存储量会急剧的增长。长,数据存储量会急剧的增长。第21页/共52页第二十二页,共52页。第22页/共52页第二十三页,共52页。高频高频(o pn)(o pn)数据的检索与恢复数据的检索与恢复在快照、CDP等高频备份数据管理中面临两个基本问题:数据检索效率问题数据一致性问题引入检查点技术在结合检查点的数据恢复过程中,通常采用前滚或后滚的检索方式,逐渐接近(jijn)目标点,实现面向应用一致性的数据恢复。第23页/共52页第二十四页,共52页。二维坐标表示高频二维坐标表示高频(o pn)(o pn)数据的时空二维属性分布,纵坐标表
18、示数据的空间数据的时空二维属性分布,纵坐标表示数据的空间分布特性,以分布特性,以KeyKey为标示;横坐标表示时间属性,以为标示;横坐标表示时间属性,以TimeTime为标示。为标示。基本的索引结构为:基本的索引结构为:。其中。其中keykey表示数据项与时表示数据项与时间无关的检索标识符;数据的有效时间是间无关的检索标识符;数据的有效时间是starttime,endtime)starttime,endtime)的闭开区间内;的闭开区间内;infoinfo表示索引项记录具体内容。表示索引项记录具体内容。key1key1在在t1t1时刻开始,产生索引项为:时刻开始,产生索引项为:。其中。其中“*
19、”“*”表示数据表示数据的生命周期尚未结束。在的生命周期尚未结束。在t2t2时刻有时刻有Key=key2Key=key2的索引项产生,表示为:的索引项产生,表示为:key2,t2,*,info1。key1key1在在t3t3时刻有新版本数据产生,旧版本的结束时间设为时刻有新版本数据产生,旧版本的结束时间设为t3t3,索,索引项变为:引项变为:,表示旧版本数据生命周期结束,新版本数据,表示旧版本数据生命周期结束,新版本数据生命周期开始,新版本索引项为:生命周期开始,新版本索引项为:。第24页/共52页第二十五页,共52页。前向检索:从一个可恢复状态点开始依次根据数据的产生时前向检索:从一个可恢复
20、状态点开始依次根据数据的产生时间(间(starttimestarttime)进行检索。假设)进行检索。假设t1t1是前向检索的起点,则前是前向检索的起点,则前向检索过程向检索过程(guchng)(guchng)为:为:t1t1版本的版本的l1l1,l2l2,l3l3;t2t2版本的版本的l4l4;t3t3版本的版本的l5l5以及以及t4t4版本的版本的l6l6。后向检索:从当前状态根据索引项的结束时间(后向检索:从当前状态根据索引项的结束时间(endtimeendtime)依次检索的过程依次检索的过程(guchng)(guchng)。假设从当前时刻。假设从当前时刻t4t4开始执行状开始执行状态
21、回滚,检索顺序为:态回滚,检索顺序为:t4t4版本下的版本下的l3l3;t3t3版本下的版本下的l2l2,t2t2版本版本下的下的ldld,以及,以及t1t1版本下的版本下的lala,lblb,lc lc。第25页/共52页第二十六页,共52页。问题:问题:比如在比如在CAWCAW、CDPCDP等数据复制技术中,通常根等数据复制技术中,通常根据数据的产生时间依次存储所有版本的备份数据,据数据的产生时间依次存储所有版本的备份数据,满足满足starttimestarttime有序。可以有效支持有序。可以有效支持RFRF检索,但是检索,但是索引项的索引项的endtimeendtime之间是乱序的,在
22、执行之间是乱序的,在执行RBRB检索检索时可能需要遍历所有版本的备份数据才能获得一时可能需要遍历所有版本的备份数据才能获得一份份endtimeendtime有序的索引项排列。在有序的索引项排列。在COWCOW等数据复等数据复制技术中,复制被修改前的旧版本数据并按序保制技术中,复制被修改前的旧版本数据并按序保存。备份数据版本之间存。备份数据版本之间endtimeendtime有序,可以直接有序,可以直接支持支持RBRB检索。但是索引项之间的检索。但是索引项之间的starttimestarttime是乱是乱序的。序的。因此在高频备份数据管理中,目前的索引结构无因此在高频备份数据管理中,目前的索引结
23、构无法法(wf)(wf)同时支持两种检索方式。同时支持两种检索方式。第26页/共52页第二十七页,共52页。双向检索双向检索(jin su)索引结构设计索引结构设计引入双向索引(引入双向索引(Indexing LogIndexing Log)和更新表()和更新表(Updating TableUpdating Table)两)两种基本结构种基本结构 Indexing LogIndexing Log索引项格式:索引项格式:KeyAddrNewkeykey表示与时间独立表示与时间独立(dl)(dl)的检索关键字的检索关键字 TimeTime是新版本数据的开始时间,同时也是对应旧版本数据的结是新版本数
24、据的开始时间,同时也是对应旧版本数据的结束时间束时间 AddrOldAddrOld:旧版本数据的存储位置指针:旧版本数据的存储位置指针AddrNewAddrNew:新版本数据的存储位置指针:新版本数据的存储位置指针 更新表中:记录到当前为止所有更新数据最新版本的索引结构,更新表中:记录到当前为止所有更新数据最新版本的索引结构,基本索引项为基本索引项为。更新表主要作用是支持旧版本数据存储位置的快速查找更新表主要作用是支持旧版本数据存储位置的快速查找 第27页/共52页第二十八页,共52页。当有新数据写入时当有新数据写入时,根据根据keykey值首先在更新表中查找与值首先在更新表中查找与keyke
25、y对应的旧版本数对应的旧版本数据的存储位置,设为据的存储位置,设为AddrNew1AddrNew1。在。在Data StorageData Storage中为新数据分配存储空间,中为新数据分配存储空间,新开辟地址为新开辟地址为AddrNew2AddrNew2。产生。产生(chnshng)(chnshng)一条双向索引记录:其一条双向索引记录:其AddrOldAddrOld值为值为AddrNew1AddrNew1;AddrNewAddrNew值为值为AddrNew2AddrNew2。索引项以按序追加方。索引项以按序追加方式保存在式保存在Indexing LogIndexing Log中。最后把中
26、。最后把AddrNew2AddrNew2更新到更新表中对应的记录。更新到更新表中对应的记录。AddressKey.AddrNewkey1.Data storageOldDataNewData.IndexingLog更新(gngxn)表CDP Log备份(bi fn)数据123第28页/共52页第二十九页,共52页。Indexing LogIndexing Log中的前向中的前向(redo)(redo)和后向和后向(undo)(undo)检索检索(jin(jin su)su)第29页/共52页第三十页,共52页。索引(suyn)融合技术需求(xqi)Log项太多恢复时的操作太多,效率低能否去除冗
27、余项?索引融合技术第30页/共52页第三十一页,共52页。Log ChainLog Chain无环、无分支有向图描述不同备份点索引之间的依赖无环、无分支有向图描述不同备份点索引之间的依赖无环、无分支有向图描述不同备份点索引之间的依赖无环、无分支有向图描述不同备份点索引之间的依赖关系。关系。关系。关系。每次差量备份,差量备份产生的每次差量备份,差量备份产生的每次差量备份,差量备份产生的每次差量备份,差量备份产生的LogLog索引项作为图中索引项作为图中索引项作为图中索引项作为图中的节点,索引之间的依赖关系构成图的边,能够反映的节点,索引之间的依赖关系构成图的边,能够反映的节点,索引之间的依赖关系
28、构成图的边,能够反映的节点,索引之间的依赖关系构成图的边,能够反映(fnyng)(fnyng)备份数据完整镜像的索引文件称为图的源,备份数据完整镜像的索引文件称为图的源,备份数据完整镜像的索引文件称为图的源,备份数据完整镜像的索引文件称为图的源,把这种由索引之间依赖关系构成的图称为把这种由索引之间依赖关系构成的图称为把这种由索引之间依赖关系构成的图称为把这种由索引之间依赖关系构成的图称为Log ChainLog Chain间接依赖关系管理间接依赖关系管理间接依赖关系管理间接依赖关系管理 I1I2I3InA0第31页/共52页第三十二页,共52页。直接依赖关系(gun x)管理 第32页/共52
29、页第三十三页,共52页。分段(fn dun)依赖关系管理 ImI1A0Am+1I2m+1Im+2长度(chngd)为m的分段(fn dun)1长度为m的分段2第33页/共52页第三十四页,共52页。分段、分层叠加索引结构分段、分层叠加索引结构 :关键是叠加算法:关键是叠加算法索引融合:累积相关索引数据的变化索引融合:累积相关索引数据的变化(binhu)(binhu)过程过程 A0第34页/共52页第三十五页,共52页。第35页/共52页第三十六页,共52页。最后一个分段融合操作每当(mi dn)有新版本到达时直接向上层进行索引融合,一直到达根节点为止 只有当融合窗口达到预定的窗口值时,才向上层
30、融合索引 第36页/共52页第三十七页,共52页。叠加索引检索分段、分层叠加索引上层索引结构反映了下层的索引的数据累计变化,在计算某个(mu)时间点的叠加索引时,首先从上层开始,逐层向下,最后检索一个分段内部的Log Chain 第37页/共52页第三十八页,共52页。第38页/共52页第三十九页,共52页。第39页/共52页第四十页,共52页。分层、分段依赖关系管理算法的特点分层、分段依赖关系管理算法的特点收敛的收敛的在在mm值不断增大时,算法收敛于间接依赖关系管理值不断增大时,算法收敛于间接依赖关系管理模式;模式;算法收敛于直接依赖关系管理模式;算法收敛于直接依赖关系管理模式;此外,在分段
31、、分层叠加索引结构,还可以进一步此外,在分段、分层叠加索引结构,还可以进一步引入启发式的索引保存策略,如只对当前的一个分引入启发式的索引保存策略,如只对当前的一个分段内部保存底层的段内部保存底层的Mapping LogMapping Log,支持,支持UndoUndo操作,操作,而对于早期的备份而对于早期的备份(bi fn)(bi fn)数据,有选择的保存上数据,有选择的保存上层叠加索引,支持层叠加索引,支持RedoRedo操作,这样不仅符合备份操作,这样不仅符合备份(bi fn)(bi fn)数据的恢复特征,同时可以进一步提高元数据的恢复特征,同时可以进一步提高元数据的存储效率。数据的存储效
32、率。第40页/共52页第四十一页,共52页。变长数据管理技术(jsh)block-level快照备份基于Block的增量快照,其数据可能是不规则长度的数据块增量备份的数据块之间存在着更复杂的关系需要新的索引和融合(rngh)方法第41页/共52页第四十二页,共52页。第42页/共52页第四十三页,共52页。数据(shj)块之间的关系 其中R为旧的数据(shj)、r为新的数据(shj)第43页/共52页第四十四页,共52页。变长数据(shj)块索引基本索引结构为:基本索引结构为:Log ChainLog Chain其中其中IntervalInterval为一个连续的数据块区间,如区间为一个连续的
33、数据块区间,如区间为为 a,b a,b,表示区间范围为地址,表示区间范围为地址a ba b两个区间的相对关系需要在一维空间上进行比较两个区间的相对关系需要在一维空间上进行比较(bjio)(bjio),设源区间为,设源区间为r=a,b,abr=a,b,ab;目标区间;目标区间R=A,BR=A,B,ABAB;源区间;源区间r r相对于目标区间相对于目标区间R R的的相对关系可以描述。相对关系可以描述。第44页/共52页第四十五页,共52页。l l设源区间设源区间(q jin)(q jin)为为r=a,b,abr=a,b,ab;目标区间;目标区间(q jin)R=A,B(q jin)R=A,B,AB
34、AB;r r与与R R的关系可概括为的关系可概括为6 6种关系,种关系,两种运算两种运算l l左独立左独立,左重叠左重叠 ,包含,包含 ,右,右重叠重叠 ,右独立,右独立 ,覆盖,覆盖;区间(q jin)关系描述第45页/共52页第四十六页,共52页。区间索引关系运算逻辑(索引融合)区间索引关系运算逻辑(索引融合)1 1、在满足、在满足OverlappingOverlapping关系条件下关系条件下,即即r r覆盖覆盖(fgi)R(fgi)R时时,R,R中的点在中的点在r r中都有与之对应的部分中都有与之对应的部分,使使用用r r替代替代R R的过程称为区间叠加的过程称为区间叠加,记为记为:r
35、+R;:r+R;2 2、在区间关系、在区间关系LeftOverlapping,Included,LeftOverlapping,Included,RightOverlappingRightOverlapping条件下条件下,把把R R进行分割进行分割,产生的区产生的区间子项间子项Ra,Rb,RcRa,Rb,Rc其中其中RaRa特指特指r r与与RaRa具有具有RightIndependentRightIndependent的区间关系的区间关系;r;r与与RbRb具有具有OverlappingOverlapping关系关系,r,r与与RcRc具有具有LeftIndependentLeftInde
36、pendent的区的区间关系间关系,把这一过程称为区间分割把这一过程称为区间分割,记为记为:R/r;:R/r;3 3、在区间分割运算中、在区间分割运算中,如果分割如果分割R R产生的子区间产生的子区间RbRb不为空不为空,即在即在R R中获得与中获得与r r相匹配的子区间的过程称相匹配的子区间的过程称为区间相减为区间相减,记为记为:R-r.:R-r.第46页/共52页第四十七页,共52页。区间运算的物理意义(yy):在r与R具有区间关系左独立和右独立的情况下,直接写入新版本数据块索引;在具有覆盖关系情况下,使用新版本数据索引完全覆盖掉旧版本数据索引;而重叠或包含关系时有部分旧版本的数据索引被覆
37、盖掉.第47页/共52页第四十八页,共52页。多版本(bnbn)数据备份管理技术l l背景l l多版本技术决定着数据的存储和恢复效率l l备份数据长期存储过程中需要结合备份数据的多版本管理技术检索数据l l决定备份数据检索效率的因素包括版本内索引数据和遍历版本数目,如何减少遍历过程中的索引数据量是提高多版本管理效率的主要途径l l问题描述l l传输(chun sh)效率效率l l版本管理效率l l版本的删除第48页/共52页第四十九页,共52页。多版本(bnbn)管理方法l l多版本管理方法l l设多次备份后产生的版本序列记为:S=F1,F2,,Fn l l版本融合算法l l根据(gnj)索引
38、融合或区间索引运算逻辑.l l把版本融合过程使用算符“”表示,版本融合过程可以表示为:Ft=FrFR.也把版本融合称作版本叠l lFFullSnapshot=FiFi-1F2F1l l版本融合是版本删除的基础运算l l版本删除基本思想是把待删除版本与下一版本融合,融合结果保留了可能被将来版本共享的数据第49页/共52页第五十页,共52页。l l多版本差异(chy)恢复方法:diffdoStep1.FFullSnapshot(T)=FTFT-1F1;计算版本计算版本T的快照索引的快照索引:FFullSnapshot(T);Step2.Check(FFullSnapshot(T)CheckFile
39、(T);从端根据从端根据 FFullSnapshot(T)计算快照数据的校验文件计算快照数据的校验文件:CheckFile(T),并发送到主端,并发送到主端;Step3.CheckFile(T)CheckErrorFile(T);主端根据主端根据CheckFile(T),记录校验不一致的数据块对应的逻辑地记录校验不一致的数据块对应的逻辑地址址,生成生成CheckErrorFile(T),并发送到从端并发送到从端;Step4.CheckErrorFile(T)+FFullSnapshot(T)DiffdoLog(T);存储端根据存储端根据CheckErrorFile(T)和和FFullSnaps
40、hot(T)检索备份数据检索备份数据,计计算差异恢复索引文件算差异恢复索引文件DiffdoLog(T),并根据并根据DiffdoLog(T)进行差进行差异数据恢复。异数据恢复。第50页/共52页第五十一页,共52页。小结小结多版本数据保护技术可以解决两类错误:逻辑错误、物理错误多版本数据保护技术可以解决两类错误:逻辑错误、物理错误是密集的写应用环境,对索引结构的更新效率、存储效率、检索是密集的写应用环境,对索引结构的更新效率、存储效率、检索(jin su)(jin su)效率都有很高要求效率都有很高要求随着数据复制频率提高,产生数据量急剧增长,版本之间依赖关系复随着数据复制频率提高,产生数据量急剧增长,版本之间依赖关系复杂,影响数据可恢复性和恢复效率杂,影响数据可恢复性和恢复效率第51页/共52页第五十二页,共52页。