2022年信息整合_异构数据交换综述可用 .pdf

上传人:C****o 文档编号:40168084 上传时间:2022-09-08 格式:PDF 页数:16 大小:443.81KB
返回 下载 相关 举报
2022年信息整合_异构数据交换综述可用 .pdf_第1页
第1页 / 共16页
2022年信息整合_异构数据交换综述可用 .pdf_第2页
第2页 / 共16页
点击查看更多>>
资源描述

《2022年信息整合_异构数据交换综述可用 .pdf》由会员分享,可在线阅读,更多相关《2022年信息整合_异构数据交换综述可用 .pdf(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、I 异构数据交换综述摘要本文介绍了异构数据交换的基本概念和研究现状,阐述了异构数据的特点,阐明了异构数据交换的方式与相关技术,并对异构数据交换的前景做出了展望。关键词:异构数据,数据交换,数据集成,XML A Review of Heterogeneous Data Exchange Abstract This paper introduces the basic concepts of heterogeneous data exchange and research status,describes the characteristics of heterogeneous data,illu

2、strates the way the exchange of heterogeneous data and related technologies,and prospects for the exchange of heterogeneous data.Key Words:Heterogeneous data,Data exchange,Data Integration,XML 名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 16 页 -II 目录1 引言 .12 研究现状.1 3 异构数据分析.2 3.1 异构数据 .3 3.2 冲突分类 .3 4 异构数据交换方式.6 4

3、.1 异构数据的发布.7 4.2 异构数据的集成.7 4.3 交易自动化.8 5 异构数据交换的方法与技术.85.1 基于 XML 的异构数据交换技术.9 5.2 本体技术 .11 5.3 Web Service 技术.12 6 展望 .12 参考文献.14 名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 16 页 -1 1 引言自计算机诞生以来,人类积累了丰富的数据资源。计算机网络的普及,使得数据资源的共享成为一个热门话题。然而,由于时间和空问上的差异,人们使用的数据源各不相同,各信息系统的数据类型、数据访问方式等也都千差万别。这就导致各数据源、系统之问不能高效地进行数据交换与

4、共享,成为“信息孤岛”。用户在具体应用时,往往又需要将分散的数据按某种需要进行交换,以便了解整体情况。如,跨国公司的销售数据是分散存放在不同的子公司数据库中,为了解整个公司的销售情况,则需要将所有子系统的数据集中起来。为了满足一些特定需要,如数据仓库,数据挖掘等,也需要将分散的数据交换集中起来,以达到数据的统一和标准化。异构数据的交换问题由此产生,受到越来越多人的重视。用户在进行数据交换时,面对的数据是千差万别的。产生数据差异的主要原因是数据的结构和语义上的冲突。异构数据不仅指不同的数据库系统之间的异构,如Oracle 和 SQL Server 数据库,还包括不同结构数据之间的异构,如结构化的

5、数据库数据和半结构化的数据。源数据可以是关系型的,也可以是对象型的,更可以是Web 页面型和文本型的。因而,要解决数据交换问题,一个重要的问题就是如何消除这种差异。随着数据的大量产生,数据之间的结构和语义冲突问题更加严重,如何有效解决各种冲突问题是数据交换面临的一大挑战。异构数据交换问题解决后,才会对其他诸如OLAP、OLTP、数据仓库、数据挖掘、移动计算等提供数据基础。对一些应用,如数据仓库的建立,异构数据交换可以说是生死牧关。数据交换质量的好坏直接影响在交换后数据上其他应用能否有效进行。数据交换后,可以减小由于数据在存储位置上分布造成的数据存取开销;避免不同数据在结构和语义上差异造成的数据

6、转换引起的错误;数据存放更为精简有效,避免存取不需要的数据;向用户提供一个统一的数据界面等。因此,数据交换对信息化管理的发展意义重大。2 研究现状异构数据交换技术的研究始于七十年代中期,至今已有三十年多了。数据库的异构问题已经引起了各数据库厂家及许多数据库专家的注意。各数据库厂商积极参与国际标准的制定,他们新推出的产品都能支持统一的数据库语言、FAP,API 标准。它们的产品有的还留有支持新标准的余地,有的则采用了便于向国际标准过渡的形式。经过十几年对异构数据问题的探索和研究,人们已取得了不少成果,提出了许多解决异构数据交换的策略及方法,但就其本质可分成四类:1.使用软件工具进行转换名师资料总

7、结-精品资料欢迎下载-名师精心整理-第 3 页,共 16 页 -2 一般情况下,数据库管理系统都提供将外部文件中的数据转移到本身数据库表中的数据装入工具。比如 Oracle 提供的将外部文本文件中的数据转移到Oracle 数据库表的数据装入工具SQL Loader,Powersoft 公司的 PowerBuilder 中提供的数据管道(Data Pipeline)。这些数据转移工具可以以多种灵活的方式进行数据转换,而且由于它们是数据库管理系统本身所附带的工具,执行速度快,不需要 ODBC 支持,在机器没有安装ODBC 的情况下也可以方便地使用。但是,使用这些数据转换工具的缺点是它们不是独立的软

8、件产品,必须首先运行该数据库产品的前端程序才能运行相应的数据转换工具,通常需要几步才能完成,且多用手工方式进行转换。如果目的数据库不是数据转换工具所对应的数据库,数据转换工具就不能再使用。2.利用中间数据库的转换由于缺少工具软件的支持,在开发系统时可使用“中间数据库”的办法,即在实现两个具体数据库之间的转换时,依据关系定义、字段定义,从源数据库中读出数据通过中间数据库灌入到目的数据库中。这种利用中间数据库的转换办法,所需转换模块少,且扩展性强,但缺点是在实现过程中比较复杂,转换质量不高,转换过程长。3.设置传送变量的转换借助数据库应用程序开发工具与数据库连接的强大功能,通过设置源数据库与目的数

9、据库两个不同的传送变量,同时连接两个数据库,实现异构数据库之间的直接转换。这种办法在现有的数据库系统下扩展比较容易,其转换速度和质量大大提高。4.通过开发数据库组件的转换利用 Java 等数据库应用程序开发技术,通过源数据库与目的数据库组件来存取数据信息,实现异构数据库之间的直接转换。通过组件存取数据,关键是数据信息的类型问题,若源数据库与目的数据库对应的数据类型不相同,必须先进行类型的转化,然后双方才能实施赋值。异构数据交换问题,实质上就是:一个应用的数据可能要重新构造,才能和另一个应用的数据结构匹配,然后被写进另一个数据库。它是数据集成的一个方面,也可以说是数据集成众多表现形式中的一种。3

10、 异构数据分析异构数据交换的目标在于实现不同数据之间的数据信息资源,设备资源,人力资源的合并和共享。因此,分析异构数据,搞清楚异构数据的特点,把握住异构数据交换过程中的核心问题,是十名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 16 页 -3 分必要的。这样研究工作就可以做到有的放矢。3.1 异构数据数据的异构性导致了应用对于数据交换的需求。那么何谓异构数据?异构数据是一个含义丰富的概念,它是指涉及同一类型但在处理方法上存在各种差异的数据,在内容上,不仅可以指不同的数据库系统之间的数据是异构的(如 Oracle 和 SQL Server 数据库中的数据);而且可以指不同结构的数

11、据之间的异构,(如结构化的SQL Server 数据库数据和半结构化的XML 数据)。总的来说,数据的异构性可以包括以下三个方面:系统异构、数据模型异构和逻辑异构。系统异构是指硬件平台、操作系统、并发控制、访问方式和通信能力等的不同,具体细分如下:1、计算机体系结构的不同,即数据可以分别存在于大型机、小型机、工作站、PC 或嵌入式系统中。2、操作系统的不同,即数据的操作系统可以是Microsoft Windows,WindowsNT、各种版本的UNIX,IBM OS/2,Macintosh 等。3、开发语言的不同,比如C,C+,Java,Delphi 等。4、网络平台的不同,比如Etherne

12、t,FDDI,ATM,TCP/IP,IPXSPX 等。而数据模型异构则是指DMBS 本身的不同。比如数据交换系统可以采用同为关系数据库系统的Oracle,SQLServer 等作为数据模型,也可以采用不同类型的数据库系统-关系、层次、网络、面向对象或函数型数据库等。逻辑异构则包括命名异构、值异构、语义异构和模式异构等。比如语义的异构具体表现在相同的数据形式表示不同的语义,或者同一语义由不同形式的数据表示。以上这些构成了数据的异构性,数据的异构给行业单位和部门等的信息化管理以及决策分析带来了极大的不便。因此异构数据交换是否迅速、快捷、可靠就成了行业、单位和部门制约信息化建设的一个瓶颈。3.2 冲

13、突分类异构数据之间进行数据交换的过程中,要想实现严格的等价交换是比较困难的。主要原因是由于异构数据模型间存在着结构和语义的各种冲突,这些冲突主要包括:命名冲突:即源模型中的标识符可能是目的模型中的保留字,这时就需要重新命名。格式冲突:同一种数据类型可能有不同的表示方法和语义差异,这时需要定义两种模型之间的变换函数。名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 16 页 -4 结构冲突:如果两种数据库系统之间的数据定义模型不同,如分别为关系模型和层次模型,那么需要重新定义实体属性和联系,以防止属性或联系信息的丢失。由于目前主要研究的是关系型数据模型间的数据交换问题,根据解决问题的

14、需要,可将上述三大类冲突再次抽象划分为两大冲突:结构冲突和语义冲突。结构冲突是指需要交换的源数据和目标数据之间在数据项构成的结构上的差异。语义冲突是指属性在数据类型、单位、长度、精度等方面的冲突。本文对数据交换中需要解决的主要冲突,作了如下分类:1、结构冲突结构冲突可分为两种情况:相似结构冲突和异构结构冲突。相似结构是指源和目标模式在表内部构成上相似,异构则与之相反。(1)相似结构冲突表相似结构冲突:如果两个表,表中的属性数量不同,但一个表的某些属性能够同另一个表某些属性对应,这时在这两个表之间产生了表结构冲突。此时,两表在属性集上发生不一致性,表现为属性数量上的差异,但两表之间其他属性能够相

15、互对应。其解决的方法一般为减少多余的属性或增加缺失的属性。属性相似结构冲突:源和目标表中的属性之间存在以下两种情况:源表的某些属性可以通过合并构成目标表的一个属性;源表的一个属性经过分裂成为目标表的几个属性。此时,源表和目标表产生了属性结构上的冲突。例如源表存在Fname 和 Iname 两个属性,而目标表只有Name 属性,但 Name 属性由 Fname 和 Inalne 属性构成。则在源表的Fname,Lnaoe 属性和目标表的Name 属性之间产生属性结构冲突。其解决的方法为在对应的冲突属性之间进行合并或分裂操作。(2)异构结构冲突异构结构冲突可分为:值-属性冲突、值-表冲突、属性-值

16、冲突,表-值冲突等。以图1 中几个表为例来说明表之间的异构结构冲突。Dalian、Yantai、Qingda。三个表表示位于三地的子港务公司每月的集装箱出口数量表,表Table_value_port 是港口集装箱出口统计表,而表Table_value_company 是总公司的集装箱出口数量统计表,它是由Dalian、Yantai、Qingda。三个表中的数据经过数据交换后得到的。属性-值冲突:如果相同的信息在一个表中被表示为属性的名称而在另一个表中被表示为属性的值时,则产生了属性-值冲突。如 总 公 司 统 计 表(Table_Value_company)中Company属 性 的 某 个

17、值 如Dalian在 利 润 表(Table_value_port)表中成为一个属性的名称。表-值冲突:当数据库中表的某个属性值被表示为一个表的名字时,则产生了表-值冲突。如总名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 16 页 -5 公司统计表(Table_value_Companys)中 Company 属性的某个值如Yantai 成为的表Yantai 的名称。对异构的情况,比较常见的转换为“表”到“值”的转换和“属性”到“值”的转换。对“值”到“表”,“值”到“属性”,“属性”到“表”,“表”到“属性”的转换,由于实际数据交换中,目标系统表结构很少采用这种设计方式,因而

18、研究重点是“表”到“值”,“属性”到“值”两种异构情况的转换。图 1 异构结构冲突示例Fig.1 Examples of heterogeneous structure of the conflict 2、语义冲突语义冲突主要分为二种情况:表的语义冲突、属性语义冲突。表的语义冲突是指具有相同标识符的表语义不同。属性语义冲突是指属性的数据类型、单位、格式等的冲突。(1)表的语义冲突表的语义冲突是指具有相同或相似结构的两个表在语义上的差异。如一个表为所有员工的工资,而另一个结构相同的表则为某个部门员工的工资。对相同的结构,只需要将所有源表数据合并到目标表或将源表水平分割为各个目标表即可。(2)属性

19、语义冲突数据类型冲突:同一属性的数据在不同表中的数据类型不一致。如年龄在一个表中为字符型而名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共 16 页 -6 在另一个表中为数值型。其解决办法为将一种数据类型转化为另一种数据类型。命名冲突:表示同一概念的属性在不同表中命名不一样。如,一个表中用Company 属性表示公司,在另一个表中用Corporation 属性表示公司,对应的属性在命名上有差异。解决的办法是统一属性的命名。单位冲突:同一属性在不同表中,其值的单位不一样。如,一个表中身高以米为单位,另一个表中用厘米为单位。此时,对应属性在度量单位上有差异。解决办法是统一单位。数据长度

20、冲突:属性值的长度不一样。数据精度冲突:同一属性的值在不同表中的数据精度不一样。如,一个表中工资值为100.89,在另一个表中为100.9。解决办法是进行精度转换。数据格式冲突:同一属性的值在不同表中的表现格式不一样。最典型的例子如日期,一个表中为“MM/DD/YY”格式,在另一个表中为“YY/MM/DD”。此时,对应属性在数据格式上出现差异。解决的办法是统一数据的表现格式。其他情况:这类情况比较特殊,如物理运动的测量是由于参照物选择不同引起的测量值的差异。可根据实际交换时的情况进行分析。总之,在进行数据转换时,一方面源数据模式中所有需要共享的信息都转换到目标数据中,另一方面这种转换又不能包含

21、冗余的关联信息。4 异构数据交换方式异构数据交换就是实现分布式网络环境下,不同位置、平台和格式的数据以一种统一的交换标准集中展现给用户,并可以进行数据资源的抽取和利用。异构数据存放于异构数据库中,异构数据库的各个组成部分具有自治性和数据库管理系统,实现数据共享的同时又保持自己的应用特性、完整性控制和安全性控制,确保基于异种系统平台实现对异构数据库的查询和联合使用。提供一个独立于特定的数据库管理系统的统一编程界面。异构数据库系统是相关的多个数据库系统的集合,目标在于实现不同数据库之间的资源的合并和共享,为应用系统提供安全的、统一的、快捷的信息查询、数据挖掘和决策支持服务。异构数据库系统的数据交换

22、主要是为了消除异构数据之间的冲突,通过一些设备在不同的应用平台和操作系统之间使交换数据的双方可以实现彼此之间的透明访问和各系统问的数据共享、业务协同,从而解决了信息孤岛问题。异构数据交换方式主要分为:数据发布、数据集成和交易自动化。名师资料总结-精品资料欢迎下载-名师精心整理-第 8 页,共 16 页 -7 4.1 异构数据的发布异构数据的发布指的是将异构数据库中的数据根据用户设定的条件及提取出来的目标信息,按照数据请求者要求的、可以接受的格式发送出去。4.2 异构数据的集成异构数据的集成指的是根据用户设定的条件及提取出来的目标信息将异构数据源集成起来并且提供给用户一个统一的视图(物理的、逻辑

23、的)。异构数据的集成屏蔽了数据源的异构性可以使应用程序以统一的方式对不同分布的、结构异构的数据源进行访问,可以为这些数据源提供实时的读写操作,也可以完成各个业务模块之间的数据共享,从而畅通无阻地实现彼此之间的通信。进而理顺业务操作过程。异构数据集成体系结构主要有三种:联邦数据库、Mediator/Wrapper 模式以及数据仓库。1、联邦数据库联邦数据库系统是实现数据库集成问题的一种传统方法,是在任何两种异构数据源之间建立起彼此互相转化的方式。这种模式的数据集成是个N 维问题,假设存在N 个彼此异构的数据库系统,并且任意两个之间要实现彼此转换则需要实现的转换模式总和为T=N(N-1)。因此,使

24、用这种方式时,开发人员要编写N(N-1)段代码来实现两两之间的彼此共享。2、Mediator/Wrapper 模式Mediator/Wrapper 模式是一种软件构件 通过为所有异构数据源提供一个统一的虚拟视图的方式来实现集成目。这种集成方式并不需要存储任何实际数据,只需要系统为用户提供一个全局模式(即Mediator 模式),用户只需要针对全局模式提交查询条件,而不需要知道数据源的模式、位置以及访问方法,系统会自动地将用户的查询条件分别转换成一个或多个对数据源的查询,再将查询得到的结果集进行处理和整合,最终返回给用户。Mediator/Wrapper 模式中的异构数据源具有完全的自治性,从而

25、可以方便地对数据源进行添加和删除。中介系统一般由一个Mediator 和多个 Wrapper 构成,Mediator 的作用是将针对全局模式的查询进行分析,然后分解成若干个子查询,并将它们分别转换成针对所对应数据源的查询,最后将所有数据源的结果进行合并和整合,再返回给用户。Wrapper 的作用是将各个数据源中的数据转换为统一集成系统可以处理的结构化的数据。Mediator/Wrapper 这种方式的优点是可以实现大量的数据源的互访和通信,对数据源的数目并没有限制,但是系统的结构和内部处理算法实现起来十分复杂。3、数据仓库名师资料总结-精品资料欢迎下载-名师精心整理-第 9 页,共 16 页

26、-8 数据仓库集成异构数据源的策略是将来自几个异构数据源的数据副本,按照一个集中、统一的视图要求,进行预处理、转换,以符合数据仓库的模式,并存储到数据仓库中。这样,对于使用者来说感觉就像在使用一个普通的数据库一样。一旦数据存储于数据仓库,用户使用查询就像是在原来单一的数据源中查询一样。另一方面,数据仓库可能会禁止用户去更新数据,因为,用户对数据仓库中数据的更新将不会反应到原来的数据源中,这就会造成数据源和数据仓库中数据不一致的问题。目前,进行数据仓库中数据构建的方式有以下三种:数据仓库周期性的从原数据源中重新构建数据。最常使用的方式是在每天午夜(那时系统可能需要关机,并且不是用户使用数据仓库的

27、高峰期)或者是更长周期的午夜时刻进行数据重建。这种方式的主要缺陷是需要将数据仓库关闭,而事实上数据的重建可能需要很长的时间。对于某些应用来说,过长的时间会使很多数据过时。数据仓库周期性的从原数据源中更新数据(采用增量更新的模式,即每次数据仓库更新上次更新以后修改的数据)。这种方式只会影响到数据仓库中少量的数据,这样即使是在数据仓库的容量很大的时候,数据更新的时间也不会很久。该方式主要的缺点是用于计算数据仓库中数据更新的算法(增量更新算法),相对于从原始数据开始构建数据仓库的算法要复杂的多。数据仓库即时更新异构数据源的数据变化。当一个或多个数据源中的数据发生变化的时候,立即更新数据仓库中相应的数

28、据。由于这种方法需要数据仓库和数据源之间频繁的通信,所以这种方式只适用于小型的、数据更新量小的数据仓库中。这种方式有着一个典型而且广泛的应用-自动股票交易系统。总之,数据仓库模式的异构数据库数据共享集成的优点是便于进行联机分析和数据挖掘,缺点是数据重复存储、难以及时更新。综上所述,三种集成方式各有优缺点,我们应该根据实际应用的具体要求和特点来选择最适合的集成方式以满足具体应用的实际要求。4.3 交易自动化各种应用只要遵循共同的标准,就可以使得应用程序开发商开发出具有一定自动处理能力的代理程序,从而提高工作效率。5 异构数据交换的方法与技术实现异构数据交换的方法和技术较多,这里列出XML、本体技

29、术、Web Service 等几项技术。名师资料总结-精品资料欢迎下载-名师精心整理-第 10 页,共 16 页 -9 5.1 基于 XML 的异构数据交换技术XML(Extensible Markup Language,可扩展标记语言)是SGML(Standard Generalized Markup Language,标准通用标记语言)的一个简化子集,1998 年 2 月成为W3C(The World Wide Web Consortium 互联网联合组织)标准。XML提供了一种灵活的数据描述方式。XML支持数据模式、数据内容、数据显示方式三者的分离的特点,这使得同一数据内容在不同终端设备

30、上的个性化数据表现形式成为可能,在数据描述方式上可以更加灵活。XML 具有很强的链接能力可以定义双向链接、多目标链接、扩展链接和两个文档间的链接。XML 具有自描述性。XML 文档通常由模式描述文件和事例文件组成,前者用于描述XML 事例文件所能使用的标记、标记的结构、标记的含义等,而XML事例文件则使用这些预定义的标记描述数据,所以XML 具有自描述性。XML简单,易于处理。从数据处理的角度看,XML足够简单易于阅读,又易于被应用程序处理。上述的特点,使得XML可以为结构化数据、半结构化数据、关系数据库、对象数据库等多种数据源的数据内容加入标记,适于作为一种统一的数据描述工具,扮演异构应用间

31、数据交换载体或多源异构数据集成全局模式的角色。事实上,XML 已经成为Internet 环境下数据表达的公开而被广泛支持的标准。5.1.1 基于 XML 的异构数据交换的总体过程由于系统的异构性,需要交换的数据具有多个数据源,不同数据源的数据模式可能不同,导致源数据和目标数据在结构上存在差异。在进行数据交换时,首先必须将数据模型以统一的XML格式来描述,这就需要使用XML 的 DTD 或 XML Schema 来定义文档的结构,DTD 定义 XML 文档的基本结构,但不涉及到任何有关的实际数据,通过定义适当的DTD 将源数据库中的数据转换成XML文档,然后使用DOM 技术来解析XML文档,这样

32、就可以将XML文档中的数据存入目标数据库,从而实现了异构数据的交换。由于 DTD 文档定义的数据结构与源数据库中得数据结构保持一致,这样保证了生成的XML 文档与源数据库中数据的保持一致。其总体交换过程如图2 所示。名师资料总结-精品资料欢迎下载-名师精心整理-第 11 页,共 16 页 -10 图 2 基于 XML 的异构数据交换的总体过程Fig.2 XML-based exchange of heterogeneous data 5.1.2 数据库数据与XML 文档的映射原理在 XML 数据和数据库之间转换时,需要考虑许多问题,XML 不支持任何有实际意义的数据模型,所有 XML 文档中的

33、数据都会被当成纯文本处理。通常数据转换中间件需要把XML 文档中的纯文本转换成数据库的数据类型,或把数据库的数据类型转换为纯文本的XML 格式。在 XML 文档结构和数据库模式结构之间进行相互映射,一般有两种映射方法:模板驱动映射与模型驱动映射。模板驱动映射基于模板驱动的映射是一种浅层次的映射,是一种基于模板的DTD 到关系模式的转换算法,其转换比较简单,只要给出模板,就可以快速生成相应XML文档。基于模板的映射方法不用预定义XML 数据与数据库数据之间的映射关系,只是在 XML 文档中嵌入带参数的SQL 命令,这些模板中的命令由数据转换中间件来处理,在转换过程中被识别和执行,将执行的结果替换

34、到命令所在的位置上,从而生成XML文档。因为使用模板驱动映射在数据转换时需要生成大量合理的模板,所以系统要为用户提供生成模板的工具,以及相应的指令执行程序。其过程如图3。图 3 模板驱动映射过程Fig.3 Template-driven mapping process 基于模板映射的优点是转换步骤简单,查询语言灵活性大,支持通过HTTP 的传递参数,允许嵌套查询,支持SELECT 语句的参数化,支持编程结构,如可以由程序构建loop 循环或if 判断等。目前大多数的数据库产品都属于模板映射,如SQL Server、DB2 和 Oracle 等。缺点是模板驱动映射是以 XML 内嵌的 SQL 执

35、行的数据结果集为依据,不涉及数据库赖以存在的数据模型,,只能将关系数据库的数据转换为XML 文档,并舍弃了关系模式的约束条件,所以也不支持反向的转换。模型驱动映射模型驱动映射是一种深层次的映射,其原理是利用XML文档中的数据模型的结构显性或隐性名师资料总结-精品资料欢迎下载-名师精心整理-第 12 页,共 16 页 -11 地映射成其他数据模型的结构。要实现数据库和XML文档间的数据转换的关键是在数据库模式和XMLSchemas 或 DTD 之间建立映射关系,用具体的模型来实现数据间的映射。通常关系数据库利用关系型,面向对象数据库利用对象模型,而XML 文档依赖的是Schemas 或 DTD。

36、当数据从数据库转换成 XML 文档时,因为依照得是单个模型,通常需要结合XSL 来控制模板驱动,从而保证了系统的灵活性。要实现关系数据库数据转换XML 文档时,将层次结构的XML 文档理解成一张二维表,直接与数据库中的关系表相对应,把表或查询结果的数据插入到XML 文档的相应位置便可,相反把XML文档数据转换成数据库数据时,只要把内容插入到相应的二维表中即可。如果是把对象数据库中的数据转换为XML 文档时,首先要将XML 文档映射成同样具有层次结构的对象树(DOM),然后将对象树映射到面向对象的数据库中,或通过“对象-关系技术”将对象树映射到关系数据库中。其过程如图 4.。图 4 模型驱动映射

37、过程Fig.4 Model-driven mapping process 基于模型映射转换的优点是有数据模型的支持,相对比较简单,可以实现XML数据与数据库数据间的双向映射。缺点是XML文档结构受数据模型的限制,不够灵活,不适用与嵌套层次比较深的 XML文档进行映射,也不能适用于多个对象集合的映射,映射的时候表的结构必须与对象结构一致,对结构不一致的数据表也很难映射,不能定制数据库数据与XML 的映射。5.2 本体技术本体是对某一领域中的概念及其之间关系的显式描述。是语义网络的一项关键技术。本体技术能够明确表示数据的语义以及支持基于描述逻辑的自动推理。为语义异构性问题的解决提供了新的思路,对异

38、构数据集成来说应该有很大的意义。但本体技术也存在一定的问题:已有关于本体技术研究都没有充分关注如何利用本体提高数据集成过程和系统维护的自动化程度、降低集成成本、简化人工工作。基于语义进行自动的集成尚处名师资料总结-精品资料欢迎下载-名师精心整理-第 13 页,共 16 页 -12 于探索阶段,本体技术还没有真正发挥应有的作用。5.3 Web Service技术Web Service 是近年来备受关注的一种分布式计算技术。它是在 Internet 或 Intranet 上使用标准的XML 语言和信息格式的全新的技术架构。其内容主要包括:WSDL(Web Service 描述语言,用于进行服务描述

39、),UDDI(统一描述、发现和集成规范,用户服务的发布和集成),SOAP(简单对象访问协议,用于消息传输)。从用户角度看,Web Service 就是一个应用程序,它向外界暴露出一个能够通过Web 进行调用的 API。服务请求者能够用非常简便的类似于函数调用的方法通过Web 来获得远程服务,服务请求者与服务提供者之间的通信遵循SOAP 协议。Web Service 体系结构由角色和操作组成。角色主要有服务提供者(Service Provider)、服务请求者(Service Requestor)、服务注册中心(Service Registry)。操作主要有发布(Publish)、查找(Find

40、)、绑定(Bind)、服务(Service)、服务描述(Service Description),其具体架构如图5 所示。图 5 Web Service 架构Fig.5 Web service architecture 其中,“发布”是为了让用户或其它服务知道某个Web Service 的存在和相关信息,“查找”是为了找到合适的Web Service,“绑定”则是在提供者与请求者之间建立某种联系。在异构数据库集成系统中,可以利用Web Service 具有的跨平台、完好封装及松散耦合等特性,对每个数据源都为其创建一个Web Service,使用 WSDL 向服务中心注册,然后集成系统就可以向注

41、册中心发送查找请求并选择合适的数据源,并通过SOAP 协议从这些数据源获取数据。这样不仅有利于数据集成中系统异构问题的解决,同时也使得数据源的添加和删除变得更加灵活,从而使系统具有松耦合、易于扩展的良好特性,能实现异构数据库的无缝集成。6 展望鉴于异构数据交换所固有的特点,可以相信,异构数据交换会随着各个难题的解决而得到越来名师资料总结-精品资料欢迎下载-名师精心整理-第 14 页,共 16 页 -13 越广泛的应用。今后,异构数据交换与集成的研究方向应该包括:(1)基于网格、本体语义的数据集成方案的研究;(2)集成数据的完整性、一致性约束;(3)半结构化数据全局模式的构建方法和映射方法。同样

42、要保证数据的完整性和一致性约束能够在半结构化的数据问传递;(4)数据集成过程中安全、可靠的数据传输技术。名师资料总结-精品资料欢迎下载-名师精心整理-第 15 页,共 16 页 -14 参考文献1白朝阳.异构数据交换的研究和应用D.2004.2陈明清.基于 XML 的异构数据源集成的研究与应用D.南京邮电大学.2009 3陈跃国.数据集成综述 J.计算机科学.2004,31(5):48-51 4陈哲,魏衍君.异构数据的视图集成研究J.计算机应用与软件.2007,24(9):73-74 5姜帆.谈异构数据库集成技术J.重庆电子工程职业学院学报.2009,18(4):106-108 6靳强勇,李冠

43、字,张俊.异构数据集成技术的发展和现状J.计算机工程与应用.2002,38(11):112-114 7李星毅,高文浩,施化吉.基于本体的异构数据集成方法J.计算机工程与设计.2009,30(8):1931-1933 8毛小燕,孔玲爽.多源异构数据库的集成的研究J.电脑知识与技术.2008,2(16):1197-1199 9齐艳珂,肖连,高洁.异构数据集成技术综述J.福建电脑,2007,(6):35 10时贵英,吕洪涛.可扩展异构数据交换系统的研究及实现J.长江大学学报.2009,2(6):217-218 11王兰成,敖毅,曾琼.异构多信息源组织与集成技术的研究现状及其进展J.现代图书情报技术.2006,(3):68-71 12王韦伟,孙庆鸿.基于 XML 的分布异构数据集成平台J.东南大学学报(自然科学版).2006,36(5):715-719 13杨先娣,彭智勇,刘君强.信息集成研究综述J.计算机科学.2006,33(7):55-59 14赵琳.异构数据交换的理论研究J.科技信息.2010,(21):71-73 15周学权.异构数据集成管理平台研究D.上海交通大学.2006 名师资料总结-精品资料欢迎下载-名师精心整理-第 16 页,共 16 页 -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁