《工业设备监测多源异构数据实时处理技术研究与应用_任山.docx》由会员分享,可在线阅读,更多相关《工业设备监测多源异构数据实时处理技术研究与应用_任山.docx(76页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、工业设备监测多源异构数据实时处理技术研究与应用重庆大学硕士学位论文(专业学位)学生姓名:任山 指导教师:杨正益副教授 学位类别:工程硕士(软件工程)重庆大学大数据与软件学院二0_八年四月Research and Application of Multi-sourceHeterogeneous Data Real-time ProcessingTechnology for Industrial EquipmentMonitoringA Thesis Submitted to Chongqing Universityin Partial Fulfillment of the Requirement
2、 for theProfessional DegreeByRen ShanSupervised by Ass.Prof. Yang ZhengyiSpecialty:ME(Software Engineering)School of Big Data & Software Engineering of ChongqingUniversity, Chongqing ChinaApril, 2018中文摘要摘 要随着当前科学技术的不断发展,信息化建设也在工业领域中快速推进和应用, 尤其是在工业设备监测当中,由于监测项目众多,需要接入各种不同类型的传感 器,从而导致产生的数据位于不同的数据源,而且在
3、语义和数据格式等方面具有 异构的特点,给相关数据的管理和分析带来了极大的不便。因此提出一个针对大 量多源异构监测数据的集成和处理方案,在解决异构数据源的差异的同时保证数 据的完整性和时效性是非常必要的。现有的数据集成技术由于灵活性不强,而且随着数据量的增多时效性也表现 的较差,所以在应用领域方面存在很大的局限性。然而工业设备监测当中,工业 设备繁多,监测数据复杂,监测持续时间长,数据累积量大,同时在业务需求层 面多样化,需要将不同设备监测数据进行集成,并对数据进行一系列的处理,并 运用可靠的存储技术,提供快速有效的查询方式,实现工业设备监测中的智能化 和信息化。本文针对目前数据集成领域存在的问
4、题,并结合工业设备监测数据的特点, 提出一种多源异构数据实时处理模型。该模型采用XML数据表达的方式,分析 XML文档和数据库之间的映射机制,实现异构数据的转换,并针对多源传感器测 量的数据存在的不确定性问题,采取改进的贝叶斯估计推理方法实现数据融合, 以提高所测数据的真实性和可靠性。为保证监测数据的实时处理要求,在数据采 集过程中,传感器采集的最新的数据存储在本地的实时数据库中,而经过处理的 数据则存入服务器的历史数据库中做进一步分析和查询,同时在存储过程中确保 数据的一致性。然后采用本文提出的多源异构数据实时处理模型完成大连LNG接收站设备实 时监测系统的开发,并基于软件工程思想对该系统进
5、行了完整的系统分析设计和 功能实现,该系统能够有效的完成相关设备数据监测和全周期的实时故障诊断, 并针对不同的处理需求提供了丰富的查询接口和可视化界面。经过实际应用证明 本文提出的模型运用到实际业务场景中,能够保证数据的完整性、实时性和可靠 性,在提高实时处理效率和信息化方面具有极大的实际意义。关键词:设备监测,多源异构数据,XML,数据融合,实时处理I英文摘要ABSTRACTWith the rapid development of current science and technology, information construction is also rapidly advanci
6、ng and applying in the industrial field. Especially in the monitoring of industrial equipment, due to the large number of monitoring items, it is necessary to access various types of sensors, resulting in the resulting data. It is located in different data sources and has heterogeneous features in t
7、erms of semantics and data formats, which brings great inconvenience to the management and analysis of related data. Therefore, an integration and processing scheme for a large number of multi-source heterogeneous monitoring data is proposed. It is very necessary to ensure the integrity and timeline
8、ss of the data while solving the differences of heterogeneous data sources.The existing data integration technology is not flexible enough, and the timeliness performance is also worse with the increase of the amount of data, so there are great limitations in the application field. However, in the m
9、onitoring of industrial equipment, there are many industrial devices, the monitoring data is complex, the monitoring duration is long, the data accumulation is large, and at the same time, the business needs are diversified. It is necessary to integrate the monitoring data of different devices and p
10、erform a series of processing on the data. And the use of reliable storage technology to provide a fast and effective way to query, to achieve the intelligence and information in industrial equipment monitoring.This paper presents a multi-source heterogeneous data real-time processing model aiming a
11、t the problems existing in the field of data integration, combined with the characteristics of industrial equipment monitoring data. This model adopts XML data representation to analyze the mapping mechanism between XML documents and databases, realizes the conversion of heterogeneous data, and adop
12、ts improved Bayesian estimation inference for the uncertainty of the data measured by multi-source sensors. The method realizes data fusion to improve the authenticity and reliability of the measured data. In order to ensure the real-time processing requirements of the monitoring data, the latest da
13、ta collected by the sensors are stored in the local real-time database during the data collection process, and the processed data is stored in the servers historical database for further analysis and query. Ensure data consistency during storage.m重庆大学硕士学位论文And Then the multi-source heterogeneous dat
14、a real-time processing model is used to complete the development of real-time monitoring system for Dalian LNG receiving station equipment. Based on the software engineering idea, the system is completely analyzed and designed and its function is implemented. The system can be effectively completed.
15、 Related equipment data monitoring and full-cycle real-time fault diagnosis, and provide a rich query interface and visual interface for different processing needs. Through practical application, it is proved that the model presented in this paper is applied to actual business scenarios, and it can
16、ensure the integrity, real-time and reliability of the data. It has great practical significance in improving the efficiency of real-time processing and information.Keywords: device monitor, Multi-source heterogeneous data, XML, Data Fusion, Real-time processingIV目 录I英文摘要III1绪论11.1课题背景11.2国内外研宄现状11.
17、2.1异构数据集成研宄现状11.2.2实时处理技术研宄现状31.3主要研宄内容41.4本文组织结构42相关技术概述72.1多源异构数据集成技术72.1.1异构数据集成72.1.2语义集成技术82.1.3数据集成模式分析82.2中间件相关技术概述102.2.1中间件基本概念102.2.2中间件工作模式102.2.3 XML技术介绍122.3实时处理技术概述132.3.1实时数据库系统的索引技术132.3.2实时数据库系统的事务管理152.3.3实时数据库系统的并发控制152.4本章小结163多源异构数据实时处理模型研究173.1模型设计思路173.1.1模型设计目标173.1.2模型技术方案18
18、3.2模型体系结构193.3多源异构数据实时处理203.3.1基于XML的异构数据转换203.3.2基于模型驱动的异构数据映射22重庆大学硕士学位论文3.3.3基于改进贝叶斯估计算法的数据融合243.4数据存储策略283.4.1实时数据库存储283.4.2历史数据库存储283.4.3非结构化数据存储293.4.4数据的一致性维护303.5本章小结314工业设备实时监测系统分析与设计334.1系统需求分析334.1.1系统概要简述334.1.2系统特征分析344.2系统总体设计354.2.1系统体系架构354.2.2系统业务流程354.3系统功能模块设计374.3.1基本信息管理384.3.2多
19、源数据监测384.3.3数据实时处理394.3.4数据查询分析394.4数据库设计404.4.1数据库存储策略404.4.2数据库逻辑结构404.5本章小结435工业设备实时监测系统实现与应用455.1开发环境介绍455.2系统框架结构455.3关键技术实现475.3.1多数据源管理475.3.2异构数据转换实现495.3.3多源数据融合实现515.4工业设备实时监测系统应用545.4.1实际部署环境545.4.2系统运行界面565.5本章小结59VIg6总结与展望616.1总、会吉616.2 顧61至夂谢63#考文献65VII1绪论1绪论1.1课题背景随着科学技术的不断发展,特别是在21世纪
20、的今天,每天的生活工作当中都 会产生大量的数据,据统计,最近十年来产生的数据已经超过了过去的五千年的 总和1。因此对于这些庞大数据的采集、处理、存储、分析和利用是一个系统而复 杂的工作。同时信息化技术也已经渗透到各个领域,在工业设备检测监测领域中 更是如此。在工业设备的大规模运转中,需要对它们的各项性能数据进行实时地 监测以保证安全性和可靠性,然而在实际当中,完成复杂的工业化操作需要多种 多样类型的设备协作完成,因此会产生不同结构,不同来源,不同维度的数据。 并且随着不断的生产运转,这些数据还会还会以几何级数增长。与此同时,数据的实时处理技术也在不断的发展以应对各种各样复杂逻辑的 需求。通常在
21、面对不同的数据结构情况下选用不同的存储技术是更加便捷的选择, 但是这样也会造成信息和数据的表现形式和存储结构多样化,主要表现在信息源 差异、异构性、分布性等方面,想要对这些数据和信息进行整理和分析变得更加 困难,进而难以满足工作和生产中的需求2。所以对多源异构数据的处理首先需要 对异构数据进行集成,将分布在不同地点、不同设备的数据集成起来,然后对数 据进行相应的实时处理,并提供一种直观统一的访问方法。用户根本不需要关心 数据的存放位置和结构差异,只需要通过统一的可视化环境对多源异构数据进行 操作和使用。本文研宄针对工业设备监测当中,工业设备繁多,监测数据复杂,监测持续 时间长,数据累积量大,同
22、时在业务需求层面的多样化的问题,提出将不同设备 监测数据进行集成,并对数据进行一系列的处理,运用合理的实时存储技术,并 提供不同的查询方式,直观的展现方式,实现工业设备监测中的智能化、信息化。 论文的关键研宄点在于异构数据的集成和实时处理。1.2国内外研究现状 1.2.1异构数据集成研究现状国外关于多源异构数据集成的研宄开始的较早,参与研宄的高等院校也较多。 主要有 University of Waterloo、Boston college、MIT、Northwestern university、 Illinois University、University of Zurich、Paris u
23、niversity 等13。参与研发异I勾数据 系集成的公司有 IBM、Oracle、Unisys、Computer Corporation of America 等。这些研宄机构在这个过程中也不断开发出众多的数据集成系统。其中比较优秀的有重庆大学硕士学位论文Northwestern university 的 SEMINT 系统、Unisys 公司的 Mermaid 系统、Paris university 的 Scoop 系统、Computer Corporation of America 的 Multibase 系统、以及 Boston college和MIT联合开发的基于SSM的数据集成模
24、型系统等。早期的数据 集成研宄主要集中于异构数据库集成的层面,虽然也达到了一定的效果,并也开 发原型系统,然而数据库种类繁多且在不断更新迭代之中,这时针对异构数据库 的集成在很大程度上其实还存在很大的局限性。因此众多研宄机构纷纷将研宄重 点转向多数据源的异构数据集成,即多源异构数据集成。接着就有许多公司和研 宄机构就开始着手研宄通用的数据源集成系统。比较有代表性的有:IBM公司Almaden的研宄中心研发出的Garlic系统,利用面向对象思想构建 公共数据模型,将分布的多数据源的结构化数据和非结构化数据都集成为一个全 局公共模型,并基于此开发出多媒体信息管理系统,然而在实际使用中不是所有 的多
25、媒体数据都可以采用数据模式的方式来描述,所以这一套方法还存在局限性。Microsoft公司也研发出的OLEDB系统。该系统的优点在需要访问各类不同 的数据源的时候不用再繁琐地单独编写代码,因为系统已经封装好统一的接口, 只需要调用执行就行。而且可以在不同数据源之间进行转换的功能极大地提高了 数据集成系统的便捷性,所以该系统对开发人员来说真的非常友好,因为不必再 去弄懂大量的数据库相互访问相互联通的协议。同时该系统由于是微软开发的, 完美地继承了 SQLServer数据库的优点。斯坦福大学研发出的SIMMIS系统将分布在不同数据库中需要集成的数据转 换为OEM模型,在全局模式的层面灵活地处理多源
26、数据的异构问题。在体系架构 上基于带有Web包装器的中间件体系结构,允许开发人员动态地编写描述性声明 语句。但是SIMMIS系统的查询语句太过繁琐和复杂,从而导致数据的表达格式 也很难轻易看懂,也对系统的性能造成降低的负担,一般的操作都需要非常熟悉 系统的专业人士来完成。国内对多源异构数据集成的研宄相较国外起步较晚,但也取得了一些不错的 研宄成果,目前数据集成或者信息集成领域已经成为很多高校和科研机构关注的 热点方向,通过这些研宄致力于解决一些实际的问题。比较主流的研宄大多集中 于将来自不同数据源的异构数据通过相应的方法转换为通用的可操作的数据模型 的方式,来达到异构数据的集成和查询。北京大学
27、开发的CoXML v 1.0系统是基于XML技术的数据集成系统,底层采 用国产的关系数据库管理系统,针对海量的异构信息搭建一个通用的管理平台。 东南大学开发了 Versatile系统模型,该系统主要是针对的半结构化的数据进行集 成,支持结构化查询语言,以及文件型数据,可以对多个信息源的数据同时进行 集成,而且可以完成动态地添加和修改信息源数量。21绪论文献12提出的异构数据集成模型,是运行在云计算环境上的。并且以本体理 论为基础,提供支持云计算的数据集成服务,并且对相关查询算法进行重写以提 高全局查询效率,利用包装器将查询分解为一个一个的子查询,但是在这个过程 中对于本体的构建效率问题还有待提
28、升。文献11提出采用中间件的数据集成模型,采用三层架构模式,而且在数据处 理当中还创新地引入虚拟数据库的以提高数据查询效率,半结构化的VII技术和跨 平台Java技术构成处理中心位于底层数据库和上层应用之间。虚拟数据库为用户 提供统一的数据查询服务,进而实现对异构数据的无差别访问。但是此模型功能 较为简单,不支持数据源的实时扩展,在数据安全方面的研究也较少。文献7提出的异构数据集成方法结合了数据仓库和中间件两者的优点,同时 采用设置异常处理机制和数据库连接池技术,建立起相互作用相互依存的数据组 合集成系统。实现了分布式环境下多数据源的异构数据库之间数据的联合访问, 但是同时采用两种数据处理技术
29、融合在一个系统中会消耗庞大的系统资源,而且 如何平衡两者之间的关系也是要考虑的问题。文献25提出的采用XML Schema为公共模型,并以中间件技术为支撑的异构 数据集成方案,主要是以XML作为主要的中间文档实现数据在不同数据源和中心 服务器之间的转换。这种解决方案针对数据源的平台、系统环境和数据结构方面 异构有着良好的处理效果,并且也能够做到为用户提供一致的数据访问接口。但 是如何在分布式环境下对相关数据的查询进行优化和处理的方法研宄不够深入, 而且对于集成框架的扩展性和跨平台特性等问题没有给出具体的解决措施。1.2.2实时处理技术研究现状数据的实时处理研究从上世纪80年代就己经开始,随后涌
30、现出一大批的相关 文献,但直到实时数据库的出现才使得研究进入了一个比较有意义的阶段,相关 理论研究也愈加成熟,对应的实时数据处理产品不断问世。商用内存数据库产品 有 Oracle TimesTen、AltiBase、extremDB 等,开源内存数据库有 FastDB 以及 MySQL 研发的 Memory Storage Engine 等。TimesTen是一款性能优异的关系型内存数据库,通过对内存进行优化,改进 数据结构和访问算法是实现高效地在内存中访问和处理数据,完成速度和存储空 间的全面提升。同时TimesTen也可以直接嵌入到应用软件系统中,到达与应用的 完美结合从而减少了进程间相互
31、通信的时延,从而进一步地提高了数据的实时处 理性能1()。对TimesTen的访问方式可以多种多样,包括SQL、JDBC和ODBC都 可以进行连接和访问。同时自带的组件可将数据库扩展为一个完全可以同步更新 的缓存空间以实现高可用性和负载均衡。ALTIBASE数据库由一家韩国公司研发的混合数据库管理系统,顾名思义,3重庆大学硕士学位论文这套数据库系统不但将数据存储在内存当中,同时也在磁盘中存储,以此取得更 高的数据处理速率和更大的数据存储空间。同时提供三种使用模式:内存模式、 磁盘模式和混合模式应对不同的应用场景和个性化需求。ExtremeDB是由美国mcObject公司的开发的一款优秀的数据库
32、产品,主要为 实时系统和嵌入式系统量身打造,所有的数据处理工作都放在内存当中,因此读 写速度可以达到微秒级,在工业中应用相当广泛。MySQL也有提供将数据存储在内存当中的服务,主要通过Memory Storage Engine来完成。但是这样的处理方式是不稳定的,在MySQL服务停止或重启的时 候数据就会丢失。FastDB是由K. A. Knizhnik开发的一个高效率的内存数据库系统,支持事务、 在线备份和系统崩溃之后的恢复,在实时处理性能方面表现良好。SQLite是一款轻型的数据库,设计目标是针对于嵌入式系统,并为很多语言 都提供了接口,这一点极大地提高了它的灵活性。同时也支持结构化查询语
33、言 (SQL),支持事务处理和并发操作,可以跨平台的同时占用资源也非常低。1.3主要研究内容本文针对多源异构数据的分布性和复杂性,特别是在工业设备的监测过程中, 对数据的实时性要求越来越高的需求,提出一种多源异构数据实时处理模型,通 过数据采集、数据转换和数据融合,并结合实时存储技术,实现异构数据的实时 信息共享,为实时性要求较高的场景提供合理的解决方案,并在此模型基础上实 现工业设备监测多源异构数据实时存储系统。1.4本文组织结构基于前一小节对本论文主要研宄内容的介绍,本文的组织结构如下:第一章首先介绍本文的课题来源和研宄背景,然后从国内外对多源异构数据 集成的研宄开始进行现状分析,进而介绍
34、主要的实时存储技术研宄现状,并列出 本文的主要研宄工作和内容。第二章相关技术介绍,阐述了多源异构数据集成技术的力量、方法模式以及 需要解决的问题,介绍中间件技术的工作模式和XML技术的解析方法,并对实时 处理技术做了介绍。第三章提出多源异构数据实时处理模型,论述其设计方案和体系结构,并对 多源异构数据处理的过程包括监测数据转换、映射和多源数据融合,以及数据的 一致性维护,同时制定合理的实时数据存储策略。第四章基于本文提出的多源异构数据实时处理技术,完成工业设备监测实时 处理系统的系统设计,对系统功能进行分析,完成系统架构设计。41绪论第五章工业设备监测实时处理系统实现,对本文提出技术的进行实际
35、验证, 将相关研宄技术运用到实际应用中,并完成所有功能模块的展示。第六章对本文己完成的工作进行总结,并展望接下来还需研究的工作。5重庆大学硕士学位论文62相关技术概述2相关技术概述2.1多源异构数据集成技术由于在工业设备监测中,使用众多的传感器会产生大量的分散的数据,然而 我们需要对这些采集到的数据进行有效地管理,所以就必须按照一定的规则将多 源异构数据进行集中,这样才能准确对整个过程有着全面的了解。同时来自不同 的硬件平台、不同的操作系统和不同的数据库系统作为数据源产生的数据会造成 数据的互相隔离,从而给数据的维护造成很大的困难。为了改变这样的困境,针 对多源异构数据集成问题的研宄势在必行。
36、2.1.1异构数据集成异构数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机 地集中,从而为企业提供全面的数据共享5。异构数据主要指产生数据的过程中由 于体系结构、数据格式、操作系统的差异造成的数据的结构不相同。异构数据集 成的目的是对来自不同数据源的异构数据提供统一的数据存储和管理方法,并向 应用系统提供一致的数据展示接口。通过这些操作最终达到让用户利用这些数据 的时候已经是无差异的,也就实现了不同的数据源之间的数据共享2。异构数据集成不仅仅只是毫无意义的数据的简单堆积,而是要在过程中实现 数据的转换、数据源的管理、数据的传输和数据的一致性维护。异构数据集成的 过程中,需要遵循一
37、定的规则保证数据在进行集成处理之后没有失去原来的表述 意义。因此可能会存在数据描述的问题,比如命名冲突和数据冲突等,所以异构 数据集成需要从一下几个方面进行问题的考虑和解决: 全局完整性:对于数据库管理系统的完整性包括数据的一致性和正确性, 但是在多源异构数据集成中,由于存在多数据源数据的不断更新,整个系统必须 提供一种可靠的机制来保证数据的完整性。另一方面局部完整性可能与全局完整 性约束之间存在冲突,因此数据集成的时候也需要制定合适的策略来避免。 局部自治性:数据集成的目的是从多数据源获取数据通过一系列方法实现 数据的共享,但不能对每一个单独的数据源的处理过程添加控制,需要保证分布 的独立数
38、据源的自治性,确保数据源对自身的数据拥有管理和处理的权限和能力。 系统安全性:由于数据集成系统需要连接多个分布的数据源,因此同时保 证整个系统的安全是至关重要的。对于每一个独立的数据源来说,数据安全交由 其自身负责就可以完成,然而一旦进行数据集成操作就不能确保数据一定安全。 所以在连接每个数据源的时候一定需要授权和验证。7重庆大学硕士学位论文2.1.2语义集成技术关系数据库中同样存在语义异构的问题,如果要做到数据和信息的共享,进 行语义集成是非常必要的。由于多数据源产生的数据分为语法异构、结构异构和 语义异构,因此同样的概念和数据在不同的情形下可能有不同的语义。资源描述 框架(RDF)是解决这
39、类问题的方法之一,通过灵活的XML语法和相应的规则,并 且解决语义的差异,可以表述各类资源和词汇。RDF文件中包含多个语句构成的 资源描述,同时每一个语句皆由资源、属性类型和属性值三部分构成。RDF可以 完成对数据的标注并形成兼容Web的格式,从而能够实现XML数据和RDF数据 的相互转换。因为仅仅是单一的XML文件不能够描述语义的含义,也难以制定描 述规则。因此基于RDF的语义集成技术主要包括数据源层、XML表示层以及推理 中间层,同时还需要构建局部本体和全局本体的映射。通过这样的方法可以尽可 能地减少语义的异构和模糊性,实现了准确的资源描述方式。2.1.3数据集成模式分析目前关于多源异构数
40、据集成的研宄大多集中于联邦数据库系统、中间件模式 和数据仓库模式三个方面: 联邦数据库系统:将多种彼此协作又相互独立数据库系统按照一定的方法 和程度进行集成,每个单元数据库可以加入多个联邦数据库系统,并且允许数据 库管理员定义相应的数据的子集,以满足不同的用户使用。但是它的缺点是每两 种数据源或单元数据库系统之间的数据交流需要开发者提供访问接口支持,而且 对全局系统的维护相当困难。图2.1联邦数据库体系结构Fig.2.1 Federal Database Architecture Structure 中间件模式:中间件是模式是一种典型的数据集成方法,这种方法将不同82相关技术概述数据源的数据通
41、过包装器的形式联系起来,用户的查询通过一定的转换规则发送 到包装器中,包装器再将查询翻译至相对应的数据源,各数据源查询到的结果集 封装后再返回给用户。该模式的优点是对上层用户提供统一的访问接口,而用户 并不需要知道底层的技术实现,而针对下层的多源异构数据提供相应的数据库接 入方法,实现数据的实时交互和共享,并可以保证每次的查询数据都是已经更新 的,而且由于不需要集中存储数据,极大地减少了成本。但缺点是一旦有新的数 据源加入或数据源自己发生了改变时,无法实时或者自动地完成对异构数据源的 添加或修改;同时该模式进行数据的CRUD操作时,由于数据完全存在于各分散 的数据源中,每一次的操作都会需要连接
42、特定的数据源,如果在数据处理比较频 繁的情况下,响应可能不那么及时,造成性能上的负担。 数据仓库模式:数据仓库是一个完全面向主题的,集成所有类型数据的战 略集合。虽然数据随着时间会发生变化,但信息本身是相对稳定的,主要用于以 数据分析做支撑帮助管理人员做出决策同时亦可以作为一套完整的产品为商业智 能化服务,然后提供包括业务流程管理、时间管理、成本控制和质量保障等一系 列服务。数据决策支持系统和联机分析系统是数据仓库的核心模块,但是得保证 数据源的结构化数据环境。数据仓库的四个特点是面向主题、集成的、信息本身 稳定和随时间变化。图2.2数据仓库体系结构Fig.2.2 Data Warehouse
43、 Architecture Structure9重庆大学硕士学位论文数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系 统加工、汇总和整理得到的,必须消除数据源数据中的不一致性,以保证数据仓 库内的信息是关于整个企业的一致的全局信息14。从分布的不同的多数据源采集 数据然后统一存储在服务器数据地址中,在这个过程中存在ETL操作。因此数据 仓库的数据集成系统是以大量的企业的业务数据积累为基础,利用各种分析方法 如联机分析处理(OLAP, On-Line Analytical Processing)等进行处理,达到帮助决策 者进行快速而有效的决策分析,再在此分析的基础上制定相应的政
44、策。但是数据 仓库中的数据虽然来自不同的异构数据源,但是这些异构数据在添加到数据仓库 之前都必须进行加工和集成,因此造成数据仓库中的数据大部分都是存放的历史 数据,而不是日常工作事务中产生的实时数据。2.2中间件相关技术概述随着信息技术的不断发展,企业或者用户对数据处理的要求和需求越来越高, 仅仅是传统的客户机/服务器的系统己经不能满足日益多样化的数据操作。三层或 者多层的数据处理体系结构在如今分布式的环境下更加能灵活应对不同的情况, 由于应用程序规模不断扩大,运行的硬件平台也存在差异化,这一切都对软件开 发提出更高的要求。而在分布式环境中包含多样化的硬件平台、多样化的系统软 件、多样化的应用
45、界面以及多样化的网络传输协议和体系结构,如何将这些异构 的系统集成起来以开发出高效直接的应用软件就是一个迫切的问题。这样的背景 下促进了中间件技术的诞生和发展。2.2.1中间件基本概念中间件(Middleware)是处于平台(硬件和操作系统)和应用软件之间的通用的一 类软件,可以被重复使用。因此中间件是建立在操作系统、网络、数据库之上的, 并且针对下层系统制定标准的程序接口和协议,针对上层用户提供运行环境和规 范,以达到灵活、高效地开发应用软件的目的。关于中间件的定义很多,大家比 较公认的是:中间件是位于操作系统和应用程序之间的软件或服务,并借助分布 式技术和接口封装技术,灵活动态实现不同系统
46、之间的数据共享。同时在系统的 负载均衡方面给出优化方案,提升应用的性能,满足不同的个性化的需求。最终 是为了屏蔽网络硬件平台的差异性以及操作系统和网络协议的异构性。虽然不需 要完成很具体的实际应用功能,但起到承上启下的作用,所以要求中间件不仅能 实现系统与应用之间的数据互连,还需更进一步地实现应用相互之间的数据交换。 2.2.2中间件工作模式通过对中间件技术的目的介绍可知,为让应用软件开发人员面对的是一个简 洁、开放和高效统一的集成开发环境,需要通过各种手段来屏蔽具体的实现细节,102相关技术概述因为这是不必要让所有人都了解的。这样做的好处是可以减少软件开发过程中繁 琐的程序设计工作,从而是开
47、发人员将大部分精力都投入到业务逻辑和功能模块 的开发,很大程度地降低了技术要求。由此而带来的不仅仅是开发成本的降低、 开发时间的缩短,更是大大减轻了系统的运行和维护过程中的负担。而且中间件 的通用性保证了它的可移植性,可以面向多个应用程序提供服务,即使在同时进 行的时候也不会互相干扰。图2.3中间件体系结构Fig.2.3 Middleware Architecture Structure中间件的种类有很多,针对本文多源异构数据集成的要求,这里介绍如图2.3 所示的中间件体系结构(Mediator/Wrapper)。可以看到数据存储在多源数据库中, 并未将所有数据全部存储到一个地方。在进行数据集
48、成的时候提供一个全局模式 的虚拟集成视图,并提供相关的CRUD操作,实现这一过程需要如图所示的两个 重要组件:中间件和包装器。中间件连接上册多个应用程序和下层的包装器,当 应用程序通过相关协议发出数据请求的时候,中间件对这些分布式的请求进行处 理和分发,再通过包装器转换为对每一个具体数据库的请求操作,通过查询操作 得到数据之后,利用相关工具对数据进行清理和解决冲突,再利用包装器对数据 进行封装和整合,然后再通过中间价返回给上册应用程序。包装器主要完成处理重庆大学硕士学位论文局部的数据请求和数据打包封装工作。由于该体系结构采用虚拟视图的数据集成 方式,所以应用程序的每次访问都是需要将请求传递到底层的分布的多源数据库, 虽然能保证数据是最近的,但是这种模式需要花费很长的时间才能够执行查询语