数据库技术发展趋势28585.docx-淘文阁

资源描述

《数据库技术发展趋势28585.docx》由会员分享，可在线阅读，更多相关《数据库技术发展趋势28585.docx（25页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据库技术术领域的发发展趋势 1 泛数据据研究2 国际数数据库研究究界动态3 主流技技术发展趋趋势3.1 信息集成成3.2 数据流管管理3.3 传感器数数据库技术术3.4 XML 数据管理理3.5 网格数据据管理3.6 DBMSS 的自适适应管理3.7 移动数据据管理3.8 微小型数数据库技术术3.9 数据库用用户界面1 泛数据据研究的时时代数据库技术术从诞生到到现在,在不到半半个世纪的的时间里,形成了坚坚实的理论论基础、成成熟的商业业产品和广广泛的应用用领域,吸引了越越来越多的的研究者加加入,使得数据库库成为一个个研究者众众多且被广广泛关注的的研究领域域.随着信息息管理内容容的不断扩扩展和

2、新技技术的层出出不穷,数据库技技术面临着着前所未有有的挑战.面对新的的数据形式式,人们提出出了丰富多多样的数据据模型(层次模型型、网状模模型、关系系模型、面面向对象模模型、半结结构化模型型等),同时也提提出了众多多新的数据据库技术(XML 数据管理理、数据流流管理、WWeb 数数据集成、数数据挖掘等等).回顾数据库库发展之初初,数据模型型是制约数数据库系统统的关键因因素.E.F Coodd 博博士(19923-22003)提出的关关系模型充充分考虑了了企业业务务数据的特特点,从现实问问题出发,为数据库库建立了一一个坚实的的数学基础础.在整个计计算机软件件领域,恐怕难以以找到第22 个像关关系模

3、型这这样,概念如此此简单,但却能带带来如此巨巨大市场价价值的技术术.关系模型在在关系数据据库理论基基本成熟后后,各大学、研研究机构和和各大公司司在关系数数据库管理理系统(RRDBMSS)的实现现和产品开开发中,都遇到了了一系列技技术问题.主要是在在数据库的的规模愈来来愈大,数据库的的结构愈来来愈复杂,又有愈来来愈多的用用户共享数数据库的情情况下,如何保障障数据的完完整性、安安全性、并并发性以及及故障恢复复的能力,它成为数数据库产品品是否能够够进入实用用并最终为为用户接受受的关键因因素.Jiim Grray 在在解决这些些重大技术术问题,使RDBMMS 成熟并顺顺利进入市市场的过程程中,发挥了关

4、关键作用.概括地说说,解决上述述问题的主主要技术手手段和方法法是:把对数据据库的操作作划分为“事务”的基本单单位,一个事务务要么全做做,要么全不不做(即ll-oor-noothinng 原则则);用户在在对数据库库发出操作作请求时,需要对有有关的不同同数据“加锁”,防止不不同用户的的操作之间间互相干扰扰;在事务运运行过程中中,采用“日志”记录事务务的运行状状态,以便发生生故障时进进行恢复;对数据库库的任何更更新都采用用“两阶段提提交”策略.以上方法法及其他各各种方法被被总称为“事务处理理技术”.E.F CCodd 和Jim Grayy 在关系系模型和事事务处理技技术上的创创造性思维维和开拓性性

5、工作,使他们成成为这一领领域公认的的权威,并于分别别于19881 年和和19988 年成为为图灵奖获获得者.在成熟的关关系DBMMS 产品品行销于世世之后,数据库的的研究困惑惑于如下的的问题:DDBMS 本身的研研究是不是是已经没有有问题了?新的处理理要求在哪哪里?旗帜鲜明明地提出这这一思考的的是VLDDB20000 会议议,会议的主主题是“BBroaddeninngthee Dattabasse Fiield”,会议的论论文设置也也截然分为为两类,即“corre daatabaase ttechnnologgy”和“infformaationn sysstemssinfrrastrructu

6、ures”,体现了在在对传统问问题关注的的同时,着力寻求求信息系统统创新途径径中所存在在的数据管管理问题.而信息系系统创新途途径的根本本前提是WWeb 时时代的到来来.于是,在Web 大背景下下的各种数数据管理问问题成为人人们关注的的热点,我们不妨妨把它笼统统地称为“泛数据”研究.所谓“泛数数据”是相对原原本人们所所关注的企企业业务数数据而言的的.这是Webb 时代的的到来带给给人们的新新问题.“泛数据据”研究“泛”在两个方方面:X-datta: XXML ddata (XMLL Dattabasses), strreamiing ddata (Strreamiing DDatabbasess

7、),X-commputiing: gridd commputiing (Gridd Dattabasses), sennsor netwwork (Sennsor atabbasess), PP2P ccompuutingg (P22Pdattabasses), ubiiquittous/pervvasivve coomputting Ubiqquitoous/PPervaasivee Dattabasses),目前,“泛泛数据”研究的根根本问题是是它能否产产生与关系系模型和事事务处理技技术比肩的的成果.“泛数据据”深层次的的问题何在在?“泛数据据”对现有DBBMS 体体系结构变变革的需要要在

8、哪里?这一切需需要我们深深思熟虑,是研究数数据库所不不能回避的的.本文基于这这一想法,结合国际际相关会议议的情况, 本文讨论论目前数据据库研究领领域中最热热门的几个个研究方向向的发展现现状、面临临的问题和和未来趋势势.希望能给给数据库研研究者尤其其是正在进进入数据库库研究领域域的人员一一些启发.本文讨论论的问题只只是数据库库研究领域域中的一部部分,观点也可可能存在偏偏颇之处,但我们相相信分析和和预测数据据库发展动动态的工作作,对促进中中国数据库库技术的研研究和应用用水平的提提高具有重重要的意义义.2 国际数数据库研究究界动态每隔几年,国际上一一些资深的的数据库专专家就会聚聚集一堂,探讨数据据库

9、的研究究现状、存存在的问题题和未来需需要关注的的新的技术术焦点,其中包括括:19889 年在在Laguuna BBeachh,Callif. 1 ,19990 年和和19955 年在Pallo Allto,CCaliff. 22,3 , “LLagunnita”,19966 年在Cammbriddge,MMass. 4和19988 年在Asiilomaar,Caalif. 5的研讨会会,20003 年的的聚会在LLowelll,Maass. 6举行行,共有25 位资深数数据库学者者参加.他们来自自不同国家家和地区,有着不同同的研究兴兴趣,学者们就就数据库研研究的现状状和将来的的走向展开开了深入

10、的的讨论,提出了一一些重要的的观点.与会的学者者集中讨论论了信息的存储、组织、管理和访问等问题题.这些问题题受新型应应用、技术术趋势、相相关领域的的协同工作作和领域本本身的技术术变革所驱驱动.信息的本本质和来源源在不断变变化,每个人都都意识到IInterrnet,Web,自然科学学和电子商商务是信息息和信息处处理的巨大大源泉.同时,另一个巨巨大的信息息源即将到到来,即廉价的的微型传感感器技术使使得大部分分的物体可可以实时上上报它们的的位置和状状态.这类信息息能支持对对移动对象象的状态和和位置的监监视等应用用.伴随新的制制约与机会会,传感信息息的处理将将会引发许许多新环境境下的极有有趣味的数数据

11、库问题题.在应用领领域,Innternnet 是是目前主要要的驱动力力,特别是在在支持“跨企业”的应用上上.在历史上上,应用都是是企业内部部的,可以在一一个行政领领域内进行行完善的指指定和优化化.但是现在在,大部分企企业感兴趣趣的是如何何与供应商商和客户进进行更密切切的交流,以便提供供更好的客客户支持.这类应用用从根本上上说是跨企企业的,需要安全全和信息集集成的有力力工具.由此产生生的新问题题需要数据据库研究人人员去解决决.越来越重要要的另一个个应用领域域是自然科科学,特别是物物理科学、生生物科学、保保健科学和和工程领域域,这些领域域产生了大大量复杂的的数据集,需要比现现有的数据据库产品更更高

12、级的数数据库的支支持.这些领域域同样也需需要信息集集成机制的的支持.除此之外外,它们也需需要对数据据分析器产产生的数据据管道进行行管理,需要对有有序数据进进行存储和和查询(如时间序序列、图像像分析、网网格计算和和地理信息息),需要世世界范围内内数据网格格的集成.除了在信息息管理领域域我们遇到到的这些挑挑战之外,在传统的的DBMSS 相关的的问题上,诸如数据据模型、访访问方法、查查询处理代代数、并发发控制、恢恢复、查询询语言和DDBMS 的用户界界面等主题题也面临着着巨大的变变化.这些问题题过去已经经得到充分分研究,但是技术术的发展不不断改变其其应用规则则.比如,磁盘和RAAM 容量量的不断变变

13、大,存储每个个比特数据据的花费不不断降低等等.虽然访问问次数和带带宽也在不不断提高,但是它们们不像前者者发展得那那样快,不断变化化的相对比比率要求我我们重新评评估存储管管理和查询询处理代数数.除此之外外,处理器caache 的规模和和层次的提提高,也要求DBBMS 算算法能够适适应cacche 大大小的变化化.上述只是是由于技术术变迁诱导导的根据新新情况对原原有算法重重新评价的的两个例子子.另一个推动动数据库研研究发展的的动力是相相关技术的的成熟.比如,在过去的的几十年里里,数据挖掘掘技术已经经成为数据据库系统重重要的一个个组成部分分.Webb 搜索引引擎导致了了信息检索索的商品化化,并需要和

14、和传统的数数据库查询询技术集成成.许多人工智智能领域的的研究成果果也和数据据库技术融融合起来,这些新的的技术使得得我们可以以处理语音音、自然语语言,进行不确确定性推理理和机器学学习等.Lowelll 报告告6认为为,我们注意意到了许多多新的应用用,新的技术术趋势以及及和影响信信息管理的的相关领域域的协作.整体上,这些都要要求一个和和现今我们们所拥有的的完全不同同的信息管管理架构,并需重新新考虑信息息存储、组组织、管理理和访问等等方面的问问题.3 主流技技术发展趋趋势在这一部分分中,我们从信信息集成、数数据流管理理、传感器器数据库技技术、半结结构化数据据与XMLL 数据管管理、网格格数据管理理、

15、DBMMS 自适适应管理、移移动数据管管理、微小小型数据库库、数据库库用户界面面等方面分分别讨论目目前数据库库领域研究究方向的发发展现状、面面临的问题题和未来趋趋势.3.1 信信息集成信息系统集集成技术已已经历了220 多年年的发展过过程,研究者已已提出了很很多信息集集成的体系系结构和实实现方案,然而这些些方法所研研究的主要要集成对象象是传统的的异构数据据库系统.随着Intterneet 的飞飞速发展,网络迅速速成为一种种重要的信信息传播和和交换的手手段,尤其是在在Web 上,有着极其其丰富的数数据来源.如何获取取Web 上的有用用数据并加加以综合利利用,即构建Weeb 信息息集成系统统,成为

16、一个个引起广泛泛关注的研研究领域.信息集成系系统的方法法可以分为为7 :数据仓库库方法和WWrappper/MMediaator 方法.在数据仓库库方法中,各数据源源的数据按按照需要的的全局模式式从各数据据源抽取并并转换,存储在数数据仓库中中.用户的查查询就是对对数据仓库库中的数据据进行查询询.对于数据据源数目不不是很多的的单个企业业来说,该方法十十分有效.但对目18825前出出现的跨企企业应用,数据源的的数据抽取取和转化要要复杂得多多,数据仓库库的方法存存在诸多不不便.目前比较流流行的建立立信息集成成系统的方方法是Wrrappeer/Meediattor 方方法8,9 .该方法并并不将各数数

17、据源的数数据集中存存放,而是通过过Wrappper/Mediiatorr 结构满满足上层集集成应用的的需求.这种方法法的核心是是中介模式式(meddiateedschhema) 100 .信息集成成系统通过过中介模式式将各数据据源的数据据集成起来来,而数据仍仍存储在局局部数据源源中,通过各数数据源的包包装器(wwrappper)对对数据进行行转换使之之符合中介介模式.用户的查查询基于中中介模式,不必知道道每个数据据源的特点点,中介器(mmediaator)将基于中中介模式的的查询转换换为基于各各局部数据据源的模式式查询,它的查询询执行引擎擎再通过各各数据源的的包装器将将结果抽取取出来,最后由中

18、中介器将结结果集成并并返回给用用户.Wrrappeer/Meediattor 方方法解决了了数据的更更新问题,从而弥补补了数据仓仓库方法的的不足.但是,由于各个个数据源的的包装器是是要分别建建立的,因此,Weeb 数据据源的包装装器建立问问题又给人人们提出了了新的挑战战.近年来,如何快速速、高效地地为Webb 数据源源建立包装装器成为人人们研究的的热点111144 .不过,这种种框架结构构正受到来来自3 个方面面的挑战6 .第1 个挑战战是如何支支持异构数数据源之间间的互操作作性(innterooperaabiliity).信息集成成必须在多多至数百万万的信息源源上穿梭进进行,这些数据据源的数

19、据据模型、模模式、数据据表现和查查询接口各各不相同.数据库界界已经对联联邦式的数数据系统做做了多年的的研究,其中最早早的报告针针对这个问问题做了广广泛的讨论论1 .然而,语义的相相异性这个个痛苦的问问题依然存存在.由不同人人设计的任任何两个模模式都不会会是相同的的.它们会有有不同的单单位(例如工资资,一种以欧欧元计算,而另一种种以美元计计算),不同的的语义解释释(也以工资资为例,一种仅指指档案工资资,而另一种种是指包含含了各种津津贴的总收收入),对于相相同的事务务还会有不不同的名字字(对同一个个人,可能一种种用的是笔笔名,而另一种种用的是原原名,例如鲁迅迅和周树人人).能够在在网络标准准上进行

20、配配置的语义义相异性的的解决方案案依然是难难以捉摸的的.我们必须须认真和集集中地对待待这个问题题,否则跨企企业的信息息综合只会会停留在幻幻想上.语义Webb的上下文文方面的研研究也存在在着相同的的问题.吸收相关关领域的研研究成果对对解决这一一问题是很很重要的.另一个挑战战是如何模模型化源数数据内容和和用户查询询.目前广泛泛采用的技技术有两种种.LAVV(loccal-aas-viiew)方方法利用全全局谓词集集合描述多多个数据源源内容视图图和用户查查询.当给定某某用户查询询时,中间件系系统通过综综合不同的的数据源视视图决定如如何回答查查询.这种方法法可看做利利用视图回回答查询,目前已有有一些研

21、究究成果,它亦可应应用于数据据仓库或查查询优化等等领域.GGAV(gglobaal-ass-vieew)方法法假设用户户查询直接接作用于定定义在源数数据关系上上的全局视视图.人们主要要关注的是是在这种情情况下如何何提供高效效的查询处处理.第三个挑战战是当数据据源的查询询能力受限限时,如何处理理查询和进进行优化?例,A 数据源可可以被看作作是提供书书的信息的的数据库,但是,我们不能能随便下载载其上所有有的书籍信信息.事实上,我们只能能填写Weeb 搜索索表格查询询数据源并并返回结果果.很少的组组织会允许许外部实体体来抽取自自己运行系系统中的所所有数据,所以这些些数据必须须留在源端端,在查询的的时

22、候才会会被访问.如何模型型化和计算算具受限查查询能力的的数据源,如何生成成查询计划划和优化查查询的研究究工作正在在展开115177 .这里我们给给出信息集集成中一些些需要进一一步研究的的问题.其一,早期期的中间件件系统采用用集中式架架构.近来,一种数据据库应用需需求正在显显现,它要求支支持共享分分布的、基基于站点(sitee)的环境境下的数据据集成.在这种环环境中,网络中自自主的站点点互相连接接交换数据据和服务.这样,每个站点点既是中间间件,又是数据据源.一些项目目已经成立立并正在研研究这种新新的架构下下的问题9,100 .其二,更多的研研究者正在在注意如何何利用清洁洁的数据(cleaansi

23、nng daata)来来处理数据据源的异构构性6 .一个特殊殊的问题称称为“daata llinkaage”,其含义为为有效和高高效的标示示和链接冗冗余的记录录.不同的数数据源经常常包含表示示真实世界界同一实体体的多个近近似但并不不相等的冗冗余的记录录或属性.例如“中科院”和“中国科学学院”,或者“中国北京京”和“北京”.不同的的表示可能能源于排版版错误、拼拼写错误、缩缩写或者其其他原因.当从Webb 页面上上自动抽取取无结构或或者半结构构化文档时时,这个问题题变得特别别尖锐.对多数据源源的数据集集成,我们需要要在进一步步处理之前前首先清洗洗数据.近来已有有一些关于于数据清洗洗和链接的的工作.

24、其三,XMML 数据据的出现给给数据集成成带来更多多需要解决决的问题.其四,正如前面面提到的那那样,传感器网网络和新的的量子物理理学和生物物科学将产产生巨大的的数据集合合.这些传感感器和数据据集合分布布在世界各各地,这些数据据源能够动动态地来往往,这一点也也打破了传传统的信息息集成范畴畴.从体系结构构实现的角角度出发,信息集成成技术经历历了如下33 个发展展阶段77 :单个的联联邦系统、基基于组件的的分布式集集成系统和和基于Weeb Seer vii cess 的信息息集成系统统.Intterneet 的迅迅速普及和和广泛应用用对计算机机技术的发发展产生了了深刻的影影响,桌面应用用正在向网网络

25、应用转转移,从网上获获得的不仅仅是信息,还包括程程序和交互互式应用(即服务),操作界面面将在浏览览器层面上上得到统一一,兼容性由由网络标准准技术实现现(如SOAPP,UDDDI 和WSDLL 等).在Web Ser vi cces的框框架下,使用一组组Web Ser vi cces 协协议,构建信息息集成系统统.对每个数数据源都为为其创建一一个Webb Serr vi ce,然然后使用WWSDL 向服务中中心注册.当要构建建一个新的的集成应用用时,集成端首首先向注册册中心发送送查找请求求,收集并选选择合适的的数据源,然后通过过SOAPP 协议从从这些数据据源获取数数据.这种方法法克服了上上述两

26、种方方法的缺陷陷,具有完好好封装、松松散耦合、规规范协议和和高度的集集成能力等等特性.因此,基于Webb Serr vi ces 的信息集集成方案是是构建Weeb 数据据集成系统统较为理想想的体系结结构.3.2 数数据流管理理测量和监控控复杂的动动态的现象象,如远程通通信、Weeb 应用用、金融事事务、大气气情况等,产生了大大量、不间间断的数据据流.数据流处处理对数据据库、系统统、算法、网网络和其他他计算机科科学领域的的技术挑战战已经开始始显露.这是数据据库界一个个活跃的研研究领域,包括新的的流操作、SQL 扩展、查询优化方法、操作调度(operator scheduling)技术等6 .数据

27、流管理理与数据库库管理在多多个层面上上存在差异异.见表1.Tabl e 1 Compparisson oof daatabaase aand ddata streeam表1 数据据流与数据据库对比Data streeam DDatabbaseModell Tupple ssequeence Tuplle seet/baagData duraationn Traansieent PPersiistenntQueryy Reaal-Tiime, conttinuoous qqueriies OOff-LLine, onee-timme quuerieesQueryy evaaluattion On

28、e passs ArbbitraaryQueryy ansswer Apprroximmate ExacctQueryy plaan Fiixed Adapptivee扩展数据库库管理系统统若直接支支持数据流流类型就会会面临众多多问题.首先,在数据库库中,数据是稳稳定的,持续的,而查询是是暂时的.在数据流流中则正好好相反:数据是动动态的,而查询是是实时稳定定的.这就需要要增强数据据库查询处处理能力,支持复杂杂的实时查查询需求.面临的问题题主要有以以下几点.其一,数据流环环境中的选选择、投影影,特别是连连接和聚集集操作具有有新的含义义.如何扩展展查询语言言SQL 的表达能能力以便支支持数据流流查

29、询.其二,引入滑动动窗口机制制可以把无无限的数据据流转换为为有限的关关系.但窗口的的长度、个个数等特性性影响查询询的准确性性.尤其是在在做连接和和聚集操作作时,不但要处处理现在的的数据,还要兼顾顾历史和将将来的数据据.如何仅用用一次扫描描实现上述述操作,并保证查查询的实时时和有效是是数据流查查询处理面面临的关键键问题.其三,若在有限限的空间不不能支持数数据流的精精确聚集操操作,引入近似似操作机制制是必须的的和可接受受的.利用样本本、直方图图或者结构构信息统计计数据流的的的研究工工作正在展展开.其四,如何考虑虑数据流的的查询优化化问题.考虑到数据据流速(ddata ratee)的情况况,数据流查

30、查询优化的的目的应为为获得最大大的查询数数据流速,即单位时时间的数据据流量,而不是以以往考虑的的代价最小小的查询计计划.基于流速速的查询优优化的研究究工作也是是目前数据据流研究的的热点问题题.商业微传感感器设备即即将出现,使得新型型的DBMMS 的“监视”应用变得得可能.数据流的的监控应用用需要有能能够基于数数据流间的的复杂关系系区分正常常或反常活活动(如网络入入侵或电信信欺诈监测测等)的成熟的的实时查询询.可以通过过传感器给给每个重要要的对象都都加上一个个标签,这样就可可以实时地地报告这个个对象的状状态或者位位置.比如说,人们会在在笔记本电电脑或者投投影仪上附附加一个传传感器,而不是附附上一

31、个财财产标签.在这种情情况下,如果一个个投影仪丢丢失或者被被窃,人们就可可以从监视视系统中查查找其下落落.这样的监监视系统能能不断地接接收从传感感器发来的的“信息流”,信息流给给出了系统统感兴趣的的对象信息息.这种信息息流在高性性能数据输输入、时间间序列功能能、历史消消息窗口以以及高效率率队列处理理方面给DDBMS 提出了新新的要求.DBMSS 产品也也将尝试提提供对这种种监视应用用的支持,其方法应应该是通过过将流处理理的功能移移植到传统统的结构数数据框架上上.Web SSer vvi cees 自然然也产生数数据流,松散结合合的系统相相互交换大大量的商务务数据,如订单、零零售事务等等.这些数

32、据据以XMLL 格式表表现,产生持续续的XMLL 数据流流.具有高效效处理XMML 数据据流的查询询能力,从不间断断的XMLL 数据流流中匹配、抽抽取和转换换部分数据据流以驱动动后台商务务应用,是Web Ser vi cces 的的核心.XML 流流处理的特特点是XMML 文档档的节点一一次性地按按照某种遍遍历的顺序序流过.因为每次次面对的总总是单个的的节点(元素、属属性或teext),所以需要要将必要的的数据有效效地缓存,以返回结结果.如何协调调缓存容量量和查询效效率之间的的平衡,是目前XMML 流处处理需要解解决的问题题之一.目前,查询XMLL 数据流流的研究包包括Xfiilterr 18

33、8 ,YYfiltter 19 ,XMLLTK 20 ,XSQQ 211 ,XXSM 22等等.处理的方方法一般是是将XPaath 转转化成一个个有限自动动机模型,有固定的的初始节点点和终节点点,当走到有有限自动机机的终点时时,表示XPaath 查查询被匹配配.比较复杂杂的自动机机模型可以以支持包含含双斜杠(/)和和*或带多个个谓词的XXPathh 语句,有的还支支持集函数数.XMLL 流处理理需要解决决的另一个个问题是处处理同时出出现的大量量复杂路径径查询.有的研究究提取相似似的XPaath 查查询并综合合到一个结结构中,同时计算算共享路径径以避免重重复操作,可以大大大提高处理理的效率.数据

34、流本身身的流速和和流量的增增长,传感器数数据流和XXML 数数据流的出出现是对传传统的数据据流处理提提出的挑战战.部分研究者者正致力于于将数据流流融入数据据库管理系系统中的工工作.另一部分分研究者则则欲开发普普遍适用(NiaggaraCCQ,Sttanfoord SStreaam, TTeleggraphh, Auuroraa)或者专专用的(GGigasscopee)数据流流管理系统统.3.3 传传感器数据据库技术随着微电子子技术的发发展,传感器的的应用越来来越广泛.可以使小小鸟携带传传感器,根据传感感器在一定定的范围内内发回的数数据定位小小鸟的位置置,从而进行行其他的研研究;还可以在在汽车等

35、运运输工具中中安装传感感器,从而掌握握其位置信信息;甚至于微微型的无人人间谍飞机机上也开始始携带传感感器,在一定的的范围内收收集有用的的信息,并且将其其发回到指指挥中心.当有多个传传感器在一一定的范围围内工作时时,就组成了了传感器网网络.传感器网网络由携带带者所捆绑绑的传感器器及接收和和处理传感感器发回数数据的服务务器所组成成.传感器网网络中的通通信方式可可以是无线线通信,也可以是是有线通信信.现在,在研研究机构和和商业公司司中都有对对传感器网网络的研究究.WINNS NGG 是Senssoriaa 公司设设计的传感感器网络结结构.该网络结结构包括处处理传感器器数据的服服务器、与与服务器直直接

36、相连的的可以将传传感器收集集的数据传传送到服务务器的网关关节点和作作为传感器器网络神经经末梢的各各个收集信信息的传感感器.各个收集集信息的传传感器之间间可以相互互传递数据据.在该网络络中,信息是通通过无线通通信的方式式传递的.Smarrt Duust MMotess 是U.C.Berkkley 设计的微微型传感器器网络结构构,该网络结结构运行在在一个立方方毫米级的的小盒子里里,主要包括括收集数据据的传感器器和处理数数据的服务务器.各个节点点之间通过过激光传递递信息.在传感器网网络中,传感器数数据就是由由传感器中中的信号处处理函数产产生的数据据.信号处理理函数要对对传感器探探测到的数数据进行度度

37、量和分类类,并且将分分类后的数数据标记时时间戳,然后发送送到服务器器,再由服务务器对其进进行处理.传感器数数据可以通通过无线或或者光纤网网存取.无线通信信网络采用用的是多级级拓扑结构构,最前端的的传感器节节点收集数数据,然后通过过多级传感感器节点到到达与服务务器相连接接的网关节节点,最后通过过网关节点点,将数据发发送到服务务器.光纤网络络采用的是是星型结构构,各个传感感器直接通通过光纤与与服务器相相联接.传感器节点点上数据的的存储和处处理方法有有两种:第1 种类型型的处理方方法是将传传感器数据据存储在一一个节点的的传感器堆堆栈中,这样的节节点必须具具有很强的的处理能力力和较大的的缓冲空间间;第

38、2 种方法法适用于一一个芯片上上的传感器器网络,传感器节节点的处理理能力和缓缓冲空间是是受限制的的:在产生数数据项的同同时就对其其进行处理理以节省空空间,在传感器器节点上没没有复杂的的处理过程程,传感器节节点上不存存储历史数数据;对于处理理能力介于于第1 种和第第2 种传感感器网络的的网络来说说,则采用折折衷的方案案,将传感器器数据分层层地放在各各层的传感感器堆栈中中进行处理理.传感器网络络越来越多多地应用于于对很多新新应用的监监测和监控控.在这些新新的应用中中,用户可以以查询已经经存储的数数据或者传传感器数据据,但是,这些应用用大部分建建立在集中中的系统上上收集传感感器数据.因为在这这样的系

39、统统中数据是是以预定义义的方式抽抽取的,因此缺乏乏一定的灵灵活性.新的传感器器数据库系系统需要考考虑大量的的传感器设设备的存在在,以及它们们的移动和和分散性.因此,新的传感感器数据库库系统需要要解决一些些新的问题题.主要包括括:(1) 传传感器数据据的表示和和传感器查查询的表示示:Corrnelll 大学的的COUGGAR 模模型、Ruutgerrs 大学学的WebbDustt 系统、Waas hii ngtt on 大学的Saagress 系统都都对这两个个问题进行行了研究.在COUGGAR 系系统中,每一个传传感器表示示成一个AADT,每每一个信号号处理函数数与一个AADT 函函数相联系系

40、,该ADT 函数对于于传感器收收集到的数数据输出一一个与传感感器所在的的位置相关关联的序列列,COUUGAR 采用关系系数据库的的表来存储储这些信息息.COUUGAR 采用主动动方式的持持续查询,当在查询询过程中有有新的数据据产生时,这种查询询方式会自自动增加对对新产生的的数据的查查询.Saagress 系统主主要包括两两部分,第1 部分是是设备信息息管理器,主要存储储传感器的的设备信息息和作为属属性的描述述性规则等等;第2 部分是是查询翻译译器,主要采用用ECA 模型对数数据进行查查询和更新新.(2) 在在传感器节节点上处理理查询分片片:传感器资资源的有限限性,要求我们们必须有效效地处理各各

41、个节点上上的查询.(3) 分分布查询分分片:产生和传传输传感器器数据都需需要花费代代价,必须考虑虑单个节点点的查询效效率和网络络传输代价价的平衡.而且,与传统的的分布式查查询所不同同,在传感器器数据库中中,没有全局局的优化信信息,传感器是是移动的,而且源数数据是动态态的,这些都是是需要考虑虑的问题.(4) 适适应网络条条件的改变变:在传感器器网络中,大量的数数据查询必必须处理传传感器之间间或者传感感器与前端端服务器之之间的数据据流.数据流引引擎和数据据流操作符符是对这种种大流量数数据进行控控制的主要要方法.另外,基于传感感器数据的的本质和网网络的可能能拥塞,对一个查查询分片来来说需要决决定下一

42、个个要执行的的数据流操操作符,这就是自自适应查询询处理需要要考虑的问问题.(5) 处处理站点失失败和传输输失败的情情况:传感器网网络中必须须考虑站点点或者传输输失败的情情况.(6) 传传感器数据据库系统:传感器数数据库必须须利用系统统中的所有有传感器,而且可以以像传统数数据库那样样方便、简简洁地管理理传感器数数据库中的的数据;建立可以以获得和分分配源数据据的机制;建立可以以根据传感感器网络调调整数据流流的机制;可以方便便地配置、安安装和重新新启动传感感器数据库库中的各个个组件等.3.4 XXML 数据管理理目前大量的的XML 数据以文文本文档的的方式存储储,难以支持持复杂高效效的查询.用传统数

43、数据库存储储XML 数据的问问题在于模模式映射带带来的效率率下降和语语义丢失.一些Nattive XML 数据库的的原型系统统已经出现现(Tamminonn,Lorre,Tiimberr,OriientXX(中国人人民大学开开发)等).XMML 数据据是半结构构化的,不像关系系数据那样样是严格的的结构化数数据,这样就给给Nativve XMML 数据据库中的存存储系统带带来更大的的灵活性,同时,也带来了了更大的挑挑战.恰当的记记录划分和和簇聚,能够减少少I/O 次数,提高查询询效率;反之,不恰当的的划分和簇簇聚,则会降低低查询效率率.研究不同同存储粒度度对查询的的支持也是是XML 存储面临临的

44、一个关关键性问题题23 .当用户定义义XML 数据模型型时,为了维护护数据的一一致性和完完整性,需要指明明数据的类类型、标示示,属性的类类型,数据之间间的对应关关系(一对多,多对多等等)、依赖关关系和继承承关系等.而目前半半结构化和和XML 数据模型型形成的一一些标准(如OEM,DTD,XML Scheema 等等)忽视了对对这些语义义信息和完完整性约束束方面的描描述.ORRA-SSS 244模型扩扩展了对象象关系模型型用于定义义XML 数据.这个模型型用类似EE-R 图图的方式描描述XMLL 数据的的模式,对对象、联联系和属性性等不同类类型的元素素用不同的的形状加以以区分,并标记函函数依赖、

45、关关键字和继继承等.其应用领领域包括指指导正确的的存储策略略,消除潜在在的数据冗冗余,创建和维维护视图及及查询优化化等.在XML 数据查询询处理研究究中,存在下列列焦点问题题：第1,如何何定义完善善的查询代代数.众所周知知,关系数据据库统治数数据管理领领域长盛不不衰的法宝宝就是描述述性查询语语言SQLL 和其运运行基础关关系代数.关系代数数的目的之之一是约束束明确的查查询语义,之二是用用于支持查查询优化.关系代数数的优势来来自简单明明确的数据据模型关系,具有完善善的数学基基础和系统统的转换规规则.而XML 数据模型型本身具有有的半结构构化特点是是定义完善善的代数运运算的最大大障碍.XXML 查

46、查询语言中中的不确定定性是另一一个难以克克服的困难难.目前提出出的Xquuery Formmal SSemanntic 标准基于于Funcctionn Lannguagge 的思思想,为查询优优化带来了了新的困难难.第2,复杂杂路径表达达式是XMML 查询询语句的核核心,必须将复复杂、不确确定的路径径表达式转转换为系统统可识别的的、明确的的形式.面向对象象数据库中中的模式支支持的分解解方法,不适应处处理没有模模式或者虽虽有模式信信息但模式式本身为半半结构化和和不确定性性的XMLL 路径分分解的情况况.并且,XMML 数据据的存储和和索引方法法与面向对对象数据库库不同,而这正是是影响路径径分解的

47、重重要因素.第3,XMML 数据据信息统计计和代价计计算.传统的对对值的统计计对XMLL 查询是是不够的.XML 数据本身身缺乏模式式的支持,使对数据据结构信息息的统计显显得更加重重要.XMML 数据据中的数值值分布在类类似树状结结构的树叶叶上,即使相同同类型的数数据,由于半结结构化特点点,其分布情情况也可能能完全不同同.因此,需要把对对结构的统统计信息和和对值的统统计信息结结合到一起起,才能得到到足够精确确的统计信信息.对XML 查询代价价的计算可可以分为两两个层次:上层为对对查询结果果集大小的的估计.给定XPaath 路路径,忽略方法法的不同,只估计返返回路径目目标结点结结果集的大大小.这

48、种方法法普遍用于于路径分解解后确定查查询片段的的执行次序序.下层为执执行时间的的估计.给定查询询片断,估计不同同的执行算算法所需时时间代价.这种方法用用于确定查查询片段的的执行方法法.目前,XMML 数据据索引按照照用途可分分为3 种:简单索引引、路径索索引和连接接索引.简单索引引包括标记记索引、值值索引、属属性索引等等.路径索引引抽取XMML 数据据的结构,索引具有有相同路径径或者标记记的结点用用于导航查查询时缩小小搜索的范范围.连接索引引在元素的的编码上建建立特定的的索引结构构来辅助跳跳过不可能能发生连接接的节点,从而避免免对这些节节点的处理理.可以利用用的索引结结构包括BB+树、改改进的B+树25,26、R 树和XR 树27等.利用索引引提高查询询效率实际际上是空间间换时间的的做法.如何针对对不同的查查询需求建建立、使用用和维护合合适的索引引是研究者者

展开阅读全文