数据库原理及应用ppt课件.ppt

上传人:豆**** 文档编号:77648270 上传时间:2023-03-16 格式:PPT 页数:37 大小:646KB
返回 下载 相关 举报
数据库原理及应用ppt课件.ppt_第1页
第1页 / 共37页
数据库原理及应用ppt课件.ppt_第2页
第2页 / 共37页
点击查看更多>>
资源描述

《数据库原理及应用ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据库原理及应用ppt课件.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据库原理及应用ppt课件 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望第第8章数据库技术发展动态章数据库技术发展动态 v本章导读本章导读数数据据库库是是计计算算机机科科学学技技术术中中发发展展最最快快,应应用用最最广广泛泛的的重重要要分分支支之之一一,它它已已经经成成为为计计算算机机信信息息系系统统和和计计算算机机应应用用系系统统的的重重要要技技术术基基础础和和支支柱柱。探探究究其其发发展展的的基基础础可可以以涉涉及及到到两两种种源源动动力力。一一种种是是方方

2、法法论论的的发发展展,其其中中较较为为典典型型的的代代表表是是:面面向向对对象象数数据据库库(OODB)技技术术、分分布布式式数数据据库库(DDB)技技术术和和多多媒媒体体数数据据库库(MDB)技技术术的的发发展展和和形形成成;另另一一种种是是数数据据库库技技术术与与相相关关技技术术的的有有机机结结合合,如如主主动动数数据据库库、并并行行数数据据库库、工工程程数数据据库库、时时态态数数据据库库、模模糊糊数数据据库库、演演绎绎数数据据库库、统统计计数数据据库库、空空间间数数据据库库、知知识识库库和和科科学学与与文文献献数数据据库库等等,它它们们都都是是特特定定技技术术领领域域的的知知识识通通过过

3、数数据据库库技技术术,实实现现对对特特定定数数据据对对象象的的计计算算机机管管理并实现对被管理数据对象的操作。理并实现对被管理数据对象的操作。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院第第8章数据库技术发展动态章数据库技术发展动态v本章要点本章要点数据库技术发展的主要特点数据库技术发展的主要特点新一代数据库技术的特点新一代数据库技术的特点掌握数据模型的发展掌握数据模型的发展面向应用的数据库新技术面向应用的数据库新技术仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院第第8章数据库技术发展动态章数据库技术发展动态8.1 8.1 面向对象数据库系

4、统面向对象数据库系统面向对象数据库系统面向对象数据库系统 8.2 8.2 分布式数据库系统分布式数据库系统分布式数据库系统分布式数据库系统8.3 8.3 并行数据库系统并行数据库系统并行数据库系统并行数据库系统 8.4 8.4 其他数据库其他数据库其他数据库其他数据库 8.5 数据仓库数据仓库数据仓库数据仓库 本章小结本章小结仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.1 面向对象数据库系统面向对象数据库系统v8.1.1 面向对象数据库系统的基本概念面向对象数据库系统的基本概念 v8.1.2 面向对象数据库系统的特征面向对象数据库系统的特征v8.1.3 面向对象

5、数据库系统的查询面向对象数据库系统的查询v8.1.4 面向对象数据库系统的并发控制面向对象数据库系统的并发控制v8.1.5 面向对象数据库管理系统面向对象数据库管理系统OODBMS仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.2 分布式数据库系统分布式数据库系统 v8.2.1 分布式数据库及其分类分布式数据库及其分类v1分布式数据库(分布式数据库(Distributed Data Base,DDB)v分布式数据库是计算机网络环境中各场地分布式数据库是计算机网络环境中各场地(Site)或节点或节点(Node)上数据上数据库的逻辑集合。它是一组结构化的数据集合,逻辑上

6、属于同一系统,库的逻辑集合。它是一组结构化的数据集合,逻辑上属于同一系统,而物理上分布在计算机网络的不同节点上,具有分布性和逻辑协调性而物理上分布在计算机网络的不同节点上,具有分布性和逻辑协调性的特点。的特点。v分布性是指数据不是存放在单一场地为单个计算机配置的存储设备上,分布性是指数据不是存放在单一场地为单个计算机配置的存储设备上,而是按全局需要将数据划分成一定结构的数据子集,分散地存储在各而是按全局需要将数据划分成一定结构的数据子集,分散地存储在各个场地个场地(节点节点)上。上。v逻辑协调性是指各场地上的数据子集,相互间由严密的约束规则加以逻辑协调性是指各场地上的数据子集,相互间由严密的约

7、束规则加以限定,而在逻辑上是一个整体。限定,而在逻辑上是一个整体。v实际上,基于以上两个特性的实际上,基于以上两个特性的DDB是虚拟的、逻辑的,即是由许多是虚拟的、逻辑的,即是由许多LDB逻辑组织而成的,它是针对于全体用户的、全局的数据库。逻辑组织而成的,它是针对于全体用户的、全局的数据库。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.2.1 分布式数据库及其分类分布式数据库及其分类2分布式数据库的分类分布式数据库的分类分布式数据库的类型很多,根据不同的准则,有不同的分类方法。分布式数据库的类型很多,根据不同的准则,有不同的分类方法。我们从数据冗余、全局数据库的构

8、成、数据库分级结构和本地数我们从数据冗余、全局数据库的构成、数据库分级结构和本地数据库的配置等方面对它们分类。据库的配置等方面对它们分类。(1)按数据冗余分类,全局分布数据库的数据分布到网络中各结)按数据冗余分类,全局分布数据库的数据分布到网络中各结点时,会有如下情况:完全复制型、完全分割型、子集复制型、点时,会有如下情况:完全复制型、完全分割型、子集复制型、子集分布型。子集分布型。(2)按全局数据库的构成分类:同构型分布数据库、异构型分布)按全局数据库的构成分类:同构型分布数据库、异构型分布数据库。数据库。(3)按本地数据库的配置方式可分成:可分布访问的集中数据库、)按本地数据库的配置方式可

9、分成:可分布访问的集中数据库、中心数据库加专用数据库、多级分布数据库、水平分布数据库。中心数据库加专用数据库、多级分布数据库、水平分布数据库。(4)按本地数据库的数据是否全部集成到全局数据库中分类:对)按本地数据库的数据是否全部集成到全局数据库中分类:对等型分布数据库(等型分布数据库(Peer-to-Peer DBS)、多数据库系统()、多数据库系统(Multi-DBS)。)。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.2.2 分布式数据库的分级结构分布式数据库的分级结构 v1对等型分布数据库的分级结构对等型分布数据库的分级结构v对等型的分级结构如图对等型的分级

10、结构如图8-1,它的全局概念模式,它的全局概念模式是所有结点本地概念模式的并集。是所有结点本地概念模式的并集。图图图图8-1 ANSI/SPARC8-1 ANSI/SPARC分布分布分布分布DBDB参考结构参考结构参考结构参考结构 仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.2.2 分布式数据库的分级结构分布式数据库的分级结构v2多数据库系统的分级结构多数据库系统的分级结构v多数据库放宽了分布数据库中所有数据从逻辑上多数据库放宽了分布数据库中所有数据从逻辑上看必须都在一个全局数据库中的要求,允许部分看必须都在一个全局数据库中的要求,允许部分数据只供本地用户使用。

11、这里又有两种参考结构:数据只供本地用户使用。这里又有两种参考结构:v(1)带有全局要领模式的参考结构如图)带有全局要领模式的参考结构如图8-2所示。所示。在此种结构中,全局概念模式是本地概念模式的在此种结构中,全局概念模式是本地概念模式的集成。本地用户的外模式定义在本地概念模式上,集成。本地用户的外模式定义在本地概念模式上,不改变本地用户原来使用本地数据库的方式。全不改变本地用户原来使用本地数据库的方式。全局用户的外模式定义在全局概念模式上,用统一局用户的外模式定义在全局概念模式上,用统一的语言访问多数据库。的语言访问多数据库。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工

12、程学院2多数据库系统的分级结构多数据库系统的分级结构 图图图图8-2 8-2 有全局概念模式的有全局概念模式的有全局概念模式的有全局概念模式的MDBSMDBS结构结构结构结构 仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院2多数据库系统的分级结构多数据库系统的分级结构v(2)无无全全局局要要领领模模式式的的参参考考结结构构如如图图8-3所所示示。在在此此种种结结构构中中,将将MDBS分分布布为为两两层层:本本地地系系统统层层和和多多数数据据库库层层。本本地地系系统统层层由由各各本本地地数数据据库库组组成成;多多数数据据库库层层由由多多数数据据库库用用户户的的外外模模式

13、式组组成成。这这些些外外模模式式可可以以定定义义在在一一个个或或多多个个本本地地概概念念模模式式上上。用用户户用用编编程程通通过过外外模模式式访访问问MDBS,而而实实现现对对各各本本地地数数据据库库访访问问的的责责任任交交给给多多数数据据库库层层与与本本地系统层之间的映射。地系统层之间的映射。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院2多数据库系统的分级结构多数据库系统的分级结构图图图图8-3 8-3 无全局概念模式的无全局概念模式的无全局概念模式的无全局概念模式的MDBSMDBS结构结构结构结构 仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与

14、工程学院3联邦式数据库的分级结构联邦式数据库的分级结构v联邦数据库系统联邦数据库系统由一组既协同工由一组既协同工作又独立自治的作又独立自治的部件数据库系统部件数据库系统组成。这些部件组成。这些部件DBS可以是可以是CDB、DDB、甚至是另一个甚至是另一个FDBS。如图。如图8-4所示,联邦所示,联邦数据库结构包含数据库结构包含如下几个部分:如下几个部分:图图图图8-4 8-4 联邦数据库结构联邦数据库结构联邦数据库结构联邦数据库结构 仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院3联邦式数据库的分级结构联邦式数据库的分级结构(1 1)本地模式:它是部件)本地模式:它是

15、部件)本地模式:它是部件)本地模式:它是部件DBSDBS的概念模式。的概念模式。的概念模式。的概念模式。(2 2)部件模式:它是本地模式经转换器处理后变成)部件模式:它是本地模式经转换器处理后变成)部件模式:它是本地模式经转换器处理后变成)部件模式:它是本地模式经转换器处理后变成FDBSFDBS公共数据模型的公共数据模型的公共数据模型的公共数据模型的形式。形式。形式。形式。(3 3)输出模式:它给出了部件模式可被)输出模式:它给出了部件模式可被)输出模式:它给出了部件模式可被)输出模式:它给出了部件模式可被FDBSFDBS使用的一个子集和一些访问使用的一个子集和一些访问使用的一个子集和一些访问

16、使用的一个子集和一些访问控制信息。控制信息。控制信息。控制信息。(4 4)联邦模式)联邦模式)联邦模式)联邦模式:它是各输出模式的并集,由各输出模式经构造器生成。它是各输出模式的并集,由各输出模式经构造器生成。它是各输出模式的并集,由各输出模式经构造器生成。它是各输出模式的并集,由各输出模式经构造器生成。(5 5)外模式)外模式)外模式)外模式:外模式由联邦模式经过滤器导出,其数据模型可以不同。外模式由联邦模式经过滤器导出,其数据模型可以不同。外模式由联邦模式经过滤器导出,其数据模型可以不同。外模式由联邦模式经过滤器导出,其数据模型可以不同。(6 6)转换器:把一种数据模型)转换器:把一种数据

17、模型)转换器:把一种数据模型)转换器:把一种数据模型(格式格式格式格式)转换为另一种数据模型转换为另一种数据模型转换为另一种数据模型转换为另一种数据模型(格式格式格式格式)。把一。把一。把一。把一种数据语言转换为另一种数据语言。种数据语言转换为另一种数据语言。种数据语言转换为另一种数据语言。种数据语言转换为另一种数据语言。(7 7)过滤器:限制从一层处理器传送到另一层处理器的命令和相应的数据。)过滤器:限制从一层处理器传送到另一层处理器的命令和相应的数据。)过滤器:限制从一层处理器传送到另一层处理器的命令和相应的数据。)过滤器:限制从一层处理器传送到另一层处理器的命令和相应的数据。(8 8)构

18、造器:把单个处理器的操作,分解、复制成多个操作(查询分解)。)构造器:把单个处理器的操作,分解、复制成多个操作(查询分解)。)构造器:把单个处理器的操作,分解、复制成多个操作(查询分解)。)构造器:把单个处理器的操作,分解、复制成多个操作(查询分解)。把多个处理器产生的数据合并成单个数据集合(模式集成)。把多个处理器产生的数据合并成单个数据集合(模式集成)。把多个处理器产生的数据合并成单个数据集合(模式集成)。把多个处理器产生的数据合并成单个数据集合(模式集成)。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.2.3 数据分布数据分布v在构成分布式数据库系统的运行环

19、境时,必须考虑构成分布在构成分布式数据库系统的运行环境时,必须考虑构成分布式数据库系统所应用的各个组成部分各自如何使用数据的问式数据库系统所应用的各个组成部分各自如何使用数据的问题,所以,分布式数据库系统同样存在着分布式数据库题,所以,分布式数据库系统同样存在着分布式数据库DDB的设计问题,这就是数据分布。它包括了分布式数据库的逻的设计问题,这就是数据分布。它包括了分布式数据库的逻辑划分和物理分配,以及用户对分布式数据库的划分或分配辑划分和物理分配,以及用户对分布式数据库的划分或分配的感知程度的感知程度(透明度透明度)。v数据分布的主要目的是提高访问的局部性。即通过数据的合数据分布的主要目的是

20、提高访问的局部性。即通过数据的合理分布,尽可能地使更多的数据能够就地存放,以减少远距理分布,尽可能地使更多的数据能够就地存放,以减少远距离的数据访问,但在任何分布式数据库中,达到所有数据的离的数据访问,但在任何分布式数据库中,达到所有数据的访问都局部化是不可能的。即使多复本也只能达到读的完全访问都局部化是不可能的。即使多复本也只能达到读的完全局部化,对于数据的更新则需各个复本同步更新,因此仍然局部化,对于数据的更新则需各个复本同步更新,因此仍然需要进行远程访问。一个成功的分布式数据库的设计应使访需要进行远程访问。一个成功的分布式数据库的设计应使访问的局部性能更好。数据分布的目的是为了就地访问而

21、不是问的局部性能更好。数据分布的目的是为了就地访问而不是分布访问。分布访问。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.2.3 数据分布数据分布数据分布包括分割和分配两个方面,可以描述为以下两个步骤:数据分布包括分割和分配两个方面,可以描述为以下两个步骤:数据分布包括分割和分配两个方面,可以描述为以下两个步骤:数据分布包括分割和分配两个方面,可以描述为以下两个步骤:先从逻辑上将全局概念模式,即全局关系模式,划分成若干逻辑先从逻辑上将全局概念模式,即全局关系模式,划分成若干逻辑先从逻辑上将全局概念模式,即全局关系模式,划分成若干逻辑先从逻辑上将全局概念模式,即全局

22、关系模式,划分成若干逻辑片段(子关系)片段(子关系)片段(子关系)片段(子关系)分割;再按一定的冗余度将片段分配到各个分割;再按一定的冗余度将片段分配到各个分割;再按一定的冗余度将片段分配到各个分割;再按一定的冗余度将片段分配到各个节点上,这时逻辑片段就成为具体的物理片段节点上,这时逻辑片段就成为具体的物理片段节点上,这时逻辑片段就成为具体的物理片段节点上,这时逻辑片段就成为具体的物理片段分配。分配。分配。分配。对分布式数据库分割后,仍应保持对分布式数据库分割后,仍应保持对分布式数据库分割后,仍应保持对分布式数据库分割后,仍应保持DDBDDB原有的特质,所以分割原有的特质,所以分割原有的特质,

23、所以分割原有的特质,所以分割后的各逻辑关系之间应遵循下列原则:后的各逻辑关系之间应遵循下列原则:后的各逻辑关系之间应遵循下列原则:后的各逻辑关系之间应遵循下列原则:(1 1)完整性原则。全局关系的所有数据必须包括在任何一个片)完整性原则。全局关系的所有数据必须包括在任何一个片)完整性原则。全局关系的所有数据必须包括在任何一个片)完整性原则。全局关系的所有数据必须包括在任何一个片段中,不允许出现某个数据属于全局关系,但却不属于任何片段。段中,不允许出现某个数据属于全局关系,但却不属于任何片段。段中,不允许出现某个数据属于全局关系,但却不属于任何片段。段中,不允许出现某个数据属于全局关系,但却不属

24、于任何片段。(2 2)重构性原则。所有片段必须能重构(逆操作)成全局关系。)重构性原则。所有片段必须能重构(逆操作)成全局关系。)重构性原则。所有片段必须能重构(逆操作)成全局关系。)重构性原则。所有片段必须能重构(逆操作)成全局关系。(3 3)不相交原则。不允许一个全局关系的某些数据既属于该全)不相交原则。不允许一个全局关系的某些数据既属于该全)不相交原则。不允许一个全局关系的某些数据既属于该全)不相交原则。不允许一个全局关系的某些数据既属于该全局关系的某一个片段又属于该全局关系的另一个片段。即要求一局关系的某一个片段又属于该全局关系的另一个片段。即要求一局关系的某一个片段又属于该全局关系的

25、另一个片段。即要求一局关系的某一个片段又属于该全局关系的另一个片段。即要求一个全局关系被分割后得到的各个数据片段必须是相互不重叠的。个全局关系被分割后得到的各个数据片段必须是相互不重叠的。个全局关系被分割后得到的各个数据片段必须是相互不重叠的。个全局关系被分割后得到的各个数据片段必须是相互不重叠的。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.2.3 数据分布数据分布v分割后的工作便是分配,分配的目标是将已分割好的片段分割后的工作便是分配,分配的目标是将已分割好的片段分配到不同的场地中去,使得某节点对某片段的访问尽量分配到不同的场地中去,使得某节点对某片段的访问尽

26、量为本地访问。分配的过程是线性的,亦即分割的输出是分为本地访问。分配的过程是线性的,亦即分割的输出是分配的输入。显然,分割与分配有着天然的联系,二者的区配的输入。显然,分割与分配有着天然的联系,二者的区别仅在于分割着眼于全局,分配则考虑片段关系。数据分别仅在于分割着眼于全局,分配则考虑片段关系。数据分配一般有以下几种方式:配一般有以下几种方式:v(1)集中型。数据虽经划分,但所有逻辑片段完全集中)集中型。数据虽经划分,但所有逻辑片段完全集中在一个场地上,仍然像一个集中数据库一样。在一个场地上,仍然像一个集中数据库一样。v(2)分割型。数据被划分后,所有逻辑片段各自分配在)分割型。数据被划分后,

27、所有逻辑片段各自分配在一个场地上,所有场地上分配的只是全局关系的一个子关一个场地上,所有场地上分配的只是全局关系的一个子关系。系。v(3)混合型。数据被划分后的逻辑片段根据需要分配,)混合型。数据被划分后的逻辑片段根据需要分配,共享的片段在需要共享的场地上重复设置,高度私用的片共享的片段在需要共享的场地上重复设置,高度私用的片段只设置在所需要的场地上。段只设置在所需要的场地上。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.3 并行数据库系统并行数据库系统 8.3.1 并行结构模型并行结构模型8.3.2 数据分置与数据偏斜数据分置与数据偏斜仲恺农业工程学院仲恺农业工

28、程学院计算机科学与工程学院计算机科学与工程学院8.3.1 并行结构模型并行结构模型 v并行计算机是并行数据库的基础。并行计算机是并行数据库的基础。1986年,美国学者年,美国学者M.Stonebraker提出了并行计算机的提出了并行计算机的3种并行结构模种并行结构模型。型。v(1)共享主存结构()共享主存结构(Shared Memory)简称)简称SM结构,也称全共享结构(结构,也称全共享结构(SE-Shared Everything)。在此种结构中,各处理机通过共享主)。在此种结构中,各处理机通过共享主存通信,每个处理机都能访问任一存储单元和任一磁盘存通信,每个处理机都能访问任一存储单元和任

29、一磁盘单元,处理机与存储器之间通过高速总线或交叉开关连单元,处理机与存储器之间通过高速总线或交叉开关连接,如图接,如图8-5(a)。这是目前较成熟的结构,居市场主流。这是目前较成熟的结构,居市场主流。采用该结构的机器有采用该结构的机器有IBM的的IBM3090,BULL的的DPS8,Sequent和和Encore公司的对称多处理机等。公司的对称多处理机等。该结构的优点是:结构简单、负载均衡、通信效率高。该结构的优点是:结构简单、负载均衡、通信效率高。缺点是:维护开销大、可扩充性受限制、可用性低。建缺点是:维护开销大、可扩充性受限制、可用性低。建立在这种结构上的并行数据库系统有:立在这种结构上的

30、并行数据库系统有:XPRS、DBS3、Volcalno、IBM3090上的上的DB2等。等。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.3.1 并行结构模型并行结构模型v(2)共享磁盘结构()共享磁盘结构(Shared-Disk)简称)简称SD结构,如图结构,如图8-5(b)。在此种结构中,每个处理机有自己的内存,通过高速互。在此种结构中,每个处理机有自己的内存,通过高速互连网,可以访问任何磁盘。这种结构的优点是可扩充性好,负载连网,可以访问任何磁盘。这种结构的优点是可扩充性好,负载均衡,维护开销不大,可用性较高。缺点是复杂度较高,潜在性均衡,维护开销不大,可用

31、性较高。缺点是复杂度较高,潜在性能较低的问题。建立在该类结构上的并行数据库系统有能较低的问题。建立在该类结构上的并行数据库系统有IBM的的IMS/VS数据共享产品,数据共享产品,DEC公司的公司的VAX DBMS和和Rdb产品,产品,以及在以及在DEC cluster和和NCUBE计算机上的计算机上的ORACLE数据库实数据库实现等。现等。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.3.1 并行结构模型并行结构模型v(3)无共享结构()无共享结构(Shared Nothing)简称)简称SN结构,结构,如图如图8-5(c)。这是一种松耦合系统,每个计算机系统通。

32、这是一种松耦合系统,每个计算机系统通过高速网络互连,各计算机系统独占自己的主存与磁盘,过高速网络互连,各计算机系统独占自己的主存与磁盘,这种结构的并行数据库本质上是一种分布数据库。无共这种结构的并行数据库本质上是一种分布数据库。无共享结构的优点很突出:它的扩充性好,增加新结点系统享结构的优点很突出:它的扩充性好,增加新结点系统可平衡地增长,线性加速比好,在多个结点上复制数据,可平衡地增长,线性加速比好,在多个结点上复制数据,可增加系统可用性、可靠性,资源竞争对系统的干扰小,可增加系统可用性、可靠性,资源竞争对系统的干扰小,系统维护开销不大。而该结构的缺点是复杂度高,负载系统维护开销不大。而该结

33、构的缺点是复杂度高,负载平衡难于达到,因为它依赖于数据库中数据的分割与放平衡难于达到,因为它依赖于数据库中数据的分割与放置。建立在该结构上的并行数据库有置。建立在该结构上的并行数据库有Teradata的的DBC、Tandem的的NonStopSQL产品以及原型系统产品以及原型系统BUBBA、EDS、GAMMA、GRACE、PRISMA等。等。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.3.1 并行结构模型并行结构模型 (a a)共享主存)共享主存)共享主存)共享主存 (b b)共享磁盘)共享磁盘)共享磁盘)共享磁盘 (c c)无共享)无共享)无共享)无共享 图图

34、图图8-5 8-5 并行结构模型并行结构模型并行结构模型并行结构模型 仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.3.2 数据分置与数据偏斜数据分置与数据偏斜v1数据分置数据分置v类似于分布数据库中的数据分布,并行数据库中的数据如类似于分布数据库中的数据分布,并行数据库中的数据如何分布到各结点的存储设备上去呢?这就是数据分置何分布到各结点的存储设备上去呢?这就是数据分置(Data Placement)问题。它由数据划分和分配两部)问题。它由数据划分和分配两部分组成。要把数据分置到不同结点上,首先要对数据进行分组成。要把数据分置到不同结点上,首先要对数据进行划分(

35、划分(Partitioning),这类似于分布数据库中的全局),这类似于分布数据库中的全局关系分段。分段与分布是以用户使用数据的方式以及在什关系分段。分段与分布是以用户使用数据的方式以及在什么结点使用为依据的。与此不同,并行数据库的用户查询么结点使用为依据的。与此不同,并行数据库的用户查询并不与特定结点相联系,数据分置不考虑特定用户的特定并不与特定结点相联系,数据分置不考虑特定用户的特定应用,它的目标是有利于用户查询的并行处理。应用,它的目标是有利于用户查询的并行处理。v基本的数据分置方法有:轮回分置法(基本的数据分置方法有:轮回分置法(Round-Robin)、哈希分置法()、哈希分置法(H

36、ash)、范围分置法)、范围分置法(Range)以及多维数据分置法()以及多维数据分置法(Multi-Dimension)等。)等。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.3.2 数据分置与数据偏斜数据分置与数据偏斜v2数据偏斜(数据偏斜(Data Skew)v数据偏斜是对并行执行效果有影响的数据分布数据偏斜是对并行执行效果有影响的数据分布不均匀的总称。不均匀的总称。Walton等人将数据偏斜分类如下:等人将数据偏斜分类如下:v(1)属性值偏斜。这是数据集本身固有的。)属性值偏斜。这是数据集本身固有的。如我国人口信息中,民族属性的值分布不均,汉族如我国人口信

37、息中,民族属性的值分布不均,汉族比少数民族多得多。比少数民族多得多。v(2)元组分置偏斜。数据初始分置时使用哈)元组分置偏斜。数据初始分置时使用哈希分置或范围分置方法由分置属性分布不均引起的。希分置或范围分置方法由分置属性分布不均引起的。v(3)选择性偏斜。由选择谓词时对每个结点)选择性偏斜。由选择谓词时对每个结点的选择率不同引起的,它使选择操作在每个结点产的选择率不同引起的,它使选择操作在每个结点产生的结果大小不均。生的结果大小不均。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.3.2 数据分置与数据偏斜数据分置与数据偏斜v(4)重分置偏斜。在两次操作中间,对第

38、一)重分置偏斜。在两次操作中间,对第一次操作的结果重新分置,供第二次操作使用。次操作的结果重新分置,供第二次操作使用。与元组分置偏斜类似,重新分置也可能引起数与元组分置偏斜类似,重新分置也可能引起数据偏斜。据偏斜。v(5)连接结果偏斜。由结点间数据分置偏斜,)连接结果偏斜。由结点间数据分置偏斜,连接选择率不同造成的。连接选择率不同造成的。v数据偏斜不能很好地发挥操作的并行性、数据偏斜不能很好地发挥操作的并行性、负载的均衡性,显著地降低了并行数据库系统负载的均衡性,显著地降低了并行数据库系统的性能。有些文章研究了抗数据偏斜的方法,的性能。有些文章研究了抗数据偏斜的方法,减少数据偏斜对并行数据库的

39、影响。减少数据偏斜对并行数据库的影响。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.4 其他数据库其他数据库 v8.4.1 模糊数据库模糊数据库v8.4.2 模糊演绎数据库模糊演绎数据库v8.4.3 空间数据库空间数据库v8.4.4 统计与科学数据库统计与科学数据库v8.4.5 时态和历史数据库时态和历史数据库 v8.4.6 实时数据库实时数据库 v8.4.7 主存数据库主存数据库v8.4.8 移动数据库移动数据库v8.4.9 多媒体数据库多媒体数据库v8.4.10 主动数据库主动数据库 v8.4.11 工程数据库工程数据库仲恺农业工程学院仲恺农业工程学院计算机科

40、学与工程学院计算机科学与工程学院8.5 数据仓库8.5.1 数据仓库概念和特点数据仓库概念和特点v数据仓库(数据仓库(Data Warehouse)是一个面向主题的)是一个面向主题的(Subject Oriented)、集成的()、集成的(Integrate)、相)、相对稳定的(对稳定的(Non-Volatile)、反映历史变化()、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于

41、企业现有用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构数据源的的操作型数据库;其次,数据仓库是对多个异构数据源的有效集成,集成后按照主题进行重组,并包含历史数据,有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。而且存放在数据仓库中的数据一般不再修改。v根据数据仓库概念的含义,数据仓库拥有以下四个特点:根据数据仓库概念的含义,数据仓库拥有以下四个特点:仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.5.1 数据仓库概念和特点数据仓库概念和特点v(1)面向主题。主题是一个抽象的概念,

42、指用户使用数据)面向主题。主题是一个抽象的概念,指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。作型信息系统相关。v(2)集成的。数据仓库中的数据是在对原有分散的数据库)集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。关于整个企业的一致的全局信息。v(3)相对稳定的。数据

43、仓库的数据主要供企业决策分析之)相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。需要定期的加载、刷新。v(4)反映历史变化。数据仓库中的数据通常包含历史信息,)反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点系统记录了企业从过去某一时点(如

44、开始应用数据仓库的时点如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。展历程和未来趋势做出定量分析和预测。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.5.2 数据仓库的体系结构数据仓库的体系结构整整个个数数据据仓仓库库系系统统是是一一个个包包含含四四个个层层次次的的体体系系结结构构,具体如图具体如图8-10所示。所示。图图图图8-10 8-10 数据仓库系统体系结构数据仓库系统体系结构数据仓库系统体系结构数据仓库系统体系结构 仲恺农业工程学院仲恺

45、农业工程学院计算机科学与工程学院计算机科学与工程学院8.5.2 数据仓库的体系结构数据仓库的体系结构v数数据据源源:是是数数据据仓仓库库系系统统的的基基础础,是是整整个个系系统统的的数数据据源源泉泉。通通常常包包括括企企业业内内部部信信息息和和外外部部信信息息。内内部部信信息息包包括括存存放放于于RDBMS中中的的各各种种业业务务处处理理数数据据和和各各类类文文档档数数据据。外外部部信信息息包包括括各各类类法法律律法法规规、市场信息和竞争对手的信息等。市场信息和竞争对手的信息等。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.5.2 数据仓库的体系结构数据仓库的体系

46、结构v数数据据的的存存储储与与管管理理:是是整整个个数数据据仓仓库库系系统统的的核核心心。数数据据仓仓库库的的组组织织管管理理方方式式决决定定了了它它有有别别于于传传统统数数据据库库,同同时时也也决决定定了了其其对对外外部部数数据据的的表表现现形形式式。要要决决定定采采用用什什么么产产品品和和技技术术来来建建立立数数据据仓仓库库的的核核心心,则则需需要要从从数数据据仓仓库库的的技技术术特特点点着着手手分分析析。针针对对现现有有各各业业务务系系统统的的数数据据,进进行行抽抽取取、清清理理,并并有有效效集集成成,按按照照主主题题进进行行组组织织。数数据据仓仓库库按按照照数数据据的的覆覆盖盖范范围围

47、可可以以分分为为企企业业级级数数据据仓仓库库和和部部门门级数据仓库(通常称为数据集市)。级数据仓库(通常称为数据集市)。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.5.2 数据仓库的体系结构数据仓库的体系结构vOLAP服服务务器器:对对分分析析需需要要的的数数据据进进行行有有效效集集成成,按按多多维维模模型型予予以以组组织织,以以便便进进行行多多角角度度、多多层层次次的的分分析析,并并发发现现趋趋势势。其其具具体体实实现现可可以以分分为为:ROLAP、MOLAP和和HOLAP。ROLAP基基本本数数据据和和聚聚合合数数据据均均存存放放在在RDBMS之之中中;MO

48、LAP基基本本数数据据和和聚聚合合数数据据均均存存放放于于多多维维数数据据库库中中;HOLAP基基本本数数据据存存放放于于RDBMS之之中中,聚聚合合数数据存放于多维数据库中。据存放于多维数据库中。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.5.2 数据仓库的体系结构数据仓库的体系结构v前前端端工工具具:主主要要包包括括各各种种报报表表工工具具、查查询询工工具具、数数据据分分析析工工具具、数数据据挖挖掘掘工工具具以以及及各各种种基基于于数数据据仓仓库库或或数数据据集集市市的的应应用用开开发发工工具具。其其中中数数据据分分析析工工具具主主要要针针对对OLAP服服务

49、务器器,报报表表工工具具、数数据据挖挖掘掘工具主要针对数据仓库。工具主要针对数据仓库。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.5.3 数据仓库系统的三个工具层数据仓库系统的三个工具层 v1联机分析处理(联机分析处理(OLAP)v2决策支持系统决策支持系统(DSS)v3数据挖掘数据挖掘仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院8.5.4 数据仓库的关键技术数据仓库的关键技术 v与与关关系系数数据据库库不不同同,数数据据仓仓库库没没有有严严格格的的数数学学理理论论基基础础,它它更更偏偏向向于于工工程程。由由于于数数据据仓仓库库的的工

50、工程程性性,因因而而在在技技术术上上可可以以根根据据它它的的工工作作过过程程分分为为:数数据据的的抽抽取取、存存储储和和管管理理、数数据据的的表表现现以以及及数数据据仓仓库库设设计计的的技技术咨询四个方面。术咨询四个方面。仲恺农业工程学院仲恺农业工程学院计算机科学与工程学院计算机科学与工程学院本章小结本章小结v本章分别讨论了面向对象数据库、分布式数据库、并行数本章分别讨论了面向对象数据库、分布式数据库、并行数据库和其他数据库。由于数据仓库技术的迅速崛起,较详据库和其他数据库。由于数据仓库技术的迅速崛起,较详细介绍了其相关内容。通过这些内容说明了数据库技术的细介绍了其相关内容。通过这些内容说明了

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁