《2022年数据仓库中的索引技术分析与对比收集 .pdf》由会员分享,可在线阅读,更多相关《2022年数据仓库中的索引技术分析与对比收集 .pdf(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据仓库中的索引技术分析与研究名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 8 页 - - - - - - - - - 【摘要】本文主要介绍了数据仓库的几种索引技术。一方面首先介绍了传统的索引技术, 进而简要介绍了基于传统索引技术发展起来的索引技术。另一方面通过分析对比各个技术之间的优缺点和主要适用场合,以提供在数据仓库的实施中选择合适的索引技术的建议,提高系统性能,优化客户体验。【关键字】数据仓库索引技术优缺点 适用场合优化变体【Abstract】This paper
2、 has a major introduction about several index technologies of Data warehouse .On the one hand, you will have a first view about traditional index technology,and then you will know about some developing index technologies in brief .On the other hand,it gives you some suggestions when you put your dat
3、a warehouse into effect through having a comparative analysis about their merit and demerit and their major suitable situation among those technologies . Finally,it can improve you system performance and optimize the customers experience . 【Keyword 】Date warehouse ,index technology, merit and demeri
4、t,suitable situation,optimization and promotion 目录1、引言 . 32、数据仓库索引技术概述 . 32.1 、概念. 32.2 、分类. 32.3 、简要介绍 . 33、数据仓库索引技术精细介绍. 43.1 、树形索引 . 43.1.2 、B-树索引 . 43.1.2 、R-树索引 . 43.1.3 、四叉树索引和 QR-树索引 . 43.2 、位图索引 . 53.2.1 、简单位图索引 . 53.2.2 、优化位图索引 . 53.3 、连接索引 . 63.4 、散列索引 . 63.5 、倒排索引 . 63.6 、基于多维数组索引 . 63.7
5、、反转索引 . 73.8 、网格文件 . 74、论文总结 . 7名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 8 页 - - - - - - - - - 1、引言随着计算机技术的不断应用和提高,基于数据挖掘的多功能应用已经不只是停留在高层次、 高科技的军用、 政府机关和商家, 它已然深入到社会生活的各个角落。比如基于数据仓库和数据挖掘对保险公司、金融机构甚至超市卖场、 高考志愿进行的数据分析以提供决策支持。随着数据仓库的广泛应用, 怎样从庞大的数据仓库字典中迅速检索到我
6、们需要的数据或对查询进行优化成了国内外众多学者竞相研究的课题。目前,数据仓库中查询优化技术主要有索引技术、视图分割和OLAP 并行查询。其中数据仓库索引技术是基于传统数据库索引技术发展起来的,通过在数据仓库中对维表增加索引, 进而提高数据的检索速度, 改善数据查询性能, 加强维表之间的连接, 特别是在实现数据的参考完整性方面有重要意义,另外也可以在查询的过程中,使用优化器,以提高系统性能。2、数据仓库索引技术概述2.1 、概念数据仓库索引是一个单独的、 物理的数据结构, 它是某个表中一列或若干列值的集合与相应的指向表中物理标识这些值的数据页的逻辑指针清单。数据仓库的索引技术是基于数据库的索引技
7、术发展起来的对数据仓库中的数据查询优化的技术。2.2 、分类按存储结构不同可分为:唯一性索引、聚簇索引和非聚簇索引;按组织形式不同可分为:线性索引、静态索引、倒排索引和动态索引等。2.3 、简要介绍目前,数据仓库常用的索引技术有树形索引、位图索引、连接索引、散列(哈希)表索引和倒排索引,其中树形索引可分为B-树、B+树、B*树、-R 树等;位图索引可分为基本位图索引和编码位图索引,并在此基础上有分层位图索引、区域位图索引、 分段位图索引。 连接索引可实现多表连接,基于此还有位图连接索引。散列索引又有其变种可扩张散列表和网格文件。另外基于传统索引技术还有其它的索引方法如基于多维数组的索引和网格文
8、件等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 8 页 - - - - - - - - - 3、数据仓库索引技术精细介绍3.1 、树形索引数据仓库树形索引结构主要有B-树索引、 -R 树索引、四叉树索引、 QR-树索引等,树形索引结构适用于高基数维属性,目前这类索引树结构已超过50 种。3.1.2 、B-树索引B-树索引是传统平衡树。可以在一个属性上建立索引也可建立多个属性上的索引,以用于多个属性上的查询,但需要建立属性个数为指数级的B-树数目。适用范围:适用于对高
9、基数的列值进行检索,普遍应用于各种编码的索引,例如产品编码、 客户编码等, 也适用于多列值的索引。 适用于不断插入、 更新和删除的表。优化及变体: B+树是 B-树的一种变体, B+树与 B-树相同,也是一种多路搜索树,具有较高的存取效率。B*树是 B+树的变体,在B+树的非根和非叶子节点再增加指向兄弟的指针。3.1.2 、R-树索引R-树索引基于传统B-树索引技术而发展起来的面向多维空间对象的索引结构,采用最小矩形来递归分解索引空间,效率较B-树高。优点:结构简单、易于维护及适用范围广等。缺点:由于该索引结构基于所有维建立,故不能很好地满足基于部分维查询的需要,另外,由于其中间节点的矩形区域
10、之间不可避免地会产生重叠,因此区域搜索必须沿着多条查找路径进行, 可能导致查询路径失效, 从而影响查询性能,尤其是当失败路径较长时, 这种影响会更加严重。 其查找性能随空间数据量的增加急剧下降。适合范围:适合于对动态数据的查询操作,适用OLAP 数据的多维性质。多维数据的组织方式中的方体树,就是R-树在多维数据中的一个应用。优化及变体:由基本的R-树出现了很多变体: *R 树、K- D 树、+R 树、F树、SR树等。-R 树优化就是尽可能减少子空间的重叠,即增加子空间中数据的聚集性,减少各子空间之间数据的相关性。3.1.3 、四叉树索引和QR-树索引四叉树索引是用超平面的方法来组织索引结构的多
11、维索引,它将索引空间划分为多个搜索子空间, 搜索时可按照递归分解的办法,逐级搜索各个子空间的索引来查找结果。 但该索引不是平衡树, 它采用线性的存储结构, 数据密集的地方树的深度较高。优点是:多维对象查询速度快,插入和删除操作简单方便。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 8 页 - - - - - - - - - QR-树索引是数据仓库里引用了空间索引树形结构的一种新型多维索引,结合四叉树和R-树的各自优点,在进行查找时,将查找空间限制在整个索引空间的某一个部
12、分, 采用四叉树的索引来完成, 而对于每一个子索引空间的数据,采用-R 树的索引来组织数据,这样既可以满足较高的存储效率,又可以避免太多的无效查找,提高查找性能。3.2 、位图索引位图索引是另外一种比较重要的数据仓库索引技术,主要基于二进制逻辑运算使各种比较、 连接、和聚集操作都转换为位算术运算以简化操作来达到查询优化的目的。当维基数较低、查询范围较模糊或数据较为稀疏难以找到密集区域时,采用树索引很难取得较好的查询效率时,可采用位图索引。3.2.1 、简单位图索引“位”是位图索引的核心,每一位与索引可能的取值之一相对应。在索引列的可能取值比较少时,位图索引可节省空间,因为只要4位即可,与之相比
13、, B-树则要 32位(即 4个字节)。优点:节省空间和CPU,查询效率高,实现简单,具有很强的可操作性。缺点:当索引列取值较多时, 尤其当字段数有许多不同值时,该索引需要太多空间。位图索引的另一个缺陷是锁 (页锁),当两个或更多事务试图同时访问在同一页上的数据时, 会发生冲突,其中一个必须等待另一个完成之后才能执行。适用范围:不适用更新和插入较多的情况,因为索引依赖于自始至终保持同样的记录数。当表中数据增加和删除时,我们需要调整给定属性上的位图索引,这样的开销将是很大的。适用于静态数据,对于高度动态的OLAP不适用。适用于多表查询。3.2.2 、优化位图索引主要优化索引: 区域位图索引、 分
14、段位图索引、 分层位图索引和编码位图索引。区域位图索引弥补了位图索引不适用范围查找的不足。分段位图索引是目前主流的位图索引技术, 能有效降低索引存储空间的开销,但增加了扫描位图的个数,为了平衡二者之间的矛盾, 可以采用二进制逻辑运算的合并简化操作来实现优化查询的目的。分层位图索引基于签名索引结构,使用分层结构压缩签名效果, 减小它的稀疏性。对以星型模型居多的数据仓库内维表之间的层次关系,可实现在不访问维表记录的情况下,检索出与关键字相匹配的维层次编码, 以取得属性的查询范围,提高检索速度。变体索引: Bit-Wise 索引对数据进行垂直分割, 在位图索引基础上扩充存放了该字段中的不同取值,一列
15、允许多个索引,有LF、HG、HNG 和 FP 四类。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 8 页 - - - - - - - - - 3.3 、连接索引连接索引是一种小而简单的数据结构以实现多表连接操作的功能。能有效利用内存,适应于并行执行;连接索引同其它的数据库操作如选择、合并等兼容;连接索引支持抽象数据类型的连接谓词;连接索引支持多个关系的聚集;连接索引能被应用在有向图的表示和计算递归查询中。变体:连接位图索引。3.4 、散列索引散列(哈希)索引是用一个散列
16、函数把关键字映射到散列表中的特定位置。不按值的顺序或者频率的顺序放置记录,有键值和指针。 一般只有不允许重复关键码值的时候才适用。优点:与B-树相比无需比较,由哈希函数一次即可查询到结果,查询速率较快,但前提是事先需编写好哈希函数。缺点:由于需事先编写哈希函数, 导致开发相对耗时长, 加上哈希函数占用空间多,只能按关键字差找, 哈希表在数据扩展时需重建,不能适应数据变化大的情况。散列函数中最重要的问题是地址冲突问题,也就是不同的关键码值映射到同一地址,从而引起访问冲突。适用范围:适用于静态数据, 不支持范围查询。 能用哈希多表实现多表连接。优化和变体: 当文件不断增长时, 导致链表中出现了许多
17、块, 此时需对块中链表查找, 增加了系统负担, 此时可扩展哈希表无疑是对哈希表的候补,其优势在于当查找一个记录时, 只需要查找一个数据块和一个数组的项。但可扩展哈希表也有缺点, 当数据翻倍时, 它在主存中可能就装不下了,或者把其它的一些需要保存在主存的数据挤出去。网格文件是它的一个变体。下文中将会讲到。3.5 、倒排索引倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录地址。因为不是由记录来确定属性值, 而是由属性值来确定记录的位置, 倒排索引的用处在于快速按关键字查询。查询中倒排索引表现出来了极强的优越性,由于一次查询可以查找出所有包
18、含该单词的文档信息, 所以对于对查询响应时间要求较高的系统,倒排索引的运用也非常广泛。3.6 、基于多维数组索引如果将 OLAP 数据立方体看成是一个具有主键属性的多维数组,其主键就是数组的主轴。 对于稠密的数据立方体, 该数据逻辑视图的理想索引模式可以是一个多维数组,这样对位于任何属性组合上的任何范围的检索都可以很容易地通过对偏移量的计算得到。但是,大多数OLAP 数据并不稠密,因此需要对多维数组进行改进, 在尽可能地保持数组模型的基础上,有效地处理稀疏数据。 当稀名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理
19、- - - - - - - 第 6 页,共 8 页 - - - - - - - - - 疏索引不能完全载入内存时, 则在某一维上检索一定范围数据的查询性能低于对最外部的维查询时转换成多个搜索的性能,从而优化系统性能。3.7 、反转索引数据仓库键值在索引结构中连续时,该索引结构键值分布可能是一边倒的,并使该索引无效。 此时,我们可以在创建索引之前, 将数据顺序反转创建一个反向键索引以便更好地平衡连续值键的分布。优点: 在反向键索引中中, 每个键值的字节的存储与标准索引中的键值相反,可以使数据在索引中有更好的分布,适合平衡索引结构中连续存储键值。缺点:由于要将数值颠倒, 故只能用于执行等值查询,由
20、于连续的行在索引中没有存储在一起, 所以若对反转关键字索引的范围进行查询,就必须读取比传统索引更多的块,进而影响查询效率。3.8 、网格文件网格文件是一种典型的基于哈希的存取方式,其基本思想是根据正交的网格划分 K 维的数据空间。该空间网格用K 个一维数组(刻度)表示,并保存在主存。整个数据空间被所有的边界划分成许多K维的矩形子空间 (网格目录), 并保存在硬盘。 网格目录的每个网格单元对应一个外存页的地址,该地址存储了网格单元内的数据目标(数据页)。一个数据页可存储多个相邻数据网格单元的目标, 当进行精确查询时,首先用这些刻度来定位包含要查找记录单元。优缺点:网格文件查找简单, 查找效率较高
21、, 但适用范围不广, 仅适用于简单查询的目标索引。对于范围查询,需要检查所有与要查询的区域相交的单元,可能影响查询效率。4、论文总结我主要参考中国知网和谷歌学术搜索中关于数据仓库索引技术的相关论文,结合本教材和相关书籍,对数据仓库索引技术进行了介绍,并对其分析对比。通过这次课程作业的学习, 我对于数据仓库中的索引技术有了深刻理解,尤其是位图索引技术, 结合数据库的传统检索技术分析了它的广泛应用。另一方面,我也发现,本专业内部各个专业课程之间的密切联系,比如作一些索引算法在多媒体技术中的应用, 以及树形结构和哈弗曼编码的相似性,在反转检索中和数据结构的排序算法也有一定的相似性。这也说明, 专业无
22、绝对界限, 每一学科之间都可以找到可以效仿之处。我觉得,在相对前瞻的学术中, 个人的想法是相对局限的, 我们应该对相关文档进行全面了解的基础上发展自己的。尤其是在以后的论文写作中, 更应如此。在相关技术应用上应该在原有的基础上使用和研发新型的技术,索引优化用以提高查询效率,其应用将有广阔前景。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 8 页 - - - - - - - - - 【参考文献】1. 王珊等 .数据仓库技术与联机分析处理.北京 :科学出版社, 1998;2
23、. 周丽萍,黄厚宽 .关于数据仓库中编码位图索引的研究.铁路计算机应用,2004;3. P.O.Neil,D.Quass , Improved query Performance with variant indexes , 1997;4. 张闯,数据仓库中的索引技术,2007;5. 李静,数据仓库中位图索引技术的研究,2007;6. 郭峻峰,倪志伟等,一种提高数据仓库查询效率的有效方法,2009;7. 徐建平,胡孔法,数据仓库中一种有效的高维联机分析处理方法,2008. 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 8 页 - - - - - - - - -