2022年数据仓库期末复习总结 .pdf

上传人:Che****ry 文档编号:34866158 上传时间:2022-08-19 格式:PDF 页数:4 大小:34.75KB
返回 下载 相关 举报
2022年数据仓库期末复习总结 .pdf_第1页
第1页 / 共4页
2022年数据仓库期末复习总结 .pdf_第2页
第2页 / 共4页
点击查看更多>>
资源描述

《2022年数据仓库期末复习总结 .pdf》由会员分享,可在线阅读,更多相关《2022年数据仓库期末复习总结 .pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、自然抽取的缺点: 数据缺乏可信性(原因:数据无时间基准,数据算法上的差异,抽取的多层次问题,外部数据问题,无公共起始数据源); 生产率低下 (多个数据来源导致数据定位复杂,数据处理过程复杂) ; 无法将数据转换为信息(面临众多未集成的遗留系统,没有存储足够的能够满足DSS 分析员需求的历史数据)多重粒度:图幅的比例尺大小,投影方式, 数据采集的精度,数据的时间空空间分辨力,系统功能等来合理划分不同的粒度。确定粒度的级别: 合理推测粒度级别。预测不同结构体系的需求。数据仓库与OLAP :OLAP 应用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总,用联机分析和可视化工具对这些数据迅速地

2、进行评价。数据挖掘:数据挖掘: 从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。常用的数据挖掘的方法:大多属于数学统计方法或人工智能中的机器学习算法以及人工神经网络/遗传算法:概念/类 描述,关联规则挖掘,序列模式分析,分类分析,聚类分析,异常点检测Apriori算法有两个性能瓶颈: 多次扫描事物数据库,需要很大的I/O 负载。可能产生庞大的候选集。对象间距离的计算: 明可夫斯基距离。二次型距离。余弦距离。二元特征样本的距离度量。聚类分析的算法:划分法、层次法、密度法、网格法、模型法OLAP 特性:快速性、可分析性、多维性、信息性不用审计的原因: 原先在数据仓库中

3、没有的数据会突然出现。 当需要审计能力时,数据进入数据仓库的时间标定过程会发生急剧变化。当需要审计能力时,数据仓库的备份和恢复限制会发生急剧变化。在仓库中审计数据会使仓库中数据的粒度处于最低级别上。原始数据与导出数据的区别:原始数据 /操作型数据:面向应用,详细的,在访问瞬间是准确的,为日常工作服务,可更新,重复运行,处理需求预先可知,生命周期符合SDLC,对性能要求高,一次访问一个单元,事物处理驱动, 就操作性数据更新责任来说更新控制是一个主要关心的问题,高可用性,整体管理,非冗余性,静态结构可变的内容,一次处理的数据量小,支持日常操作,访问频繁导出数据 /DSS 型数据:面向主题,概要的或

4、精化的,代表过去的数据和快照,为管理者服务,不更新,启发式运行,处理需求事先不知道,完全不同的生命周期,对性能要求宽松,一次访问一个集合,分析处理驱动,无更新控制问题,宽松的可用性要求,以子集管理,总是存在冗余,结构灵活,一次处理数据量大,支持管理需求,访问很少或不多数据集市与数据仓库的关系:数据仓库: 一个面向主题的,集成的,非易失的,随时间变化的用来支持决策人员决策的数据集合。数据集市:为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据。关系: 所以数据集市的结构都依赖于数据仓库中粒度化的数据。 数据集结构一般是星精选学习资料 - - - - - - - - - 名师归纳总结

5、 - - - - - - -第 1 页,共 4 页型模型并且包含事实表和维度表。任何数据集市的数据结构与其他数据集市的都不同。 试图将任何一个数据集市转变为数据仓库都不具有意义。数据如何从数据仓库到达数据集市?周期性的转移; 对于数据仓库中的数据,必须经过选择、 访问、重组才能适合数据集市的要求;对于数据仓库中的大量细节数据需要进行多种不同的计算;重要问题在于: 访问多少数据和刷新频率。LOTP 与 LOAP 的区别:随着数据库系统的广泛应用,数据库系统记录和处理的数据越来越多,及时地记录和处理企业的各种业务数据,这些系统称为联机事务处理(OLTP)系统。数据库技术的广泛应用和技术的发展,人们

6、已经不再满足于仅仅用数据库系统来记录企业的业务活动数据和对数据的简单处理,人们需要对企业活动的数据进行各种分析,以便发现企业业务趋势,这些系统称为联机分析处理(OLAP )系统。区别:OLTP:数据库原始操作,细节性数据,当前数据,经常性更新数据,一次性处理的数据量少,对相应时间要求高,用户量大,面向操作人员支持日常操作,面向应用事物驱动OLAP :数据库导出数据或数据仓库数据,综合性数据,历史性数据,不可更新但可周期性刷新数据,一次性处理的数据量多,相应时间合理,用户量少,面向决策人员支持管理需要,面向分析分析驱动空间数据仓库:空间数据仓库(SDM )是集成的、面向主题的、相对稳定的、反映时

7、间变化和地理空间变化的空间数据存储,以支持各级管理人员基于空间数据的分析和决策。关键技术: 支持空间信息的空间数据仓库模型的研究。 面向海量空间信息的数据存储策略。 支持空间数据导航的元数据机制。 面向海量信息高效检索的空间索引机制。联机分析处理OLAP 技术。数据仓库建设时的逆规范化:数据模型处理的输出是一系列表,每个表包含关键字和属性。设计生产的许多小表进行连接运算,会造成I/O 性能的急剧下降。较合理的方法是将这些表物理合并,使得I/O 代价最小化。手段:创建数据数组。引入冗余数据。当数据访问频率相差悬殊时,将数据作进一步分离。引入导出数据减少I/O 代价。建立创造性索引或创造性概要文件

8、。参照完整性管理。星型模型与雪花模型的比较: 星型模型通过预连接和建立有选择的数据冗余,为用户的访问和分析过程大大简化了数据。星型模型效率比较高,因为雪花模型维表层次多,查询时连接操作较多。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但这种方式可以使系统进一步专业化和实用化,同时降低了系统的通用程度。雪花模型的维表可能是规范化形式,以便减少冗余,易于维护,节省存储空间。选择建议: 星型模型结果效率上优于雪花模型,首选星型模型。 如果存储空间上存在瓶颈,可考虑雪花模型。如果维护方面要求简便性,可考虑雪花模型。位图索引:位图是一个按序列排列的点阵,每个点对应索引列的不同取值。位图索

9、引支持低可选择性的查询。相比B 树,占用存储空间更少。如果有新值加入,位图索引必需重新构建。在访问位图索引之后总是要访问数据表。优势:如果将位图组织为向量组,可以不必加载整个位图,而只获取与查询相关的向量的磁盘页。可以非常高效的使用布尔运算符。Web数据挖掘的定义及特点:Web 数据挖掘是从大量的Web 文件的集合中发现有用的信息和模式。特点:Web 数据挖掘的对象是海量的、分散的。动态地Web 文件。Web 在逻辑上是由文件结点和超链接构成的网络,因此Web 数据挖掘的模式可能是关于内容的、结构的或使用的。异构的数据环境。Web页面的复杂性远比任何传统的文本文档复杂得多。Web 上的每一个站

10、点就是一个数据源,每个数据源都是异构的,各自的信息和组织不一样,精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 4 页构成了一个巨大的异构数据环境。 Web 文件是半结构化或无结构的。每一个站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性,没有特定的模型描述。需要研究统一的语义模型, 并解决半结构化或无结构化的数据的抽取技术。 Web 上的信息只有很小一部分是相关或有用的。事实上,一个人只关心Web 上的很少一部分信息。所以其他信息对用户来说是不感兴趣的,而且这些冗余信息的存在可能会淹没用户所希望得到的搜索结果。K-mean

11、s算法:优点: 是解决聚类问题的一种经典算法,简单快速。对处理大量数据集,该算法是相对可伸缩和高效率的。当结果簇是密集的,它的效果较好。缺点: 在簇的平均值被定义的情况下才能使用,可能不适用与某些应用。 必须实现给出 K,而且对初值敏感。对于不同的初始值,可能会导致不同的结果。不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于噪声和孤立点的数据是敏感的。层次聚类算法 : 优点:可以在不同粒度水平上对数据进行探测,而且容易实现相似度量或距离度量。缺点: 单纯的层次聚类算法终止条件模糊,而且执行合并或分裂簇的操作后不可修正,这很可能导致聚类结果质量很低。由于需要检查和估量大量的对象或簇才

12、能决定簇的合并和分裂,所以这种方法的可扩展性较差。通常考虑把层次聚类算法与其他办法相结合来解决实际聚类问题。元数据:元数据描述数据集管理数据的环境,担任数据仓库的数据组织工作。元数据常常被定义为 “关于数据的数据” 。元数据使最终用户或DSS 分析员能够探索各种可能性。元数据与指向数据仓库的索引相似,处于数据仓库的上层,并且记录数据仓库中对象的位置。存储的记录: 程序员及DSS 分析员所知的数据结构。 数据仓库的元数据。 数据进入数据仓库时进行的转换。数据模型。数据模型与数据仓库的关系。抽取数据的历史记录。内容: 元数据在数据仓库环境主要包括以下方面。表结构、表属性、源数据、记录到数据仓库的映

13、射、数据模型说明、抽取日志、访问数据的公用例行程序、数据的定义/描述、数据单元之间的关系。可分为业务元数据与义务元数据二类。作用: 描述什么在数据仓库中。制作系统设计文档。 测量数据品质。 监视数据同步操作。 规定什么样的数据进入和离开数据仓库。 根据事件时间表安排数据抽取和监视导入工作。 绘制由源系统数据转换为数据仓库数据的映射图。 选择不同级别的数据综合算法。角色: 在操作型环境中,元数据几乎是事后补记,并归入到与文档相同的重要性级别。而数据仓库环境中元数据重要性提高。二种环境中元数据服务于不同的群体。操作型服务于 IT 人员,数据仓库服务于DSS 分析人员。元数据涉及到对二种环境数据的映

14、射管理。数据仓库环境中的元数据需要随时间变化追踪数据结构的变化。收集: 来源于源系统、抽取的数据、转换和清理的数据、装载的数据、存储的数据、信息传递。维护:元数据的存储、管理和维护。多维 DBMS与数据仓库的区别:多维数据库管理系统提供了一种信息系统结构,这种结构可以使企业灵活地对数据进行访问,可以用多种方法对数据进行切片、分块,动态地考虑汇总数据和细节数据之间的关系。数据仓库中的细节数据为多维DBMS 提供了稳健方便的数据源。区别: 多维 DBMS 数据量比数据仓库少了一个数量级。数据仓库只适合少量灵活访问, 多维 DBMS 适合大量不可预知的访问和分析。 数据仓库存储很长时间范围内的数据,

15、多维 DBMS 存储较短时间范围内的数据, 数据仓库只允许分析人员以受限的形式访问数据,而多维DBMS 允许自由访问。多维 DBMS 与数据仓库有着互补的关系:数据仓库可以存储非常细节的数据,而多维DBMS 中往往会对细节数据进行轻度综合,DSS 分析员可以同时获取这二种数据;汇总信息在多维DBMS 中计算和聚集后存储在数据仓库中。多维 DBMS可建立在两种基础之上:关系模型和能优化“切片和切块”数据的立方体。关系模型优点: 能支持大量数据。支持数据动态连接。已被证实是有效的技术。能够支持通用的数据更新处理。缺点: 性能上不是最佳。 不能够对访问处理进行优化。立方体优点: 对 DSS 处理在性

16、能上是最优的。 对数据快速访问进行优化。 如已知数据访问模式, 则数据的结构可以优化。 能够很轻松地进行切片和分块。 可以用很多精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 4 页途径进行检测。缺点:无法处理标准关系模式那么多的数据。不支持通用更新处理。 装载时间长。数据结构设计未考虑访问路径,结构不灵活。数据动态连接不足。数据仓库是多维DBMS 的基础, 如果多维DBMS 直接从相同的应用中获取数据,将会遇到如下问题: 抽取数据巨大的开发量。抽取数据时没有数据的集成基础。维护工作量巨大。硬件资源耗费大。无法对元数据进行有效管理。缺乏

17、数据的一致性。每次构建一个新的多维DBMS 环境工作量大。ROLAP与 MOLAP比较:ROLAP (关系OLAP ) :ROLAP 将分析利用的多维数据存储在关系数据库中并根据应用的需要有选择地定义一批物化视图作为表也存储在关系数据库中。ROLAP 针对关系型数据库的应用允许其利用已有的数据库资源,并且允许 ROLAP 应用程序很好地伸缩。 然而,ROLAP使用表存储合计则要求比MOLAP更多的磁盘空间,速度相对较慢。MOLAP (多维OLAP ) :MOLAP表示基于多维数据组织的OLAP 实现。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立

18、方体”的结构,在MOLAP中队“立方体”的“旋转”、 “切块”、 “切片”是产生多维数据报表的主要技术。比较: 在 MOLAP中,不但把多维实现图在概念上看成一个超立方体,而且在物理上把多维实现图组成一个多维数组,而不像 ROLAP 以表的形式存储实例图。 在 MOLAP中,维的属性值被映射成多维数组的下标值或下标的范围,而总数据作为多维数组的值存储在数据的单元中。ROLAP在节省存储空间、灵活性、与关系数据库保持一致性等方面有明显的优势; MOLAP则在性能和管理的简洁性方面尤其优点。MOLAP的查询速度快,但有如下限制: 用多维数组实现多维实体图,需要很大的存储空间;在多维数组中,很可能有些单元是空白的;MOLAP与关系数据库系统从存储结构到查询语言都有相当大的差别,不可能在RDBMS 的基础上实现。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 4 页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁