数据仓库中的粒度.ppt

上传人:wuy****n92 文档编号:73405769 上传时间:2023-02-18 格式:PPT 页数:26 大小:932.50KB
返回 下载 相关 举报
数据仓库中的粒度.ppt_第1页
第1页 / 共26页
数据仓库中的粒度.ppt_第2页
第2页 / 共26页
点击查看更多>>
资源描述

《数据仓库中的粒度.ppt》由会员分享,可在线阅读,更多相关《数据仓库中的粒度.ppt(26页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第四章 数据仓库中的粒度SZ1516029_李航摘要:4.1 粗略估算4.2 规划过程的输入4.3 溢出存储器中的数据4.4 确定粒度级别4.5 一些反馈循环技巧4.6 确定力度级别的几个例子4.7 填充数据集市4.8 小结4.1 粗略估算粒度:粒度是数据仓库中数据单元的细节程度或综合程度的级别。粒度与细节程度的关系:粒度级别越高,细节程度越低,反之,粒度级别越低,细节程度越高。粒度细节级别分为:早期细节级,当前细节级,轻度细节级和高度细节级。确定数据仓库中数据的恰当粒度是数据仓库开发者需要面对的一个重要设计问题。如果数据仓库的粒度确定的合理,设计和实现中的其余方面就可以进行的非常舒畅;相反,

2、如果粒度确定的不合理,就会使得所有方面都难以进行。粒度的主要问题是使其处于合适的级别,粒度级别既不能太高也不能太低。粗略的数据估计确定适当的粒度级别所要做的第一件事就是对数据仓库中将来的数据进行数据行数和所要的DASD(直接存取存储设备)数进行粗略估算。这仅仅是数量级的估计。图4-1给出了一个计算数据仓库占用空间的方法路径。第一步是确定数据仓库中将要创建的所有表。然后估计每张表的大小,估计一个上届一个下届足矣。接下来,估计一年内表中可能的最少行数和最多行数。估计一年内数据仓库中数据单元的数量后,重复用同样方法对五年内的数据进行估计。图4-1 空间行计算计算索引数据空间粗略数据估计完成之后,还要

3、计算一下索引数据占据的空间。确定每张表的关键字或数据元素的长度,并弄清楚是否原始表中的每条记录都存在关键字。索引数据所占空间=索引数目*关键字长度最终数据总量=索引数据占据的空间+粗略数据估算的空间需要注意的是,对数据仓库大小的估计预测几乎总是偏低,而且,数据仓库的增长速率一本比预测的还要快。4.2 规划过程的输入估计出的行数和DASD数就成了规划过程的输入。进行估计时,结果只要达到数量级就行了,更精确的准确度只不过是浪费时间。如图4-24.3溢出存储器中的数据对数据仓库大小估计的粗略估计完成后,需要根据数据仓库环境中将具有的总行数的多少,对比图4-3,采取不同的设计,开发以及存储方法。对于五

4、年期,总行数将大致变了一个数量级或更多。经推测,五年后可能出现如下因素:1.在管理数据仓库中大量数据时,将有更多的专门的技术2.硬件费用将会有所下降3.将可以使用功能跟加强大的软件工具4.最终用户将更加专业化图4-3 将数据仓库环境中的总行数与本表进行对照溢出存储器数据仓库中数据正以IT专业人员前所未见的速率增长。历史数据与细节数据的结合造成了这种显著的增长速率。在数据仓库出现之前,“万亿字节”和“千万亿字节”这些字眼还只运用于理论中。随着数据不断增长,经常使用的数据与不经常使用的数据出现了自然分化。不经常使用的数据,我们称它们为睡眠数据或不活跃数据。分离这部分数据,并将它们存储到另一种存储介

5、质上去是有非常意义的。数据仓库中经常使用的数据仍留在高性能的磁盘存储器中,而将不经常使用的数据转移到海量存储器或近线存储器中。将数据存在海量备用存储器或近线存储器中比存储在磁盘存储器中要便宜的多,而且,数据存储在海量备用存储器或近线存储器中并不是说不能访问了。海量备用存储器和近线存储器中存储的数据与磁盘中存储的数据一样可以访问。这样做可以大大提高整个环境的性能。为了能在整个系统范围内访问数据,并为了能将不同的数据存放在存储器的合适位置点上,要求能为海量备用存储器/近线存储器提供软件支持。如图4-4:图4-4 使用海量溢出存储器要有相应的软件支持有效的使用海量备用存储器/近线存储器至少需要具备三

6、个软件组成部分:监控仓库数据的使用 跨介质存储管理器 近线/海量备用存储器直接访问与分析 溢出存储器要正常发挥作用也至少需要前两个软件支持存放不常用的数据的溢出存储器是数据仓库的一个重要组成部分,对粒度有很大影响。如果没有这种存储器,设计者必须将粒度级别调整到磁盘技术的容量和预算允许的水平。有了溢出存储器,设计者可以放手建立想要的低粒度级别。为了提高性能,降低查询代价,强力建议数据体系结构设计人员要保证存储于海量备用存储器中的数据不被经常访问。有几种方法保证不经常访问存储于海量备用存储器的数据。一种简单的方法是当数据达到一段时间(如24个月)才将它们存放到海量备用存储器中。另一种方法是将某些类

7、型的数据存储在海量备用存储器中,而将其他类型的数据存储于磁盘存储器中。4.4 确定粒度的级别确定粒度的级别,有事需要一些常识和直觉。在很低的粒度级别上建立基于磁盘的数据仓库是没有意义,因为处理这些数据需要太多的资源。而在太高的粒度级别上建立基于磁盘的数据仓库,则意味着许多分析必须依靠溢出存储器中的数据进行。因此,确定适当的粒度级别要做的第一件事就是进行一次合理的推测。对于轻度综合的数据,为了确定合适的粒度级别,唯一可行的方法是将数据放到最终用户的面前。只有当最终用户看到了数据之后,才能做出确定的回答。图4-6说明了必须进行的反馈循环。图4-6 最终用户态度:“既然我已经看到我能够做些什么,我可

8、以告诉你什么才是真正有用的”4.6 一些反馈循环技巧可以使用以下的一些技巧使反馈循环和谐的进行:n以几个很小、很快的步骤建立数据仓库最初的几个部分,开发过程的每个步骤结束时,都要仔细聆听最终用户的意见,并准备随时做出快速的调整。n如果可能,使用原型并且利用从原型中收集的观察资料使反馈循环发挥作用。n看看别人是怎样确定他们的粒度级别的,学习他们的经验。n与对当前过程很了解,有经验的用户一起将反馈过程走一遍。无论如何,都要让你的用户看清楚反馈循环的动态过程。n看看企业中那些具有意义的东西,并将那些功能需求作为参考。n进行联合应用程序设计(JAD)会议,并模拟输出结果以获得理想的反馈。可以用许多方法

9、来提高数据的粒度,如下几条方法:n当源数据被放入数据仓库时,对它进行汇总。n当源数据被放入数据仓库时,对它求平均或进行计算。n把最大/最小的一组值放入数据仓库。n用条件逻辑仅选取记录的一个子集放入数据仓库。数据粒度太高时要进行分解,而粒度太低时要进行数据的编辑和聚集处理4.6 确定粒度级别的例子银行环境中的双重粒度1银行环境中的双重粒度2 制造业环境中的双重粒度保险环境中的双重粒度4.7 填充数据集市 选择数据仓库中的数据粒度的另一个重要的考虑因素是理解数据集市将会需要的数据粒度。填充数据集市是数据仓库的工作。不同的数据集市需要不同地看待数据。数据集市看待数据的方式之一就是通过数据粒度。存在于

10、数据仓库中的数据粒度必须是任何数据集市所需要的数据中的最小粒度。换句话说,为了合适地填充所有的数据集市,数据仓库中的数据必须在一个所有数据集市所需要的最低的粒度水平上。4.8 小结 为体系结构化环境选择一个适当粒度级别是成功的关键。选择粒度级别的一般方法是利用常识。首先建立数据仓库的一小部分,并让用户访问这些数据。然后仔细聆听用户的意见,根据他们的反馈意见对粒度级别做适当的调整(反馈循环)。粒度设计的过程始于对数据仓库在一年时间和五年时间内所能达到的大小的一个粗略估测。一旦这个粗略估测完成之后,设计者就可以知道粒度应该细到什么程度。此外,利用这个估测还可以得出是否需要考虑使用溢出存储器。数据仓

11、库环境中有一个非常重要的反馈循环。建造数据仓库的第一次循环设计完成后,数据体系结构设计人员认真聆听最终用户的反馈意见,并根据这些意见作出调整。要考虑的另一个重要问题是需要从数据仓库中获取数据的不同体系结构实体所需的粒度级别。当数据转移到溢出存储器时,即从磁盘转移到海量备用存储器时,粒度可以与期望的一样低。如果不使用溢出存储器,当存在大量的数据时,设计人员对粒度级别的选择就会受到约束。问题1 数据仓库的四大基本特征?问题2 数据仓库与数据仓库的区别?问题3 粒度的定义?他对数据仓库有什么影响?问题4 数据仓库中,粒度从小到大可分为哪四个级别?1.面向主题,集成的,不可更新的,随时间变化的。2.数据仓库与数据库区别:简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计。3.粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。4.早期细节级,当前细节级,轻度细节级和高度细节级。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁