《数据仓库开发模型ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据仓库开发模型ppt课件.ppt(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章第二章 数据仓库开发模型数据仓库开发模型v 在创建数据仓库之时,需要使用各种数据模型对在创建数据仓库之时,需要使用各种数据模型对数据仓库进行描述。数据仓库进行描述。v 数据仓库的开发人员依据这些数据模型,才能开数据仓库的开发人员依据这些数据模型,才能开发出一个满足用户需求的数据仓库。发出一个满足用户需求的数据仓库。v 使开发人员能够将注意力集中在数据仓库开发的使开发人员能够将注意力集中在数据仓库开发的主要部分。主要部分。v 模型有更好的适应性,更易于修改。模型有更好的适应性,更易于修改。v 当用户的需求改变时,仅对模型做出相应的变化当用户的需求改变时,仅对模型做出相应的变化就能反映这个改
2、变。就能反映这个改变。 v2.1数据仓库开发模型数据仓库开发模型 v2.2数据仓库概念模型数据仓库概念模型v2.3数据仓库逻辑模型数据仓库逻辑模型 v2.4数据仓库的物理模型数据仓库的物理模型 v2.5数据仓库的元数据模型数据仓库的元数据模型 v2.6数据仓库的粒度和聚集模型数据仓库的粒度和聚集模型 目目 录录2.1 数据仓库开发模型数据仓库开发模型v模型是对现实世界进行抽象的工具。模型是对现实世界进行抽象的工具。v在信息管理中需要将现实世界的事物及其有关特征在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,转换为信息世界的数据才能对信息进行处理与管理,
3、这就需要依靠数据模型作为这种转换的桥梁。这就需要依靠数据模型作为这种转换的桥梁。v这种转换一般需要经历从现实到概念模型,从概念这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过模型到逻辑模型,从逻辑模型到物理模型的转换过程。程。 概念模型概念模型逻辑模型逻辑模型物理模型物理模型数据仓库的开发过程 概念模型概念模型逻辑模型逻辑模型物理模型物理模型现实世界现实世界第一级抽象第一级抽象第二级抽象第二级抽象第三级抽象第三级抽象现实世界现实世界概念世界概念世界逻辑世界逻辑世界计算机世界计算机世界信用信用特性特性属性属性列(字段、列(字段、数据项)数据项)张三张三个体
4、个体实体实体记录记录客户客户整体整体同质总体同质总体表文件表文件客户与产品客户与产品整体间联系整体间联系异质总体异质总体数据库数据库v 四个世界三级抽象四个世界三级抽象v 数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂程中实现的。作为数据仓库的灵魂元数据模型则自始至终伴随着元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚集模型也在数据仓库的数据仓库的开发、实施与使用。数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。创建中发挥着指导的作用,指
5、导着数据仓库的具体实现。现实世界现实世界概念模型概念模型逻辑模型逻辑模型物理模型物理模型数据仓库数据仓库元数据模型元数据模型数据数据粒度粒度和聚和聚集模集模型型v 数据仓库的数据模型数据仓库的数据模型2.2 数据仓库概念模型数据仓库概念模型财务部门财务部门销售收入账应收账应付账成本账销售部门销售部门销售计划销售合同销售统计人事部门人事部门员工业绩记录员工技能情况员工薪酬表企业数据模型企业数据模型销售部门销售部门人事部门人事部门财务部门财务部门企业数据模型2.2.1 2.2.1 概念数据模型概念数据模型v 数据仓库概念模型的设计可以使用业务数数据仓库概念模型的设计可以使用业务数据处理系统中的据处
6、理系统中的E-R图,但两者有一些差距。图,但两者有一些差距。 数据仓库的数据模型中不包含操作型的数据,数据仓库的数据模型只包含用户所感兴趣的分析数据、描述数据和细节数据。 数据仓库的数据模型扩充了关键字结构,增加了时间属性作为关键字的一部分。 数据仓库的数据模型中还增加了一些由基本数据所导出的衍生数据,这些导出的衍生数据主要用于对企业的管理决策进行分析 。2.2.1 2.2.1 概念数据模型概念数据模型2.2.1 2.2.1 概念数据模型概念数据模型v数据传统的数据传统的E-R图不能直接用于数据仓库的概念图不能直接用于数据仓库的概念模型的设计,只能对其中的元素作修改后使用。模型的设计,只能对其
7、中的元素作修改后使用。v将实体分成:将实体分成:指标实体(事实实体)、维度实体指标实体(事实实体)、维度实体和详细类别实体(引用实体)。和详细类别实体(引用实体)。指标实体(事实实体)指标实体名指标实体名维度实体维度实体名名详细类别详细类别实体名实体名维度实体详细类别实体(引用实体) 现实世界中的业务处理或某一事件的逻辑表示。是数据仓现实世界中的业务处理或某一事件的逻辑表示。是数据仓库中的实体表。对指标实体数据的管理是数据仓库管理的重点库中的实体表。对指标实体数据的管理是数据仓库管理的重点。可以形成一个维度体系,具备访问和过滤指标实体的能力。可以形成一个维度体系,具备访问和过滤指标实体的能力。
8、是数据仓库中的较小的表。是数据仓库中的较小的表。与现实世界中的某一个实体相对应。它具有终止操作与现实世界中的某一个实体相对应。它具有终止操作的作用。的作用。v 用户通过维度实体得到指标实体数据,而在操作到详细类别实体时停用户通过维度实体得到指标实体数据,而在操作到详细类别实体时停止操作。止操作。 长期的框架长期的框架 静态静态 数据通常是汇总的数据通常是汇总的 特殊查询访问特殊查询访问 定期更新定期更新 数据驱动数据驱动短期的框架短期的框架快速变化快速变化记录级的访问记录级的访问标准查询访问标准查询访问实时更新实时更新事件驱动事件驱动2.2.2 2.2.2 规范的数据模型规范的数据模型v 第一
9、范式、第二范式、第三范式数据仓库的反规范化处第一范式、第二范式、第三范式数据仓库的反规范化处理,将小表合并,以减少多表查询时的表的连接操作。理,将小表合并,以减少多表查询时的表的连接操作。2.2.2 2.2.2 规范的数据模型规范的数据模型v数据仓库中的各个实体不是对等的,在建立实数据仓库中的各个实体不是对等的,在建立实体时,需要根据载入数据实体的数据量来考虑体时,需要根据载入数据实体的数据量来考虑数据仓库中数据的结构设计数据仓库中数据的结构设计。2.2.3 2.2.3 星型模型星型模型事实表事实表维度表维度表维度表维度表维度表维度表维度表维度表维度表维度表v 星型模型是最常用的数据仓库设计结
10、构的实现模式。使数据星型模型是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统,为用户提供分析服务对象。仓库形成了一个集成系统,为用户提供分析服务对象。 v 核心是事实表,围绕事实表的是维度表。通过事实表将各种核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。不同的维度表连接起来,各个维度表都连接到中央事实表。2.2.3 2.2.3 星型模型星型模型v事实表:包含主题。维度表:包含事实的非正规化事实表:包含主题。维度表:包含事实的非正规化描述。描述。v星型模型可以采用关系型数据库结构。维度表中的星型模型可以采用关系型数据库结
11、构。维度表中的对象通过事实表与另一维度表中的对象相关。通过对象通过事实表与另一维度表中的对象相关。通过事实表将多个维度表进行关联,就能建立各个维度事实表将多个维度表进行关联,就能建立各个维度表对象之间的联系。表对象之间的联系。v每一个维度表通过一个主键与事实表进行连接。维每一个维度表通过一个主键与事实表进行连接。维度表利用维度关键字通过事实表中的外键约束于事度表利用维度关键字通过事实表中的外键约束于事实表中的某一行。事实表中的外键不得为空。实表中的某一行。事实表中的外键不得为空。2.2.4 2.2.4 雪花模型雪花模型事实表事实表维度表维度表维度表维度表维度表维度表维度表维度表维度表维度表详细
12、类别表详细类别表详细类别表详细类别表v 星雪花模型是对星型模型的扩展,每一个维度都可以向外连接到多个详星雪花模型是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别表。细类别表。v 雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。行了规范化处理。 2.3 数据仓库逻辑模型数据仓库逻辑模型v 逻辑模型亦称为中间层数据模型,它是对高层概念模型的逻辑模型亦称为中间层数据模型,它是对高层概念模型的细分,在高层模型中所标识的每个主题域或指标实体都需细分,在高层模型中所标识的每个主题域或指标实体都需要与一个逻
13、辑模型相对应。要与一个逻辑模型相对应。中层逻辑模型中层逻辑模型高层逻辑模型高层逻辑模型中层逻辑模型中层逻辑模型高层概念模型与中层逻辑模型的对应关系逻辑模型的基本结构基本基本数据组数据组二级二级数据组数据组联接联接数据组数据组超类型超类型子类型子类型类型类型数据组数据组存有唯一的主要主题域,包含只出现一次属性存有唯一的主要主题域,包含只出现一次属性和键。和键。存有可以存在多次的属性。存有可以存在多次的属性。用于本组主要主题域与其他主要主题域之间的用于本组主要主题域与其他主要主题域之间的联系。它往往是一个主题的公共码主键。联系。它往往是一个主题的公共码主键。数据的类型。由不同数据组组成。一般可以分
14、数据的类型。由不同数据组组成。一般可以分为超类型数据组合子类型数据组。为超类型数据组合子类型数据组。v 除联接数据组外的三种数据组的划分都基于数据的不同稳定除联接数据组外的三种数据组的划分都基于数据的不同稳定性。基本数据组的稳定性大于二级数据组,而二级数据组的性。基本数据组的稳定性大于二级数据组,而二级数据组的稳定性大于类型数据组。稳定性大于类型数据组。信息反馈信息反馈贵宾卡贵宾卡账号账号姓名姓名客户类型客户类型初次交易时间初次交易时间账号账号省省市市县县街道街道邮政编码邮政编码账号账号现金交易额现金交易额信用交易额信用交易额账号账号商品编号商品编号时间时间交易量交易量账号账号最大信用额最大信
15、用额最近信用发生时间最近信用发生时间账号账号记录人记录人反馈类型反馈类型反馈时间反馈时间账号账号服务种类服务种类时间时间服务费用服务费用信用交易信用交易客户编号客户编号交易记录交易记录信用状况信用状况商品交易商品交易服务交易服务交易签字签字现金交易现金交易 账号账号交易额交易额信用额信用额信用时间信用时间 某超市企业用户的逻辑模型2.3.1 2.3.1 事实表模型设计事实表模型设计包含数据仓库中的大量的基本业务详细信息包含数据仓库中的大量的基本业务详细信息。客户事实表客户事实表v客户基本情况表(账号客户基本情况表(账号Integer9,姓名,姓名Character12,出生地,出生地Chara
16、cter20,初次交易时间初次交易时间Date,)v客户变动情况表(账号客户变动情况表(账号Integer9,省,省Character20,县,县Character20,街道,街道Character20,邮政编码,邮政编码Character6, )事实表中一般包含两部分,一是由主键和外键所组成的键部分,另事实表中一般包含两部分,一是由主键和外键所组成的键部分,另一是用户希望在数据仓库中所了解的数值指标,称为事实或指标。一是用户希望在数据仓库中所了解的数值指标,称为事实或指标。事实表中的事实有两种:基本事实和派生事实。事实表中的事实有两种:基本事实和派生事实。派生事实主要有两种,一是可以用同一事
17、实表中其他事实计算得到,派生事实主要有两种,一是可以用同一事实表中其他事实计算得到,一般不保留在事实表中;还有一类派生事实是非加法性事实,一般一般不保留在事实表中;还有一类派生事实是非加法性事实,一般要将它转移到维度表中。要将它转移到维度表中。2.3.2 2.3.2 维模型设计维模型设计把参考事实表的数据放置把参考事实表的数据放置在一个单独的表中。最常用的维度表数据应该直接在一个单独的表中。最常用的维度表数据应该直接参考事实表,而不是通过其他维度表间接参考事实参考事实表,而不是通过其他维度表间接参考事实表。表。时间维度表(年时间维度表(年Date,月,月Date,日,日Date)地点维度表(省
18、地点维度表(省Character20,市,市Character20,县,县Character20,街道,街道Character20)2.4 数据仓库的物理模型数据仓库的物理模型2.4.1 2.4.1 数据仓库物理模型的存储结构数据仓库物理模型的存储结构并行存储结构并行存储结构RAID ( Redundant Array of Inexpensive Disk,廉价冗余磁盘阵列,廉价冗余磁盘阵列)。主要采用以下技术:。主要采用以下技术:v 磁盘镜像磁盘镜像v 磁盘复制磁盘复制v 奇偶校验奇偶校验v 磁盘分段磁盘分段RAID实现原理:将数据写入多张磁盘中,如果一张磁盘实现原理:将数据写入多张磁盘中
19、,如果一张磁盘发生故障,可以从其他存放冗余数据的磁盘上访问数据。发生故障,可以从其他存放冗余数据的磁盘上访问数据。0男男北京市北京市011女女江苏省江苏省001女女北京市北京市010男男山东省山东省001女女北京市北京市010男男上海市上海市100男男江苏省江苏省001女女上海市上海市101女女北京市北京市010男男浙江省浙江省001女女广东省广东省002.4.2 2.4.2 数据仓库物理模型的索引构建数据仓库物理模型的索引构建2.4.2 2.4.2 数据仓库物理模型的索引构建数据仓库物理模型的索引构建v 确定某些统计可以通过索引进行,而不需读取数据记录本身。如统计女性客户数。v 检索满足某种
20、条件记录时,可以通过索引筛选出满足条件的记录,再读取相应的数据记录,而不需读取不满足条件的记录。v 对于值域大于2的列,需要为每个值建索引。若上海市索引及北京市索引。v 一般考虑基数较低的列为其建位图索引。有些列是无法建位图索引的。如身份证列。v 可以对位图索引使用布尔运算,来实现更为复杂的选择条件。01100000100111100000011111010000000101110111100000000102.4.2 2.4.2 数据仓库物理模型的索引构建数据仓库物理模型的索引构建2.4.2 2.4.2 数据仓库物理模型的索引构建数据仓库物理模型的索引构建v 广义索引是指在向数据仓库中装载数
21、据时,根据用户的需广义索引是指在向数据仓库中装载数据时,根据用户的需要建立的索引。要建立的索引。v 广义索引的内容一般包含用户最关心、最常使用的问题。广义索引的内容一般包含用户最关心、最常使用的问题。如有关销售事实的商品总量、销售总金额等。如有关销售事实的商品总量、销售总金额等。v 每次向数据仓库装载数据时,就重新生成广义索引的内容。每次向数据仓库装载数据时,就重新生成广义索引的内容。v 广义索引一般以元数据方式存放。广义索引一般以元数据方式存放。2.4.2 2.4.2 数据仓库物理模型的索引构建数据仓库物理模型的索引构建v 连接索引是将事实表和维表中的索引项进行连接运算后,连接索引是将事实表
22、和维表中的索引项进行连接运算后,将结果作为索引保留下来。当需要将事实表和维表进行连将结果作为索引保留下来。当需要将事实表和维表进行连接运算时,可以直接利用连接索引进行连接运算。接运算时,可以直接利用连接索引进行连接运算。v 连接索引可以根据需要设立,不一定对全部外键设立。连接索引可以根据需要设立,不一定对全部外键设立。连接索引连接索引Aagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idagelevel_id time_idgeo_idprodu_idamou_moneagelevel_id time_id
23、year_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idamou_moneagelevel_id time_idgeo_idprodu_id全连接结果全连接结果time_idgeo_id连接索引连接索引B连接索引图2.4.2 2.4.2 数据仓库物理模型的索引构建数据仓库物理模型的索引构建4.4. v 主键必须建立索引。主键必须建立索引。v 不要求必须对外键设置连接索引,但如果表很大,数据很不要求必须对外键设置连接索引,但如果表很大,数据很多,外键应该设置连接索引。多,外键应该设置连接索引。v 在对数据仓库使用在对数据仓库使用SQLSQL语句操作
24、时,语句操作时,WHEREWHERE字句中所指定的字句中所指定的列可以考虑为其建立索引。但要考虑其基数。列可以考虑为其建立索引。但要考虑其基数。2.4.3 2.4.3 数据仓库物理模型的优化问题数据仓库物理模型的优化问题合并表:当对涉及几个表的某些列的查询具有固定性时,可以将这些合并表:当对涉及几个表的某些列的查询具有固定性时,可以将这些表的记录合并起来以减少连接操作的代价。表的记录合并起来以减少连接操作的代价。建立数据序列:当按照某一固定的顺序访问并处理一组数据记录时,建立数据序列:当按照某一固定的顺序访问并处理一组数据记录时,可以将数据按照处理顺序存放到连续的物理块中,形成数据序列。可以将
25、数据按照处理顺序存放到连续的物理块中,形成数据序列。 引入冗余:一些表的某些属性可能在许多地方都要用到,将这些属性引入冗余:一些表的某些属性可能在许多地方都要用到,将这些属性复制到多个主题中,可以减少处理时存取表的个数。复制到多个主题中,可以减少处理时存取表的个数。 表的物理分割:每个主题中的各个属性存取频率是不同的。将一张表表的物理分割:每个主题中的各个属性存取频率是不同的。将一张表按各属性被存取的频率分成两个或多个表,将具有相似访问频率的数按各属性被存取的频率分成两个或多个表,将具有相似访问频率的数据组织在一起。据组织在一起。 生成派出数据:在原始数据的基础上进行总结或计算,生成派出数据,
26、生成派出数据:在原始数据的基础上进行总结或计算,生成派出数据,可以在应用中直接使用这些派出数据,减少可以在应用中直接使用这些派出数据,减少I/OI/O次数,免去计算或汇总次数,免去计算或汇总步骤,在更高级别上建立了公用数据源,避免了不同用户重复计算可步骤,在更高级别上建立了公用数据源,避免了不同用户重复计算可能产生的偏差。能产生的偏差。2.5 数据仓库的元数据模型数据仓库的元数据模型2.5.1 2.5.1 元数据的类型与组成元数据的类型与组成v 元数据是数据的数据,是对数据仓库中的各种数据的详细元数据是数据的数据,是对数据仓库中的各种数据的详细的描述与说明。的描述与说明。v 根据元数据在数据仓
27、库中所承担的任务,可以将元数据分根据元数据在数据仓库中所承担的任务,可以将元数据分成静态元数据和动态元数据两类。成静态元数据和动态元数据两类。v 静态元数据主要与数据结构有关;动态元数据主要与数据静态元数据主要与数据结构有关;动态元数据主要与数据的状态和使用方法有关。的状态和使用方法有关。2.5.1 2.5.1 元数据的类型与组成元数据的类型与组成元数据元数据名称名称描述描述格式格式数据类型数据类型关系关系生成时间生成时间来源来源索引索引类别类别域域业务规则业务规则元数据元数据入库时间入库时间更新周期更新周期数据质量数据质量统计信息统计信息状态状态处理处理存储位置存储位置存储大小存储大小引用处
28、引用处2.5.2 2.5.2 元数据在数据仓库中的作用元数据在数据仓库中的作用v元数据描述了数据的结构、内容、键、索引等项内元数据描述了数据的结构、内容、键、索引等项内容。在数据仓库中,元数据定义了数据仓库中的许容。在数据仓库中,元数据定义了数据仓库中的许多对象多对象表、列、查询、商业规则或是数据仓库内表、列、查询、商业规则或是数据仓库内部的数据转移。它是数据仓库的重要构件,是数据部的数据转移。它是数据仓库的重要构件,是数据仓库的指示图(仓库的指示图(roadmap),指出了数据仓库中各),指出了数据仓库中各种信息的位置和含义。种信息的位置和含义。 2.5.2 2.5.2 元数据在数据仓库中的
29、作用元数据在数据仓库中的作用v数据仓库的元数据重要性:数据仓库的元数据重要性:d 为数据仓库服务与为数据仓库服务与DSSDSS分析员及高层决策人员分析员及高层决策人员服务提供有关决策的数据。服务提供有关决策的数据。 d 解决操作型环境和数据仓库的复杂关系:元数解决操作型环境和数据仓库的复杂关系:元数据要将从操作性环境到数据仓库的转换描述出据要将从操作性环境到数据仓库的转换描述出来以便从数据仓库向数据库回溯时找到原始依来以便从数据仓库向数据库回溯时找到原始依据。据。d 数据仓库中数据的管理:元数据要描述数据仓数据仓库中数据的管理:元数据要描述数据仓库中数据的各种变化,处理。库中数据的各种变化,处
30、理。v 元数据在数据仓库开发期间的使用元数据在数据仓库开发期间的使用d 元数据要描述数据仓库在抽取、求精和重构过程中从资元数据要描述数据仓库在抽取、求精和重构过程中从资源到数据仓库之间的映射关系,可用于以下目标:源到数据仓库之间的映射关系,可用于以下目标:v 确认数据质量确认数据质量 v 同步化和刷新同步化和刷新 v 映射:在反映最终用户所关心的商业规则和数据之映射:在反映最终用户所关心的商业规则和数据之间建立一种关系。间建立一种关系。2.5.2 2.5.2 元数据在数据仓库中的作用元数据在数据仓库中的作用v 元数据在数据源抽取中的作用元数据在数据源抽取中的作用d 资源领域的确定资源领域的确定
31、 d 跟踪历史数据结构变化的过程跟踪历史数据结构变化的过程d 属性到属性的映射:多个系统数据源的相似字段要映属性到属性的映射:多个系统数据源的相似字段要映射到一起。射到一起。d 属性转换:将数据字段的不同格式转换为兼容格式。属性转换:将数据字段的不同格式转换为兼容格式。2.5.2 2.5.2 元数据在数据仓库中的作用元数据在数据仓库中的作用2.5.2 2.5.2 元数据在数据仓库中的作用元数据在数据仓库中的作用v元数据在数据求精与重构工程上的作用:元数据在数据求精与重构工程上的作用:由于性能需要将单一数据块分成两个或多由于性能需要将单一数据块分成两个或多个数据块。元数据中要制定分割方案。个数据
32、块。元数据中要制定分割方案。向需要概括总数的数据中增加新的数值。向需要概括总数的数据中增加新的数值。创建附加的数据字段。创建附加的数据字段。把数据源信息转化为适合于数据仓库事把数据源信息转化为适合于数据仓库事实表行的过程以及将许多表组成事实表行的过程。实表行的过程以及将许多表组成事实表行的过程。2.5.3 2.5.3 元数据的收集元数据的收集v 元数据遍及数据仓库中的任何地方和环境中,因此元数据的元数据遍及数据仓库中的任何地方和环境中,因此元数据的收集过程应尽量采用自动收集方式进行。收集过程应尽量采用自动收集方式进行。d数据源的元数据:包含业务处理系统的数据库、可以获得的外数据源的元数据:包含
33、业务处理系统的数据库、可以获得的外部数据、手工处理的数据及存储在系统中的数据的物理结构。部数据、手工处理的数据及存储在系统中的数据的物理结构。d数据模型的元数据:数据模型设计后必须将其存入元数据库中,数据模型的元数据:数据模型设计后必须将其存入元数据库中,使得数据模型和元数据一一对应,为以后数据仓库的变动奠定使得数据模型和元数据一一对应,为以后数据仓库的变动奠定基础。一般使用基础。一般使用CASECASE工具收集。工具收集。 d数据源与数据仓库映射的元数据:数据源于数据仓库的映射反数据源与数据仓库映射的元数据:数据源于数据仓库的映射反映了数据在加载道数据仓库过程中的变化,这种变化要记录在映了数
34、据在加载道数据仓库过程中的变化,这种变化要记录在元数据中。元数据中。d数据仓库应用的元数据:将用户使用数据仓库的频率记录在元数据仓库应用的元数据:将用户使用数据仓库的频率记录在元数据中,以便为使用频率高的用户建立数据集市或增加概括数数据中,以便为使用频率高的用户建立数据集市或增加概括数据,将使用少的数据释放。据,将使用少的数据释放。2.6 数据仓库的数据仓库的粒度和聚集模型粒度和聚集模型低(如事务)低(如事务)高(如汇总)高(如汇总)低低高高非常高非常高中等到低中等到低v 粒度是指数据仓库中数据单元的详细程度和级别。数据越粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度就越小,数据
35、综合度越高,粒度就越大,级别详细,粒度就越小,数据综合度越高,粒度就越大,级别就越高。就越高。 v 粒度可定义成数据仓库中数据细节的最低层次,如事务层粒度可定义成数据仓库中数据细节的最低层次,如事务层次。这种数据层次是高度细节化的,这样就能使用户按所次。这种数据层次是高度细节化的,这样就能使用户按所需的任何层次进行汇总。需的任何层次进行汇总。v 根据粒度的划分标准可以将数据划分为:详细数据、轻度根据粒度的划分标准可以将数据划分为:详细数据、轻度总结、高度总结三级或更多级粒度。粒度的具体划分将直总结、高度总结三级或更多级粒度。粒度的具体划分将直接影响到数据仓库中的数据量以及查询质量。接影响到数据
36、仓库中的数据量以及查询质量。 数据量数据量(行数行数)粒度划分策略粒度划分策略数据量数据量(行数行数)粒度划分策略粒度划分策略10,000,000 1,000,000 100,000 10,000双重粒度并仔细设计双重粒度并仔细设计双重粒度双重粒度仔细设计仔细设计不考虑不考虑20,000,00010,000,000 1,000,000 100,000双重粒度并仔细设计双重粒度并仔细设计双重粒度双重粒度仔细设计仔细设计不考虑不考虑2.6.1 2.6.1 数据粒度的划分数据粒度的划分v 第一步,是估算数据仓库中将来要使用的数据行数和所需第一步,是估算数据仓库中将来要使用的数据行数和所需的直接存取存
37、储设备数。的直接存取存储设备数。 v 每一个表的存储空间,应该是每一个表的数据存储空间和每一个表的存储空间,应该是每一个表的数据存储空间和索引存储空间之和。索引存储空间之和。2.6.2 2.6.2 确定粒度的级别确定粒度的级别v 考虑因素:考虑因素:d 要接受的分析类型要接受的分析类型d 可接受的数据最低粒度可接受的数据最低粒度d 能存储的数据量。能存储的数据量。v 粒度的层次定义越高,就越不能在该仓库中进行更细致的分析。粒度的层次定义越高,就越不能在该仓库中进行更细致的分析。v 通常在同一模式中使用多重粒度:对不同数据采用不同粒度。通常在同一模式中使用多重粒度:对不同数据采用不同粒度。 v
38、如存储资源有一定的限制,只能采用较高粒度的数据粒度划分如存储资源有一定的限制,只能采用较高粒度的数据粒度划分策略。策略。 v 粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷。用方法的一个折衷。 v 数据粒度划分策略一定要保证数据的粒度确实能够满足用户的数据粒度划分策略一定要保证数据的粒度确实能够满足用户的决策分析需要,这是数据粒度划分策略中最重要的一个准则。决策分析需要,这是数据粒度划分策略中最重要的一个准则。 2.6.3 2.6.3 数据仓库的聚集模型确定数据仓库的聚集模型确定v 聚集数据主要是为了使用户获得更好的
39、查询性能聚集数据主要是为了使用户获得更好的查询性能 。v 聚集模型设计时应该注意将聚集数据存储在其事实表中,并聚集模型设计时应该注意将聚集数据存储在其事实表中,并与其底层数据相区别。与其底层数据相区别。 v 设计聚集模型时,首先需要考虑用户的使用要求。设计聚集模型时,首先需要考虑用户的使用要求。v 其次要考虑数据仓库的粒度模型和数据的统计分布情况。其次要考虑数据仓库的粒度模型和数据的统计分布情况。 v 数据仓库的聚集模型的设计与数据仓库的粒度模型紧密相关。数据仓库的聚集模型的设计与数据仓库的粒度模型紧密相关。v 如果粒度模型只考虑细节数据,就需要多设计一些聚集,如如果粒度模型只考虑细节数据,就
40、需要多设计一些聚集,如果粒度模型为多层数据,就可以少设计一些聚集。果粒度模型为多层数据,就可以少设计一些聚集。 v 建立聚集模型时还需要考虑作为聚集属性的数量因素。建立聚集模型时还需要考虑作为聚集属性的数量因素。2.6.4 2.6.4 聚集模型的处理聚集模型的处理v 聚集事实表已经独立存在并且可以与基本事实表一同保存。聚集事实表已经独立存在并且可以与基本事实表一同保存。v 通过将当前加载数据添加到系统中的累积通过将当前加载数据添加到系统中的累积“桶桶”中中 ,可以创,可以创建某时间短的聚集。建某时间短的聚集。v 将数据的聚集与数据仓库的加载过程组合为同一处理过程将数据的聚集与数据仓库的加载过程
41、组合为同一处理过程 。v 在将数据仓库数据加载以后,再进行聚集处理在将数据仓库数据加载以后,再进行聚集处理 。v 每次在加载数据仓库数据时,都需要对各种聚集进行计算和每次在加载数据仓库数据时,都需要对各种聚集进行计算和增加,及时保持聚集与基本数据的同步性增加,及时保持聚集与基本数据的同步性 。2.6.5 2.6.5 聚集模型的管理聚集模型的管理v 要根据使用情况删除不经常使用的聚集要根据使用情况删除不经常使用的聚集 。v 需要减少层次过于接近的聚集生成需要减少层次过于接近的聚集生成 。v 注意将聚集独立存储在自己的事实表中,便于用户直接进注意将聚集独立存储在自己的事实表中,便于用户直接进行聚集数据的查询。行聚集数据的查询。