《第1章 数据仓库的基本概念.ppt》由会员分享,可在线阅读,更多相关《第1章 数据仓库的基本概念.ppt(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第1章数据仓库的基本概念第第一一章章 数数据据仓仓库库的的基基本本概概念念案例讨论:案例讨论:下图展示了某电信公司的市场部和计划下图展示了某电信公司的市场部和计划部对业务部对业务A A是否具有市场前景的分析过程和结果。是否具有市场前景的分析过程和结果。试讨论为什么两部门分析结果不同。试讨论为什么两部门分析结果不同。企业级数据库企业级数据库市场部市场部分析程序分析程序1分析结果分析结果1 1:前景很好前景很好计划部计划部分析程序分析程序2分析结果分析结果2 2:前景不好前景不好 时间:时间:20世纪世纪80年代初年代初 人物:人物:W.H.Inmon 定义定义:数据仓库是面向主题的、集成的、数据
2、仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。营管理中的决策制定过程。A data warehouse is a subject-oriented,integrated,time-variant,and nonvolatile collection of data in support of managements decision making process.第第一一章章 数数据据仓仓库库的的基基本本概概念念 数据仓库的四大特征:数据仓库的四大特征:数据是面向主题的数据是面向主题的 数据是集成的数据是集
3、成的 数据是具有时间特征的数据是具有时间特征的 数据是相对稳定的数据是相对稳定的 数据仓库的其它特点:数据仓库的其它特点:数据量非常大(数据量非常大(1010GB-1000GBGB-1000GB)是数据库技术的一种新的应用是数据库技术的一种新的应用 使用人员较少使用人员较少第第一一章章 数数据据仓仓库库的的基基本本概概念念1-2 1-2 数据仓库与数据库数据仓库与数据库 操作型数据库操作型数据库 分析型数据仓库分析型数据仓库系统目的系统目的 支持日常操作支持日常操作 支持管理需求,获取信息支持管理需求,获取信息使用人员使用人员 办事员、办事员、DBADBA、数据库专家数据库专家 经理、管理人员
4、、分析专家经理、管理人员、分析专家数据内容数据内容 当前数据当前数据 历史数据、派生数据历史数据、派生数据数据特点数据特点 细节的细节的 综合的或提炼的综合的或提炼的数据组织数据组织 面向应用面向应用 面向主题面向主题存取类型存取类型 添加、修改、查询、删除添加、修改、查询、删除 查询、聚集查询、聚集数据稳定性数据稳定性 动态的动态的 相对稳定相对稳定 第第一一章章 数数据据仓仓库库的的基基本本概概念念续上表:续上表:操作型数据库操作型数据库 分析型数据仓库分析型数据仓库需求特点需求特点 需求事先可知道需求事先可知道 需求事先不知道需求事先不知道 操作特点操作特点 一个时刻操作一单元一个时刻操
5、作一单元 一个时刻操作一集合一个时刻操作一集合 数据库设计数据库设计 基于基于E-RE-R图图 基于星型模式、雪花模式基于星型模式、雪花模式一次操作数据量一次操作数据量 一次操作数据量小一次操作数据量小 一次操作数据量大一次操作数据量大存取频率存取频率 较高较高 较低较低响应时间响应时间 小于小于3 3秒秒 几秒几秒几十分钟几十分钟第第一一章章 数数据据仓仓库库的的基基本本概概念念 1-3 1-3 数据仓库技术的术语数据仓库技术的术语 主题主题:(Subject)主题是一个在较高层次上将数据归类的标准,主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。每一个主题基本
6、对应一个宏观的分析领域。例:面向主题:产品订货分析,货物发运分析,例:面向主题:产品订货分析,货物发运分析,新产品新产品开发分析;开发分析;面向面向应用:财务,销售,供应,人力资源,生产调度应用:财务,销售,供应,人力资源,生产调度.主题域的特征:独立性,完备性主题域的特征:独立性,完备性 第第一一章章 数数据据仓仓库库的的基基本本概概念念粒度:粒度:(Granularity)粒度是指数据仓库中数据单元的详细程度和粒度是指数据仓库中数据单元的详细程度和级别。级别。数据越详细,粒度越小,级别越低,回答查数据越详细,粒度越小,级别越低,回答查询的种类就越多。(数据堆积,回答综合问题效询的种类就越多
7、。(数据堆积,回答综合问题效率低)率低)数据越综合,粒度越大,级别越高,回答查数据越综合,粒度越大,级别越高,回答查询的种类就越少。询的种类就越少。第第一一章章 数数据据仓仓库库的的基基本本概概念念 维度:维度:(Dimension)维度是指人们观察事物的角度。维度是指人们观察事物的角度。例如:当人们关注产品销售情况时,有如下维度:例如:当人们关注产品销售情况时,有如下维度:时间维:随时间变化的销售数据;时间维:随时间变化的销售数据;地区维:不同地区的销售数据;地区维:不同地区的销售数据;客户维:不同客户的销售;客户维:不同客户的销售;根据观察事物角度的细节程度不同,维又具有根据观察事物角度的
8、细节程度不同,维又具有维层次。维层次。数据;数据;渠道维:不同销售渠道的销售数据;渠道维:不同销售渠道的销售数据;产品维:不同产品的销售数据产品维:不同产品的销售数据 例:时间维:日期、周、月份、季度、年等;例:时间维:日期、周、月份、季度、年等;地区维:城市、地区、国家等。地区维:城市、地区、国家等。第第一一章章 数数据据仓仓库库的的基基本本概概念念 数据立方体:数据立方体:数据立方体是指由两个或更多个属性即两个数据立方体是指由两个或更多个属性即两个或更多个维来描述或者分类的数据。或更多个维来描述或者分类的数据。在三维的情况下可以用图形来表示,一般称在三维的情况下可以用图形来表示,一般称为数
9、据立方体。为数据立方体。实际的数据仓库的应用中,数据是多维的。实际的数据仓库的应用中,数据是多维的。第第一一章章 数数据据仓仓库库的的基基本本概概念念 联机分析处理:联机分析处理:(OLAP)联机分析处理是快速、灵活的多维数据分析工联机分析处理是快速、灵活的多维数据分析工具。具。OLAPOLAP的目的是支持分析决策,满足多维环境的目的是支持分析决策,满足多维环境的查询和报表需求。的查询和报表需求。数据仓库的多维数据存储结构为数据仓库的多维数据存储结构为OLAPOLAP的实施的实施提供了理想的多维数据环境。提供了理想的多维数据环境。第第一一章章 数数据据仓仓库库的的基基本本概概念念 数据集市:数
10、据集市:(Data Mart)数据集市是完整的数据仓库的一个逻辑子集,数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而而数据仓库正是由其所有的数据集市有机组合而成的。成的。一般在某个业务部门建立数据集市,或称为一般在某个业务部门建立数据集市,或称为部门级数据仓库。部门级数据仓库。建立数据集市与数据仓库,一般是采用建立数据集市与数据仓库,一般是采用“自自顶向下顶向下”和和“自下而上自下而上”相结合的设计思想。相结合的设计思想。第第一一章章 数数据据仓仓库库的的基基本本概概念念第第一一章章 数数据据仓仓库库的的基基本本概概念念讨论题:讨论题:1、结合陕西科技大学大
11、学学生学籍管理系统、结合陕西科技大学大学学生学籍管理系统进行数据仓库的主题划分,列举有哪些主题。进行数据仓库的主题划分,列举有哪些主题。1-4 1-4 多维数据模型多维数据模型 多维数据模型是进行决策支持数据建模的最好多维数据模型是进行决策支持数据建模的最好方式,数据仓库采用多维数据模型不仅能使其使用方式,数据仓库采用多维数据模型不仅能使其使用方便,而且能提高系统的性能。方便,而且能提高系统的性能。1-4-1 实体关系模型与多维模型实体关系模型与多维模型 实体关系模型应用于操作型数据库系统,多维实体关系模型应用于操作型数据库系统,多维模型应用于分析型数据仓库系统。模型应用于分析型数据仓库系统。
12、实体关系模型不适用于以查询为主的分析型应实体关系模型不适用于以查询为主的分析型应用,具体表现在:使用者、界面、检索手段。用,具体表现在:使用者、界面、检索手段。第第一一章章 数数据据仓仓库库的的基基本本概概念念 多维数据模型以直观的方式组织数据,每一个多维数据模型以直观的方式组织数据,每一个多维数据模型由多个多维数据模式(多维数据模型由多个多维数据模式(Dimensional Data Schema)表示。表示。每一个多维数据模式都是由一个事实表(每一个多维数据模式都是由一个事实表(Fact Table)和一组维表(和一组维表(Dimension Table)组成。组成。事实表的主码是组合码,
13、维表的主码是简单码,事实表的主码是组合码,维表的主码是简单码,每一张维表中的简单码与事实表组合码中的一个组每一张维表中的简单码与事实表组合码中的一个组成部分相对应。成部分相对应。第第一一章章 数数据据仓仓库库的的基基本本概概念念 企业销售数据的企业销售数据的多维数据模式图多维数据模式图第第一一章章 数数据据仓仓库库的的基基本本概概念念时间码时间码日期日期月份月份季度季度年度年度时间码时间码产品码产品码地区码地区码销销 售售 量量销销 售售 额额销售成本销售成本产品码产品码产品大类产品大类产品细类产品细类产品名称产品名称地区码地区码国国 家家地地 区区城城 市市时间维表时间维表事事 实实 表表产
14、品维表产品维表地区维表地区维表 多维数据模型的优势:多维数据模型的优势:多维数据模型是已知标准化的结构,即包含多多维数据模型是已知标准化的结构,即包含多个多维数据模式,每一个多维数据模式都对应一张个多维数据模式,每一个多维数据模式都对应一张事实表和多张维表。事实表和多张维表。这种多维结构能支持最终用户不可预知的操作,这种多维结构能支持最终用户不可预知的操作,原因在于多维数据模型的各个维是逻辑等价的。原因在于多维数据模型的各个维是逻辑等价的。多维数据模型对决策分析有好的扩展性。多维数据模型对决策分析有好的扩展性。汇总数据的巨大价值。汇总数据的巨大价值。第第一一章章 数数据据仓仓库库的的基基本本概
15、概念念 1-4-2 星型模式星型模式 星型模式是事实表与维表通过星型方式连接而星型模式是事实表与维表通过星型方式连接而成,如下图:成,如下图:第第一一章章 数数据据仓仓库库的的基基本本概概念念产品码(产品码(PK)产品大类产品大类产品细类产品细类产品名称产品名称地区码(地区码(PK)国国 家家地地 区区城城 市市产品维表产品维表地区维表地区维表时间码(时间码(FK)产品码(产品码(FK)()(PK)地区码(地区码(FK)销销 售售 量量销销 售售 额额销售成本销售成本事事 实实 表表时间码(时间码(PK)日期日期月份月份季度季度年度年度时间维表时间维表第第一一章章 数数据据仓仓库库的的基基本本
16、概概念念 星型模式的优点:星型模式的优点:星型模式结构简单,表的数目少,建模方便。星型模式结构简单,表的数目少,建模方便。星型模式支持多维数据建模,支持使用人员从星型模式支持多维数据建模,支持使用人员从不同的维度对数据进行分析。不同的维度对数据进行分析。星型模式能较好地为数据仓库提供查询支持。星型模式能较好地为数据仓库提供查询支持。星型模式可以提高查询速度。星型模式可以提高查询速度。第第一一章章 数数据据仓仓库库的的基基本本概概念念 主码、外码和代理码:主码、外码和代理码:主码(主码(Primary Key):):主码是表中的一个属性或主码是表中的一个属性或属性的组合,它能唯一地标识表中的每条
17、记录。属性的组合,它能唯一地标识表中的每条记录。外码(外码(Foreign Key):):外码是出现在一个表中,外码是出现在一个表中,同时在另一个表中被定义成主码的属性。同时在另一个表中被定义成主码的属性。代理码(代理码(Surrogate Key):):所有的主码和外码所有的主码和外码一般都是采用没有具体含义的代理码,例如,从一般都是采用没有具体含义的代理码,例如,从1开始的自然开始的自然数编码。数编码。第第一一章章 数数据据仓仓库库的的基基本本概概念念 事实表:事实表:事实表是星型模式的核心,它是按维进行分析事实表是星型模式的核心,它是按维进行分析形查询的对象,其中存储的是业务事实,例如:
18、销形查询的对象,其中存储的是业务事实,例如:销售量、销售额、销售成本等售量、销售额、销售成本等。事实表中的数据一般是数值型,具有可加性。事实表中的数据一般是数值型,具有可加性。事实表的主码为外码的组合,唯一的标识各条事实表的主码为外码的组合,唯一的标识各条事实记录,事实表的外码对应各维表的主码。事实记录,事实表的外码对应各维表的主码。第第一一章章 数数据据仓仓库库的的基基本本概概念念 维表:维表:维表用于指导从不同的角度在事实表中选择数维表用于指导从不同的角度在事实表中选择数据行。据行。维表中有一个主码,其余非主码的列为属性,维表中有一个主码,其余非主码的列为属性,维表中的属性数据通常是字符型
19、数据。维表中的属性数据通常是字符型数据。维表具有层次性,维表的层次性可用来分割维表具有层次性,维表的层次性可用来分割其他的明细维表,维表层次的级别数量取决于查询其他的明细维表,维表层次的级别数量取决于查询的粒度。的粒度。第第一一章章 数数据据仓仓库库的的基基本本概概念念 1-4-3 数据仓库的总线型结构数据仓库的总线型结构 著名的数据仓库专家著名的数据仓库专家Ralph Kinball认为,数认为,数据仓库的建设应该是一步步完成的,以部门级数据据仓库的建设应该是一步步完成的,以部门级数据集市的建设为出发点,但必须统观全局,使数据集集市的建设为出发点,但必须统观全局,使数据集市成为完整的企业级数
20、据仓库的一个逻辑子集。市成为完整的企业级数据仓库的一个逻辑子集。这种建设思想的实现是以一种特定的结构为指这种建设思想的实现是以一种特定的结构为指导的,称为数据仓库的总线型结构(导的,称为数据仓库的总线型结构(Data Warehouse Bus Architecture)。)。第第一一章章 数数据据仓仓库库的的基基本本概概念念 统一的维:统一的维:统一的维是指:一个维,无论其维表与哪一个统一的维是指:一个维,无论其维表与哪一个事实表相连接,维的含义是完全相同的事实表相连接,维的含义是完全相同的。建立、公布、维护和完善统一的维是全局数据建立、公布、维护和完善统一的维是全局数据仓库项目小组一项非常
21、重要的工作。仓库项目小组一项非常重要的工作。公布了统一维之后,各数据集市必须严格执行。公布了统一维之后,各数据集市必须严格执行。第第一一章章 数数据据仓仓库库的的基基本本概概念念 统一的事实:统一的事实:统一的事实的定义工作与统一的维的定义工作统一的事实的定义工作与统一的维的定义工作同时进行,由数据仓库项目:小组负责,工作量相同时进行,由数据仓库项目:小组负责,工作量相对较少,但要注意以下几点;对较少,但要注意以下几点;v 统一的计算口径统一的计算口径v 统一的计量单位统一的计量单位v 统一的含义统一的含义v 事实表中要包含最详细的事实数据,即粒度最小事实表中要包含最详细的事实数据,即粒度最小
22、 的的数据数据第第一一章章 数数据据仓仓库库的的基基本本概概念念 讨论题:讨论题:1、根据学籍管理系统数据仓库的建设,确定、根据学籍管理系统数据仓库的建设,确定事实表与维表,列举各个维,并划分维层次。事实表与维表,列举各个维,并划分维层次。1-5 1-5 数据仓库的体系结构数据仓库的体系结构1-5-1 体系结构的内容体系结构的内容总体框架总体框架Zachman框架框架:回答问题回答问题数据体系结构数据体系结构-数据仓库的内容是什么数据仓库的内容是什么?系统体系结构系统体系结构-存放在什么平台上存放在什么平台上?技术体系结构技术体系结构-如何实现如何实现?第第一一章章 数数据据仓仓库库的的基基本
23、本概概念念前端工具前端工具数数 据据 预预处理工具处理工具 技术体系结构图如下技术体系结构图如下:第第一一章章 数数据据仓仓库库的的基基本本概概念念预预处处理理数数据据数数据据源源数据集市数据集市数据集市数据集市数据集市数据集市总总 线线查询查询服务服务数据数据元数据元数据OLAP数据挖掘数据挖掘其他工具其他工具报表生成器报表生成器抽取、转换、抽取、转换、装载装载可视化可视化分分 析析结结 果果后台后台前台前台第第一一章章 数数据据仓仓库库的的基基本本概概念念 1-5-2 相关的数据存储相关的数据存储 数据源:数据源:数据源是数据仓库的原始来源,是数据仓库系数据源是数据仓库的原始来源,是数据仓
24、库系统开发与应用的数据基础,分为两部分;统开发与应用的数据基础,分为两部分;v 企业内部数据源企业内部数据源v 企业外部数据源企业外部数据源第第一一章章 数数据据仓仓库库的的基基本本概概念念 主题数据:主题数据:主题数据是数据仓库的核心数据,一般以多维主题数据是数据仓库的核心数据,一般以多维数据模型的形式存储在数据仓库中,直接面向分析数据模型的形式存储在数据仓库中,直接面向分析型用户的访问。型用户的访问。主题数据的存储称为实视图,它与数据库的视主题数据的存储称为实视图,它与数据库的视图概念不同之处在于:它不是虚拟的,而是已经过图概念不同之处在于:它不是虚拟的,而是已经过计算,含有大量数据,并存
25、储在数据仓库中的实实计算,含有大量数据,并存储在数据仓库中的实实在在的表。在在的表。第第一一章章 数数据据仓仓库库的的基基本本概概念念 实视图的好处:实视图的好处:v通过建立实视图可以提高系统的响应速度;通过建立实视图可以提高系统的响应速度;v由于数据源到主题数据映射关系的复杂性,采用普由于数据源到主题数据映射关系的复杂性,采用普通视图的方式不可行。通视图的方式不可行。实视图的特点:实视图的特点:v时间是数据仓库中几乎所有数据的属性之一;时间是数据仓库中几乎所有数据的属性之一;v数据在装于数据仓库后,基本不发生变化;数据在装于数据仓库后,基本不发生变化;v实视图不是数据源中数据的简单拷贝,而是
26、经历了实视图不是数据源中数据的简单拷贝,而是经历了数据预处理过程;数据预处理过程;v主题数据分为最小粒度数据和聚集数据。主题数据分为最小粒度数据和聚集数据。第第一一章章 数数据据仓仓库库的的基基本本概概念念 预处理数据:预处理数据:从数据源向主题数据的变换,就如同穿越冰山从数据源向主题数据的变换,就如同穿越冰山的过程,工作量大而繁杂,预处理数据正是这一过的过程,工作量大而繁杂,预处理数据正是这一过程的中间结果。对于数据仓库的建设而言,预处理程的中间结果。对于数据仓库的建设而言,预处理数据是一非常重要数据存储环节。数据是一非常重要数据存储环节。预处理数据的作用:预处理数据的作用:v 保存大量的细
27、节型业务处理数据保存大量的细节型业务处理数据v 保存净化后的数据保存净化后的数据v 存储代理码的分配存储代理码的分配v 创建并存储统一的事实和统一的维创建并存储统一的事实和统一的维v 作为数据仓库的数据备份之一作为数据仓库的数据备份之一第第一一章章 数数据据仓仓库库的的基基本本概概念念 查询服务数据:查询服务数据:在数据仓库的主题数据中直接得到所需的信息在数据仓库的主题数据中直接得到所需的信息仍然存在一定的难度,因此,在很多情况下,需要仍然存在一定的难度,因此,在很多情况下,需要查询服务数据作为主题数据和最终查询结果之间的查询服务数据作为主题数据和最终查询结果之间的过渡数据。过渡数据。查询服务
28、分为:查询服务分为:v查询服务数据同前台分析工具紧密联系,临时地查询服务数据同前台分析工具紧密联系,临时地存储在分析工具中,以便进一步分析查询;存储在分析工具中,以便进一步分析查询;v将查询服务数据转存起来,留待以后在进行分析将查询服务数据转存起来,留待以后在进行分析或同其他系统结合起来使用;或同其他系统结合起来使用;v将查询服务数据存储到数据仓库的主题数据中,将查询服务数据存储到数据仓库的主题数据中,典型例子是数据挖掘工具同数据仓库结合应用。典型例子是数据挖掘工具同数据仓库结合应用。第第一一章章 数数据据仓仓库库的的基基本本概概念念 1-5-3 相关的数据服务相关的数据服务 后台数据预处理:
29、后台数据预处理:v 数据抽取数据抽取(Data Extraction)v 数据转换数据转换 (Data Transformation)v 数据装载数据装载 (Data Loading)前台数据查询服务:前台数据查询服务:v 多种展现形式的数据查询多种展现形式的数据查询v 灵活的分析报表生成灵活的分析报表生成v 访问安全保障访问安全保障第第一一章章 数数据据仓仓库库的的基基本本概概念念 1-5-4 相关的数据管理相关的数据管理元数据元数据 元数据的含义:元数据的含义:v后台元数据与过程相关,它指导着抽取、后台元数据与过程相关,它指导着抽取、净化和装载的过程;净化和装载的过程;v前台元数据更具有描
30、述性质,它帮助查询前台元数据更具有描述性质,它帮助查询工具和报表生成器更顺利地工作。工具和报表生成器更顺利地工作。它是所有数据元素表述的一种业务内容字典。它是所有数据元素表述的一种业务内容字典。第第一一章章 数数据据仓仓库库的的基基本本概概念念 元数据的内容元数据的内容:v数据源元数据数据源元数据v预处理数据元数据预处理数据元数据v主题数据元数据主题数据元数据v前台查询服务元数据前台查询服务元数据元数据的工作流程:元数据的工作流程:元数据的工作流程分为元数据的工作流程分为13个步骤。个步骤。1-6 1-6 数据仓库的数据组织数据仓库的数据组织1-6-1 事实表和维表的设计事实表和维表的设计事实
31、数据和维数据的区分:事实数据和维数据的区分:v 数据是否是数值型数据数据是否是数值型数据v 该数据是作为查询的条件还是查询的结果该数据是作为查询的条件还是查询的结果事实表的设计:事实表的设计:v 明确数据集市及相应的数据源明确数据集市及相应的数据源v 确定事实表的粒度确定事实表的粒度v 确定响应的维度确定响应的维度v 完成事实表的设计完成事实表的设计第第一一章章 数数据据仓仓库库的的基基本本概概念念第第一一章章 数数据据仓仓库库的的基基本本概概念念 维表的设计:维表的设计:维表中的属性值一般是文本型的、离散的及不维表中的属性值一般是文本型的、离散的及不具有可加性的。它们将最终成为分析型查询的约
32、束具有可加性的。它们将最终成为分析型查询的约束条件,是分析型查询的起点,在形成的分析型报表条件,是分析型查询的起点,在形成的分析型报表中,维属性将成为列标题。中,维属性将成为列标题。维表设计应注意以下两点:维表设计应注意以下两点:v维表中的维属性应该具体明确,体现出维层次的维表中的维属性应该具体明确,体现出维层次的划分,能够成为分析型查询的约束条件。划分,能够成为分析型查询的约束条件。v由于维属性将成为列标题,所以进行维表设计时由于维属性将成为列标题,所以进行维表设计时一定要注意维属性值的可读性。一定要注意维属性值的可读性。1-6-2 数据聚集的设计数据聚集的设计数据聚集的含义:数据聚集的含义
33、:所有的数据仓库都包含数据的聚集所有的数据仓库都包含数据的聚集(Aggregates),在数据仓库中进行数据的聚集在数据仓库中进行数据的聚集是减少是减少OLAP 分析需要扫描的数据量及提高查询效分析需要扫描的数据量及提高查询效率的最重要的方法。率的最重要的方法。为提高查询的效率,减少分析时需要访问的数为提高查询的效率,减少分析时需要访问的数据量,需要对数据按分析型查询的要求预先进行计据量,需要对数据按分析型查询的要求预先进行计算及汇总,并保存计算及汇总的结果,这就是聚集。算及汇总,并保存计算及汇总的结果,这就是聚集。第第一一章章 数数据据仓仓库库的的基基本本概概念念数据聚集的创建方法:数据聚集
34、的创建方法:确定聚集的内容可分两个步骤完成:确定聚集的内容可分两个步骤完成:v各个维的哪些属性上需要进行数据的聚集;各个维的哪些属性上需要进行数据的聚集;v确定不同维的属性如何进行组合。确定不同维的属性如何进行组合。聚集数据也采用星型模式进行多维数据建模,聚集数据也采用星型模式进行多维数据建模,形成聚集事实表及相应的维表。设计应注意:形成聚集事实表及相应的维表。设计应注意:v聚集数据应该存储在自身的聚集事实表中,不能聚集数据应该存储在自身的聚集事实表中,不能同基本事实表存储在一起;同基本事实表存储在一起;v粒度不同的聚集数据不能存储在同一个聚集事实粒度不同的聚集数据不能存储在同一个聚集事实表中
35、;表中;v对于聚集事实表对应的相关各维,一般也要进行对于聚集事实表对应的相关各维,一般也要进行调整。调整。第第一一章章 数数据据仓仓库库的的基基本本概概念念数据聚集的创建方法:数据聚集的创建方法:确定聚集的内容可分两个步骤完成:确定聚集的内容可分两个步骤完成:v各个维的哪些属性上需要进行数据的聚集;各个维的哪些属性上需要进行数据的聚集;v确定不同维的属性如何进行组合。确定不同维的属性如何进行组合。聚集数据也采用星型模式进行多维数据建模,聚集数据也采用星型模式进行多维数据建模,形成聚集事实表及相应的维表。设计应注意:形成聚集事实表及相应的维表。设计应注意:v聚集数据应该存储在自身的聚集事实表中,
36、不能聚集数据应该存储在自身的聚集事实表中,不能同基本事实表存储在一起;同基本事实表存储在一起;v粒度不同的聚集数据不能存储在同一个聚集事实粒度不同的聚集数据不能存储在同一个聚集事实表中;表中;v对于聚集事实表对应的相关各维,一般也要进行对于聚集事实表对应的相关各维,一般也要进行调整。调整。第第一一章章 数数据据仓仓库库的的基基本本概概念念1-6-3 数据仓库中的索引数据仓库中的索引在数据仓库中建立索引提高数据访问速度具有在数据仓库中建立索引提高数据访问速度具有重要意义。重要意义。传统的数据库索引技术传统的数据库索引技术传统的数据库索引技术目前仍然是主流。传统的数据库索引技术目前仍然是主流。vB
37、-B-树索引(树索引(B-Tree IndexB-Tree Index):指针指向记录的实指针指向记录的实际地址,适合于高基数列值索引。际地址,适合于高基数列值索引。v位图索引位图索引(Bit-Map Index)Bit-Map Index):用用“位位”确定索引确定索引列的值,适合于低基数列值索引。列的值,适合于低基数列值索引。v哈希索引哈希索引(Hash Index)Hash Index):行标识与存储位置之行标识与存储位置之间用哈系函数间用哈系函数f f进行转换。进行转换。第第一一章章 数数据据仓仓库库的的基基本本概概念念事实表的索引事实表的索引事实表中的主码(组合码)索引一般采用事实表
38、中的主码(组合码)索引一般采用B-树树索引的方式。非主码索引可根据具体情况而定。索引的方式。非主码索引可根据具体情况而定。维表的索引维表的索引维表中的主码(简单码)索引一般采用维表中的主码(简单码)索引一般采用B-树索树索引的方式。非主码索引一般采用位图索引。引的方式。非主码索引一般采用位图索引。数据仓库索引新技术数据仓库索引新技术v投影索引投影索引 (Projection Index)Projection Index)v位切片索引位切片索引(Bit-Sliced Index)Bit-Sliced Index)v连接索引连接索引 (Join Index)Join Index)vR-R-树索引树
39、索引 (R-Tree Index)R-Tree Index)第第一一章章 数数据据仓仓库库的的基基本本概概念念1-6-4 数据库的物理设计数据库的物理设计物理设计的任务就是将逻辑模型(前述的多维物理设计的任务就是将逻辑模型(前述的多维数据模型)转变为实际的数据库存储。数据模型)转变为实际的数据库存储。物理设计的内容物理设计的内容物理设计的内容包括如下方面:物理设计的内容包括如下方面:v制定数据库对象的命名规范制定数据库对象的命名规范v建立数据库物理模型建立数据库物理模型v确定数据库索引策略确定数据库索引策略v进行数据仓库数据量的估计进行数据仓库数据量的估计v物理设计的具体实施物理设计的具体实施
40、第第一一章章 数数据据仓仓库库的的基基本本概概念念案例分析:数据仓库的数据量估计案例分析:数据仓库的数据量估计第第一一章章 数数据据仓仓库库的的基基本本概概念念时间维表时间维表Time_idYearQuarterMonthWeek地区维表地区维表Geo_idCountryProvinceCity产品维表产品维表Product_idPro_classPro_subclass事实表事实表Time_idGeo_idProduct_idSales案例分析:数据仓库的数据量估计案例分析:数据仓库的数据量估计上图假定每个维表具有上图假定每个维表具有5050个条目,则它们的组个条目,则它们的组合将在事实表中
41、产生合将在事实表中产生50*50*5050*50*50个数据条目,并假定个数据条目,并假定所有表中的所有属性为所有表中的所有属性为8 8个字节长度。个字节长度。则所需存储空间计算如下:则所需存储空间计算如下:维表空间为:维表空间为:50*5*8+50*4*8+50*3*8=480050*5*8+50*4*8+50*3*8=4800事实表空间为:事实表空间为:50*50*50*4*8=400000050*50*50*4*8=4000000总空间为:总空间为:4000000+4800=4004800=3.84000000+4800=4004800=3.8(MBMB)可以看出,事实表空间比维表空间多
42、得多。可以看出,事实表空间比维表空间多得多。第第一一章章 数数据据仓仓库库的的基基本本概概念念1-7 1-7 数据仓库的数据预处理数据仓库的数据预处理1-7-1 数据的净化数据的净化数据质量与数据净化:数据质量与数据净化:v 高质量的高质量的数据应该是正确的数据应该是正确的v 高质量的高质量的数据应该是清晰的数据应该是清晰的 v 高质量的高质量的数据应该是及时的数据应该是及时的v 高质量的高质量的数据应该是完整的数据应该是完整的v 高质量的高质量的数据应该是一致的数据应该是一致的v 高质量的高质量的数据应该是唯一的数据应该是唯一的第第一一章章 数数据据仓仓库库的的基基本本概概念念数据净化的方法
43、:数据净化的方法:v 不正确不正确数据的净化数据的净化 例例:SQL判别判别,校验校验v 不清晰不清晰数据的净化数据的净化 例例:客户维的拆分客户维的拆分,“备注备注”类数据类数据v 不完整不完整数据的净化数据的净化 例例:缩小范围缩小范围,补充数据补充数据v 不不一致数据的净化一致数据的净化 例例:统一转换统一转换v 不唯一不唯一数据的净化数据的净化 例例:SQL:DISTINCT第第一一章章 数数据据仓仓库库的的基基本本概概念念1-7-2 数据预处理计划数据预处理计划初步计划初步计划 应包括数据抽取应包括数据抽取,数据转换数据转换,数据装载三部数据装载三部分内容。见下页图分内容。见下页图详
44、细计划详细计划 制定详细计划与实施数据预处理先从主题制定详细计划与实施数据预处理先从主题数据中的维表开始,然后再处理事实表。数据中的维表开始,然后再处理事实表。就维表而言,先从简单的静态的维表开始,就维表而言,先从简单的静态的维表开始,然后处理复杂的需要动态更新的维表。然后处理复杂的需要动态更新的维表。第第一一章章 数数据据仓仓库库的的基基本本概概念念第第一一章章 数数据据仓仓库库的的基基本本概概念念财务数据库财务数据库(RDBMS)行业产品代码规行业产品代码规范(范(MS Excel)销售管理系统销售管理系统(RDBMS)历史销售数据历史销售数据存档(文本文件)存档(文本文件)收款收款数据数
45、据价格价格数据数据产品产品分类分类客户客户数据数据时间时间数据数据订货订货数据数据数据源:数据源:主题数据:主题数据:每张发票每张发票对应一条对应一条收款记录收款记录据发票金据发票金额、数量额、数量计算价格计算价格客户编客户编码表集码表集成净化成净化客户数客户数据要缓据要缓慢更新慢更新集集 成成2000年以后年以后数数 据据1999年以前年以前数数 据据1-7-3 维表的数据预处理维表的数据预处理维表的基本数据预处理维表的基本数据预处理 可能的数据转换:可能的数据转换:1 1、文件类型的转换、文件类型的转换2 2、数据类型和长度的变换、数据类型和长度的变换3 3、错误的更正、错误的更正4 4、
46、消除数据的不一致性,不唯一性、消除数据的不一致性,不唯一性5 5、修改数据结构与数据内容、修改数据结构与数据内容6 6、补充数据达到完整性要求、补充数据达到完整性要求7 7、代理码的分配、代理码的分配8 8、维表的变更处理、维表的变更处理第第一一章章 数数据据仓仓库库的的基基本本概概念念1-7-4 事实表的数据预处理事实表的数据预处理事实表的基本数据预处理事实表的基本数据预处理 可能的数据转换:可能的数据转换:1 1、文件类型的转换、文件类型的转换2 2、数据类型和长度的变换、数据类型和长度的变换3 3、度量单位的统一、度量单位的统一4 4、数据的净化、数据的净化5 5、生成最小粒度的数据、生
47、成最小粒度的数据6 6、建立数据聚集、建立数据聚集7 7、非代理码的替换、非代理码的替换8 8、事实表的变更处理、事实表的变更处理9 9、数据聚集的更新维护、数据聚集的更新维护第第一一章章 数数据据仓仓库库的的基基本本概概念念非代理码的替换非代理码的替换事实表中的代理码必须与维表中的代理码绝对保事实表中的代理码必须与维表中的代理码绝对保持一致,即:事实表中的外码在相应的维表中一持一致,即:事实表中的外码在相应的维表中一定要存在。定要存在。第第一一章章 数数据据仓仓库库的的基基本本概概念念时间时间产品代码产品代码客户代码客户代码渠道代码渠道代码销售量销售量销售额销售额销售成本销售成本时间码时间码
48、产品码产品码客户码客户码渠道码渠道码销售量销售量销售额销售额销售成本销售成本将时间替换为时间码将时间替换为时间码将产品代码替换为产品码将产品代码替换为产品码将客户代码替换为客户码将客户代码替换为客户码 将渠道代码替换为渠道码将渠道代码替换为渠道码数据聚集的更新维护数据聚集的更新维护 数据聚集在建立之后并不是一成不变的,数据聚集在建立之后并不是一成不变的,需要不断的加入或删除。由于要时时刻刻保持需要不断的加入或删除。由于要时时刻刻保持同最小粒度数据的一致性,因此,聚集事实表同最小粒度数据的一致性,因此,聚集事实表的更新维护有以下方法:的更新维护有以下方法:1 1、在最小粒度数据装载入数据仓库之前
49、,完成数据聚集、在最小粒度数据装载入数据仓库之前,完成数据聚集的计算。的计算。2 2、在最小粒度数据装载入数据仓库时,同时完成数据聚、在最小粒度数据装载入数据仓库时,同时完成数据聚集的计算及装载。集的计算及装载。3 3、在最小粒度数据装载入数据仓库之后,再用、在最小粒度数据装载入数据仓库之后,再用SQLSQL语句语句完成数据聚集的计算。完成数据聚集的计算。增量维护的形式,即:只对新载入的最小增量维护的形式,即:只对新载入的最小粒度数据进行聚集的计算与更新,而不是完全粒度数据进行聚集的计算与更新,而不是完全重新计算所有的聚集。重新计算所有的聚集。第第一一章章 数数据据仓仓库库的的基基本本概概念念
50、第一章第一章 结束结束软件推荐:软件推荐:公司名称公司名称 数据仓库管理工具数据仓库管理工具IBM Visual WarehouseSAS Warehouse AdministratorOracle Enterprise ManagerSybase Warehouse StudioSagent Sagent AdminCA PLATINUM ERWin PLATINUM InfoPumpNCR Database Manager第第一一章章 数数据据仓仓库库的的基基本本概概念念此此课件下件下载可自行可自行编辑修改,修改,仅供参考!供参考!感感谢您的支持,我您的支持,我们努力做得更好!努力做得更好