《第二章 数据仓库原理.ppt》由会员分享,可在线阅读,更多相关《第二章 数据仓库原理.ppt(79页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章第二章 数据仓库原理数据仓库原理2.1 数据仓库结构体系数据仓库结构体系2.2 数据仓库的数据模型数据仓库的数据模型2.3数据抽取、转换和装载数据抽取、转换和装载2.4 元数据元数据12.1 数据仓库结构体系数据仓库结构体系o2.1.1 数据仓库结构数据仓库结构o2.1.2数据集市及其结构数据集市及其结构o2.1.3 数据仓库系统结构数据仓库系统结构o2.1.4 数据仓库运行结构数据仓库运行结构23 数数据据仓仓库库是是在在数数据据库库基基础础上上发发展展起起来的,其数据来源于数据库。来的,其数据来源于数据库。数据仓库与数据库的区别:数据仓库与数据库的区别:面向主题与面向事务。面向主题与
2、面向事务。数据的组织结构不同。数据的组织结构不同。2.1.1 数据仓库结构数据仓库结构4 数据仓库与数据库的区别:数据仓库与数据库的区别:数据库面向事务:数据库面向事务:围绕公司围绕公司功能功能性应用性应用进行组织。强调要做什么!进行组织。强调要做什么!如:如:保险公司可能的应用有汽车保险,保险公司可能的应用有汽车保险,人寿保险,健康保险,财产保险等。人寿保险,健康保险,财产保险等。2.1.1 数据仓库结构数据仓库结构5 数据仓库与数据库的区别:数据仓库与数据库的区别:面向主题:面向主题:公司面对的对象。强调对什么做!公司面对的对象。强调对什么做!如:如:保险公司保险公司可能的对象(主题域)是
3、可能的对象(主题域)是顾客,保险单,顾客,保险单,保险费与索赔。保险费与索赔。生产商生产商可能的对象(主题域)是:可能的对象(主题域)是:产品,销售商等;产品,销售商等;零售商可能的对象(主题域)是:零售商可能的对象(主题域)是:顾客,商品,库顾客,商品,库存,销售等;存,销售等;2.1.1 数据仓库结构数据仓库结构6 数据仓库与数据库的区别:数据仓库与数据库的区别:“与与时时间间相相关关”:数数据据库库保保存存信信息息的的时时候候,并并不不强强调调一一定定有有时时间间信信息息。数数据据仓仓库库则则不不同同,出出于于决决策策的的需要,数据仓库中的数据都要标明时间属性。需要,数据仓库中的数据都要
4、标明时间属性。同同样样都都是是累累计计购购买买过过9 9车车产产品品的的顾顾客客,一一位位是是最最近近三三个个月月购购买买9 9车车,一一位位是是最最近近一一年年从从未未买买过过,这这对对于决策者意义是不同的。于决策者意义是不同的。2.1.1 数据仓库结构数据仓库结构7 数据仓库与数据库的区别:数据仓库与数据库的区别:集成性:集成性:数据仓库需要把原始数据集成。数据仓库需要把原始数据集成。如如性别:数据库强调个体,数据仓库强调总体性别:数据库强调个体,数据仓库强调总体2.1.1 数据仓库结构数据仓库结构男 女M f1 01 0X y8 数据仓库与数据库的区别:数据仓库与数据库的区别:集成性:集
5、成性:数据仓库需要把原始数据集成。数据仓库需要把原始数据集成。如如销售额:数据库强调个体,数据仓库强调总体销售额:数据库强调个体,数据仓库强调总体2.1.1 数据仓库结构数据仓库结构元千元千元万元百万元9 数据仓库与数据库的区别:数据仓库与数据库的区别:非易失:很少删除、修改非易失:很少删除、修改。数据库是实现数据仓库的一种方式,但并不是唯一数据库是实现数据仓库的一种方式,但并不是唯一的途径的途径2.1.1 数据仓库结构数据仓库结构10 近近期期基基本本数数据据:是是最最近近时时期期的的业业务务数数据据,是是数数据据仓库用户最感兴趣的部分,数据量大。仓库用户最感兴趣的部分,数据量大。历历史史基
6、基本本数数据据:近近期期基基本本数数据据随随时时间间的的推推移移,由由数据仓库的时间控制机制转为历史基本数据。数据仓库的时间控制机制转为历史基本数据。轻轻度度综综合合数数据据:是是从从近近期期基基本本数数据据中中提提取取出出的的,这这 层层 数数 据据 是是 按按 时时 间间 段段 选选 取取,或或 者者 按按 数数 据据 属属 性性(attributesattributes)和内容(和内容(contentscontents)进行综合。进行综合。高高度度综综合合数数据据层层:这这一一层层的的数数据据是是在在轻轻度度综综合合数数据基础上的再一次综合,是一种准决策数据。据基础上的再一次综合,是一种
7、准决策数据。2.1.1 数据仓库结构数据仓库结构数据综合11全国全国区域区域商店商店省省/市市城市城市如:公司的销售额如:公司的销售额可以如下综合可以如下综合1.数据集市的产生数据集市的产生o数数据据仓仓库库是是企企业业级级的的,工工作作范范围围和和成成本本常常常常是是巨巨大的大的。o数数据据集集市市是是部部门门级级的的,伴伴随随功功能能性性计计算算机机管管理理信信息系统而存在。数据集市息系统而存在。数据集市windowswindows普通服务器普通服务器o目目前前,全全世世界界对对数数据据仓仓库库总总投投资资的的一一半半以以上上均均集集中在数据集市上。中在数据集市上。132.1.2 数据集市
8、及其结构数据集市及其结构o数据集市(数据集市(Data MartsData Marts)是一种更小、更集中)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条的数据仓库,为公司提供分析商业数据的一条廉价途径。廉价途径。oData MartsData Marts是指具有特定应用的数据仓库,主是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体用户获得竞争优势或者找到进入新市场的具体解决方案。解决方案。142.数据集市概念数据集市概念3.数据集市与数据仓库差别数据集市与数据仓库差别(1)数据仓
9、库是基于)数据仓库是基于整个企业整个企业的数据模型建立的,的数据模型建立的,它面向企业范围内的主题。而数据集市是按照它面向企业范围内的主题。而数据集市是按照某一特某一特定部门定部门的数据模型建立的。的数据模型建立的。(2)部门的主题与企业的主题之间可能存在关联,)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。)数据集市的数据组织一般采用星型模型。不能简单的认为数据集市数据规模没有数据仓库大!不能简单的认为数据集市数据规模没有数据仓库大!15 1 1、规模是小的、规模是小的2 2、特定的应用、特定的应用3 3、面向部门、面向
10、部门4 4、由业务部门定义,设计和开发、由业务部门定义,设计和开发5 5、由业务部门管理和维护、由业务部门管理和维护6 6、快速实现、快速实现7 7、购买较便宜、购买较便宜8 8、投资快速回收、投资快速回收9 9、更详细的、预先存在的数据仓库的摘要子集、更详细的、预先存在的数据仓库的摘要子集1010、可升级到完整的数据仓库、可升级到完整的数据仓库164.数据集市的特性数据集市的特性独立数据集市独立数据集市(Independent Data Mart)(Independent Data Mart)从属数据集市从属数据集市(Dependent Data Mart)(Dependent Data M
11、art)为访为访问数据仓库非常频繁的关键业务部门建立问数据仓库非常频繁的关键业务部门建立17数据源于中央数据仓库2.1.3 数据仓库系统结构数据仓库系统结构 数数据据仓仓库库系系统统由由数数据据仓仓库库(DWDW)、仓仓库库管管理理和和分分析析工具三部分组成。工具三部分组成。182.1.3 数据仓库系统结构数据仓库系统结构 数数据据仓仓库库系系统统由由数数据据仓仓库库(DWDW)、仓仓库库管管理理和和分分析析工具三部分组成。工具三部分组成。19201、仓库管理、仓库管理仓库管理包括:数据建模、仓库管理包括:数据建模、ETL、元数据和系统管理、元数据和系统管理(1)数据建模)数据建模数据建模是建
12、立数据仓库的数据模型。数据建模是建立数据仓库的数据模型。数据模型包括数据模型包括数据结构数据结构和和数据操作数据操作。数据结构数据结构包括:包括:数据类型、内容、数据间的关系数据类型、内容、数据间的关系,描,描述的是数据的静态特征。述的是数据的静态特征。数据操作数据操作是对数据仓库中是对数据仓库中数据所允许的操作数据所允许的操作。如检索、。如检索、计算等计算等 211、仓库管理、仓库管理(1)数据建模)数据建模数据仓库的数据模型不同于数据库的数据模型在于:数据仓库的数据模型不同于数据库的数据模型在于:数据仓库只为决策分析用,不包含事务处理的数据。数据仓库只为决策分析用,不包含事务处理的数据。数
13、据仓库的数据模型中数据仓库的数据模型中增加了时间属性数据增加了时间属性数据。数据仓库的数据模型中数据仓库的数据模型中增加了一些综合数据增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的逻辑数据数据仓库的数据建模是适应决策用户使用的逻辑数据模型。模型。结果是产生了冗余!结果是产生了冗余!数据库和数据仓库底层模型不同,关系数据库采用ER关系模型,数据仓库采用多维数据模型。(2)数据抽取、转换、装载)数据抽取、转换、装载o数据仓库中的数据,是通过在源数据中抽取数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理
14、数据模型的要求装载行数据转换,再按物理数据模型的要求装载到数据仓库中去。到数据仓库中去。o数据抽取数据抽取Extraction、转换、转换Transformation、装载、装载loading(ETL)是建立数据仓库的重要步)是建立数据仓库的重要步骤,需要花费开发数据仓库骤,需要花费开发数据仓库70%的工作量。的工作量。22(3 3)元数据)元数据23元数据包括:元数据包括:1、数据仓库的目录信息(数据字典);、数据仓库的目录信息(数据字典);2、数据从数据库向数据仓库转换时对、数据从数据库向数据仓库转换时对应的说明;应的说明;3、指导从当前基本数据到综合数据的、指导从当前基本数据到综合数据的
15、综合方式;综合方式;4、指导用户使用数据仓库。、指导用户使用数据仓库。(4)系统管理)系统管理o数据管理、性能监控、存储器管理和安全管数据管理、性能监控、存储器管理和安全管理等。理等。24(1 1)查询工具)查询工具 数数据据仓仓库库的的查查询询不不是是指指对对记记录录级级数数据据的的查查询,而是指对分析要求的查询。询,而是指对分析要求的查询。一般包含:一般包含:可可视视化化工工具具:以以图图形形化化方方式式展展示示数数据据,可可以帮助了解数据的结构,关系以及动态性。以帮助了解数据的结构,关系以及动态性。252、分析工具、分析工具(2 2)多维分析工具()多维分析工具(OLAPOLAP工具)工
16、具):通过对信息的多种可能的观察形式进行快通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。的观察视角,如时间、地域、业务等。262、分析工具、分析工具(3 3)数据挖掘工具)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要从大量数据中挖掘具有规律性知识,需要利用数据挖掘(利用数据挖掘(Data MiningData Mining)工具。工具。如:如:IBMIBM的的Inte
17、lligent MinerIntelligent Miner,SASSAS272、分析工具、分析工具282.1.4 数据仓库的运行结构数据仓库的运行结构 数数据据仓仓库库应应用用是是一一个个典典型型的的客客户户/服服务务器器(C/SC/S)结结构构形形式:式:客客户户端端所所做做的的工工作作:客客户户交交互互、格格式式化化查查询询、结结果果显显示示、报表生成等。报表生成等。服服务务器器端端完完成成各各种种辅辅助助决决策策的的SQLSQL查查询询、复复杂杂的的计计算算和和各各类综合功能等。类综合功能等。29 OLAPOLAP服务器将加强和规范化决策支持的服务工服务器将加强和规范化决策支持的服务工
18、作,集中和简化了原客户端和数据仓库服务器的部作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。分工作,降低了系统数据传输量。这种结构形式工作效率更高。这种结构形式工作效率更高。OLAP的三层的三层C/S结构结构30 对一个零售企业,它关心哪些主题?对一个零售企业,它关心哪些主题?关心经营时,销售(金额或数量)关心经营时,销售(金额或数量)关心客户数量时,顾客关心客户数量时,顾客与经营额有关的实体有:商品,地域,销售时间,销售额与经营额有关的实体有:商品,地域,销售时间,销售额2.2 数据仓库的数据模型数据仓库的数据模型31 数据仓库存储采用多维数据模型。数据一般是数值数
19、据仓库存储采用多维数据模型。数据一般是数值 2.2 数据仓库的数据模型数据仓库的数据模型果汁可乐牛奶商品维奶油浴巾香皂北京上海长沙1 2 3 4 5 6 7城市维日期维o维就是相同类数据的集合,是观察事物的视角。维就是相同类数据的集合,是观察事物的视角。商店、时间和产品都是维。各个商店的集合是商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某每一个商店、每一段时间、每一种商品就是某一维的一个成员。一维的一个成员。o每一个销售事实由一个特定的商品、一个特定每一个销售事实由一个特定的商
20、品、一个特定的时间、一个特定的地区的销售数量、金额组的时间、一个特定的地区的销售数量、金额组成。事实数据表包含描述业务内特定事件的数成。事实数据表包含描述业务内特定事件的数据,这些数字信息可以汇总。据,这些数字信息可以汇总。322.2 数据仓库的数据模型数据仓库的数据模型 大大多多数数的的数数据据仓仓库库都都采采用用“星星型型模模型型”。星星型型模模型型是是由由“事实表事实表”(大表)以及多个(大表)以及多个“维表维表”(小表)所组成。(小表)所组成。“事事实实表表”中中存存放放大大量量关关于于企企业业的的事事实实数数据据(数数量量数数据据)。包含大批。包含大批数据数据的的中心表中心表。例例如
21、如:多多个个时时期期的的数数据据可可能能会会出出现现在在同同一一个个“事事实实表表”中中。“维维表表”中中存存放放描描述述性性数数据据,维维表表是是围围绕绕事事实实表表建建立立的较小的表。的较小的表。33 2.2.1星型模型星型模型 大大多多数数的的数数据据仓仓库库都都采采用用“星星型型模模型型”。星星型型模模型型是是由由“事实表事实表”(大表)以及多个(大表)以及多个“维表维表”(小表)所组成。(小表)所组成。“事事实实表表”中中存存放放大大量量关关于于企企业业的的事事实实数数据据(数数量量数数据据)。包含大批。包含大批数据数据的但没有冗余的的但没有冗余的中心表中心表。例例如如:多多个个时时
22、期期的的数数据据可可能能会会出出现现在在同同一一个个“事事实实表表”中中。“维维表表”中中存存放放描描述述性性数数据据,维维表表是是围围绕绕事事实实表表建建立立的较小的表。的较小的表。银银行行对对存存款款记记账账,A A表表中中存存放放实实际际数数据据,包包括括账账号号、所所属属机机构构号号、存存款款金金额额等等,B B表表存存放放机机构构号号和和机机构构名称的对应关系。则名称的对应关系。则A A是事实表,是事实表,B B是维表。是维表。34 2.2.1星型模型星型模型星星型型模模型型:一一个个中中心心表表,一一组组维维表表,每每维维一一个个表表,每个表包含一组属性。每个表包含一组属性。星型模
23、型数据如下图:星型模型数据如下图:35 2.2.1星型模型星型模型36订货表客户表销售员表事实表产品表日期表地区表星型模型数据存储情况示意图 订单号订货日期客户号客户名称客户地址销售员号销售员名城市产品号产品名称产品型号单价日期标识日月年地区名称省别订单号客户号销售员号产品号日期标识地区名称数量总额事实表、维表举例o事实表就是主要存实实在在的数据(例如笔数、金额),如总账表、资产负债表。下面是一个事实表部分数据:o统计日期 机构代码 业务类型 笔数 金额20080930 XXXXX1 FX01 86 21752.18 20080930 XXXXX2 FX01 0 0.00 20080930 X
24、XXXX3 FX01 86 21752.18 o事实表通过关联维表得到相关机构的信息,机构信息很多,这里没有全部列出,这也是为什么要分事实表和维表的原因。38事实表、维表举例o而维表主要存维度信息,不存放数据信息,如机构维表、日期维表。如机构维表:o统计日期 机构代码 机构名称o20080930 XXXXX1 北京分行o20080930 XXXXX2 上海分行o20080930 XXXXX3 重庆分行 o事实表通过关联维表得到相关机构的信息,机构信息很多,这里没有全部列出,这也是为什么要分事实表和维表的原因。39星型模型:星型模型:主要有两方面的原因主要有两方面的原因:1 1、提提高高查查询询
25、的的效效率率。采采用用星星形形模模式式设设计计的的数数据据仓仓库库的的优优点点是是由由于于数数据据的的组组织织已已经经过过预预处处理理,主主要要数数据据都都在在庞庞大大的的事事实实表表中中,所所以以只只要要扫扫描描事事实实表表就就可可以以进进行行查查询询,而而不不必必把把多多个个庞庞大大的的表表联联接接起起来来,查查询询访访问问效效率率较较高高。同同时时由由于于维维表表一一般般都都很很小小,甚甚至至可可以以放放在在高高速速缓缓存存中中,与与事事实实表表作连接时其速度较快作连接时其速度较快;2 2、便便于于用用户户理理解解。对对非非计计算算机机专专业业的的用用户户而而言言,星星形形模模式式比较直
26、观,通过分析星形模式,很容易组合出各种查询。比较直观,通过分析星形模式,很容易组合出各种查询。40 2.2.1星型模型星型模型41 2.2.22.2.2雪花模型雪花模型 雪雪花花模模型型对对星星型型模模型型的的维维表表进进一一步步层层次次化化,原原来来的的各各维维表表为为了了减减少少冗冗余余,进进一一步步分分解解,形形成成一一些些局局部的部的“层次层次”区域。区域。在在上上面面星星型型模模型型的的数数据据中中 ,对对“产产品品表表”“日日期期表表”“地地区区表表”进进行行扩扩展展形形成成雪雪花花模模型型数数据据见见下下图。图。42雪花模式雪花模式o优点是:在一定程度上减少了存储空间;规范化的结
27、构更容易更新和维护。o缺点:雪花模式比较复杂,用户不容易理解;浏览内容相对困难;额外的连接将使查询性能下降。o在数据仓库中,通常不推荐“雪花化”。因为在数据仓库中,查询性能相对OLTP系统来说更加被重视,而雪花模式会降低数据仓库系统的性能。432.2.32.2.3星网模型星网模型o星网模型是将多个星型模型连接起来形成网星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。间维,连接多个事实表。44地区键事务键用户键时间键状态键时间键用户键事务键地区键电话费用时间键用户键状态键电话余额电话公司星网模型实例 2.2.
28、4第三范式第三范式o范式实际上是传统的关系数据库的设计理论。范式实际上是传统的关系数据库的设计理论。o o数据仓库可以按第三范式进行逻辑数据建模。数据仓库可以按第三范式进行逻辑数据建模。它不同于星型模型在于,把事实表和维表的属它不同于星型模型在于,把事实表和维表的属性都集中在同一数据库中,按第三范式组织数性都集中在同一数据库中,按第三范式组织数据。它减少了维表中的键和不必要的属性。据。它减少了维表中的键和不必要的属性。o著名的著名的NCR数据仓库公司采用了第三范式的逻数据仓库公司采用了第三范式的逻辑数据模型。辑数据模型。46o星型模型在进行多维数据分析时,速度是很星型模型在进行多维数据分析时,
29、速度是很快的。但是增加维度将是很困难的事情。快的。但是增加维度将是很困难的事情。o第三范式对于海量数据(如第三范式对于海量数据(如TB级),且需级),且需要处理大量的动态业务分析时,就显示了它要处理大量的动态业务分析时,就显示了它的优势。的优势。472.3 后台架构后台架构-ETL482.3 后台架构后台架构-ETLo 数据仓库的数据来源于多数据仓库的数据来源于多个数据源,主要是企业内个数据源,主要是企业内部数据;存档的历史数据;部数据;存档的历史数据;企业的外部数据。这些数企业的外部数据。这些数据源可能是在不同的硬件据源可能是在不同的硬件平台上,使用不同的操作平台上,使用不同的操作系统。源数
30、据是以不同的系统。源数据是以不同的格式存放在不同的数据库格式存放在不同的数据库中。中。492.3 后台架构后台架构-ETLo数据仓库需要将这些源数据仓库需要将这些源数据经过抽取、转换和数据经过抽取、转换和装载的过程,存储到数装载的过程,存储到数据仓库的数据模型中。据仓库的数据模型中。可以说,数据仓库的数可以说,数据仓库的数据获取需要经过抽取据获取需要经过抽取(Extraction)、转)、转换(换(Transform)、)、装载(装载(Load)三个过)三个过程即程即ETL过程。过程。502.3 后台架构后台架构-ETLo数据仓库数据仓库ETL过程主要步骤:过程主要步骤:1.决定需要的目标数据
31、;决定需要的目标数据;2.确定数据源;确定数据源;3.确定源到目标的数据映射关系;确定源到目标的数据映射关系;4.建立抽取规则;建立抽取规则;5.决定转换和清洗规则;决定转换和清洗规则;6.制定汇总计划;制定汇总计划;7.组织数据缓冲区域和检测工具;组织数据缓冲区域和检测工具;8.编写装载规程;编写装载规程;9.维度维度表表ETL;10.事实事实表表ETL。51231 数据抽取数据抽取o(1)确认数据源)确认数据源o(2)数据抽取技术)数据抽取技术521.确认数据源确认数据源o列出对事实表的每一个数据项和事实列出对事实表的每一个数据项和事实o列出每一个维度属性列出每一个维度属性o对于每个目标数
32、据项,找出源数据项对于每个目标数据项,找出源数据项o一个数据元素有多个来源,选择最好的来源一个数据元素有多个来源,选择最好的来源o确认一个目标字段的多个源字段,建立合并规则确认一个目标字段的多个源字段,建立合并规则o确认一个目标字段的多个源字段,建立分离规则确认一个目标字段的多个源字段,建立分离规则o确定默认值确定默认值o检查缺失值的源数据检查缺失值的源数据532.数据抽取技术数据抽取技术o当前值。当前值。源系统中存储的数据都代表了当前时刻的值。当源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。商业交易时,这些数据是会发生变化的。o周期性的状态。周期性的状态。这类
33、数据存储的是每次发生变化时的状态。例如,这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经过索赔开始、确认、评对于每一保险索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑有时间说明。估和解决等步骤,都要考虑有时间说明。54232 数据转换数据转换o1.数据转换的基本功能数据转换的基本功能o2.数据转换类型数据转换类型o3.数据整合和合并数据整合和合并o4.如何实施转换如何实施转换551.数据转换的基本功能数据转换的基本功能o选择:选择:从源系统中选择整个记录或者部分记录。从源系统中选择整个记录或者部分记录。o分离分离/合并:合并:对源系统中的数据进行分离操作或者合并操作。
34、对源系统中的数据进行分离操作或者合并操作。o转化:转化:对源系统进行标准化和可理解化。对源系统进行标准化和可理解化。o汇总:汇总:将最低粒度数据进行汇总。将最低粒度数据进行汇总。o清晰:清晰:对单个字段数据进行重新分配和简化对单个字段数据进行重新分配和简化。562.数据转换类型数据转换类型o(1)格式修正)格式修正o(2)字段的解码)字段的解码o(3)计算值和导出值)计算值和导出值o(4)单个字段的分离)单个字段的分离o(5)信息的合并)信息的合并o(6)特征集合转化)特征集合转化o(7)度量单位的转化)度量单位的转化o(8)关键字重新构造)关键字重新构造o(9)汇总)汇总o(10)日期)日期
35、/时间转化时间转化573.数据整合和合并数据整合和合并数据整合和合并是将相关的源数据组合数据整合和合并是将相关的源数据组合成一致的数据结构,装入数据仓库。成一致的数据结构,装入数据仓库。(1)实体识别问题)实体识别问题 数据来源于多个不同的客户系统,对相同客户可能分别数据来源于多个不同的客户系统,对相同客户可能分别有不同的键码,将它们组合成一条单独的记录。有不同的键码,将它们组合成一条单独的记录。o(2)多数据源相同属性不同值的问题)多数据源相同属性不同值的问题o 不同系统中得到的值存在一些差别不同系统中得到的值存在一些差别,需要给出合理的值。,需要给出合理的值。584.如何实施转换如何实施转
36、换o自己编写程序实现数据转换自己编写程序实现数据转换o使用转换工具使用转换工具59233 数据装载数据装载o(1)数据装载方式)数据装载方式o(2)数据装载类型)数据装载类型601.数据装载方式数据装载方式o基本装载基本装载o按照装载的目标表,将转换过的数据输入到目标表中去。按照装载的目标表,将转换过的数据输入到目标表中去。o追加追加o如果目标表中已经存在数据,追加过程在保存已有数据的基础上如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。增加输入数据。o破坏性合并破坏性合并o用新输入数据更新目标记录数据。用新输入数据更新目标记录数据。o建设性合并建设性合并o保留已有的记录
37、,增加输入的记录,并标记为旧记录的替代。保留已有的记录,增加输入的记录,并标记为旧记录的替代。612.数据装载类型数据装载类型o最初装载最初装载o这是第一次对整个数据仓库进行装载。这是第一次对整个数据仓库进行装载。o增量装载增量装载o由于源系统的变化,数据仓库需要装载变化的由于源系统的变化,数据仓库需要装载变化的数据。数据。o完全刷新完全刷新o这种类型的数据装载用于周期性重写数据仓库。这种类型的数据装载用于周期性重写数据仓库。622.3.4 ETL工具工具o数据转换引擎数据转换引擎n从指定的数据源中抽取数据,执行复杂的数据从指定的数据源中抽取数据,执行复杂的数据转换,将结果导入到目标表中。转换
38、,将结果导入到目标表中。o代码生成器代码生成器n根据数据源参数和输出,能自动生成数据抽取根据数据源参数和输出,能自动生成数据抽取和转换程序。和转换程序。o通过复制捕获数据通过复制捕获数据n在交易日志中捕获数据源的变化。在交易日志中捕获数据源的变化。6324 元数据元数据o241 元数据的重要性元数据的重要性o242 关于数据源的元数据关于数据源的元数据o243 关于数据模型的元数据关于数据模型的元数据o244 关于数据仓库映射的元数据关于数据仓库映射的元数据o245 关于数据仓库使用的元数据关于数据仓库使用的元数据64241 元数据的重要性元数据的重要性o元数据元数据65Table逻辑名逻辑名
39、顾客顾客定义定义购买商品的个人或组织购买商品的个人或组织物理存储物理存储DB.table建立日期建立日期2008年年1月月15日日最后更新日期最后更新日期2010年年1月月20日日更新周期更新周期每月每月表编辑程序名表编辑程序名ABC241 元数据的重要性元数据的重要性o元数据定义了数据仓库有什么,指明了数据元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行的各种商业信息,而且整个数据仓库的运行都是基于元数据的。都是基
40、于元数据的。66Table逻辑名逻辑名顾客顾客定义定义购买商品的个人或组织购买商品的个人或组织物理存储物理存储DB.table建立日期建立日期2008年年1月月15日日最后更新日期最后更新日期2010年年1月月20日日更新周期更新周期每月每月表编辑程序名表编辑程序名ABC241 元数据的重要性元数据的重要性o有两类人会用到元数据:最终用户(包括商有两类人会用到元数据:最终用户(包括商业分析人员和业分析人员和IT人员)。人员)。o最终用户:最终用户:n从数据仓库获取信息。从数据仓库获取信息。n包括:数据内容、汇总数据、商业维度、指标、包括:数据内容、汇总数据、商业维度、指标、浏览路径、源系统、外
41、部数据、转换规则、查浏览路径、源系统、外部数据、转换规则、查询模板、报表等询模板、报表等o最终用户需要的元数据,称为最终用户需要的元数据,称为商业元数据商业元数据。67241 元数据的重要性元数据的重要性o有两类人会用到元数据:最终用户(包括商有两类人会用到元数据:最终用户(包括商业分析人员和业分析人员和IT人员)。人员)。oIT人员:人员:n从从ETL,到报表设计,到报表设计,OLAP都需要。都需要。n包括:源数据结构、源平台、包括:源数据结构、源平台、ETL方法方法和和规则、规则、外部数据、装载、查询、报表设计等外部数据、装载、查询、报表设计等oITIT人员需要的元数据,称为人员需要的元数
42、据,称为技术元数据技术元数据。o包括四类:包括四类:数据源元数据,数据模型元数据,数据源元数据,数据模型元数据,数据仓库映射元数据,数据仓库使用元数据。数据仓库映射元数据,数据仓库使用元数据。686970 这这类类元元数数据据是是对对不不同同平平台台上上的的数数据据源源的的物物理理结结构构和和含义的描述。具体为:含义的描述。具体为:(1 1)数数据据源源中中所所有有物物理理数数据据结结构构,包包括括所所有有的的数数据项及数据类型。据项及数据类型。数数据据项项是是数数据据的的最最小小组组成成单单位位。通通常常包包括括数数据据项项名名、数据项含义说明、数据类型、长度、取值等。数据项含义说明、数据类
43、型、长度、取值等。如如FoodIntro 菜品简介 nvarchar 50 null数数据据结结构构:若若干干个个数数据据项项可可以以组组成成一一个个数数据据结结构构,如如某表某表(菜品菜品ID,ID,分类分类ID,ID,菜名菜名,菜品简介菜品简介,价格价格,图片图片)2.4.22.4.2关于数据源的元数据关于数据源的元数据元数据示例元数据示例某表1 菜品表:Food列 名 中文名称 数据类型 长度 是否允许为空 备注FoodID 菜品ID Int Not null 主键FoodclassID 分类ID Int null*foodName 菜名 nvarchar 25 null FoodInt
44、ro 菜品简介 nvarchar 50 null*FoodPrice 价格 Float null FoodImage 图片 varchar 100 null 保存图片路径元数据示例元数据示例数据文件:订单明细表文件组成:订单序号Id,订单编号,菜名,价格,数量,下单时间数 据 项:订单序号Id 数据类型:整型 数据长度:4数 据 项:订单编号 数据类型:可变字符类型 数据长度:50 数据组成:A+日期时间数 据 项:菜名 数据类型:可变字符类型 数据长度:50数 据 项:价格 数据类型:整型 数据长度:4数 据 项:数量 数据类型:整型 数据长度:4数 据 项:下单时间 数据类型:日期型 数据
45、长度:873 这这类类元元数数据据是是对对不不同同平平台台上上的的数数据据源源的的物物理理结结构构和含义的描述。具体为:和含义的描述。具体为:(1 1)数数据据源源中中所所有有物物理理数数据据结结构构,包包括括所所有有的的数据项及数据类型。数据项及数据类型。(2 2)所有数据项的业务定义。)所有数据项的业务定义。(3 3)每每个个数数据据项项更更新新的的频频率率,以以及及由由谁谁或或哪哪个个过程更新的说明。过程更新的说明。(4 4)每个数据项的有效值。)每个数据项的有效值。2.4.22.4.2关于数据源的元数据关于数据源的元数据74 这这组组元元数数据据描描述述了了数数据据仓仓库库中中有有什什
46、么么数数据据以以及及数数据据之之间间的的关关系系,它它们们是是用用户户使使用用管管理理数数据据仓仓库的基础。库的基础。这这种种的的元元数数据据可可以以支支持持用用户户从从数数据据仓仓库库中中获获取取数据。数据。2.4.32.4.3关于数据模型的元数据关于数据模型的元数据2.4.42.4.4关于数据仓库映射的元数据关于数据仓库映射的元数据o这类元数据是数据源与数据仓库数据间的映射。这类元数据是数据源与数据仓库数据间的映射。o 当当数数据据源源中中的的一一个个数数据据项项与与数数据据仓仓库库建建立立了了映映射射关关系系,就就应应该该记记下下这这些些数数据据项项发发生生的的任任何何变变换换或或变变动
47、动。即即用用元元数数据据反反映映数数据据仓仓库库中中的的数数据据项项是是从从哪哪个个特特定定的的数数据据源源抽抽取取的的,经经过过那那些转换,变换和加载过程。些转换,变换和加载过程。75 1抽取工作之间的复杂关系o一个数据的抽取要经过许多步骤。如图所示:762源数据与目标数据之间的映射源数据与目标数据之间的映射o(1)抽取工作)抽取工作o(2)抽取工作步骤)抽取工作步骤o(3)抽取表映射)抽取表映射o(4)抽取属性映射)抽取属性映射o(5)记录筛选规则)记录筛选规则772.4.5关于数据仓库使用的元数据关于数据仓库使用的元数据o这类元数据是数据仓库中信息的使用情况描述。这类元数据是数据仓库中信
48、息的使用情况描述。o 数据仓库的用户最关心的是两类元数据:数据仓库的用户最关心的是两类元数据:o (1 1)元元数数据据告告诉诉数数据据仓仓库库中中有有什什么么数数据据,它它们们从从哪哪里来。即如何按主题查看数据仓库的内容。里来。即如何按主题查看数据仓库的内容。o (2 2)元元数数据据提提供供已已有有的的可可重重复复利利用用的的查查询询语语言言信信息息。如如果果某某个个查查询询能能够够满满足足他他们们的的需需求求,或或者者与与他他们们的的愿愿望望相相似似,他他们们就就可可以以再再次次使使用用那那些些查查询询而而不不必必从从头头开开始始编编程。程。o 关关于于数数据据仓仓库库使使用用的的元元数数据据能能帮帮助助用用户户到到数数据据仓仓库库查询所需要的信息,用于解决企业问题。查询所需要的信息,用于解决企业问题。78习习 题题o1,2,3,5,6,7,8,10,14,1779