《数据仓库的基本原理35696.pptx》由会员分享,可在线阅读,更多相关《数据仓库的基本原理35696.pptx(66页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据仓库和决策支持系统数据仓库和决策支持系统数据仓库和决策支持系统数据仓库和决策支持系统主讲:鲁明羽主讲:鲁明羽大连海事大学计算机科学与技术学院大连海事大学计算机科学与技术学院研究方向:智能数据分析与数据挖掘研究方向:智能数据分析与数据挖掘电电 话:话:13889576531Email:第第4 4章章 数据仓库的基本原理数据仓库的基本原理本章目标本章目标随着信息技术的不断推广和应用,许多企业都随着信息技术的不断推广和应用,许多企业都已在使用已在使用MISMIS系统处理管理事务和日常业务,积系统处理管理事务和日常业务,积累了大量信息累了大量信息企业管理者开始考虑如何利用这些海量信息为企业管理者开
2、始考虑如何利用这些海量信息为企业管理提供决策支持。因此,产生了与传统企业管理提供决策支持。因此,产生了与传统数据库有很大差异的数据环境要求和从这些海数据库有很大差异的数据环境要求和从这些海量数据中获取特殊知识的深层需求。量数据中获取特殊知识的深层需求。这种需求加上计算机软硬件能力的飞速发展,这种需求加上计算机软硬件能力的飞速发展,导致了数据仓库和数据挖掘技术的出现。导致了数据仓库和数据挖掘技术的出现。本章目标本章目标本章目标是:本章目标是:1)了解数据仓库的定义和特点了解数据仓库的定义和特点了解数据仓库的定义和特点了解数据仓库的定义和特点2)了解了解了解了解数据仓库的数据组织方式数据仓库的数据
3、组织方式数据仓库的数据组织方式数据仓库的数据组织方式3)3)理解数据仓库的体系结构和参照结构理解数据仓库的体系结构和参照结构理解数据仓库的体系结构和参照结构理解数据仓库的体系结构和参照结构4)4)了解数据仓库管理员的作用和常用工具集了解数据仓库管理员的作用和常用工具集了解数据仓库管理员的作用和常用工具集了解数据仓库管理员的作用和常用工具集目目 录录1 1 1 1 数据仓库的起源数据仓库的起源数据仓库的起源数据仓库的起源2 2 2 2 数据仓库的定义和特点数据仓库的定义和特点数据仓库的定义和特点数据仓库的定义和特点3 3 3 3 与数据仓库相关的几个概念与数据仓库相关的几个概念与数据仓库相关的几
4、个概念与数据仓库相关的几个概念4 4 4 4 数据仓库的数据组织数据仓库的数据组织数据仓库的数据组织数据仓库的数据组织5 5 5 5 数据仓库的体系结构数据仓库的体系结构数据仓库的体系结构数据仓库的体系结构6 6 6 6 数据仓库的层次结构数据仓库的层次结构数据仓库的层次结构数据仓库的层次结构7 7 7 7 数据仓库管理员数据仓库管理员数据仓库管理员数据仓库管理员8 8 8 8 数据仓库常用工具集数据仓库常用工具集数据仓库常用工具集数据仓库常用工具集练练练练 习习习习1.1.数据仓库的起源数据仓库的起源 1.1 1.1 数据库技术的发展数据库技术的发展60606060年代早期:利用文件系统,生
5、成各种报告年代早期:利用文件系统,生成各种报告年代早期:利用文件系统,生成各种报告年代早期:利用文件系统,生成各种报告60606060年代中期:大量的文件使得维护和开发的复年代中期:大量的文件使得维护和开发的复年代中期:大量的文件使得维护和开发的复年代中期:大量的文件使得维护和开发的复杂性提高,数据的同步亦成问题杂性提高,数据的同步亦成问题杂性提高,数据的同步亦成问题杂性提高,数据的同步亦成问题70707070年代早期:年代早期:年代早期:年代早期:E.F.CoddE.F.CoddE.F.CoddE.F.Codd提出关系数据模型和提出关系数据模型和提出关系数据模型和提出关系数据模型和E-RE-
6、RE-RE-R数据建模方法,数据库技术日趋成熟数据建模方法,数据库技术日趋成熟数据建模方法,数据库技术日趋成熟数据建模方法,数据库技术日趋成熟70707070年代中期:高性能的年代中期:高性能的年代中期:高性能的年代中期:高性能的OLTPOLTPOLTPOLTP应用越来越广泛应用越来越广泛应用越来越广泛应用越来越广泛1.1.数据仓库的起源数据仓库的起源 1.1 1.1 数据库技术的发展数据库技术的发展80808080年代早期:年代早期:年代早期:年代早期:OLTPOLTPOLTPOLTP,MIS/DSSMIS/DSSMIS/DSSMIS/DSS,以,以,以,以IBMIBMIBMIBM的的的的“
7、Information Warehouse”“Information Warehouse”“Information Warehouse”“Information Warehouse”为代表,提出了数为代表,提出了数为代表,提出了数为代表,提出了数据仓库的思想据仓库的思想据仓库的思想据仓库的思想80808080年代中期:由于技术和实现费用的原因,数年代中期:由于技术和实现费用的原因,数年代中期:由于技术和实现费用的原因,数年代中期:由于技术和实现费用的原因,数据仓库思想没有引起太多注意据仓库思想没有引起太多注意据仓库思想没有引起太多注意据仓库思想没有引起太多注意90909090年代:以年代:以年
8、代:以年代:以W.H.InmonW.H.InmonW.H.InmonW.H.Inmon为代表,数据仓库为代表,数据仓库为代表,数据仓库为代表,数据仓库(Data (Data (Data (Data Warehouse)Warehouse)Warehouse)Warehouse)迅速兴起迅速兴起迅速兴起迅速兴起=OLAP=OLAP=OLAP=OLAP,DMDMDMDM,OLAMOLAMOLAMOLAM1.1.数据仓库的起源数据仓库的起源 1.2 1.2 从传统数据库到数据仓库从传统数据库到数据仓库 随着市场竞争的加剧,信息系统的用户已经不随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机
9、处理每天所发生的事务数满足于仅仅用计算机处理每天所发生的事务数据,而是需要利用信息辅助管理决策过程。这据,而是需要利用信息辅助管理决策过程。这就需要一种能够将日常业务处理中所收集到的就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术,而各种数据转变为具有商业价值信息的技术,而传统的数据库系统无法承担这一责任,主要表传统的数据库系统无法承担这一责任,主要表现在决策处理中的现在决策处理中的系统响应问题、决策数据需系统响应问题、决策数据需系统响应问题、决策数据需系统响应问题、决策数据需求问题求问题求问题求问题和和和和决策数据操作问题决策数据操作问题决策数据操作问题决策数据操
10、作问题,等等。,等等。对对比内容比内容数据数据库库数据数据仓库仓库数据内容数据内容当前当前值值历历史的、存档的、史的、存档的、归纳归纳的、的、计计算的数据算的数据数据目数据目标标面向面向业务业务操作程序操作程序,重重复复处处理理面向主面向主题题域、管理决策分析域、管理决策分析应应用用数据特性数据特性动态变动态变化化,按字段更新按字段更新静静态态,不能直接不能直接修改修改、只定、只定时时添加添加数据数据结结构构高度高度结结构化构化,复复杂杂,适适合操作合操作计计算算简单简单,适合分析适合分析使用使用频频率率高高中到低中到低数据数据访问访问量量每个事每个事务务只只访问访问少量少量记记录录有的事有的
11、事务务可能要可能要访问访问大量大量记录记录对对响响应时间应时间的的要求要求以秒以秒为单为单位位计计量量以秒、分以秒、分钟钟、甚至小、甚至小时为计时为计量量单单位位数据仓库与传统数据库的对比数据仓库与传统数据库的对比Prism SolutionsPrism SolutionsPrism SolutionsPrism Solutions公司创始人之一的公司创始人之一的公司创始人之一的公司创始人之一的W.H.InmonW.H.InmonW.H.InmonW.H.Inmon在在在在Building the Data WarehouseBuilding the Data WarehouseBuildin
12、g the Data WarehouseBuilding the Data Warehouse一书中对一书中对一书中对一书中对“数据仓库数据仓库数据仓库数据仓库(DW)”(DW)”(DW)”(DW)”定义如下:定义如下:定义如下:定义如下:数据仓库是一个面向主题的、集成的、数据仓库是一个面向主题的、集成的、随时间变化的、非易失性的数据集合,用随时间变化的、非易失性的数据集合,用于支持管理决策过程。于支持管理决策过程。2.数据仓库的定义和特点数据仓库的定义和特点 这个定义本身就说明了数据仓库中数据的组这个定义本身就说明了数据仓库中数据的组织方式以及建立数据仓库的目的是什么。织方式以及建立数据仓库
13、的目的是什么。数据仓库特点:数据仓库特点:面向主题性面向主题性 数据集成性数据集成性 数据的时变性数据的时变性 数据的非易失性数据的非易失性 数据的集合性数据的集合性 支持决策作用支持决策作用 2.数据仓库的定义和特点数据仓库的定义和特点 其中前4项是其主要特点。数据仓库中的数据是面向主题的数据仓库中的数据是面向主题的.主题是数据归类的标准,每个主题是数据归类的标准,每个主题主题对应对应一个客一个客观分析观分析领域领域,如客户和商店等,因此,数据仓库中,如客户和商店等,因此,数据仓库中的数据是按主题要求而组织的。的数据是按主题要求而组织的。业务应用业务应用 主题领域主题领域2.数据仓库的定义和
14、特点数据仓库的定义和特点 例如,对一个保险公司来说,它的业务应用例如,对一个保险公司来说,它的业务应用系统可能有汽车保险、人寿保险、健康医疗保险系统可能有汽车保险、人寿保险、健康医疗保险及家庭财产保险等,而保险公司的主题领域可以及家庭财产保险等,而保险公司的主题领域可以是客户、保单、保费及索赔等。是客户、保单、保费及索赔等。一个数据仓库可以包含若干个主题,而每个一个数据仓库可以包含若干个主题,而每个主题可以分解为若干个子主题,每个子主题又可主题可以分解为若干个子主题,每个子主题又可进一步分解为更细的子主题,形成逐层分解的主进一步分解为更细的子主题,形成逐层分解的主题层次结构。题层次结构。2.数
15、据仓库的定义和特点数据仓库的定义和特点 2.数据仓库的定义和特点数据仓库的定义和特点 数据仓库中的数据是集成的数据仓库中的数据是集成的.为了实现辅助决策的目标和要求,数据仓库需要集成为了实现辅助决策的目标和要求,数据仓库需要集成多个部门、不同系统的大量数据。需要集成的数据源既多个部门、不同系统的大量数据。需要集成的数据源既有关系数据库,也有文本数据库、面向对象数据库以及有关系数据库,也有文本数据库、面向对象数据库以及文件系统等,而且同一种数据模型集合体中又有不同的文件系统等,而且同一种数据模型集合体中又有不同的DBMSDBMS。因此,数据集成是一个复杂问题。因此,数据集成是一个复杂问题。不同数
16、据源中的数据并不是全部转移到数据仓库中,不同数据源中的数据并不是全部转移到数据仓库中,而是运用多种转换规则,通过选择、合并、变换等方法而是运用多种转换规则,通过选择、合并、变换等方法转换为数据仓库中的集成数据转换为数据仓库中的集成数据-需要需要ETLETL模块模块支持。支持。此外,数据源中可能存在数据重复、不一致和各种此外,数据源中可能存在数据重复、不一致和各种错误,因此,需要进行错误,因此,需要进行数据清洗数据清洗。2.数据仓库的定义和特点数据仓库的定义和特点 数据仓库中的数据是集成的数据仓库中的数据是集成的.不同的应用在编码、命名、属性的度量等方面都有不同的应用在编码、命名、属性的度量等方
17、面都有很大的差别,数据集成就是要解决这些问题。很大的差别,数据集成就是要解决这些问题。举例举例1 1:编码编码APP AAPP A:M M,F FM M,F FAPP BAPP B:1 1,0 0APP CAPP C:X X,Y YAPP DAPP D:MALEMALE,FEMALEFEMALE2.数据仓库的定义和特点数据仓库的定义和特点 举例举例2 2:命名命名APP AAPP A:IDIDUser_IDUser_IDAPP BAPP B:IdentityIdentityAPP CAPP C:User_IDUser_IDAPP DAPP D:Custom_IDCustom_ID 举例举例3
18、3:属性属性度量度量APP AAPP A:CMCMCMCMAPP BAPP B:INCHESINCHESAPP CAPP C:M MAPP DAPP D:DMDM2.数据仓库的定义和特点数据仓库的定义和特点 举例举例4 4:关键字冲突关键字冲突APP AAPP AKEY CHARKEY CHAR(1010)APP BAPP BKEY DEC FIXEDKEY DEC FIXED(9 9,2 2)APP CAPP CKEY PIC 999999KEY PIC 999999APP DAPP DKEY CHARKEY CHAR(1212)KEY CHAR KEY CHAR(1212)举例举例5 5:
19、多源多源APP AAPP A:DESCRIPTION1DESCRIPTION1APP BAPP B:DESCRIPTION2DESCRIPTION2?DESCRIPTION DESCRIPTIONAPP CAPP C:DESCRIPTION3 DESCRIPTION3 2.数据仓库的定义和特点数据仓库的定义和特点 数据仓库中的数据是稳定的数据仓库中的数据是稳定的.数据仓库包含大量的历史数据,经集成进入数据仓库包含大量的历史数据,经集成进入数据仓库后主要用于决策分析(查询类操作),数据仓库后主要用于决策分析(查询类操作),而极少更新。可以将其理解为只读的。而极少更新。可以将其理解为只读的。业务应
20、用业务应用 数据仓库数据仓库插入插入更新更新删除删除插入插入访问访问查询查询加载加载 以记录为单位的数据操作以记录为单位的数据操作大量的数据加载和数据访问大量的数据加载和数据访问2.数据仓库的定义和特点数据仓库的定义和特点 数据仓库中的数据是随时间变化的数据仓库中的数据是随时间变化的.主要体现在主要体现在数据的时限、数据的内容、数据数据的时限、数据的内容、数据的码健的码健。业务应用业务应用 数据仓库数据仓库数据时限:数据时限:1 1个月至个月至1 1年年 数据时限:数据时限:5 5到到1010年年数据内容:记录更新数据内容:记录更新 数据内容:复杂的数据快照数据内容:复杂的数据快照关键字结构:
21、可能包含时间元素关键字结构:可能包含时间元素 关键字结构:包含时间标记关键字结构:包含时间标记2.数据仓库的定义和特点数据仓库的定义和特点 数据仓库是为管理决策提供服务的数据仓库是为管理决策提供服务的.数据仓库主要应用在两个方面:数据仓库主要应用在两个方面:使用浏览分析工具在数据仓库中寻找有用的信息;使用浏览分析工具在数据仓库中寻找有用的信息;基于数据仓库,在基于数据仓库,在数据仓库系统数据仓库系统上建立应用,形成上建立应用,形成决策支持系统决策支持系统。事务处理事务处理 分析处理分析处理从数据从数据数据数据从数据从数据 信息(知识)信息(知识)OLTP OLTP OLAP OLAP(DMDM
22、、OLAMOLAM)DBDBDWDW3.与数据仓库相关的几个概念与数据仓库相关的几个概念OLTPOLTP:联机事务处理,完成对数据的增、:联机事务处理,完成对数据的增、删、改等操作删、改等操作OLAPOLAP:联机分析处理,完成对数据的向上:联机分析处理,完成对数据的向上综合、向下细化、旋转、切片和分割(又综合、向下细化、旋转、切片和分割(又称局部分析)等操作。称局部分析)等操作。OLAPOLAP以多维分析为以多维分析为基础,刻画了管理和决策过程中对数据进基础,刻画了管理和决策过程中对数据进行多层面、多角度的分析处理。又分为行多层面、多角度的分析处理。又分为MOLAPMOLAP、ROLAPRO
23、LAP3.与数据仓库相关的几个概念与数据仓库相关的几个概念DMDM:数据挖掘,从大量数据中发现数据模式:数据挖掘,从大量数据中发现数据模式,预测趋势和行为,致力于知识的自动发现预测趋势和行为,致力于知识的自动发现OLAMOLAM:联机分析挖掘,将:联机分析挖掘,将OLAPOLAP与与DMDM技术结合起技术结合起来的一种技术来的一种技术DSSDSS:决策支持系统,利用:决策支持系统,利用OLAPOLAP、DMDM、OLAMOLAM等等技术为企业或政府的管理决策提供服务的系统技术为企业或政府的管理决策提供服务的系统4.数据仓库的数据组织数据仓库的数据组织 数据仓库中的数据依据下面数据仓库中的数据依
24、据下面4 4个原则进行组织:个原则进行组织:1)1)面向主题面向主题2)2)采用关系表结构形式的数据模式采用关系表结构形式的数据模式3)3)在数据源和数据仓库之间建立转换规则在数据源和数据仓库之间建立转换规则4)4)数据按粒度分为若干个层次数据按粒度分为若干个层次4.数据仓库的数据组织数据仓库的数据组织1 1)面向主题组织数据)面向主题组织数据构建数据仓库的前提首先是确定数据仓库的主题,然后构建数据仓库的前提首先是确定数据仓库的主题,然后才能以主题为单位,组织满足主题目标与需求的数据。才能以主题为单位,组织满足主题目标与需求的数据。一个数据仓库一般有若干个主题,而每个主题又有一个一个数据仓库一
25、般有若干个主题,而每个主题又有一个数据集合体作为支撑,称为主题域(数据集合体作为支撑,称为主题域(subject fieldsubject field),因此,),因此,一个数据仓库可以按主题划分为若干个主题域。一个数据仓库可以按主题划分为若干个主题域。主题域应具有:主题域应具有:独立性:主题域有明确的边界和独立内涵,可以有交叉,独立性:主题域有明确的边界和独立内涵,可以有交叉,但不影响其独立性。但不影响其独立性。完备性:每个主题的分析要求所需要的数据均能在其主完备性:每个主题的分析要求所需要的数据均能在其主题域中获得。题域中获得。4.数据仓库的数据组织数据仓库的数据组织2 2)按关系模式组织
26、主题域)按关系模式组织主题域数据仓库中的主题域按照传统的关系表形式进行组织。数据仓库中的主题域按照传统的关系表形式进行组织。一个主题域往往由若干个关系表构成,而这些关系表中的数一个主题域往往由若干个关系表构成,而这些关系表中的数据来自于数据源,其中的属性按统计、汇总需求,可分为三据来自于数据源,其中的属性按统计、汇总需求,可分为三种形式:静态的(即不可统计的)、动态的(即可统计的)种形式:静态的(即不可统计的)、动态的(即可统计的)以及半动态的(即有时可统计的)。以及半动态的(即有时可统计的)。在同一个主题域内的各个关系表之间,一般存在一定的在同一个主题域内的各个关系表之间,一般存在一定的联系
27、,为此,需要建议一个主题域的公共码键,称为主题码联系,为此,需要建议一个主题域的公共码键,称为主题码(subject keysubject key),以关联主题域内各个关系表。),以关联主题域内各个关系表。4.数据仓库的数据组织数据仓库的数据组织3 3)在数据源和数据仓库之间建立转换规则)在数据源和数据仓库之间建立转换规则由于不同数据源中的数据并不是全部转移到数据仓库中,由于不同数据源中的数据并不是全部转移到数据仓库中,而是通过选择、合并、变换等方法,转换为数据仓库中的集而是通过选择、合并、变换等方法,转换为数据仓库中的集成数据,因此,需要在数据源和数据仓库之间建立成数据,因此,需要在数据源和
28、数据仓库之间建立数据转换数据转换规则规则。这些数据转换规则形成了。这些数据转换规则形成了数据仓库管理系统中元数据,数据仓库管理系统中元数据,而而ETLETL模块模块负责运用所建立的转换规则进行数据加载。负责运用所建立的转换规则进行数据加载。4.数据仓库的数据组织数据仓库的数据组织数据转换规则规定数据转换规则规定:v数据源中的哪些数据进入数据仓库哪个数据域的哪些数据源中的哪些数据进入数据仓库哪个数据域的哪些关系表中?关系表中?v在进入数据仓库之前,数据源中哪些数据需要合并为在进入数据仓库之前,数据源中哪些数据需要合并为主题域中的哪项数据?主题域中的哪项数据?v在进入数据仓库之前,数据源中哪些数据
29、需要进行何在进入数据仓库之前,数据源中哪些数据需要进行何种变换?种变换?v其它转换规定其它转换规定 4.数据仓库的数据组织数据仓库的数据组织4 4)数据按粒度分为若干个层次)数据按粒度分为若干个层次综合与细化是数据仓库中的两种主要操作,为此,数据综合与细化是数据仓库中的两种主要操作,为此,数据仓库中的数据需要划分为不同层次,而每个数据层次反映仓库中的数据需要划分为不同层次,而每个数据层次反映了数据综合的程度(称为粒度)。一般地,数据仓库包含了数据综合的程度(称为粒度)。一般地,数据仓库包含4 4个级别的数据:个级别的数据:a)a)当前数据当前数据b)b)轻度综合数据轻度综合数据c)c)高度综合
30、数据高度综合数据d)d)历史数据历史数据 数据仓库从数据仓库从传统数据库传统数据库或或其它数据源其它数据源获得原始数据,先获得原始数据,先按辅助决策的主题要求形成当前按辅助决策的主题要求形成当前基本数据层基本数据层,再按综合,再按综合决策的要求形成决策的要求形成综合数据层综合数据层(又分为轻度综合层和高度(又分为轻度综合层和高度综合层)。随着时间的推移,由时间控制机制将当前基综合层)。随着时间的推移,由时间控制机制将当前基本数据层转为本数据层转为历史数据层历史数据层。高度综合高度综合 01-0201-02年所有产年所有产 品月销售数据品月销售数据轻度综合轻度综合 01-0201-02年某产品年
31、某产品 周销售数据周销售数据当前数据当前数据 01-0201-02年年 销售数据销售数据历史数据历史数据 1980-20001980-2000 销售数据销售数据数据仓库的数据仓库的逻辑结构逻辑结构元数据4.数据仓库的数据组织数据仓库的数据组织4 4)数据按粒度分为若干个层次)数据按粒度分为若干个层次数据粒度越大,其综合度越高,细化程度越低;反之,数据粒度越大,其综合度越高,细化程度越低;反之,数据粒度越小,其细节程度越大,综合度越低。数据粒度越小,其细节程度越大,综合度越低。上页的数据仓库数据层次划分是一种常见方式,在实际上页的数据仓库数据层次划分是一种常见方式,在实际应用中,还可以进一步提升
32、或降低。应用中,还可以进一步提升或降低。元 数 据早期细节级销售细节1994-1997操作型转 换当前细节级销售细节1998-2003子生产线每周销售1990-2003高度综合级 轻度综合级(数据集市)生产线每月销售1994-2003数据仓库的数据组织实例数据仓库的数据组织实例1.1.业务背景:业务背景:某个采用会员制的连锁超市的数据仓库某个采用会员制的连锁超市的数据仓库2.2.现有系统现状:现有系统现状:采购管理系统,销售管理系统,采购管理系统,销售管理系统,库存管理系统,人事管理系统库存管理系统,人事管理系统3.3.现有系统的数据库结构:现有系统的数据库结构:1)1)采购管理系统采购管理系
33、统 订单(订单号,供应商号,日期,总金额)订单(订单号,供应商号,日期,总金额)订单明细(订单号,商品名,商品号,类别,订单明细(订单号,商品名,商品号,类别,单价,数量)单价,数量)供应商(供应商号,供应商名,地址,电话)供应商(供应商号,供应商名,地址,电话)数据仓库的数据组织实例数据仓库的数据组织实例2 2)销售管理系统)销售管理系统 顾客(顾客号,姓名,性别,年龄,顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,金额)销售(员工号,顾客号,商品号,数量,单价,金额)3 3)库存管理系统)库存管理系统 领料单(领料单号
34、,领料人,商品号,数量,日期)领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库存(商品号,库房号,库存量,日期)库房(库房号,保管员,地点,库存商品描述)库房(库房号,保管员,地点,库存商品描述)数据仓库的数据组织实例数据仓库的数据组织实例4 4)人事管理系统)人事管理系统 员工(员工号,姓名,性别,年龄,文化程度,部门号)员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)部门(部门号,部门名称,部门主管,电话)4.4.主题
35、选择:商品,供应商,顾客主题选择:商品,供应商,顾客5.5.主题域:分别对应三个主题主题域:分别对应三个主题(1 1)商品商品主题域主题域 P P数据源:采购,销售和库存管理系统数据源:采购,销售和库存管理系统数据仓库的数据组织实例数据仓库的数据组织实例数据关系表:数据关系表:P1-P1-商品固有信息:商品号,商品名,类别商品固有信息:商品号,商品名,类别 P2-P2-商品采购信息:商品号,供应商号,供应价商品采购信息:商品号,供应商号,供应价 供货日期,供应量供货日期,供应量 P3-P3-商品销售信息:商品号,顾客号,售价商品销售信息:商品号,顾客号,售价 销售日期,销售量销售日期,销售量
36、P4-P4-商品库存信息:商品号,库存号,库存量,日期商品库存信息:商品号,库存号,库存量,日期主题码:商品号主题码:商品号数据属性:数据属性:P1 P1:静态或半动态:静态或半动态 P2 P2、P3P3、P4P4:动态:动态数据仓库的数据组织实例数据仓库的数据组织实例(2 2)供应商供应商主题域主题域 S S数据源:采购管理系统数据源:采购管理系统数据关系表:数据关系表:S1-S1-供应商固有信息:供应商号,供应商名供应商固有信息:供应商号,供应商名 地址,电话地址,电话 S2-S2-供应商品信息:供应商号,商品号,供应价供应商品信息:供应商号,商品号,供应价 供货日期,供应量供货日期,供应
37、量主题码:供应商号主题码:供应商号数据属性:数据属性:S1-S1-静态或半动态静态或半动态 S2-S2-动态动态数据仓库的数据组织实例数据仓库的数据组织实例(3 3)顾客顾客主题域主题域 C C数据源:销售管理系统数据源:销售管理系统数据关系表:数据关系表:C1-C1-顾客固有信息:顾客号,顾客姓名,性别,年龄顾客固有信息:顾客号,顾客姓名,性别,年龄 文化程度,地址,电话文化程度,地址,电话 C2-C2-顾客购物信息:顾客号,商品号,售价顾客购物信息:顾客号,商品号,售价 购买日期,购买量购买日期,购买量主题码:顾客号主题码:顾客号数据属性:数据属性:C1-C1-静态或半动态静态或半动态 C
38、2-C2-动态动态数据仓库的数据组织实例数据仓库的数据组织实例6.6.按不同粒度组织数据按不同粒度组织数据(1 1)商品主题域)商品主题域1 1)商品采购信息)商品采购信息 单笔记录:存储与数据源中单笔记录:存储与数据源中 按日记录按日记录 P2.1:P2.1:商品号,(年,月,日),采购总额商品号,(年,月,日),采购总额 按月记录按月记录 P2.2:P2.2:商品号,(年,月),采购总额商品号,(年,月),采购总额 按年记录按年记录 P2.3:P2.3:商品号,年,采购总额商品号,年,采购总额数据仓库的数据组织实例数据仓库的数据组织实例6.6.按不同粒度组织数据按不同粒度组织数据(1 1)
39、商品主题域)商品主题域2 2)商品销售信息)商品销售信息 单笔记录:存储与数据源中单笔记录:存储与数据源中 按日记录按日记录 P3.1:P3.1:商品号,(年,月,日),销售总额商品号,(年,月,日),销售总额 按月记录按月记录 P3.2:P3.2:商品号,(年,月),销售总额商品号,(年,月),销售总额 按年记录按年记录 P3.3:P3.3:商品号,年,销售总额商品号,年,销售总额数据仓库的数据组织实例数据仓库的数据组织实例6.6.按不同粒度组织数据按不同粒度组织数据(1 1)商品主题域)商品主题域3 3)商品库存信息)商品库存信息 单笔记录:存储与数据源中单笔记录:存储与数据源中 按日记录
40、按日记录 P4.1:P4.1:商品号,(年,月,日),库存总额商品号,(年,月,日),库存总额 按月记录按月记录 P4.2:P4.2:商品号,(年,月),库存总额商品号,(年,月),库存总额 按年记录按年记录 P4.3:P4.3:商品号,年,库存总额商品号,年,库存总额数据仓库的数据组织实例数据仓库的数据组织实例6.6.按不同粒度组织数据按不同粒度组织数据(2 2)供应商主题域)供应商主题域 单笔记录:存储于数据源中单笔记录:存储于数据源中 按日记录按日记录 S2.1:S2.1:供应商号,(年,月,日),供应总额供应商号,(年,月,日),供应总额 按月记录按月记录 S2.2:S2.2:供应商号
41、,(年,月),供应总额供应商号,(年,月),供应总额 按年记录按年记录 S2.3:S2.3:供应商号,年,供应总额供应商号,年,供应总额数据仓库的数据组织实例数据仓库的数据组织实例6.6.按不同粒度组织数据按不同粒度组织数据(3 3)顾客主题域)顾客主题域 单笔记录:存储与数据源中单笔记录:存储与数据源中 按日记录按日记录 C2.1:C2.1:顾客号,(年,月,日),购买总额顾客号,(年,月,日),购买总额 按月记录按月记录 C2.2:C2.2:顾客号,(年,月),购买总额顾客号,(年,月),购买总额 按年记录按年记录 C2.3:C2.3:顾客号,年,购买总额顾客号,年,购买总额数据仓库的数据
42、组织实例数据仓库的数据组织实例7.7.数据仓库中的数据组织概况数据仓库中的数据组织概况 共有共有1818个关系表,个关系表,2929个属性,其数据来自于个属性,其数据来自于4 4个个管理系统管理系统(1 1)商品主题域)商品主题域 P P 主题码:商品号主题码:商品号 关系表关系表:P1:P1 P2.1,P2.2,P2.3 P2.1,P2.2,P2.3 P3.1,P3.2,P3.3 P3.1,P3.2,P3.3 P4.1,P4.2,P4.3 P4.1,P4.2,P4.3数据仓库的数据组织实例数据仓库的数据组织实例(2 2)供应商主题域)供应商主题域 S S 主题码:供应商号主题码:供应商号 关
43、系表关系表:S1:S1 S2.1,S2.2,S2.3 S2.1,S2.2,S2.3(3 3)顾客主题域)顾客主题域 C C 主题码:顾客号主题码:顾客号 关系表关系表:C1:C1 C2.1,C2.2,C2.3 C2.1,C2.2,C2.38.8.数据转换规则:见参考书,表数据转换规则:见参考书,表3.33.35.5.数据仓库的体系结构数据仓库的体系结构 5.1 5.1 数据仓库的概念结构数据仓库的概念结构 从数据仓库的概念结构看,应该包含:从数据仓库的概念结构看,应该包含:数据源数据源数据源数据源、数据数据数据数据准备区准备区准备区准备区、数据仓库数据库数据仓库数据库数据仓库数据库数据仓库数据
44、库、数据集市数据集市数据集市数据集市/知识挖掘库知识挖掘库知识挖掘库知识挖掘库以及各以及各种种管理工具和应用工具管理工具和应用工具管理工具和应用工具管理工具和应用工具。数据源业务系统外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库图5.1 数据仓库的概念结构结果展现结果展现5.2 5.2 数据仓库的虚拟结构数据仓库的虚拟结构 虚拟数据仓库利用描述业务系统中数据位置和抽取虚拟数据仓库利用描述业务系统中数据位置和抽取虚拟数据仓库利用描述业务系统中数据位置和抽取虚拟数据仓库利用描述业务系统中数据位置和抽取数据算法的元数据,直接从业务系统中抽取查询的数
45、据,数据算法的元数据,直接从业务系统中抽取查询的数据,数据算法的元数据,直接从业务系统中抽取查询的数据,数据算法的元数据,直接从业务系统中抽取查询的数据,进行概括、聚合操作后,将最终结果提供给用户进行概括、聚合操作后,将最终结果提供给用户进行概括、聚合操作后,将最终结果提供给用户进行概括、聚合操作后,将最终结果提供给用户 用户图1.2 虚拟数据仓库结构数据仓库查询管理服务器业务系统数据库5.5.数据仓库的体系结构数据仓库的体系结构 5.3 5.3 数据集市数据集市 在为企业建立数据仓库时,开发人员必须针在为企业建立数据仓库时,开发人员必须针在为企业建立数据仓库时,开发人员必须针在为企业建立数据
46、仓库时,开发人员必须针对所有的用户、从企业的全局出发,来对待企业对所有的用户、从企业的全局出发,来对待企业对所有的用户、从企业的全局出发,来对待企业对所有的用户、从企业的全局出发,来对待企业需要的任何决策分析。这样建立数据仓库就成了需要的任何决策分析。这样建立数据仓库就成了需要的任何决策分析。这样建立数据仓库就成了需要的任何决策分析。这样建立数据仓库就成了一个代价高、时间长、风险大的项目。一个代价高、时间长、风险大的项目。一个代价高、时间长、风险大的项目。一个代价高、时间长、风险大的项目。因此,更加紧凑集成、拥有完整应用工具、因此,更加紧凑集成、拥有完整应用工具、因此,更加紧凑集成、拥有完整应
47、用工具、因此,更加紧凑集成、拥有完整应用工具、投资少、规模小的数据集市(投资少、规模小的数据集市(投资少、规模小的数据集市(投资少、规模小的数据集市(Data MarketData MarketData MarketData Market)就)就)就)就应运而生。应运而生。应运而生。应运而生。5.5.数据仓库的体系结构数据仓库的体系结构 数据仓库查询管理服务器业务系统数据库应用1应用2 数据集市数据集市数据集市数据集市也称为也称为面向应用的数据仓库面向应用的数据仓库面向应用的数据仓库面向应用的数据仓库,是一种是一种是一种是一种更小、更集中的数据仓库更小、更集中的数据仓库更小、更集中的数据仓库更
48、小、更集中的数据仓库,可以为企业提供分析,可以为企业提供分析,可以为企业提供分析,可以为企业提供分析商业数据的一条廉价途径。商业数据的一条廉价途径。商业数据的一条廉价途径。商业数据的一条廉价途径。5.5.数据仓库的体系结构数据仓库的体系结构 数据集市是具有特定应用的数据仓库,主要针对数据集市是具有特定应用的数据仓库,主要针对数据集市是具有特定应用的数据仓库,主要针对数据集市是具有特定应用的数据仓库,主要针对某个某个某个某个具有战略意义的应用具有战略意义的应用具有战略意义的应用具有战略意义的应用或具体或具体或具体或具体部门级的应用部门级的应用部门级的应用部门级的应用。它支持客户利用已有的数据获得
49、重要的竞争它支持客户利用已有的数据获得重要的竞争它支持客户利用已有的数据获得重要的竞争它支持客户利用已有的数据获得重要的竞争优势,或找到进入新市场的整体解决方案。优势,或找到进入新市场的整体解决方案。优势,或找到进入新市场的整体解决方案。优势,或找到进入新市场的整体解决方案。5.5.数据仓库的体系结构数据仓库的体系结构 数据集市数据集市可通过两种方式构建:(1)独立型数据集市:直接建立数据集市(2)依赖型数据集市:通过数据仓库的发布而形成5.5.数据仓库的体系结构数据仓库的体系结构 数据集市的特点:数据集市的特点:规模小规模小,面向部门,而不是整个企业,面向部门,而不是整个企业面向特定的应用面
50、向特定的应用,不是满足企业所有的决策,不是满足企业所有的决策分析需求;分析需求;主要由主要由业务部门定义、设计和实现业务部门定义、设计和实现;可以由可以由业务部门管理和维护业务部门管理和维护;成本低,开发时间短,投资风险较小成本低,开发时间短,投资风险较小可以升级可以升级到企业完整的数据仓库。到企业完整的数据仓库。5.4 5.4 单一数据仓库结构单一数据仓库结构 将所有的主题都集中到一个大型数据库中的体系结构。数据源将所有的主题都集中到一个大型数据库中的体系结构。数据源将所有的主题都集中到一个大型数据库中的体系结构。数据源将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标