《第5章:基于数据仓库的决策支持系统ppt课件.ppt》由会员分享,可在线阅读,更多相关《第5章:基于数据仓库的决策支持系统ppt课件.ppt(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 第第5章章基于基于数据仓库的数据仓库的决策支持系统决策支持系统 (1)20世纪世纪90年代中期,国外兴起了三项决策支持年代中期,国外兴起了三项决策支持新技术新技术: 数据仓库(数据仓库(DW)、联机分析处理()、联机分析处理(OLAP)、)、数据挖掘(数据挖掘(DM)。)。数据仓库、联机分析处理、数据挖掘的结合形成数据仓库、联机分析处理、数据挖掘的结合形成了了基于数据仓库的决策支持系统基于数据仓库的决策支持系统。第第(1)(1)部分部分 5.1 5.1 数据仓库的基本原理数据仓库的基本原理5.1 5.1 数据仓库的基本原理数据仓库的基本原理5.1.1 数据仓库产生和数据仓库的概念数据仓库产
2、生和数据仓库的概念5.1.2 数据仓库结构数据仓库结构5.1.3 数据集市数据集市5.1.4 元数据元数据5.1.5 数据仓库存储数据仓库存储5.1.6 数据仓库系统数据仓库系统5.1.1数据仓库产生和数据仓库的概念数据仓库产生和数据仓库的概念1.数据仓库的产生n蜘蛛网问题 随着数据库技术的广泛运用,企业的运营环境逐渐转化为以数据库为中心的运营环境。 企业对数据的需求是多方面的,除了在企业中建立企业级的数据库外,常常还要建立部门数据库。 比如,市场人员通常只关心企业的销售、市场策划方面的信息,而不注重企业研发、生产等其他环节。因此,将销售、市场策划方面的信息抽取出来单独建立部门级的数据库很有必
3、要,这样可以提高数据的访问效率。 随着数据的逐层抽取,很可能形成“蜘蛛网”现象,使数据的抽取和访问显得错综复杂。一个大型公司每天进行上万次的数据抽取很普通。这种演变不是人为制造的,而是自然演变的结果,如果不再体系结构上进行调整,“蜘蛛网”问题将越来越严重。企业级数据库部门级数据个人级抽取程序n数据分析的结果缺乏可靠性n如:不同部门根据各自抽取的不同数据对同一个问题得到不同的结果n数据处理效率很低n由于数据分散在各个数据库中,因此需要编写的程序很多。由于企业中使用的数据库类型很多,因此需要很多技术来实现。程序的重用性很差,完成的报表不仅时效性很差,数据处理效率也很低n难以将数据转化为信息n如,某
4、电信公司想分析某个大客户今年的情况和过去三年有什么不同?情况可能包括客户的呼叫行为、话费情况、咨询问题等。因此要想比较完整的回答这个问题,实际上需要将客户多方面的数据综合成信息。n实际数据库系统中,记录客户呼叫行为的数据库通常只保留客户最近3个月的呼叫帐单,帐务数据库只保留客户今年的缴费情况,客户咨询数据库只保留客户两年内的咨询信息,用户根本不可能从这些数据中提取比较完整的信息。 W.H.Inmon W.H.Inmon对数据仓库的定义为:对数据仓库的定义为: 数据仓库是面向主题的、集成的、稳定的,不同数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。时间
5、的数据集合,用于支持经营管理中决策制定过程。 SAS软件研究所定义:软件研究所定义: 数据仓库是一种管理技术,旨在通过通畅、合理、数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。全面的信息管理,达到有效的决策支持。操作型数据(操作型数据(DBDB数据)与数据)与分析型数据(分析型数据(DWDW数据)之间的差别为:数据)之间的差别为:DBDB 数据数据 DWDW 数据数据 细节的细节的 综合或提炼的综合或提炼的 在存取时准确的在存取时准确的 代表过去的数据代表过去的数据 可更新的可更新的 不更新不更新 一次操作数据量小一次操作数据量小 一次操作数据量大一次操作数据
6、量大 面向应用面向应用 面向分析面向分析 支持管理支持管理 支持决策支持决策 主题是数据归类的标准,每一个主题基本对应一主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。个宏观的分析领域。 例如,银行的数据仓库的主题:客户例如,银行的数据仓库的主题:客户 DWDW的客户数据来源:的客户数据来源: 从从银行储蓄银行储蓄DBDB、信用卡、信用卡DBDB、贷款、贷款DBDB等三个等三个DBDB中抽中抽取同一客户的数据整理而成。取同一客户的数据整理而成。 在在DWDW中分析客户数据,可决定是否继续给予贷款。中分析客户数据,可决定是否继续给予贷款。 数据进入数据仓库之前,必须经过加工与集成。
7、对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。 将原始数据结构做一个从面向应用到面向主题从面向应用到面向主题的大转变。的大转变。 数据仓库中包括了大量的历史数据。数据经集数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。成进入数据仓库后是极少或根本不更新的。 数据仓库内的数据时限在数据仓库内的数据时限在510510年,故数据的键年,故数据的键码包含时间项,标明数据的历史时期,这适合码包含时间项,标明数据的历史时期,这适合DSSDSS进行时间趋势分析。进行时间趋势分析。 而数据库只包含当前数
8、据,即存取某一时间的而数据库只包含当前数据,即存取某一时间的正确的有效的数据。正确的有效的数据。 大型大型DWDW是一个是一个TBTB(1000GB1000GB)级数据库问题(一般)级数据库问题(一般为为10GB10GB级相当于一般数据库级相当于一般数据库100MB100MB的的100100倍)倍) 需要一个巨大的硬件平台需要一个巨大的硬件平台 需要一个并行的数据库系统需要一个并行的数据库系统 最好的数据仓库是大的和昂贵的。最好的数据仓库是大的和昂贵的。 近期基本数据:近期基本数据:是最近时期的业务数据,是数是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。据仓库用户最感兴趣的部分
9、,数据量大。 历史基本数据:历史基本数据:近期基本数据随时间的推移,近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。由数据仓库的时间控制机制转为历史基本数据。 轻度综合数据:轻度综合数据:是从近期基本数据中提取出的,是从近期基本数据中提取出的,这 层 数 据 是 按 时 间 段 选 取 , 或 者 按 数 据 属 性这 层 数 据 是 按 时 间 段 选 取 , 或 者 按 数 据 属 性(attributesattributes)和内容()和内容(contentscontents)进行综合。)进行综合。 高度综合数据层:高度综合数据层:这一层的数据是在轻度综合这一层的数据
10、是在轻度综合数据基础上的再一次综合,是一种准决策数据。数据基础上的再一次综合,是一种准决策数据。 元元数数据据 高高度度综综合合数数据据轻轻度度综综合合数数据据当当前前基基本本数数据据历历史史数数据据层层 n数据仓库工作范围和成本常常是巨大的。开发数据数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。仓库是代价很高、时间较长的大项目。n提供更紧密集成的数据集市就应运产生。提供更紧密集成的数据集市就应运产生。n目前,全世界对数据仓库总投资的一半以上均集中目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。在数据集市上。n数据集市数据集市是一种更小、更集中的数据仓
11、库,为公是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。司提供分析商业数据的一条廉价途径。n数据集市数据集市是指具有特定应用的数据仓库,主要针是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。得竞争优势或者找到进入新市场的具体解决方案。独立数据集市独立数据集市从属数据集市从属数据集市 1 1、规模是小的,、规模是小的,面向部门面向部门2 2、由业务部门设计、开发、管理和维护、由业务部门设计、开发、管理和维护3 3、购买较便宜,快速实现,投资快速回收、购买较便宜,快
12、速实现,投资快速回收4 4、数据仓库的子集、数据仓库的子集5 5、可升级到完整的数据仓库、可升级到完整的数据仓库 元数据是数据仓库的重要组成部分。元数据是数据仓库的重要组成部分。 元数据描述了数据仓库的数据和环境,元数据描述了数据仓库的数据和环境,即关于数据的数据即关于数据的数据(meta data)(meta data) 元数据包括四种元数据。元数据包括四种元数据。 它是它是现有的业务系统的数据源的描述信息现有的业务系统的数据源的描述信息。这类。这类元数据是对不同平台上的数据源的物理结构和含义的元数据是对不同平台上的数据源的物理结构和含义的描述。具体为:描述。具体为: (1 1)数据源中所有
13、物理数据结构,包括所有的数)数据源中所有物理数据结构,包括所有的数据项及数据类型。据项及数据类型。 (2 2)所有数据项的业务定义。)所有数据项的业务定义。 (3 3)每个数据项更新的频率,以及由谁或那个过)每个数据项更新的频率,以及由谁或那个过程更新的说明。程更新的说明。 (4 4)每个数据项的有效值。)每个数据项的有效值。1 1、关于数据源的元数据、关于数据源的元数据 数据仓库的数据仓库的数据模型是星型模型数据模型是星型模型: :星形星形模式是一种多维的数据关系,它由一个事实表模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表()和一组维表(Dimension Ta
14、ble)组成。)组成。 通常企业数据模型被用作建立仓库数通常企业数据模型被用作建立仓库数据模型的起始点,再对模型加以修改和变据模型的起始点,再对模型加以修改和变换。换。2 2、关于数据模型的元数据、关于数据模型的元数据 这类元数据是这类元数据是数据源与数据仓库数据间的数据源与数据仓库数据间的映射。映射。 当数据源中的一个数据项与数据仓库建立当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据何变换或变动。即用元数据反映数据仓库中的反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那数据项是从哪个特定的数
15、据源填充的,经过那些转换,变换和加载过程。些转换,变换和加载过程。3 3、关于数据仓库映射的元数据、关于数据仓库映射的元数据 这类元数据是数据仓库中信息的使用情况描述。这类元数据是数据仓库中信息的使用情况描述。 (1 1)元数据告诉数据仓库中有什么数据,即如何)元数据告诉数据仓库中有什么数据,即如何按主题查看数据仓库的内容。按主题查看数据仓库的内容。 (2 2)元数据提供已有的可重复利用的查询语言信)元数据提供已有的可重复利用的查询语言信息。息。 关于数据仓库使用的元数据能帮助用户到数据仓库关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。查询所需要的信息,用于解
16、决企业问题。 数据仓库存储采用多维数据模型。数据仓库存储采用多维数据模型。 维就是相同类数据的集合,商店、时间和产品都是维。维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。维的一个成员。 每一个销售事实由一个特定的商品、一个特定的时间、每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。一个特定的商品组成。 两维表,如通常的电子表格。三维构成立方体,若再两维表,如通常
17、的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。增加一维,则图形很难想象,也不容易在屏幕上画出来。 数据仓库是以多维表型的数据仓库是以多维表型的“维表维表事实表事实表”结构形结构形式组织的,共有三种形式:式组织的,共有三种形式: 1 1、星型模型、星型模型 大多数的数据仓库都采用大多数的数据仓库都采用“星型模型星型模型”。星型模型。星型模型是由是由“事实表事实表”(大表)以及多个(大表)以及多个“维表维表”(小表)所(小表)所组成。组成。 “ “事实表事实表”中存放大量关于企业的事实数据(数量中存放大量关于企业的事实数据(数量数据)。数据)。 例如:多个时期的
18、数据可能会出现在同一个例如:多个时期的数据可能会出现在同一个“事实事实表表”中。中。“维表维表”中存放描述性数据,维表是围绕事实中存放描述性数据,维表是围绕事实表建立的较小的表。表建立的较小的表。 星型模型数据如下图:星型模型数据如下图: 2 2、雪花模型、雪花模型 雪花模型是对星型模型的扩展,雪花模型对星型模型的维雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的成一些局部的“层次层次”区域。区域。 它的优点是最大限度地减少数据存储量,以及把较小的维它的优点是最大限度地减少
19、数据存储量,以及把较小的维表联合在一起来改善查询性能。表联合在一起来改善查询性能。 在上面星型模型的数据中在上面星型模型的数据中 ,对,对“产品表产品表”“”“日期日期表表”“”“地区表地区表”进行扩展形成雪花模型数据见下图。进行扩展形成雪花模型数据见下图。 3 3、星网模型、星网模型 星网模型是将多个星型模型连接起来形成网状结构。多个星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。星型模型通过相同的维,如时间维,连接多个事实表。 5.1.6数据仓库系统结构数据仓库系统结构 数据仓库系统由数据仓库(数据仓库系统由数据仓库(DWDW)、仓库管理和
20、分析工)、仓库管理和分析工具三部分组成。具三部分组成。(1 1)定义部分)定义部分 用于定义和建立数据仓库系统。它包括:用于定义和建立数据仓库系统。它包括: (1)(1)设计和定义数据仓库的数据库设计和定义数据仓库的数据库 (2)(2)定义数据来源定义数据来源 (3)(3)确定从源数据向数据仓库复制数据时的清理确定从源数据向数据仓库复制数据时的清理和增强规则和增强规则(2 2)数据获取部分)数据获取部分 该部件把数据从源数据中提取出来,依定义部该部件把数据从源数据中提取出来,依定义部件的规则,抽取、转化和装载数据进入数据仓库。件的规则,抽取、转化和装载数据进入数据仓库。 (3 3)管理部分)管
21、理部分 它用于管理数据仓库的工作,包括:它用于管理数据仓库的工作,包括: (1 1)对数据仓库中数据的维护)对数据仓库中数据的维护 (2 2)把仓库数据送出给分散的仓库服务器或)把仓库数据送出给分散的仓库服务器或DSSDSS用户用户 (3 3)对仓库数据的安全、归档、备份、恢复)对仓库数据的安全、归档、备份、恢复等处理工作等处理工作(4 4)信息目录部件(元数据)信息目录部件(元数据) 数据仓库的目录数据是元数据,由三部分组成:数据仓库的目录数据是元数据,由三部分组成: 技术目录:技术目录:由定义部件生成,关于数据源、目标、清理由定义部件生成,关于数据源、目标、清理规则、变换规则以及数据源和仓
22、库之间的映象信息。规则、变换规则以及数据源和仓库之间的映象信息。 业务目录:业务目录:由仓库管理员生成,关于仓库数据的来源及由仓库管理员生成,关于仓库数据的来源及当前值;预定义的查询和报表细节;合法性要求等。当前值;预定义的查询和报表细节;合法性要求等。 信息引导器:信息引导器:使用户容易访问仓库数据。利用固定查询使用户容易访问仓库数据。利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合的能力或建立新的查询,生成暂时的或永久的仓库数据集合的能力等。等。 分析工具集分两类工具:分析工具集分两类工具:(1 1)查询工具)查询工具 数据仓库的查询不是指对记录级数据的查数据仓库的查询不是指对记
23、录级数据的查询,而是指对分析要求的查询。询,而是指对分析要求的查询。 一般包含:一般包含: 可视化工具:可视化工具:以图形化方式展示数据,可以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。以帮助了解数据的结构,关系以及动态性。 多维分析工具(多维分析工具(OLAPOLAP工具)工具): : 通过对信息的多种可能的观察形式进行快通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。据进行深入的分析和观察。 多维数据的每一维代表对数据的一个特定多维数据的每一维代表对数据的一个特定的观察视角,如时间、
24、地域、业务等。的观察视角,如时间、地域、业务等。(2 2)数据挖掘工具)数据挖掘工具 从大量数据中挖掘具有规律性知识,从大量数据中挖掘具有规律性知识,需要利用数据挖掘(需要利用数据挖掘(Data MiningData Mining)工)工具。具。 数据仓库应用是一个典型的数据仓库应用是一个典型的客户客户/ /服务器(服务器(C/SC/S)结构)结构形形式。式。 数据仓库采用服务器结构,客户端所做的工作有:客户数据仓库采用服务器结构,客户端所做的工作有:客户交互、格式化查询、结果显示、报表生成等。交互、格式化查询、结果显示、报表生成等。 服务器端完成各种辅助决策的服务器端完成各种辅助决策的SQL
25、SQL查询、复杂的计算和各查询、复杂的计算和各类综合功能等。类综合功能等。 现在,越来越普通的一种形式是现在,越来越普通的一种形式是三层三层C/SC/S结构形式,即在结构形式,即在客户与数据仓库服务器之间增加一个多维数据分析(客户与数据仓库服务器之间增加一个多维数据分析(OLAPOLAP)服务器。服务器。客 户 端OLAP 服 务 器数 据 仓 库服 务 器 OLAPOLAP服务器将加强和规范化决策支持的服务工服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。分工作,降低了系统数据传输量。 这种结构形式工作效率更高。这种结构形式工作效率更高。