《数据仓库培训课件35775.pptx》由会员分享,可在线阅读,更多相关《数据仓库培训课件35775.pptx(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据仓库小组成员:朱敏、崔文值、胡滨、张硕研主讲人 :朱敏数据库的分家1.1.操作型数据库操作型数据库 主要用于业务支撑。一个公司往往会使用并维护若干个数据库,这些数据库保存着公司的日常操作数据,比如商品购买、酒店预订、学生成绩录入等;2.2.分析型数据库分析型数据库 主要用于历史数据分析。这类数据库作为公司的单独数据存储,负责利用历史数据对公司各主题域进行统计分析;1.数据组成差别数据组成差别 -数据时间范围差别数据时间范围差别 一般来讲,操作型数据库只会存放90天以内的数据,而分析型数据库存放的则是数年内的数据。这点也是将操作型数据和分析型数据进行物理分离的主要原因。2.数据组成差别数据组
2、成差别 -数据细节层次差别数据细节层次差别 操作型数据库存放的主要是细节数据,而分析型数据库中虽然既有细节数据,又有汇总数据,但对于用户来说,重点关注的是汇总数据部分。操作型数据库中自然也有汇总需求,但汇总数据本身不存储而只存储其生成公式。这是因为操作型数据是动态变化的,因此汇总数据会在每次查询时动态生成。而对于分析型数据库来说,因为汇总数据比较稳定不会发生改变,而且其计算量也比较大(因为时间跨度大),因此它的汇总数据可考虑事先计算好,以避免重复计算。3.数据组成差别数据组成差别 -数据时间表示差别数据时间表示差别 操作型数据通常反映的是现实世界的当前状态;而分析型数据库既有当前状态,还有过去
3、各时刻的快照,分析型数据库的使用者可以综合所有快照对各个历史阶段进行统计分析。4.技术差别技术差别 -查询数据总量和查询频度差别查询数据总量和查询频度差别 操作型查询的数据量少而频率多,分析型查询则反过来,数据量大而频率少。要想同时实现这两种情况的配置优化是不可能的,这也是将两类数据库物理分隔的原因之一。5.技术差别技术差别 -数据更新差别数据更新差别 操作型数据库允许用户进行增,删,改,查;分析型数据库用户则只能进行查询。6.技术差别技术差别 -数据冗余差别数据冗余差别 数据的意义是什么?就是减少数据冗余,避免更新异常。而如5所述,分析型数据库中没有更新操作。因此,减少数据冗余也就没那么重要
4、了。7.功能差别功能差别 -数据读者差别数据读者差别 操作型数据库的使用者是业务环境内的各个角色,如用户,商家,进货商等;分析型数据库则只被少量用户用来做综合性决策。8.功能差别功能差别 -数据定位差别数据定位差别 这里说的定位,主要是指以何种目的组织起来。操作型数据库是为了支撑具体业务的,因此也被称为面向应用型数据库;分析型数据库则是针对各特定业务主题域的分析任务创建的,因此也被称为面向主题型数据库。数据仓库的定义:数据仓库,英文名称为 Data Warehouse ,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性
5、报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。面向分析的存储系统,或者叫做面向主题型数据库。数据仓库的特点1.1.面向主题(主要特点)面向主题(主要特点)面向主题特性是数据仓库和操作型数据库的根本区别。操作型数据库是为了支撑各种业务而建立,而分析型数据库则是为了对从各种繁杂业务中抽象出来的分析主题(如用户、成本、商品等)进行分析而建立。2.2.集成性集成性 集成性是指数据仓库会将不同源数据库中的数据汇总到一起。3.3.企业范围企业范围 数据仓库内的数据是面向公司全局的。比如某个主题域为成本,则全公司和成本有关的信息都会被汇集进来。4.4.历
6、史性历史性 较之操作型数据库,数据仓库的时间跨度通常比较长。前者通常保存几个月,后者可能几年甚至几十年。5.5.时变性时变性 时变性是指数据仓库包含来自其时间范围不同时间段的数据快照。有了这些数据快照以后,用户便可将其汇总,生成各历史阶段的数据分析报告。数据仓库与数据库的联系与区别不同二者的联系:数据仓库的出现,并不是要取代数据库。大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。二者的区别:二者的区别:1、出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。2、存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。3、设
7、计规则不同:数据库设计是尽量避免冗余,一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余,采用反范式的方式来设计。4、提供的功能不同:数据库是为捕获数据而设计,数据仓库是为分析数据而设计,5、基本元素不同:数据库的基本元素是事实表,数据仓库的基本元素是维度表。6、容量不同:数据库在基本容量上要比数据仓库小的多。7、服务对象不同:数据库是为了高效的事务处理而设计的,服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的,服务对象为企业高层决策人员。数据仓库的组成数据库数据抽取工具元数据访问工具数据集市数据仓库管理工具信息发布系统数据仓库数据库数据仓库系统中的数据库是
8、整个数据仓库系统的核心,是数据信息存放的地方,对数据提供存取和检索支持。相对于传统数据库来说,它突出的特点是对海量数据的支持和快速的检索技术。数据抽取工具数据抽取工具把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库中。对各种不同的数据存储方式的访问能力是数据抽取工具的关键,数据转换通常包括:删除对决策分析没有意义的数据转换成统一的数据名称和定义计算统计和衍生数据填补缺失数据统一不同的数据定义方式元数据元数据是描述数据仓库内数据的结构和建立方法的数据。元数据(Metadata)是描述数据的数据。在关系数据库中,数据是存放在表中的,表结构的定义、关于结构的描述就是元数据
9、。在数据仓库中,元数据就是定义数据仓库对象的数据。元数据分为:技术元数据业务元数据技术元数据技术元数据是系统的开发和管理人员使用的、描述数据的技术细节的元数据。主要包括:数据仓库结构的描述数据仓库结构的描述仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容操作元数据操作元数据包括数据血统(data lineage)、数据类别(currency of data),以及监视信息汇总用的算法汇总用的算法由操作环境到数据仓库的映射由操作环境到数据仓库的映射关于系统性能的数据关于系统性能的数据索引,数据刷新、更新或复制事件的调度和定时数据仓库的组成业务元数据(商务元数据)从业务角度描
10、述了系统中的数据,是介于使用者和真实系统之间的语义层,使得不懂计算机技术的业务人员也能够“理解”系统中的数据。业务元数据主要包括:用户的业务术语和它们表达的数据模型信息对象名称及其属性数据的来源信息和数据访问的规则信息。商务术语和定义、数据拥有者信息、收费政策等元数据的作用元数据与数据一起,构成了数据仓库中的数据模型,元数据所描述的更多的是这个模型的结构方面的信息。在数据仓库中,元数据的主要用途包括:用作目录,帮助决策支持系统分析者对数据仓库的内容定义作为数据仓库和操作性数据库之间进行数据转换时的映射标准帮助业务人员和技术人员更好地理解当前业务和系统数据提高系统的管理效率。便于系统集成和可重用
11、访问工具访问工具访问工具是为用户访问数据仓库提供手段,如数据查询和报表、应用开发工具、数据挖掘工具和数据分析工具。数据集市数据集市(Data Mart),也叫数据市场。数据集市是企业级数据仓库的一个子集,是为了特定的应用目的,从数据仓库中独立出来的一部分数据,也称为部门数据或主题数据。在分析、内容、表现,以及易用性方面迎合专业用户群体的特殊需求。在数据仓库的实施过程中,通常可以从一个部分的数据集市着手,再逐渐用几个数据集市组成一个完整的数据仓库(自底向上)。数据仓库的组成数据仓库管理数据仓库管理包括安全与权限管理、数据更新跟踪、数据质量检查、元数据的管理与更新、数据仓库使用状态的检测与审计、数
12、据复制与删除、数据分割与分发、数据备份与恢复、数据存储管理等。信息发布系统信息发布系统是把数据仓库中的数据或其他相关的数据发送给不同的地点和用户。基于Web的信息发布系统是当前流行的多用户访问的最有效方法。典型的数据仓库系统结构从系统构建方面来说,一个典型的数据仓库系统通常划分成四个模块:数据源数据存储和管理(数据仓库服务器)OLAP服务器前端工具与应用数据仓库架构数据仓库提取清理转换装入刷新OLAP服务器查询报告分析数据挖掘监控、整合元数据存储数据源前端工具输出数据集市操作数据库其他外部信息源数据存储和管理OLAP服务器数据源数据源是数据仓库系统的基础,即系统的数据来源,通常包含企事业单位的
13、各种内部信息和外部信息。内部信息,例如存于操作型数据库中的各种业务数据和办公自动化系统中包含的各类文档数据;外部数据,例如各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及其它有关文档等。数据的存储与管理数据的存储与管理是整个数据仓库系统的核心。存储在现有各业务系统的基础上,对数据进行抽取、清理、并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库的元数据(包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。管理对数据仓库系统的管理也就是对其相应数据库系统的管理,通常包括数据的安全、归档、备份、恢复等维护工作。OLA
14、P服务器OLAP(联机分析处理)是针对某个特定的主题进行联机数据访问、处理、分析,通过直观的方式,从多个维度、多种数据综合度进行分析,并将结果呈现给使用者。OLAP让使用者能够从多角度对信息进行快速、一致、交互地存取。前端工具与应用前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具(例如关联分析、分类、预测等)以及各种基于数据仓库或数据集市开发的应用。其中:数据分析工具主要针对OLAP服务器报表工具、数据挖掘工具既可以用于数据仓库,也可针对OLAP服务器ETL简介数据从源系统加载到数据库仓库之前,需要进行抽取E(Extract)、清洗C(cleaning)、转换T(transf
15、orm),最后加载L(load),这就是ETL过程。抽取和加载通常是定期的,每天、每周、或者每月,根据数据仓库面向的主题而定。ETL过程是一个数据流动的过程,中间的“T”(转换)是关键数据仓库系统的体系结构数数据据仓仓库库系系统统的的体体系系结结构构根根据据应应用用需需求求的的不不同同,可可以以分分为为四四种类型:种类型:(1)两层架构(Generic Two-Level Architecture)。(2)独立型数据集市(Independent Data Mart)。(3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Stor
16、e)。(4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。从体系结构的角度去看,数据仓库模型可以有以下三种:企业仓库搜集关于跨越整个组织的主题的所有信息数据集市企业范围数据的一个子集,对于特定的客户是有用的。其范围限于选定的主题,比如一个商场的数据集市独立的数据集市 VS.非独立的数据集市(数据来自于企业数据仓库)虚拟仓库操作数据库上的一系列视图只有一些可能的汇总视图被物化独立的数据仓库系统(企业数据仓库)基于独立数据集市的数据仓库系统特点:特点:终端用户访问分离的数据集市增加了复杂性 每一个数据集市开发一个独立的
17、 ETL接口,增加了难度和开销基于依赖型数据集市和操作型数据存储(ODS)的数据仓库逻辑型数据集市和实时数据仓库系统数据仓库开发流程数据仓库的设计过程(1)自顶向下法、自底向上法或者两者的混合方法:自顶向下法:由总体设计和规划开始在技术成熟、商业理解透彻的情况下使用自底向上法:以实验和原型开始常用在模型和技术开发的初期,可以有效的对使用的技术和模型进行评估,降低风险混合方法:上述两者的结合从软件过程的观点:瀑布式方法:在进行下一步前,每一步都进行结构化和系统的分析螺旋式方法:功能渐增的系统的快速产生,相继版本之间间隔很短数据仓库的设计过程(2)典型的数据仓库设计过程选取待建模的商务过程商务过程
18、找到所构建的数据仓库的主题,比如:销售、货运、订单等等选取商务过程的颗粒度颗粒度数据起始于多细的颗粒度,比如:记录每条详细订单,或是开始于每日的汇总数据选取用于每个事实表记录的维维常用的维有:时间、货物、客户、供应商等选取将安放在事实表中的度量度量常用的数字度量包括:售价、货物数量等数据仓库开发:困难与方法数据仓库开发上的困难自顶向下的开发方法从全系统的角度提供解决方案,使得(模块)集成的问题最小;但是该方法十分昂贵,需要对组织进行长期研究和建模分析。自底向上方法提供了更多的开发灵活性,价格便宜;但往往会遇到集成问题(每个模块单独运行都没有问题,但是一集成就出异常)解决方法:使用递增性、演化性的开发方法高层数据模型企业仓库和数据集市并行开发通过分布式模型集成各数据集市多层数据仓库THANK U