《数据仓库3-数据仓库中的数据及组织35680.pptx》由会员分享,可在线阅读,更多相关《数据仓库3-数据仓库中的数据及组织35680.pptx(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第3讲 数据仓库中的数据及组织1数据仓库产生的原因数据处理的类型v 操作型处理(OLTP):数据的收集、整理、存储、查询和增、删、改操作。v 分析型处理(OLAP):数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析。2数据仓库的四个基本特征:v 数据仓库的数据是面向主题的(Subject Oriented);v 数据仓库的数据时集成的(Integrate);v 数据仓库的数据不可更新(Non-Volatile);v 数据仓库的数据时随时间不断变化(Time Variant)的。数据仓库的基本概念3数据仓库的体系结构4v 数据库和数据仓库两层体系结构(DB-DW)并不能涵盖企业所有的数
2、据处理要求。v 某些应用既不是纯粹的联机事务处理,又不是高层决策分析。什么是ODS5ODS的定义及特点v 定义:是用于支持企业日常的全局应用的数据集合。v ODS中的数据具有4各基本特征:面向主题的、集成的、可更新的、数据是当前或接近当前的。v ODS中只存放当前或接近当前的数据,并且可以进行联机修改,包括增、删、改等操作。6vDW与ODS面向不同的用户、不同的需求,都有其不可替代的作用,彼此间不是相互包含的,同时两者又可以相互结合、相互补充。DBDBDBODSDW应用操作型环境 分析型环境三层体系结构73.1 数据仓库中的数据组织3.2 数据仓库中数据的追加3.3 数据仓库中的元数据8v 数
3、据仓库中存储两类数据:业务数据和元数据3.1数据仓库中的数据组织9数据仓库的体系结构10v 数据仓库中存储的数据 3.1数据仓库中的数据组织后备数据 后备数据 后备数据高度综合级轻度综合级当前细节级早期细节级元数据11v 数据组织的实例 3.1数据仓库中的数据组织数据仓库层后备数据 后备数据 后备数据高度综合级轻度综合级当前细节级早期细节级2015每“月”电话呼叫情况信息2015每“天”电话呼叫情况信息2015每个电话呼叫情况信息20102014电话呼叫明细情况信息131)数据粒度v 数据粒度是数据仓库的重要概念。存在两种形式,形式一:v 粒度是对数据仓库中数据的综合程度高低的一个度量。v 粒
4、度越小,细节程度越高,综合程度越低。14v 不同的情况组织数据的粒度会不同。如:v 电信通话v 细节数据:记录每一次通话情况。v 轻度综合数据:记录顾客每天的通话情况。v 高度综合数据:记录顾客每月的通话情况。1)数据粒度15v 超市购物v 细节数据:记录顾客每一次购物细节。v 轻度综合数据:记录每个顾客每次的购物金额,或每种商品每一天的销售数据。v 高度综合数据:记录每个顾客每月或每年的购物金额,或每种商品每月或每年的销售数据。1)数据粒度161)数据粒度v 数据粒度的确定是业务分析、硬件、软件的一个折中。v 在数据仓库中多重粒度是必不可少的171)数据粒度v 数据粒度是数据仓库的重要概念。
5、存在两种形式,形式二:v 样本数据库,其粒度是根据采样率的高低来划分的。v 盖洛普民意测验是一种观点的民意测验,其特点是用简单的随机取样法并且试图把偏差度保持在最低。182)数据分割v 数据分割是数据仓库中的另一个重要概念。v 它是指将数据分布到各自的物理单元中,以便能分别独立处理,提高数据分析效率。v 数据分割后的数据单元称为分片。19MySQLMySQL MySQL MySQLMySQL MySQL MySQLMySQL MySQL MySQLMySQL MySQL MySQL202)数据分割v 数据分割的标准可以根据实际情况来确定,通常选择:按日期、地域、业务领域等来进行。212)数据分
6、割v 数据分割的方法v 垂直分割:垂直分割就是把一个表垂直分成两部分。v 水平分割:水平分割就是把表按行分成两部分。22AppID MEMBE_ID INFO1 pavarotti17 1 1 pavarotti17 MySQLID MEMBE_ID INFO4 test1234 5 test1234 ID MEMBE_ID INFO3 abcd 9 abcd 20 abcd MySQLMySQLCob arPr o xyAppAppAppAppAppAppApp2)数据分割232)数据分割v 一个简单的分割例子。243.1 数据仓库中的数据组织3.2 数据仓库中数据的追加3.3 数据仓库中的
7、元数据253.2数据仓库中数据的追加v 当数据仓库的数据初装完成以后,再向数据仓库输入(导入)数据的过程称为数据追加。v 如何能够确切地感知究竟哪些数据是在上一次追加过程以后新生成的,这项工作称为变化数据的捕捉。26v 需要对源数据库的数据模式加以修改,加上时标字段。v 对新插入或更新的数据记录,在记录中加更新时的时标。1)时标法27v 由应用生成的文件,用来记录应用所改变的数据内容。v 在要被抽取的源表上建立插入、修改、删除3个触发器,每当源表中的数据发生变化,相应的触发器将变化的数据写入一个增量日志表。2)DELTA文件28v 在上次抽取数据库数据到数据仓库之后及本次将抽取数据库数据之前,
8、对数据库分别做一次快照,然后比较两幅快照的不同。v 缺点:需要占用大量资源,影响系统性能。3)前后快照文件的方法29v 通过分析数据库自身的日志来判断变化的数据。v 优点:提取的变化数据只局限于日志文件,不需扫描整个数据库。4)日志文件303.1 数据仓库中的数据组织3.2 数据仓库中数据的追加3.3 数据仓库中的元数据313.3数据仓库中的元数据v 传统数据库中为了说明数据引入了数据字典的概念。v 数据字典是描述数据的数据。323.3.1元数据的定义v 元数据:是用来描述数据的数据。它描述和定位数据组件、它们的来源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。3
9、33.3.1元数据的定义v 其主要目标是提供数据资源的全面指南,使得数据仓库管理员和开发人员可以方便地了解数据仓库中有什么数据?数据在什么地方?它们来源于哪里,以及数据仓库系统中是如何利用这些数据?如何管理这些数据?34v 与元数据产生、存储有关的工具:v 数据抽取工具:完成ETL操作。v 前端展现工具:实现把关系表映射成与业务相关的事实表和维表来支持多维业务视图,进行多维分析。v 建模工具:提供更高层次的、与特定业务相关的语义。v 元数据存储工具:用于将元数据存储在专门的数据库中。3.3.1元数据的定义353.3.2元数据的分类v 元数据可以按多种方式分类:v 按用户分类v 按功能分类361
10、)按使用元数据的用户分类v 按使用元数据的用户分类:v 技术元数据:是关于数据仓库系统技术细节的描述数据,是数据仓库开发人员和管理人员需要使用的重要信息。主要包括数据仓库结构的描述等。v 业务元数据:从业务角度描述数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层定义,使得不懂计算机技术的业务人员也能够理解数据仓库中的数据。373.按功能分类v 按功能分类:v 数据源元数据v ETL规则元数据v ODS元数据和DW元数据v 报表元数据v 接口数据文件格式元数据v 商业元数据1)按使用元数据的用户分类383.3.3元数据管理的标准化v 元数据在数据仓库系统中占有十分重要的地位,但是目前工
11、业界的各种数据仓库管理和分析工具却常常使用不同的元数据标准,使得元数据管理、不同系统之间的迁移、数据交换变得困难。v 迫切需要建立一种统一的标准,使得不同数据仓库和商务智能系统之间可以相互交换元数据。v 从而产生了基于元数据联盟(Meta Data Coalition,MDC)和OMG组织的相关元数据标准。391)MDC的OIM标准v 背景v MDC成立于1995年。v 致力于建立于厂商无关、不依赖于具体技术的企业元数据管理标准的非营利技术联盟。有150多个会员。v 提出了开放信息模型(Open Information Model,OIM)。v 1999年7月接受微软的建议,将OIM作为元数据
12、标准。401)MDC的OIM标准v OIM标准的目的v 通过公共的元数据信息来支持不同工具和系统之间数据的共享和重用。v 它涉及信息系统的各个阶段。v 采用UML描述。412)OMG组织的CWM标准v 背景v 对象管理组织(英文Object Management Group,缩写为OMG),是一个国际协会,开始的目的是为分布式面向对象系统建立标准,现在致力于建立对程序、系统 和 业务流程的建模标准,以及基于模型的标准。v 有500多个会员。v 提出了公共仓库元模型(Common Warehouse Metamodel,CWM)。422)OMG组织的CWM标准v CWM标准的目的v 异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。433)CWM标准与OIM标准之间的关系v CWM专门为数据仓库元数据而制定的一套标准,只限于数据仓库领域。v OIM包括:分析与设计模型、对象与组件、数据库与数据仓库、商业工程、知识管理等5个领域。v 目前MDC与OMG组织已经合并,今后所有的工具都将遵循统一的CWM标准。44