《第1章 数据仓库的概念与体系结构14323.pptx》由会员分享,可在线阅读,更多相关《第1章 数据仓库的概念与体系结构14323.pptx(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第1章章数据仓库的数据仓库的概念与体系结构概念与体系结构5/12/20235/12/20231数据仓库与数据挖掘数据仓库与数据挖掘1.1数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的概念数据仓库的概念l数数据据仓仓库库就就是是一一个个面面向向主主题题的的(SubjectOriented)、集集成成的的(Integrate)、相相对对稳稳定定的的(Non-Volatile)、反反映映历历史史变变化化(TimeVariant)的的数数据据集集合合,通通常常用用于辅助决策支持(于辅助决策支持(DDS)5/12/20235/12/20232数据仓库与数据挖掘数据仓库与数据挖掘1.1
2、数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的特点:数据仓库的特点:l面向主题;面向主题;l集成的;集成的;l相对稳定的;相对稳定的;l反映历史变化。反映历史变化。5/12/20235/12/20233数据仓库与数据挖掘数据仓库与数据挖掘5/12/20235/12/20234数据仓库与数据挖掘数据仓库与数据挖掘数据库与数据仓库的比较数据库与数据仓库的比较5/12/20235/12/20235数据仓库与数据挖掘数据仓库与数据挖掘1.1数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的组成:数据仓库的组成:l数据仓库数据库;数据仓库数据库;l数据抽取工具;数据抽取工
3、具;l元数据:技术元数据与业务元数据;元数据:技术元数据与业务元数据;l访问工具;访问工具;l数据集市(数据集市(DataMarts););l数据仓库管理;数据仓库管理;l信息发布系统。信息发布系统。5/12/20235/12/20236数据仓库与数据挖掘数据仓库与数据挖掘1.2数据挖掘的概念与方法数据挖掘的概念与方法l数据挖掘的概念数据挖掘的概念l数数据据挖挖掘掘(DataMining),就就是是从从大大量量数数据据中中获获取取有有效效的的、新新颖颖的的、潜潜在在有有用用的的、最最终终可可理理解解的的模模式式的的过过程程,简简单单的的说说,数数据据挖挖掘掘就就是是从从大大量量数数据据中中提提
4、取取或或“挖挖掘掘”知知识识,又又被被称称为为数数据据库库中中的的知知识识发发现现(Knowledge Discovery in Database,KDD)5/12/20235/12/20237数据仓库与数据挖掘数据仓库与数据挖掘1.2数据挖掘的概念与方法数据挖掘的概念与方法l数据挖掘的方法:数据挖掘的方法:l直接数据挖掘直接数据挖掘l间接数据挖掘。间接数据挖掘。5/12/20235/12/20238数据仓库与数据挖掘数据仓库与数据挖掘1.2数据挖掘的概念与方法数据挖掘的概念与方法l数据仓库与数据挖掘的关系数据仓库与数据挖掘的关系l若若将将数数据据仓仓库库(DataWarehouse)比比作作
5、矿矿井井,那那么么数数据据挖挖掘掘(DataMining)就是深入矿井采矿的工作就是深入矿井采矿的工作l数数据据挖挖掘掘是是从从数数据据仓仓库库中中找找出出有有用用信信息息的一种过程与技术的一种过程与技术5/12/20235/12/20239数据仓库与数据挖掘数据仓库与数据挖掘1.3数据仓库的技术、方法与产品数据仓库的技术、方法与产品l联联机机事事务务处处理理(OLTP)与与联联机机分分析析处处理理(OLAP)的比较;)的比较;OLTPOLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向
6、分析,分析驱动5/12/20235/12/202310数据仓库与数据挖掘数据仓库与数据挖掘lOLAP技技术术的的有有关关概概念念:多多维维数数据据集集、维度、数据立方体、度量值和多维分析;维度、数据立方体、度量值和多维分析;1.多维数据集是数据的集合(多维数据集是数据的集合(多维数组多维数组)l多维数据集是决策支持的依据,也是OLAP的核心。lOLAP展现的结果是一幅幅多维视图。l多维数据集可以用一个多维数组表示。例如经典的时间、地理位置和产品的多维数据集可以表示为:(时间,地理位置,产品,销售数据),类似地,其它多维数据集可表示为:(维1,维2,维3,维n,观察变量)形式。5/12/2023
7、5/12/202311数据仓库与数据挖掘数据仓库与数据挖掘数据仓库是用于决策支持的,管理人员在进行数据仓库是用于决策支持的,管理人员在进行决策分析时,经常需要选择一个对决策支持活动有决策分析时,经常需要选择一个对决策支持活动有重要影响的因素去进行决策分析,这些决策因素就重要影响的因素去进行决策分析,这些决策因素就构成了分析问题的角度,这些分析角度就是数据仓构成了分析问题的角度,这些分析角度就是数据仓库中的维度。从而构成了三维、多维空间。库中的维度。从而构成了三维、多维空间。维度是数据仓库中识别数据的索引。维度是数据仓库中识别数据的索引。维度具有层次性。维度具有层次性。可以根据数据的组织层次进行
8、可以根据数据的组织层次进行“上卷上卷”或或“下下钻钻”,了解具体信息。,了解具体信息。2.2.维度维度维是人们观察数据的特定角度5/12/20235/12/202312数据仓库与数据挖掘数据仓库与数据挖掘3.3.数据立方体数据立方体从不同角度对同一数据进行观察得到的数据从不同角度对同一数据进行观察得到的数据交点,构成了数据立方体。交点,构成了数据立方体。当观察的角度(参数)超过三个所构成的数当观察的角度(参数)超过三个所构成的数据结果集称为超立方体,也称为超维数据集。据结果集称为超立方体,也称为超维数据集。商品商品城市城市日期日期牛奶牛奶浴巾浴巾毛巾毛巾可乐可乐果汁果汁4321北京北京上海上海
9、长沙长沙广州广州武汉武汉商品、城市、日期维工业 国家 年商品 市 日类别 省 月5/12/20235/12/202313数据仓库与数据挖掘数据仓库与数据挖掘4.4.度量值度量值是多维数据集的核心值。是最终用户在数据仓库应用中所需要查看的数据。如:销售量、成本、费用等。5/12/20235/12/202314数据仓库与数据挖掘数据仓库与数据挖掘5.5.多维分析多维分析qOLAP的多维分析是指对多维数据集中的数据用切片、切块、旋转等方式分析数据。q使用户能从多个角度、多个侧面去观察数据仓库中的数据。CTCT?5/12/20235/12/202315数据仓库与数据挖掘数据仓库与数据挖掘(1 1)多维
10、的切片)多维的切片q在在多多维维分分析析过过程程中中,如如果果对对多多维维数数据据集集的的某某个个维维选选定定一一维维成成员员,这这种种选选择择操操作作,就就可可以以称称之之为切片。为切片。q有有多多维维数数据据集集(维维1 1,维维2 2,维维i i,维维n n,观观察察变变量量),如如果果确确定定了了某某个个维维成成员员维维i i 的的值值,则则称称:在在维维i i上上的的一一个个切切片片为为(维维 1 1,维维2 2,维,维i i成员,成员,维,维n n,观察变量)。,观察变量)。qq一一一一个个个个多多多多维维维维数数数数组组组组的的的的切切切切片片片片最最最最终终终终是是是是由由由由
11、该该该该数数数数组组组组中中中中除除除除切切切切片片片片所在平面之外的其他成员值确定的。所在平面之外的其他成员值确定的。所在平面之外的其他成员值确定的。所在平面之外的其他成员值确定的。qq维维维维是是是是观观观观察察察察数数数数据据据据的的的的角角角角度度度度,切切切切片片片片的的的的作作作作用用用用或或或或结结结结果果果果是是是是舍舍舍舍弃一些观察角度,以便集中观察该维的数据。弃一些观察角度,以便集中观察该维的数据。弃一些观察角度,以便集中观察该维的数据。弃一些观察角度,以便集中观察该维的数据。5/12/20235/12/202316数据仓库与数据挖掘数据仓库与数据挖掘 产品产品北京北京上海
12、上海 化妆品化妆品江苏江苏 玩具玩具 服装服装 电器电器 1 2 3 4 时间(月时间(月)销售数量:10000服装切片服装切片5/12/20235/12/202317数据仓库与数据挖掘数据仓库与数据挖掘(2 2)多维的切块)多维的切块q与切片类似,如果在一个多维数据集上对两个及其以上的维选定维成员的操作称为切块。q如有多维数据集(维1,维2,维i,维k,维n,观察变量),对维i,维k,选定了维成员,那么(维1,维2,维i成员,维k成员,维n,观察变量)就是多维数据集(维1,维2,维i,维k,维n,观察变量)在维i,维k上的一个切块。5/12/20235/12/202318数据仓库与数据挖掘数
13、据仓库与数据挖掘(3 3)旋转)旋转q改变多维数据集显示的维方向。改变多维数据集显示的维方向。q旋转前的维方向旋转前的维方向2002年年2003年年1季度季度2季度季度3季度季度4季度季度1季度季度2季度季度3季度季度4季度季度北京市北京市123564566134562355上海市上海市13410398871021399782天津市天津市67735996736962945/12/20235/12/202319数据仓库与数据挖掘数据仓库与数据挖掘q旋转后的维方向(不同维度间的旋转操作)旋转后的维方向(不同维度间的旋转操作)北京市北京市上海市上海市天津市天津市2002年年1季度季度12313467
14、2季度季度56103733季度季度4598594季度季度6687962003年年1季度季度134102732季度季度56139693季度季度2397624季度季度5582942002年年2003年年1季度季度2季度季度3季度季度4季度季度1季度季度2季度季度3季度季度4季度季度北京市北京市123564566134562355上海市上海市13410398871021399782天津市天津市67735996736962945/12/20235/12/202320数据仓库与数据挖掘数据仓库与数据挖掘q旋转后的维方向(维度层次上的旋转操作)旋转后的维方向(维度层次上的旋转操作)2002年年2003年年
15、1季度季度2季度季度3季度季度4季度季度1季度季度2季度季度3季度季度4季度季度北京市北京市123564566134562355上海市上海市13410398871021399782天津市天津市67735996736962941季度2季度3季度4季度20022003200220032002200320022003北京市北京市123134565645236655上海市上海市13410210313998978782天津市天津市67737369596296945/12/20235/12/202321数据仓库与数据挖掘数据仓库与数据挖掘(4)(4)其它其它OLAPOLAP操作操作l维度是有层次性的,如时
16、间维可能由:年、季、月、日构成,维度的层次反映了数据的综合程度。l维度层次越高、代表的数据综合度越高,数据量越少。l维度层次越低、代表的数据综合度越低,细节越充分,数据量越多。l有关操作:“上卷”(roll_up)、“下钻”(drill_down)、“钻过”(drill_across)和“钻透”(drill_through)等。5/12/20235/12/202322数据仓库与数据挖掘数据仓库与数据挖掘q“上卷”是指沿某一个维的概念分层向上归约;q下钻”是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;q“钻过”是指对多个事实表进行查询;q“钻透”是指对立方体操作时,利用数据库
17、关系,钻透立方体的底层,进入后端的关系表。5/12/20235/12/202323数据仓库与数据挖掘数据仓库与数据挖掘qOLAPOLAP的的其其它它操操作作还还有有统统计计表表中中最最高高值值和和最最低低值值的的项项数数,计计算算平平均均值值、增增长长率率、利利润润、投投资资回回报报率率等统计计算。等统计计算。表表1(1(单位:万美元)单位:万美元)部门部门销售销售部门部门190部门部门260部门部门3802004年年部门部门1季度季度2季度季度3季度季度4季度季度部门部门120203515部门部门22551515部门部门320151827上上上上卷卷卷卷下下下下钻钻钻钻5/12/20235/
18、12/202324数据仓库与数据挖掘数据仓库与数据挖掘lOLAP根根据据其其存存储储数数据据的的方方式式可可分分为为三类:三类:ROLAP、MOLAP、HOLAPnMOLAPMOLAP是以多维数据库的方式组织存储数是以多维数据库的方式组织存储数据据nROLAPROLAP是利用现有的关系数据库技术来模是利用现有的关系数据库技术来模拟多维数据。拟多维数据。nHOLAPHOLAP是一混合模式,对于常用的维度和是一混合模式,对于常用的维度和维层次,使用多维数据表来记录,对于用维层次,使用多维数据表来记录,对于用户不常用的维度和数据,采用类似户不常用的维度和数据,采用类似ROLAPROLAP星型结构来存
19、储。星型结构来存储。5/12/20235/12/202325数据仓库与数据挖掘数据仓库与数据挖掘1.ROLAP体系结构体系结构qOLAP将分析用的多维数据存储在关系数据将分析用的多维数据存储在关系数据库中并根据应用的需要有库中并根据应用的需要有选择地选择地定义一批定义一批实视图作为表也存储在关系数据库中。不实视图作为表也存储在关系数据库中。不必要将每一个必要将每一个sql查询都作为实视图保存,查询都作为实视图保存,只定义那些应用频率比较高、计算工作量只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。比较大的查询作为实视图。Database 服务器服务器前端工具前端工具ROLAP 服务
20、器服务器MetadataRequestProcessingSQL查询查询结果用户请求查询结果5/12/20235/12/202326数据仓库与数据挖掘数据仓库与数据挖掘2.2.MOLAPMOLAP体系结构体系结构q将将OLAPOLAP分析所用到的多维数据物理上存储分析所用到的多维数据物理上存储为多维数组的形式,形成为多维数组的形式,形成“立方体立方体”的结的结构。维的属性值被映射成多维数组的下标构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于组的值存储在数组的单元中。由于MOLAPMOLAP采采用了新的存
21、储结构,从物理层实现起,因用了新的存储结构,从物理层实现起,因此又称为物理此又称为物理OLAPOLAP(physical olapphysical olap)。)。Database 服务器服务器前端工具前端工具MOLAP 服务器服务器MetadataRequestProcessingSQL查询查询结果用户请求查询结果Load5/12/20235/12/202327数据仓库与数据挖掘数据仓库与数据挖掘3.3.HOLAPHOLAP体系结构体系结构q由于由于molapmolap和和rolaprolap有着各自的优点和缺点有着各自的优点和缺点,且它们且它们的结构迥然不同,这给分析人员设计的结构迥然不同
22、,这给分析人员设计olapolap结构提结构提出了难题。为此一个新的出了难题。为此一个新的olapolap结构结构混合型混合型olapolap(holapholap)被提出,它能把)被提出,它能把molapmolap和和rolaprolap两种两种结构的优点结合起来。迄今为止,对结构的优点结合起来。迄今为止,对holapholap还没有还没有一个正式的定义。但很明显,一个正式的定义。但很明显,holapholap结构不应该是结构不应该是molapmolap与与rolaprolap结构的简单组合,而是这两种结构结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分技术优点的有机
23、结合,能满足用户各种复杂的分析请求。析请求。Database 服务器服务器前端工具前端工具MOLAP 服务器服务器SQL查询查询结果用户请求查询结果LoadSQL查询查询结果OR5/12/20235/12/202328数据仓库与数据挖掘数据仓库与数据挖掘lOLAP工具工具5/12/20235/12/202329数据仓库与数据挖掘数据仓库与数据挖掘1.3数据仓库的技术、方法与产品数据仓库的技术、方法与产品l数据仓库实施中的三个关键环节数据仓库实施中的三个关键环节l数据抽取;数据抽取;l数据存储与管理数据存储与管理l数据表现数据表现5/12/20235/12/202330数据仓库与数据挖掘数据仓库
24、与数据挖掘l从数据仓库的概念结构看,应该包含:数从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据源、数据准备区、数据仓库数据库、数据集市据集市/知识挖掘库以及各种管理工具和知识挖掘库以及各种管理工具和应用工具。应用工具。数据源业务系统外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库图1.1 数据仓库的概念结构5/12/20235/12/202331数据仓库与数据挖掘数据仓库与数据挖掘数据准备区的工作:数据准备区的工作:ETL(extract/transformation/load)l数据抽取数据抽取l数据清洗数据清洗l
25、数据转换数据转换l数据装载数据装载数据抽取、转换、装载5/12/20235/12/202332数据仓库与数据挖掘数据仓库与数据挖掘1.3数据仓库的技术、方法与产品数据仓库的技术、方法与产品l数据仓库实施方法论数据仓库实施方法论l数据仓库不是简单的数据或产品堆砌,数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导关重要,技术选择或决策错误很可能导致项目实施失败。致项目实施失败。5/12/20235/12/202333数据仓库与数据挖掘数据仓
26、库与数据挖掘1.3数据仓库的技术、方法与产品数据仓库的技术、方法与产品l常用数据仓库产品比较常用数据仓库产品比较l常用常用OLAP工具介绍工具介绍;l各数据仓库厂商提供的解决方案各数据仓库厂商提供的解决方案IBM、Oracle、NCR、Microsoft、SAS等等5/12/20235/12/202334数据仓库与数据挖掘数据仓库与数据挖掘1.4数据仓库系统的体系结构数据仓库系统的体系结构l数据仓库系统的体系结构的分类数据仓库系统的体系结构的分类(1)两两 层层 架架 构构(GenericTwo-LevelArchitecture)。)。(2)独独 立立 型型 数数 据据 集集 市市(Inde
27、pendent DataMart)。)。(3)依依 赖赖 型型 数数 据据 集集 市市 和和 操操 作作 型型 数数 据据 存存 储储(Dependent Data Mart and OperationalDataStore)。)。(4)逻逻辑辑型型数数据据集集市市和和实实时时数数据据仓仓库库(LogicalDataMartandReal-TimeDataWarehouse)。)。5/12/20235/12/202335数据仓库与数据挖掘数据仓库与数据挖掘1.4数据仓库系统的体系结构数据仓库系统的体系结构l两层数据仓库体系结构两层数据仓库体系结构 5/12/20235/12/202336数据仓
28、库与数据挖掘数据仓库与数据挖掘1.4数据仓库系统的体系结构数据仓库系统的体系结构l基于独立数据集市的数据仓库体系结基于独立数据集市的数据仓库体系结构构 5/12/20235/12/202337数据仓库与数据挖掘数据仓库与数据挖掘1.4数据仓库系统的体系结构数据仓库系统的体系结构l基于依赖型数据集市和操作型数据存储基于依赖型数据集市和操作型数据存储(ODS)(ODS)的数据的数据仓库体系结构仓库体系结构 5/12/20235/12/202338数据仓库与数据挖掘数据仓库与数据挖掘1.4数据仓库系统的体系结构数据仓库系统的体系结构l逻辑型数据集市和实时数据仓库的体系结构逻辑型数据集市和实时数据仓库
29、的体系结构 5/12/20235/12/202339数据仓库与数据挖掘数据仓库与数据挖掘1.5数据仓库的产生、发展与未来数据仓库的产生、发展与未来l数据仓库的产生数据仓库的产生l联联机机事事务务处处理理系系统统(业业务务系系统统)刚刚上上线线时时,查查询询不不到到数数据据是是因因为为数数据据太太少少了了,而而几几十十年年后后查查询询不不到到有有关关数数据据是是因因为为数数据据太太多多了了。针针对对这这一一问问题题,人人们们设设想想专专门门为为业业务务数数据据的的统统计计分分析析建建立立一一个个数数据据中中心心,它它的的数数据据从从联联机机事事务务处处理理系系统统中中来来、从从异异构构的的外外部
30、部数数据据源源来来、或或从从脱脱机机的的历历史史业业务务数数据据中中来来,这这个个数数据据中中心心也也是是一一个个联联机机系系统统,它它专专门门为为分分析析统统计计和和决决策策支支持持应应用用服服务务,通通过过它它可可获获取取决决策策支支持持和和联联机机分分析析应应用用所所需需要要的的一一切切数数据据。这这个个数数据据中中心心就就叫叫做做数数据据仓仓库库。简简单单地地说说,数数据据仓仓库库就就是是一一个个作作为为决决策策支支持持和和联联机机分分析析应应用用系系统统数数据据源源的的结结构构化化数数据据环环境境,数数据据仓仓库库要要研研究究和和解解决决的的问问题题就就是是从从数数据据库库中中获获取
31、取信息的问题。信息的问题。5/12/20235/12/202340数据仓库与数据挖掘数据仓库与数据挖掘1.5数据仓库的产生、发展与未来数据仓库的产生、发展与未来l数据仓库的发展数据仓库的发展l以报表为主以报表为主(第一阶段第一阶段)l以分析为主以分析为主(第二阶段第二阶段)l以预测模型为主以预测模型为主(第三阶段第三阶段)l以营运导向为主以营运导向为主(第四阶段第四阶段)l以实时数据仓库、自动决策应用为主以实时数据仓库、自动决策应用为主(第五阶段第五阶段)5/12/20235/12/202341数据仓库与数据挖掘数据仓库与数据挖掘1.5数据仓库的产生、发展与未来数据仓库的产生、发展与未来l数据
32、仓库的未来数据仓库的未来l在在数数据据抽抽取取方方面面,未未来来的的技技术术发发展展将将集集中中在在系系统统集集成成化化方方面面。它它将将互互连连、转转换换、复复制制、调调度度、监监控控纳纳入入标标准准化化的的统统一一管管理理,以以适适应应数数据据仓仓库库本本身身或或数数据据源源可可能能的的变变化化,使使系系统统更更便便于于管管理和维护。理和维护。l在在数数据据管管理理方方面面,未未来来的的发发展展将将使使数数据据库库厂厂商商明明确确推推出出数数据据仓仓库库引引擎擎,作作为为数数据据仓仓库库服服务务器器产产品品与与数数据据库库服服务务器器并并驾驾齐齐驱驱。在在这这一一方方面面,带带有有决决策策
33、支支持持扩扩展展的的并并行行关关系系数数据据库库将将最最具发展潜力。具发展潜力。l在在数数据据表表现现方方面面,数数理理统统计计的的算算法法和和功功能能将将普普遍遍集集成成到到联联机机分分析析产产品品中中,并并与与Internet/WebInternet/Web技技术术紧紧密密结结合合。按按行行业业应应用用特特征征细细化化的的数数据据仓仓库库用用户户前前端端软软件件将将成成为为产产品品作作为为数数据据仓仓库库解解决决方方案案的的一一部部分分。数数据据仓仓库库实实现现过过程程的的方方法法论论将将更更加加普普及及,将将成成为为数数据据库库设设计计的的一一个个明明确确分分支支,成成为为管管理理信信息息系系统统设设计计的必备的必备 5/12/20235/12/202342数据仓库与数据挖掘数据仓库与数据挖掘