《第4章OLAP技术.ppt》由会员分享,可在线阅读,更多相关《第4章OLAP技术.ppt(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第4章OLAP技术 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望第4章OLAP技术4.1 OLAP 技术概念技术概念4.2 OLAP 与多维分析与多维分析4.3 OLAP 的实施的实施4.4 多维多维 OLAP 与关系与关系 OLAP4.5 OLAP 技术评价技术评价练习练习4.1OLAP技术概念 在在线线分分析析处处理理或或联联机机分分析析处处理理(OLAP)是是一一个个应应用用广广泛泛的的数据仓库使用技术。数据仓库使用技术。两个特点,在两个特点,在线性线性(
2、On_Line),多维分析多维分析(Multi_Analysis),4.1.1 OLAP 的发展的发展针对特定问题的联机数据查询和分析针对特定问题的联机数据查询和分析对原始数据按照用户的观点进行转换处理对原始数据按照用户的观点进行转换处理反映用户眼中问题某一真实方面(反映用户眼中问题某一真实方面(“维维”)快速、稳定、一致和交互式的存取快速、稳定、一致和交互式的存取允许用户对这些数据按照需要进行深入的观察允许用户对这些数据按照需要进行深入的观察4.1.2OLAP的特性1.快速性快速性 系统能在数秒内对用户的多数分析要求做出反应系统能在数秒内对用户的多数分析要求做出反应2.可分析性可分析性 用用
3、户户无无需需编编程程就就可可以以定定义义新新的的专专门门计计算算,将将其其作作为为分分析析的一部分,并以用户所希望的方式给出报告的一部分,并以用户所希望的方式给出报告3.多维性多维性 提供对数据分析的多维视图和分析提供对数据分析的多维视图和分析4.信息性信息性 能及时获得信息,并且管理大容量信息能及时获得信息,并且管理大容量信息4.2OLAP与多维分析4.2.1 多维基本概念多维基本概念维维、维维的的层层次次、维维成成员员、多多维维数数据据集集、数数据据单单元元、多多维维数据集的度量值和聚集数据集的度量值和聚集1.维维“上卷上卷”“下钻下钻”销售地区西南华中华东四川云南河南湖北江苏上海4.2O
4、LAP与多维分析2.多维数据集多维数据集 产品产品北京北京上海上海 化妆品化妆品江苏江苏 玩具玩具 服装服装 电器电器 1 2 3 4 时间(月)时间(月)销销售售数数量量:10000服装切片3.维成员维成员维维的的一一个个取取值值、不不同同维维层层次次取取值值的的组组合合、维维成成员员描描述述所所关关心心的的主主题题在在维维中的位置中的位置 数数据据单单元元可可以以表表示示为为:(维维1维维成成员员,维维2维维成成员员,维维3维维成成员员,维维4维维成成员,观察变量值)员,观察变量值)4.多维数据集的度量值多维数据集的度量值多维数据集的核心值多维数据集的核心值 5.聚集聚集立方体中包括很多层
5、次,这些层次可以向用户提供某一层次的概括数据立方体中包括很多层次,这些层次可以向用户提供某一层次的概括数据 通过聚集,形成基于维的有决策分析意义的一些数据交集通过聚集,形成基于维的有决策分析意义的一些数据交集4.2.2多维分析1.多维的切片多维的切片(维维 1,维维2,维维i成成员员,维维n,观观察察变变量量)是是多多维维数数据据集集(维(维1,维,维2,维,维i,维,维n,观察变量)在维,观察变量)在维i上的一个切片上的一个切片 2.多维的切块多维的切块在在(维维1,维维2,维维i,维维k,维维n,观观察察变变量量)多多维维数数据据集集上上,对对维维i,维维k,选选定定了了维维成成员员,那那
6、(维维1,维维2,维维i成成员员,维维k成成员员,维维n,观观察察变变量量)就就是是多多维维数数据据集集(维维1,维维2,维维i,维维k,维维n,观观察察变变量量)在在维维i,维,维k上的一个切块上的一个切块 4.2.2多维分析3.旋转2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市67735996736962944.2.2多维分析3.旋转北京市上海市天津市2002年1季度123134672季度56103733季度4598594季度6687962003年1季度134102732季度
7、56139693季度2397624季度5582944.2.2多维分析4.其它OLAP操作“上卷”(roll_up)、“下钻”(drill_down)、“钻过”(drill_across)和“钻透”(drill_through)等钻取操作。“上卷”是指沿某一个维的概念分层向上归约;“下钻”是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;“钻过”是指对多个事实表进行查询;“钻透”是指对立方体操作时,利用数据库关系,钻透立方体的底层,进入后端的关系表。OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。4.2.3维的层次关系简单层次复
8、杂层次全国江苏北京上海苏州市扬州市宝应县4.2.4维的类关系类的划分,只能依据同一层次的维成员集合来划分类的划分,只能依据同一层次的维成员集合来划分 维的层次与类组合图维的层次与类组合图 产品维产品大类产品用途类产品销地类产品产地类产品小类4.2.5OLAP与数据仓库关系从从OLAP使用的效率角度考虑,设计数据仓库时考虑因素。使用的效率角度考虑,设计数据仓库时考虑因素。尽尽可可能能使使用用星星型型架架构构,如如果果采采用用雪雪花花结结构构,就就要要最最小小化化事事实实表表底底层层维维度表以后的维度表数量。度表以后的维度表数量。为用户设计包含事实表的维度表。为用户设计包含事实表的维度表。维维度度
9、表表的的设设计计应应该该符符合合通通常常意意义义上上的的范范式式约约束束,维维度度表表中中不不要要出出现现无无关的数据。关的数据。事事实实表表中中不不要要包包含含汇汇总总数数据据,事事实实表表中中所所包包含含的的用用户户需需要要访访问问的的数数据据应该具有必需的粒度。应该具有必需的粒度。对对事事实实表表和和维维度度表表中中的的关关键键字字必必须须创创建建索索引引;同同一一种种数数据据尽尽可可能能使使用用一个事实表。一个事实表。保保证证数数据据的的参参考考完完整整性性,避避免免事事实实表表中中的的某某些些数数据据行行在在立立方方体体进进行行聚聚集运算时没有参加进来。集运算时没有参加进来。4.3O
10、LAP的实施业务处理系统第三层第二层第一层客户端数据抽取数据清理、转换 数据加载多维化处理可视化处理图4.7数据仓库与OLAP关系图数据仓库OLAP服务器数据准备区4.4多维OLAP与关系OLAP产品名称销售地区销售数量电器电器电器服装服装服装江苏上海北京江苏上海北京9404503408303502704.4.1 多维数据库多维数据库江苏上海北京电器服装9408304503503402704.4.1多维数据库产品名称销售地区销售数量电器电器电器电器服装服装服装服装汇总汇总汇总汇总江苏上海北京汇总江苏上海北京汇总江苏上海北京汇总9404503401730830350270145017708006
11、103180江苏上海北京汇总电器服装汇总94083017704503508003402706101730145031804.4.2多维数据库的数据存储 维维数数扩扩展展到到三三维维或或更更高高的的维维度度时时,多多维维数数据据库库MDDB就就成成了了一一种种“超立方超立方”体的结构体的结构 在在MDDB中,其数据的存储是由许多类似于中,其数据的存储是由许多类似于数组数组的对象来完成的对象来完成 对对象象中中包包含含了了经经过过高高度度压压缩缩的的索索引引和和指指针针,利利用用这这些些索索引引和和指指针针将许多存储数据的单元块联结在一起将许多存储数据的单元块联结在一起 实实际际组组合合中中往往往
12、往由由于于各各种种原原因因会会导导致致某某些些组组合合没没有有具具体体的的值值,或或值值是空的或者为零。产生了多维数据库的是空的或者为零。产生了多维数据库的稀疏矩阵问题稀疏矩阵问题 江苏上海北京浙江电器服装电脑94001770450080002706101730031804.4.3多维数据库与数据仓库多维数据库可以对数据进行切片、切块多维数据库可以对数据进行切片、切块数据仓库可提供细节数据数据仓库可提供细节数据OLAP是技术、数据仓库是存储数据的体系结构,两者互存。是技术、数据仓库是存储数据的体系结构,两者互存。直接从业务处理系统中抽取数据直接从业务处理系统中抽取数据 问题:问题:1.增加数据
13、抽取部分的工作量增加数据抽取部分的工作量2.缺乏统一的数据源和结论缺乏统一的数据源和结论3.加大系统的维护工作量加大系统的维护工作量4.缺乏对元数据的有效管理缺乏对元数据的有效管理5.加大加大OLAP系统的开发投入系统的开发投入4.4.4MOLAP的创建与功能1.MOLAP的创建的创建阶段:阶段:选择功能选择功能确定分析数值确定分析数值构造分析维构造分析维定义逻辑模型定义逻辑模型2.MOLAP功能功能快速响应能力快速响应能力与多维数据库进行交互的能力与多维数据库进行交互的能力挖掘信息间的内在联系挖掘信息间的内在联系各种模型各种模型数据导航能力数据导航能力 4.4.5ROLAP实现的三个规则1.
14、支持支持OLAP原则原则2.数据存储在某一个关系型数据库中数据存储在某一个关系型数据库中3.支持某种形式的聚集导航支持某种形式的聚集导航4.4.6ROLAP的多维表示方法1.星型模式在关系数据库中的表示星型模式在关系数据库中的表示 产品ID时间ID销售商ID地址ID图4.8星型模式的关系数据库表示产品ID销售商ID地址ID时间ID销售数量销售成本总收入销售商维度表地理位置维表时间维表产品维表2.雪花模式在关系数据库中的表示产品维表产品ID时间ID销售商ID 地址ID图4.9雪花模式的关系数据库表示地理位置维表时间维表产品ID产 品 名称公司ID公司名称产品颜色ID产 品 颜色产品商标ID商 标
15、 名称产品类型ID产品类型名销售商维度表产品ID销售商ID地址ID时间ID销售数量销售成本总收入产品ID公司ID产品颜色ID产品商标ID产品类型ID4.4.7ROLAP的创建与功能1.ROLAP的创建的创建选择功能、确定分析数值、构造分析维、定义逻辑模型选择功能、确定分析数值、构造分析维、定义逻辑模型数据添加、数据管理、元数据存储、应用工具构造数据添加、数据管理、元数据存储、应用工具构造2.ROLAP的功能的功能提供基于关系数据的商业视图提供基于关系数据的商业视图维层次支持维层次支持模型的自定义模型的自定义细剖细节层次细剖细节层次数据的备分恢复和安全功能数据的备分恢复和安全功能元数据导航元数据
16、导航OLAP服务器性能的协调等功能服务器性能的协调等功能 4.5OLAP技术评价4.5.1 MOLAP与与ROLAP的比较的比较1.查询性能查询性能MOLAP的的查查询询能能力力一一般般较较好好,因因为为在在多多维维数数据据库库中中常常常常根根据据用用户户的的需需求求,事事先先做做好好了了许许多多计计算算。由由于于计计算算的的预预先先性性,使使MOLAP的的查查询询能能力力可可以以预预测测,并并且且较较为为理理想想。在在ROLAP中中进进行行查查询询分分析析,其其结结果果往往往往则则是是很很难难预预计计的的。有有时时很很快快,有有时时则则要要很很长长时时间间才才能能获获取取答答案案。在在ROL
17、AP的的实实际际应应用用中中,可可以以通通过过构构造造索索引引表表和和概概况况表表来来加加快快查查询询速速度度。但但对对一一些些特特殊殊的的查查询响应,询响应,ROLAP的速度远不如的速度远不如MOLAP。4.5OLAP技术评价2.数据加载性能数据加载性能 在在数数据据加加载载的的操操作作中中,MOLAP除除了了要要完完成成数数据据的的装装载载,还还需需要要对对所所有有立立方方体体中中的的所所有有值值进进行行计计算算。MOLAP所所需需要要的的数数据据加加载载时时间间就就比比较较长长。对对于于ROLAP来来说说,在在数数据据加加载载过过程程中中所所要要完完成成的的操操作作仅仅是是数数据据装装载
18、载、索索引引和和概概况况表表的的创创建建。在在ROLAP中中所所进进行行的的概概况况表表创创建建量量一一般般较较少少,因因此此ROLAP的的加加载载时时间间要要比比MOLAP短短。有有的的ROLAP在在实实际际应应用用中中,甚甚至至每每天天对对关关系系型型数数据据仓仓库库和和数数据据集集市刷新一次。市刷新一次。3.分析能力分析能力 MOLAP在在分分析析过过程程中中的的精精度度较较高高,具具有有分分析析的的优优势势。ROLAP的的分分析析结结果果往往往往由由于于SQL语语言言的的约约束束,分分析析效效果果往往往往不不如如MOLAP。因因为为对对于于现现实实中中的的许许多多问问题题的的解解决决是
19、是很很难难用用一一条条SQL语语句句来来实实现现的。许多的。许多ROLAP 的供应商往往采用多种方法来解决这一问题。的供应商往往采用多种方法来解决这一问题。4.5OLAP技术评价4.数据集市的大小数据集市的大小 MOLAP在在实实际际应应用用中中的的数数据据存存储储量量往往往往增增长长较较快快,尤尤其其所所创创建建的的多多维维模模式式中中拥拥有有多多个个维维时时。对对于于表表4-3中中的的数数据据初初看看似似乎乎要要比比表表4-2中中的的数数据据量量少少,但但是是如如果果再再增增加加一一个个颜颜色色维维,颜颜色色维维成成员员只只有有“红红”“蓝蓝”两两种种。要要完完成成MOLAP的的构构建建,
20、就就需需要要再再增增加加一一倍倍的的存存储储空空间间。在在所所增增加加的的空空间间中中有有的的可可能能没没有有实实际际值值出出现现,会会使使多多维维表表形形成成一一个个稀稀疏疏矩矩阵阵,浪浪费费大大量量的的存存储储空空间间。随随着着维维数数的的增加,稀疏矩阵呈现爆炸性的增长趋势。增加,稀疏矩阵呈现爆炸性的增长趋势。作作为为ROLAP中中所所使使用用的的关关系系数数据据库库,一一般般不不会会出出现现稀稀疏疏矩矩阵阵。在在实实际际应应用用中中,ROLAP数数据据库库可可以以支支持持无无限限增增长长的的数数据据存存储储要要求求,只只要要磁磁盘盘空空间间足足够够大大。但但是是大大多多数数多多维维数数据
21、据库库的的容容量量不不能能无无限限增增长。长。4.5OLAP技术评价5.维的管理维的管理 ROLAP数数据据库库采采用用星星型型模模式式构构建建,星星型型模模式式的的维维表表可可能能很很宽宽,可可以以包包含含很很多多列列。管管理理人人员员可可以以对对一一个个表表中中的的所所有有列列进进行行查查询询、汇汇总总、钻钻取取等等操操作作,例例如如,可可以以要要求求ROLAP依依照照国国家家的的顺顺序序列列出出销销售售总总量量,然然后后,可可以以钻钻取取到到省省、市市、县县、直直至至所所在在地地邮邮编编。接接着着还还可可以以按按照照客客户的最后一次采购日期进行分解。户的最后一次采购日期进行分解。这这样样
22、比比较较复复杂杂的的操操作作在在MOLAP中中就就比比较较难难以以完完成成,因因为为在在多多维维数数据据库库中中的的操操作作是是受受到到多多维维表表中中所所包包含含的的不不同同维维的的“层层次次”设设置置的的制制约约。过过多多的的维维层层次次的的设设置置将将使使维维表表需需要要的的存存储储量量成成爆爆炸炸性性的的增增长长,使使系统无法承受。系统无法承受。4.5OLAP技术评价6.维护能力维护能力 MOLAP能能够够较较好好地地进进行行自自我我维维护护。在在数数据据更更新新加加载载时时,只只需需要要用用SQL语语句句对对其其输输入入数数据据就就可可以以了了。而而ROLAP在在维维护护与与聚聚集集
23、时时却却比比较较困困难难,因因为为,在在数数据据加加载载和和聚聚集集时时要要填填充充多多个个结结构构,需需要要打打开开或或关关闭闭索索引引。加加载载完完成成后后,还还要要考考察察其其性性能能是是否否下下降降。如如果果性性能能下下降降,需需要要增加索引或概况表。增加索引或概况表。对比结果对比结果 从从上上面面的的对对比比分分析析,可可以以说说很很难难确确定定两两者者孰孰优优孰孰劣劣。应应用用规规模模是是一一个个主主要要因因素素,若若要要建建立立一一个个大大型型、复复杂杂的的企企业业级级数数据据仓仓库库,就就可可能能需需要要选选择择ROLAP。例例如如,SQL Server2005中中建建立立的的
24、维维度度表表超超过过1千千万万个个以以上上维维成成员员时时,就就不不能能采采用用MOLAP模模式式。如如果果希希望望建建立立一一个个目目标标单单一一、维维数数不不是是很很多多的的分分析析型型数数据据集集市市,那那么么MOLAP可可能能是是一一个个较较佳的选择。佳的选择。在在实实际际应应用用中中希希望望能能够够有有一一个个综综合合两两者者长长处处的的OLAP,产产生生了了混混合合OLAP模模式式(HOLAP)。HOLAP将将多多维维数数据据集集市市的的数数据据按按照照多多维维结结构构存存储储在在分分析析服服务务器器上上,但但是是不不保保存存源源数数据据。因因此此HOLAP的的多多维维数数据据查查
25、询询分分析析性性能能同同MOLAP一一样样优优越越,若若查查询询源源数数据据则则就就不不如如将将源源数数据据存存储储在在MOLAP中中那那样样快快速速。但但是是对对源源数数据据的的各各种种钻钻取取操操作作,可可以像以像ROLAP一样灵活。一样灵活。4.5.2OLAP的衡量标准1.多维性多维性2.直观性直观性3.可访问性可访问性4.解释性批处理提取解释性批处理提取5.OLAP分析模型分析模型6.客户机客户机/服务器结构性服务器结构性7.透明性或开放性透明性或开放性8.多用户性多用户性9.处理非正规数据性处理非正规数据性4.5.2OLAP的衡量标准10.存储存储OLAP结果结果11.提取丢失值提取
26、丢失值12.处理丢失值处理丢失值13.弹性报告弹性报告14.一致性能报告一致性能报告15.对物理层的自动调整对物理层的自动调整16.通用维通用维17.无限维与聚合层无限维与聚合层18.无限制跨维操作无限制跨维操作4.5.3OLAP服务器和工具的评价标准1.OLAP功能功能支支持持多多维维数数据据集集中中的的维维与与层层次次,能能够够沿沿某某个个维维或或一一组组维维进进行行数数据据的的聚聚集集、汇汇总总、预预计计计计算算和和派派生生;能能够够对对某某个个维维或或一一组组维维提提供供计计算算逻逻辑辑、公公式式和和分分析析例例程程进进行行某某种种形形式式的的操操作作;能能够够实实现现从从一一个个维维
27、到到另另外外一一个个维维的的转转换换;能能够够进进行行交交叉叉维维的的计计算算,如如在在不不同同维维之之间间进进行行成成本本分分配配,或或在在电电子子表表格格中中按按照照不不同同维维进进行行损损益益表表的的计计算算;能能够够提提供供强强大大的的分分析析模模型型,包包括括对对选选中中维维及及维维的的元元素素的的逻逻辑辑、公公式式、分分析析例例程程、聚聚集集数数据据汇汇总总数数据据和和派派生生数数据据等等。如如在在给给定定财财务务数数据据上上计计算算内内部部回回报报率率的的财财务务模模型型;能能够够提提供供大大量量的的函函数数,如如财财务务、统统计计、代代数数、市市场场等等各各种种函函数数;能能够
28、够提提供供强强大大的的计计算算和和逻逻辑辑比比较较能能力力,如如对对数数据据的的分分级级、比比较较、归归类类、百百分分比比、极极值值、均均值值等等;具具有有智智能能化化的的与与时时间间相相关关的的处处理理,如如按按照照给给定定时时间间段段的的日日历历安安排排;能能够够提提供供强强大大的的导导航航分分析析,可可以以沿沿单单个个或或多多个个维维的的轴轴、交交叉叉表进行浏览或钻取。表进行浏览或钻取。4.5.3OLAP服务器和工具的评价标准2.访问性能访问性能能能够够得得到到多多种种访访问问数数据据工工具具的的选选择择,能能将将用用户户所所熟熟悉悉的的访访问问工工具具融融合合进进OLAP。常常用用的的
29、电电子子表表格格EXCEL已已经经被被相相当当多多的的用用户户所所认认同同,在在OLAP中中应应该该提提供供将将数数据据加加载载进进电电子子表表格格的的功功能能。OLAP有有一一些些经经常常性性用用户户,他他们们往往往往需需要要进进行行一一些些特特定定的的应应用用,向向这这些些用用户户提提供供功功能能丰丰富富的的、能能够够满满足足他他们们特特定定要要求求的的、私私有有客客户户工工具具。与与第第三三方方工工具具结结合合,主主要要是是指指能能否否通通过过API将将用用户户已已经经比比较较熟熟悉悉的的或或功功能能更更加加强强大大的的第第三三方方工工具具加加入入OLAP。能能否否提提供供一一些些“非非
30、事事实实标标准准”接接口口,例例如如,VB、Pb、VC等应用环境,或等应用环境,或OLE、CORBA 等接口。等接口。4.5.3OLAP服务器和工具的评价标准3.引擎功能引擎功能OLAP的的服服务务引引擎擎都都应应该该满满足足分分析析模模型型及及应应用用在在功功能能、规规模模和和技技术术特特征征上上的的要要求求。主主要要集集中中在在能能否否满满足足进进行行交交互互式式预预测测和和预预算算的的应应用用程程序序的的读读写写功功能能。能能否否满满足足在在工工作作组组情情况况下下所所进进行行的的多多用用户户读读写写操操作作。能能否否满满足足多多数数据据库库间间的的交交互互机机制制。能能否否满满足足OL
31、AP 应应用用程程序序对对数数据据范范围围的的要要求求,用用户户界界面面可可能能需需要要数数字字、时时间间、日日历历、描描述述、BLOB等等,这这样样才才能能显显示示出出更更多多的的图图像像类类型型,增增加加动动态态显显示示和和执执行行报报表表的的功能,有利于复杂分析的表达。功能,有利于复杂分析的表达。4.5.3OLAP服务器和工具的评价标准4.管理能力管理能力用用户户对对OLAP提提出出了了强强大大的的处处理理功功能能与与便便捷捷的的使使用用要要求求,这这必必然然要要求求OLAP能能够够提提供供有有力力的的管管理理工工具具:可可以以定定义义维维的的分分析析模模型型、能能生生成成并并维维护护元
32、元数数据据存存储储、具具有有访访问问和和使使用用控控制制的的权权限限,可可以以解解决决控控制制用用户户对对模模型型和和数数据据的的访访问问问问题题、从从数数据据仓仓库库或或数数据据集集市市加加载载分分析析模模型型的的管管理理问问题题、协协调调用用户户对对多多维维数数据据的的访访问问级级别别、保保证证用用户户可可以以进进行行不不受受其其他他用用户户干干扰扰的的分分析析等等问问题题。并并且且能能够够为为增增强强数数据据库库的的性性能能,或或者者为为修修改改维维模模型型,或或者者为为修修改改数数据据而而重重新新组组织织数数据据库库。可可以以将将数数据传送给客户,以便进一步分析或作本地分析。据传送给客户,以便进一步分析或作本地分析。