数据挖掘chap学习教案.pptx

上传人:一*** 文档编号:71936280 上传时间:2023-02-07 格式:PPTX 页数:88 大小:1.16MB
返回 下载 相关 举报
数据挖掘chap学习教案.pptx_第1页
第1页 / 共88页
数据挖掘chap学习教案.pptx_第2页
第2页 / 共88页
点击查看更多>>
资源描述

《数据挖掘chap学习教案.pptx》由会员分享,可在线阅读,更多相关《数据挖掘chap学习教案.pptx(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、会计学1数据挖掘数据挖掘chap第一页,共88页。内容提要内容提要(ni rn t yo)2.1 引言 2.2 从数据挖掘工具到解决方案 2.3 数据挖掘系统的演变(ynbin)2.4 Crisp-DM模型2.5 数据挖掘支撑技术概述2.6 数据挖掘技术 第1页/共88页第二页,共88页。2.1 2.1 引言引言引言引言(y(y nyn)nyn)n n商业数据是如何商业数据是如何(rh)(rh)进化为有用商业信息的?进化为有用商业信息的?n n信息技术发展一个新的重要趋势是识别信息系统中有意义的数据。信息技术发展一个新的重要趋势是识别信息系统中有意义的数据。n n这种知识可能是一个商业机构获得

2、竞争优势的关键。这种知识可能是一个商业机构获得竞争优势的关键。n nDMDM的价值在于主动搜寻产业发展趋势,并将这种理解提供给拥有大量信息的的价值在于主动搜寻产业发展趋势,并将这种理解提供给拥有大量信息的机构。机构。n n商务机构的数据挖掘目标主要是改善组织机构与它们的顾客之间的沟通质量。商务机构的数据挖掘目标主要是改善组织机构与它们的顾客之间的沟通质量。n n数据挖掘在人的控制下,使用算法从数据中提取模式。可以为组织机构提供数据挖掘在人的控制下,使用算法从数据中提取模式。可以为组织机构提供一种优化商务数据处理的方法一种优化商务数据处理的方法n n企业(组织)数据更加全面,生产、销售、质量企业

3、(组织)数据更加全面,生产、销售、质量n n数据挖掘公司关注各个不同的行业数据挖掘公司关注各个不同的行业n n对大型、超大型、复杂的数据进行数据挖掘对大型、超大型、复杂的数据进行数据挖掘第2页/共88页第三页,共88页。n nDMDM可以用于商务应用,依靠可以用于商务应用,依靠(yko)(yko)三种成熟技术所三种成熟技术所支持支持n n大量数收集大量数收集n n功能强大的多处理器计算机功能强大的多处理器计算机n n数据挖掘算法数据挖掘算法第3页/共88页第四页,共88页。数据挖掘演变数据挖掘演变数据挖掘演变数据挖掘演变(ynbin)(ynbin)进化阶段进化阶段商业问题商业问题支持技术支持技

4、术产品厂家产品厂家产品特点产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS)结构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、

5、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息第4页/共88页第五页,共88页。n n数据挖掘产业的一个持续趋势是企业资源数据挖掘产业的一个持续趋势是企业资源(zyun)(zyun)计划计划(ERPERP)零售商和应用服务提供者()零售商和应用服务提供者(ASPASP)的出现。)的出现。n n什么是什么是ERPERP?第5页/共88页第六页,共88页。2.2 数据挖掘工具数据挖掘工具(gngj)及解决及解决方案方案n n数据(shj)挖掘可以沿三条谱线追溯n n经典统计

6、学(基础)n n回归分析、正态分布、标准差、标准方差、聚类分析和置信区间等概念,主要用于研究数据(shj)与数据(shj)之间的关系,这些都是最基本的构件块,可以用来构建更高级的统计分析。n n人工智能(Artificial Intelligence,AI)n n机器学习(统计学与AI的结合)n nDM基本上是将机器学习用于商务和科学应用,最好将DM看作统计学、AI、机器学习过去和现在发展的融合。第6页/共88页第七页,共88页。2.3 2.3 数据挖掘系统数据挖掘系统数据挖掘系统数据挖掘系统(xt(xt ng)ng)的演变的演变的演变的演变n n典型(dinxng)数据挖掘系统的体系结构数据

7、仓库数据仓库数据清洗数据清洗过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成数据集成第7页/共88页第八页,共88页。数据挖掘系统数据挖掘系统数据挖掘系统数据挖掘系统(xt(xt ng)ng)的演变的演变的演变的演变n n 第一代:数据挖掘系统(第一代:数据挖掘系统(data mining systemdata mining system),20,20世纪世纪8080年代。年代。n n主要主要(zh(zh yo)yo)关注单一任务的、研究驱动的工具组成关注单一任务的、研究驱动的工具组成n n操作复杂操作复杂n n结果表示和可视化效果不理想结果表示和可视化

8、效果不理想n n第二代:数据挖掘系统套装第二代:数据挖掘系统套装(suite),1995(suite),1995年。年。n n关注数据清理和预处理关注数据清理和预处理n n集成了数据处理及可视化表示等功能集成了数据处理及可视化表示等功能n nClementineClementine、Mineset Mineset、Intelligent Miner Intelligent Minern n第三代:基于应用和解决方案的从生产到销售全过程的数据挖掘,第三代:基于应用和解决方案的从生产到销售全过程的数据挖掘,20 20世纪世纪9090年代。年代。n n解决具体的商务问题,筛选存储在大型数据库中的信息

9、,发现隐藏的模式。通过决策支持系统集成数据挖解决具体的商务问题,筛选存储在大型数据库中的信息,发现隐藏的模式。通过决策支持系统集成数据挖掘系统,能对特定的问题进行决策,忽略数据挖掘工具的细节。掘系统,能对特定的问题进行决策,忽略数据挖掘工具的细节。n n面向生产到销售的全过程面向生产到销售的全过程n n电子商务电子商务第8页/共88页第九页,共88页。2.4 Crisp-DM2.4 Crisp-DM模型模型模型模型(mxng)(mxng)n n跨行业数据挖掘标准流程(Cross-Industry Standard Process for Data Mining,Crisp-DM)数据挖掘方法论

10、最初由SPSS、NCR和DaimlerChrysler三个公司在1996年提出。后来得到欧共体研究基金的支助。到2000年8月,Crisp-DM 1.0版发布。Crisp-DM不是一种描述特定数据挖掘的技术(jsh),而是描述数据挖掘项目生命周期的流程。第9页/共88页第十页,共88页。Crisp-DMCrisp-DM参考模型的阶段参考模型的阶段参考模型的阶段参考模型的阶段(jidun)(jidun)第10页/共88页第十一页,共88页。n nCrisp-DMCrisp-DM数据挖掘方法论能通过分层流程模型来描述,包括一组描述数据挖掘方法论能通过分层流程模型来描述,包括一组描述4 4个抽象个抽

11、象层次的任务:层次的任务:n n阶段:流程的最顶层是阶段。例如,商业理解是数据挖掘过程的第一个阶段。阶段:流程的最顶层是阶段。例如,商业理解是数据挖掘过程的第一个阶段。n n 一般一般(ybn)(ybn)任务:一般任务:一般(ybn)(ybn)任务是每个阶段下的任务的一般任务是每个阶段下的任务的一般(ybn)(ybn)性描述。性描述。这一层还比较抽象,例如,数据清理是一般这一层还比较抽象,例如,数据清理是一般(ybn)(ybn)任务。任务。n n 特殊任务:特殊任务是指一般特殊任务:特殊任务是指一般(ybn)(ybn)任务在某一特定情况下的描述,例如,任务在某一特定情况下的描述,例如,数据清理

12、任务有特殊任务,比如清理数值和清理分类值。数据清理任务有特殊任务,比如清理数值和清理分类值。n n流程实例:流程实例是最低层次的任务,包括行动记录、决策和实际数据挖流程实例:流程实例是最低层次的任务,包括行动记录、决策和实际数据挖掘的结果。掘的结果。第11页/共88页第十二页,共88页。CRISP-DMCRISP-DM参考模型的一般任务参考模型的一般任务参考模型的一般任务参考模型的一般任务(rn wu)(rn wu)和输和输和输和输出出出出第12页/共88页第十三页,共88页。2.5 2.5 数据挖掘支撑技术数据挖掘支撑技术数据挖掘支撑技术数据挖掘支撑技术(jsh)(jsh)概述概述概述概述

13、n nDM技术(jsh)数据挖掘统计学机器(j q)学习高性能计算数据库及数据仓库决策支持系统可视化第13页/共88页第十四页,共88页。2.5.1 数据挖掘:验证数据挖掘:验证(ynzhng)与发现与发现n n查询提取、验证/分析工具n n决策支持系统、主管信息系统、一些查询工具n n访问数据库记录n n获取已有模式验证方法(fngf)(verification method)n n过程:假设验证n nDM是发现工具。n n发现趋势,产生结果集n n少量用户指导n n大量数据集第14页/共88页第十五页,共88页。2.5.2 决策支持系统决策支持系统n n产生于20世纪80年代中期(zhng

14、q)n n目标:为组织机构的主管综合数据,使得他们能够基于数据分析,为决策提供支持。n n逐步被联机分析处理(OLAP)取代n n主管信息服务(EIS)、地理信息服务(GIS)、OLAP、知识发现系统、专家系统第15页/共88页第十六页,共88页。2.5.3 桌面桌面(zhumin)DSSn nMicrosoft Excel、Lotus 1-2-3、Expert-Choice第16页/共88页第十七页,共88页。2.5.4 数据仓库与数据仓库与OLAPn n数据(shj)仓库是什么?它与数据(shj)库系统有什么不同?n n数据(shj)立方体 n n数据(shj)立方体上的OLAP操作第17

15、页/共88页第十八页,共88页。数据仓库数据挖掘的有效数据仓库数据挖掘的有效(yuxio)平台平台n n数据仓库中的数据清理和数据集成(j chn),是数据挖掘的重要数据预处理步骤n n数据仓库提供OLAP工具,可用于不同粒度的数据分析n n很多数据挖掘功能都可以和OLAP操作集成(j chn),以提供不同概念层上的知识发现n n分类n n预测n n关联n n聚集第18页/共88页第十九页,共88页。什么什么(shn me)是数据仓库是数据仓库?n n数据仓库的定义很多,但却很难有一种严格的定义n n它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。n n为统一的历史数据分析提供

16、坚实(jinsh)的平台,对信息处理提供支持n n数据仓库区别于其他数据存储系统n n“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”W.H.Inmon第19页/共88页第二十页,共88页。数据仓库关键特征一数据仓库关键特征一面向面向(min xin)主题主题n n面向主题,是数据仓库显著区别于关系数据库系统的一个特征n n围绕一些主题,如顾客、供应商、产品等n n关注决策者的数据建模与分析,而不是集中(jzhng)于组织机构的日常操作和事务处理。n n排除对于决策无用的数据,提供特定主题的简明视图。第20页/共88页第二十一页,共88页。数

17、据仓库关键数据仓库关键(gunjin)特征二特征二数据集成数据集成n n一个数据仓库是通过集成多个异种数据源来构造的。n n关系数据库,一般文件,联机事务处理(OLTP)记录n n使用数据清理和数据集成技术。n n确保命名约定、编码结构、属性度量等的一致性。n n当数据被移到数据仓库时,它们(t men)要经过转化。第21页/共88页第二十二页,共88页。数据仓库关键特征数据仓库关键特征数据仓库关键特征数据仓库关键特征(tzhng)(tzhng)三三三三随时间而变化随时间而变化随时间而变化随时间而变化n n数据仓库是从历史的角度提供信息n n数据仓库的时间范围(fnwi)比操作数据库系统要长的

18、多。n n操作数据库系统:主要保存当前数据。n n数据仓库:从历史的角度提供信息(比如过去 5-10 年)n n数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。第22页/共88页第二十三页,共88页。数据仓库关键数据仓库关键数据仓库关键数据仓库关键(gunjin)(gunjin)特征四特征四特征四特征四数据不易丢失数据不易丢失数据不易丢失数据不易丢失n n尽管数据(shj)仓库中的数据(shj)来自于操作数据(shj)库,但他们却是在物理上分离保存的。n n操作数据(shj)库的更新操作不会出现在数据(shj)仓库环境下。n n不需要事务处理

19、,恢复,和并发控制等机制n n只需要两种数据(shj)访问:n n数据(shj)的初始转载和数据(shj)访问(读操作)第23页/共88页第二十四页,共88页。数据仓库的构建数据仓库的构建数据仓库的构建数据仓库的构建(u jin)u jin)与使用与使用与使用与使用n n数据仓库的构建包括一系列的数据预处理过程n n数据清理n n数据集成n n数据变换n n数据仓库的使用热点(r din)是商业决策行为,例如:n n增加客户聚焦n n产品重定位n n寻找获利点n n客户关系管理第24页/共88页第二十五页,共88页。数据仓库与异种数据仓库与异种(y zhn)数据数据库集成库集成n n异种数据库

20、的集成方法n n传统的异种数据库集成:(查询驱动)n n在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)n n查询驱动方法当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器n n数据仓库:(更新驱动)n n将来自多个异种源的信息预先(yxin)集成,并存储在数据仓库中,供直接查询和分析第25页/共88页第二十六页,共88页。查询驱动方法和更新查询驱动方法和更新查询驱动方法和更新查询驱动方法和更新(gngxn)(gngxn)驱动方法的比较驱动方法的比较驱动方法的比较驱动方法的比较n n查询

21、驱动的方法n n需要(xyo)负责的信息过滤和集成处理n n与局部数据源上的处理竞争资源n n对于频繁的查询,尤其是涉及聚集(汇总)操作的查询,开销很大(决策支持中常见的查询形式)n n更新驱动的方法(带来高性能)n n数据经预处理后单独存储,对聚集操作提供良好支持n n不影响局部数据源上的处理n n集成历史信息,支持负责的多维查询第26页/共88页第二十七页,共88页。数据仓库与操作数据仓库与操作(cozu)数据库数据库系统系统n n操作数据库系统的主要任务是联机事务处理OLTPn n日常操作:购买,库存,银行,制造,工资,注册,记帐等n n数据仓库的主要任务是联机分析处理OLAPn n数据

22、分析和决策(juc)支持,支持以不同的形式显示数据以满足不同的用户需要第27页/共88页第二十八页,共88页。OLTP VS.OLAP(1)n n用户和系统的面向性n n面向顾客(事务(shw))VS.面向市场(分析)n n数据内容n n当前的、详细的数据 VS.历史的、汇总的数据n n数据库设计n n实体联系模型(ER)和面向应用的数据库设计 VS.星型/雪花模型和面向主题的数据库设计第28页/共88页第二十九页,共88页。OLTP VS.OLAP(2)n n数据视图n n当前的、企业(qy)内部的数据 VS.经过演化的、集成的数据n n访问模式n n事务操作 VS.只读查询(但很多是复杂的

23、查询)n n任务单位n n简短的事务 VS.复杂的查询n n访问数据量n n数十个 VS.数百万个第29页/共88页第三十页,共88页。OLAP VS.OLTP(3)n n用户数n n数千个 VS.数百个n n数据库规模n n100M-数GB VS.100GB-数TBn n设计优先性n n高性能、高可用性 VS.高灵活性、端点用户自治n n度量n n事务吞吐量 VS.查询吞吐量、响应(xingyng)时间第30页/共88页第三十一页,共88页。为什么需要一个为什么需要一个(y)分离的数分离的数据仓库据仓库?n n提高两个系统提高两个系统(xt(xt ng)ng)的性能的性能n nDBMSDBM

24、S是为是为OLTPOLTP而设计的:存储方式而设计的:存储方式,索引索引,并发控制并发控制,恢复恢复n n数据仓库是为数据仓库是为OLAPOLAP而设计:复杂的而设计:复杂的 OLAP OLAP查询查询,多维视图,汇总多维视图,汇总n n不同的功能和不同的数据不同的功能和不同的数据:n n历史数据历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护n n数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)n n数据质量数据质量:不同的源使用不一致的数

25、据表示、编码和格式,对这些数据进行有效不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成的分析需要将他们转化后进行集成第31页/共88页第三十二页,共88页。多维数据模型多维数据模型(1)n n数据仓库和OLAP工具基于多维数据模型n n在多维数据模型中,数据以数据立方体(data cube)的形式存在n n数据立方体允许以多维数据建模和观察。它由维和事实(shsh)定义n n维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。n n多维数据模型围绕中心主题组织,该主题用事实(shsh)表表示n n事实(shsh)表包括事实(sh

26、sh)的名称或度量以及每个相关维表的关键字n n事实(shsh)指的是一些数字度量第32页/共88页第三十三页,共88页。多维数据模型多维数据模型(2)示例示例(shl)time_keydayday_of_the_weekmonthquarteryeartime 维表location_keystreetcitystate_or_provincecountrylocation 事实(shsh)表Sales 事实(shsh)表 time_key item_key branch_key location_key units_sold dollars_sold avg_sales度量item_keyi

27、tem_namebrandtypesupplier_typeitem 维表branch_keybranch_namebranch_typebranch 维表第33页/共88页第三十四页,共88页。多维数据模型多维数据模型(3)n n在数据在数据(shj)(shj)仓库中,数据仓库中,数据(shj)(shj)立方体是立方体是n-Dn-D的的(n(n维)维)n n(关系表和电子表格是几维的?)(关系表和电子表格是几维的?)n n示例示例n nAllElectronicsAllElectronics的销售数据的销售数据(shj)(shj)按维按维time,itemtime,item的的2-D2-D视

28、图视图第34页/共88页第三十五页,共88页。多维数据模型多维数据模型(3)n nAllElectronicsAllElectronics的销售数据的销售数据(shj)(shj)按维按维time,itemtime,item和和locationlocation的的3-D3-D视图视图第35页/共88页第三十六页,共88页。多维数据模型多维数据模型(3)n nAllElectronicsAllElectronics的销售的销售(xioshu)(xioshu)数据按维数据按维time,itemtime,item和和locationlocation的的3-D3-D视图的视图的3-D3-D数据立方体表示

29、数据立方体表示第36页/共88页第三十七页,共88页。多维数据模型多维数据模型(3)n n销售数据销售数据(shj)(shj)的的4-D4-D立方体表示立方体表示第37页/共88页第三十八页,共88页。多维数据模型多维数据模型(3)n n多维数据模型为不同角度上的数据建模和观察提供多维数据模型为不同角度上的数据建模和观察提供多维数据模型为不同角度上的数据建模和观察提供多维数据模型为不同角度上的数据建模和观察提供(tgng)(tgng)了一个良好的基础了一个良好的基础了一个良好的基础了一个良好的基础第38页/共88页第三十九页,共88页。多维数据模型多维数据模型(4)n n在数据在数据(shj)

30、(shj)仓库的研究文献中,一个仓库的研究文献中,一个n n维的数据维的数据(shj)(shj)的立方体叫做基的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据汇总级或不同的数据(shj)(shj)子集显示数据子集显示数据(shj)(shj),方体的格称为数据,方体的格称为数据(shj)(shj)立方体。立方体。0 0维方体存放最高层的汇总,称作顶点方体;而存放最底层维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。汇总的方体则称为基本方体。第39页/共8

31、8页第四十页,共88页。数据数据(shj)立方体立方体一个方一个方体的格体的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(顶点(dngdin)方体1-D方体2-D 方体3-D 方体4-D(基本(jbn)方体第40

32、页/共88页第四十一页,共88页。数据仓库的概念模型数据仓库的概念模型n n最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座花模式、或事实星座(xngzu)(xngzu)模式的形式存在。模式的形式存在。n n星型模式(星型模式(Star schemaStar schema):事实表在中心,周围围绕地连接着维表(每维一个)事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。,事实表含有大量数据,没有冗余。n n雪花模式(雪花模式(Snowflake schemaSnow

33、flake schema):是星型模式的变种,其中某些维表是规范化是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。状。n n事实星座事实星座(xngzu)(xngzu)(Fact constellationsFact constellations):多个事实表共享维表多个事实表共享维表,这种模式可这种模式可以看作星型模式集,因此称为星系模式(以看作星型模式集,因此称为星系模式(galaxy schemagalaxy schema),或者事实星座),或者事实星座(xngz

34、u)(xngzu)(fact constellationfact constellation)第41页/共88页第四十二页,共88页。星型模式星型模式(msh)实例实例 time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_na

35、mebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch第42页/共88页第四十三页,共88页。雪花雪花(xuhu)模式实例模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_nam

36、ebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity第43页/共88页第四十四页,共88页。事实事实(shsh)星座模式实例星座模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSales Fact Tabletime_

37、key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_location dollars_cost units_shippedshipper_keyshipper_namelocation_keyshipp

38、er_typeshipper第44页/共88页第四十五页,共88页。一种一种(y zhn)数据挖掘查询语数据挖掘查询语言言:DMQLn nDMQLDMQL首先包括定义数据仓库和数据集市的语言原语,这包括两种原语定义:一首先包括定义数据仓库和数据集市的语言原语,这包括两种原语定义:一种是立方体定义,一种是维定义种是立方体定义,一种是维定义n n立方体定义立方体定义(事实事实(shsh)(shsh)表表)n ndefine cube :define cube :n n维定义维定义(维表维表)n ndefine dimension as()define dimension as()n n特殊案例特殊

39、案例(共享维表的定义共享维表的定义)n n第一次作为维表定义第一次作为维表定义“cube definition”“cube definition”n n然后:然后:define dimension as in cube define dimension as in cube 第45页/共88页第四十六页,共88页。实例:使用实例:使用DMQL定义定义(dngy)星型模式星型模式define cubedefine cube sales_star time,item,branch,location:sales_star time,item,branch,location:dollars_sold=

40、sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)units_sold=count(*)define dimensiondefine dimension time time as as(time_key,day,day_of_week,month,quarter,year)(time_key,day,day_of_week,month,quarter,year)def

41、ine dimension define dimension item item as as(item_key,item_name,brand,type,supplier_type)(item_key,item_name,brand,type,supplier_type)define dimension define dimension branch branch asas(branch_key,branch_name,branch_type)(branch_key,branch_name,branch_type)define dimensiondefine dimension locatio

42、n location asas(location_key,street,city,province_or_state,country)(location_key,street,city,province_or_state,country)第46页/共88页第四十七页,共88页。实例:使用实例:使用(shyng)DMQL定义定义雪花模式雪花模式define cubedefine cube sales_snowflake time,item,branch,location:sales_snowflake time,item,branch,location:dollars_sold=sum(sale

43、s_in_dollars),avg_sales=dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)avg(sales_in_dollars),units_sold=count(*)define dimensiondefine dimension time time as as(time_key,day,day_of_week,month,quarter,year)(time_key,day,day_of_week,month,quarter,year)define dime

44、nsion define dimension item item as as(item_key,item_name,brand,type,(item_key,item_name,brand,type,supplier(supplier_key,supplier_type)supplier(supplier_key,supplier_type)define dimension define dimension branch branch asas(branch_key,branch_name,branch_type)(branch_key,branch_name,branch_type)defi

45、ne dimensiondefine dimension location location asas(location_key,street,(location_key,street,city(city_key,province_or_state,country)city(city_key,province_or_state,country)第47页/共88页第四十八页,共88页。实例实例实例实例(shl)(shl):使用:使用:使用:使用DMQLDMQL定义事实星座模式定义事实星座模式定义事实星座模式定义事实星座模式define cubedefine cube sales time,ite

46、m,branch,location:sales time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)count(*)define dimensiondefine dimension time time as as(time_key,day,day_of_week,mont

47、h,quarter,year)(time_key,day,day_of_week,month,quarter,year)define dimension define dimension item item as as(item_key,item_name,brand,type,supplier_type)(item_key,item_name,brand,type,supplier_type)define dimension define dimension branch branch asas(branch_key,branch_name,branch_type)(branch_key,b

48、ranch_name,branch_type)define dimensiondefine dimension location location asas(location_key,street,city,province_or_state,country)(location_key,street,city,province_or_state,country)define cubedefine cube shipping time,item,shipper,from_location,to_location:shipping time,item,shipper,from_location,t

49、o_location:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)define dimensiondefine dimension time time as as time time in cubein cube sales salesdefine dimension define dimension item item as as item item in cubein cube sales salesdefine dim

50、ension define dimension shipper shipper asas(shipper_key,shipper_name,location(shipper_key,shipper_name,location as as location location in cubein cube sales,sales,shipper_type)shipper_type)define dimensiondefine dimension from_location from_location asas location location in cubein cube sales sales

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 管理工具

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁