《《数据仓库》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据仓库》PPT课件.ppt(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据仓库数据仓库Data Warehouse1事务型处理事务型处理n事务型处理:即操作型处理,是指对数据库的联机操作事务型处理:即操作型处理,是指对数据库的联机操作处理处理OLTP。事务型处理是用来协助企业对响应事件或。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。查询等(大量、简单、重复和例行性)。n在事务型处理环境中,数据库要求能支持日常事务中的在事务型处理环境中,数据库要求
2、能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。理的时间短。2分析型处理分析型处理n分析型处理:用于管理分析型处理:用于管理人员的决策分析,例如人员的决策分析,例如DSSDSS、EIS EIS和多维分析等。和多维分析等。它帮助决策者分析数据它帮助决策者分析数据以察看趋向、判断问题。以察看趋向、判断问题。n分析型处理经常要访问分析型处理经常要访问大量的历史数据,支持大量的历史数据,支持复杂的查询。复杂的查询。n分析型处理过程中经常分析型处理过程中经常用到外部数据,这部分用到外部数据,这部分数据不是由事务型处理数据不是由
3、事务型处理系统产生的,而是来自系统产生的,而是来自于其他外部数据源。于其他外部数据源。3事务型处理数据和分析型处理数据的区别事务型处理数据和分析型处理数据的区别特性OLTPOLAP特征面向用户功能DB 设计数据汇总视图工作单位存取关注操作访问记录数用户数DB规模优先度量操作处理事务办事员、DBA、数据库专业人员日常操作基于E-R,面向应用当前的;确保最新原始的,高度详细详细,一般关系短的、简单事务读/写数据进入主关键字上索引/散列数十个数千100MB到GB高性能,高可用性事务吞吐量信息处理分析知识工人(如经理、主管、分析员)长期信息需求,决策支持星形/雪花,面向主题历史的;跨时间维护汇总的,统
4、一的汇总的,多维的复杂查询大多为读信息输出大量扫描数百万数百100GB到TB高灵活性,端点用户自治查询吞吐量,响应时间4数据库系统的局限性数据库系统的局限性n数据库适于存储高度结构化的日数据库适于存储高度结构化的日常事务细节数据,而决策型数据常事务细节数据,而决策型数据多为历史性、汇总性或计算性数多为历史性、汇总性或计算性数据,多表现为静态数据,不需直据,多表现为静态数据,不需直接更新,但可周期性刷新。接更新,但可周期性刷新。n决策分析型数据是多维性,分析决策分析型数据是多维性,分析内容复杂。内容复杂。n在事务处理环境中,决策者可能在事务处理环境中,决策者可能并不关心具体的细节信息,在决并不关
5、心具体的细节信息,在决策分析环境中,如果这些细节数策分析环境中,如果这些细节数据量太大一方面会严重影响分析据量太大一方面会严重影响分析效率,另一方面这些细节数据会效率,另一方面这些细节数据会分散决策者的注意力。分散决策者的注意力。DB2OracleSQLServerExcelspreadsheetXMLdocumentInternetSSLclientapplicationsBrowsersData managementlayerApplicationlayerWebservers5数据库系统的局限性(续)数据库系统的局限性(续)n当事务型处理环境和分析型处理环境在同一个数据库系统中,当事务型
6、处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。系统资源。n决策型分析数据的数据量大,这些数据有来自企业内部的,决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对
7、于外部数据中的一些非结构化数据,数据库系析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力统常常是无能为力。6多库系统的限制多库系统的限制n可用性:源站点或通信网络故障将导致系统瘫痪可用性:源站点或通信网络故障将导致系统瘫痪,源站点不能源站点不能通过网络在线联入多库系统。通过网络在线联入多库系统。n响应速度:全局查询多级转换和通信传输响应速度:全局查询多级转换和通信传输,延迟和低层效率影延迟和低层效率影响响应速度。响响应速度。n系统性能:总体性能取决于源站点中性能最低的系统系统性能:总体性能取决于源站点中性能最低的系统,影响系影响系统性能的发挥统性能的发挥;n系统开销:每次查
8、询要启动多个局部系统系统开销:每次查询要启动多个局部系统,通信和运行开销大。通信和运行开销大。7实施数据仓库的条件实施数据仓库的条件n数据积累已达到一定规模n面临激烈的市场竞争n在IT方面的资金能得到保障 8数据仓库的发展数据仓库的发展n自从自从NCR公司为公司为Wal Mart建立了第一个数据仓库。建立了第一个数据仓库。n1996年,加拿大的年,加拿大的IDC公司调查了公司调查了62家实现了数据仓库的欧美家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。企业,结果表明:数据仓库为企业提供了巨大的收益。n早期的数据仓库大都采用当时流行的客户早期的数据仓库大都采用当时流行的客
9、户/服务器结构。近年来服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。据仓库,还可以在应用程序中向用户提供调用的接口。nIBM的实验室在数据仓库方面已经进行了的实验室在数据仓库方面已经进行了10多年的研究,并将多年的研究,并将研究成果发展成为商用产品。研究成果发展成为商用产品。n其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。其他数据库厂商在数据仓
10、库领域也纷纷提出了各自的解决方案。9数据仓库数据仓库(Data Warehouse)(Data Warehouse)n数据仓库用来保存从多个数据库或其它信息源选取的数据数据仓库用来保存从多个数据库或其它信息源选取的数据,并为并为上层应用提供统一上层应用提供统一 用户接口,完成数据查询和分析。支持整个用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。企业的综合信息及导出信息。n数据仓库是作为数据仓库是作为DSS服务基础的分析型服务基础的分析型DB,用来存放大容量的,用来存
11、放大容量的只读数据,为制定决策提供所需要的信息。只读数据,为制定决策提供所需要的信息。n数据仓库是与操作型系统相分离的、基于标准企业模型集成的、数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。带有时间属性的、面向主题及不可更新的数据集合。n以以1992年年W H Inmon出版出版Building the Data Warehouse为标志,数据仓库发展速度很快。为标志,数据仓库发展速度很快。W H Inmon被誉为数据仓库之父。被誉为数据仓库之父。nW H Inmon对数据仓库所下的定义:数据仓库是面向主题的、对数据仓库所下的定义:数据仓
12、库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。过程。10面向主题面向主题n数据仓库中的数据是按照各种主题来组织的。主题在数据仓数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向应用环境。库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。数据。n面向
13、主题的数据组织方式可在较高层次上对分析对象的数据面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。上实现数据与应用的分离。11集成性集成性n数据仓库中的数据是从原数据仓库中的数据是从原有分散的源数据库中提取有分散的源数据库中提取出来的,其每一个主题所出来的,其每
14、一个主题所对应的源数据在原有的数对应的源数据在原有的数据库中有许多冗余和不一据库中有许多冗余和不一致,且与不同的应用逻辑致,且与不同的应用逻辑相关。为了创建一个有效相关。为了创建一个有效的主题域,必须将这些来的主题域,必须将这些来自不同数据源的数据集成自不同数据源的数据集成起来,使之遵循统一的编起来,使之遵循统一的编码规则。码规则。12稳定性稳定性n数据仓库内的数据有很长的时间跨度,通常是数据仓库内的数据有很长的时间跨度,通常是5-10年。年。n数据仓库中的数据反映的是一段时间内历史数据的内容,是不同数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快
15、照进行统计、综合和时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作操作主要是查询,一般情况下并不进行修改操作.n数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。13时变性时变性n时变性:许多商业分析要求对发展趋势做出预测,对发展趋时变性:许多商业分析要求
16、对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTPOLTP数据库中变化的数据,生成数据库的快照,经集成后增数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。段增加综合数据。14支持管理决策支持管理决策n数据仓库支持数据仓库支持OLAPOLAP(联机分析处理)、数据挖掘和决策分(联机分析处理)
17、、数据挖掘和决策分析。析。OLAPOLAP从数据仓库中的综合数据出发,提供面向分析的从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。仓库的功能是支持管理层
18、进行科学决策,而不是事务处理。15BIBI系统系统VSVS决策盲点决策盲点n某大型国有企业老总当他查看近十年企业的生产和运营数据时,某大型国有企业老总当他查看近十年企业的生产和运营数据时,手边得到了各种各样不同的数据报表。这些数据报表大致可以手边得到了各种各样不同的数据报表。这些数据报表大致可以分成两种类型:一种是两年前、即分成两种类型:一种是两年前、即ERP上线之前的,这是一些上线之前的,这是一些简单、杂乱而又枯燥的数字;另一种是有了简单、杂乱而又枯燥的数字;另一种是有了ERP以后的,数据以后的,数据变得清楚而有条理起来,同时还有来自变得清楚而有条理起来,同时还有来自ERP、CRM、SCM以
19、以及计费业务等不同应用的数据和各种分析报告。在仔细查看这及计费业务等不同应用的数据和各种分析报告。在仔细查看这些报表之后,这位国企老总惊讶地发现,不同的系统可以得出些报表之后,这位国企老总惊讶地发现,不同的系统可以得出截然相反的两种结论。例如某一产品,它的动态成本反映在截然相反的两种结论。例如某一产品,它的动态成本反映在ERP系统和系统和CRM、SCM系统里面相差很大,如果引用系统里面相差很大,如果引用ERP和和CRM里面的数据,它就是一款很成功、销量很好的产品,但里面的数据,它就是一款很成功、销量很好的产品,但在在SCM里面来看,它的采购和物流成本过高,导致了这款看起里面来看,它的采购和物流
20、成本过高,导致了这款看起来很成功的产品实际上是一笔赔钱的买卖。来很成功的产品实际上是一笔赔钱的买卖。16BIBI系统系统VSVS决策盲点决策盲点(续续)n其实从这些来自不同系统的数据基础产生不同的判断很正常,其实从这些来自不同系统的数据基础产生不同的判断很正常,因为这些系统并不会去周密地因为这些系统并不会去周密地“思考思考”在自己在自己“职责职责”之外的之外的事情。这样就给企业的领导提交了相当多顾此失彼的分析报告,事情。这样就给企业的领导提交了相当多顾此失彼的分析报告,结果就是导致了许多市场决策上的混乱和失误。结果就是导致了许多市场决策上的混乱和失误。n把企业的内部数据和外部数据把企业的内部数
21、据和外部数据(企业内部数据就是指上述企业内部数据就是指上述通过业务系统通过业务系统SCM、ERP、CRM等收集到的数据,这些等收集到的数据,这些数据可能在不同的硬件、数据库、网络环境中,为不同数据可能在不同的硬件、数据库、网络环境中,为不同的业务部门服务。外部数据是市场信息和外部竞争对手的业务部门服务。外部数据是市场信息和外部竞争对手的信息的信息)。进行有效的集成,形成直观的、易于理解的信。进行有效的集成,形成直观的、易于理解的信息,再进行分析和思考,为企业的各层决策及分析人员息,再进行分析和思考,为企业的各层决策及分析人员使用。使用。17数据仓库的技术要求数据仓库的技术要求n复杂分析的高性能
22、体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。n对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。n对进行高层决策的最终用户的界面支持:提供各种分析应用工具。18数据仓库系统的结构数据仓库系统的结构19数据仓库系统的结构数据仓库系统的结构(2)20数据仓库系统的结构数据仓库系统的结构(3)21数据仓库流程数据仓库流程22Tivoli Storage ManagerFile EditViewHelpToolsBac
23、kForwardStopHomeSearchRefreshxHistoryMailPrintAddress:http:/my_InternetWelcomeWelcome Carol JonesCarol JonesCustomize Home PageEditLogoutx!My WeatherMy Weatherclick on city for extended forecastclick on city for extended forecastor search by city or zip codeor search by city or zip codeParisParisNew
24、 YorkNew York73F73F91F91Fget forecastPast Due Service Requests Past Due Service Requests Sales cost analysisSales cost analysis200001500010000 50002Q003Q004Q001Q01Centralnextprior?Banco Azul-Todays NewsBanco Azul-Todays NewsCorporate NewsCompetitor News?CEO CEO ChristophChristoph DermondDermond comm
25、ents on comments on stock splitstock split?Minimizing risk in B2B relations Minimizing risk in B2B relations?Special employee credit offersSpecial employee credit offers?New Privacy Executive Post named New Privacy Executive Post named?SomeCoSomeCo talks with talks with EvilEmpireEvilEmpire Bank Ban
26、k sparks merger rumorssparks merger rumors?ToughCoToughCo loses fight with loses fight with BancoBanco AzulAzul for for$821M industrial loan$821M industrial loan?Asian invasion into retail securitiesAsian invasion into retail securitiesBanco azulBanco azulBanco azulBanco azul07/02/2001 19:29:20WPS v
27、1.2 -The Cutting WPS v1.2 -The Cutting EdgeEdgeWebSphere Portal ServerContent ManagerFederatedSearchKPIsIntelligentIntelligentMinerMinerQMF,BO,QMF,BO,Brio,etc.Brio,etc.DB2 DB2 OLAPOLAPDB2DB2DataDataWarehouseWarehousevirtual tablesReports&ContentMartsMartsIBMIBMDB2DB2WarehouseWarehouseManagerManagerP
28、roductionProductiondatadatasourcesourcePurchasedPurchasedDataDataERP,CRM,ERP,CRM,SCM,dataSCM,datasourcessourcesRedBrickIBM 信息分析框架信息分析框架23数据仓库系统的组成(数据仓库系统的组成(1)n源数据:数据仓库中的数据来源于多个数据源,源数据:数据仓库中的数据来源于多个数据源,它不仅可以是企业内部的关系型数据库,还包括它不仅可以是企业内部的关系型数据库,还包括非传统数据,如文件、非传统数据,如文件、HTML文档等。文档等。n数据仓库管理系统:数据仓库管理系统:n元数据库
29、及元数据管理部件:元数据库用来存储由定义元数据库及元数据管理部件:元数据库用来存储由定义部件生成的关于源数据、目标数据、提取规则、转换规部件生成的关于源数据、目标数据、提取规则、转换规则以及源数据与数据仓库之间的映射信息等。则以及源数据与数据仓库之间的映射信息等。n数据转换部件:该部件把数据从源数据中提取出来,依数据转换部件:该部件把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库。库的数据格式并装载进数据仓库。n数据集成部件:该部件根据定义部件的规则、统一各源数据集成部件:该部件根据定义部件
30、的规则、统一各源数据的编码规则,并净化数据,根据元数据中定义的数数据的编码规则,并净化数据,根据元数据中定义的数据组织形式对数据进行汇总、聚合计算。据组织形式对数据进行汇总、聚合计算。n数据仓库管理部件:它主要用于维护数据仓库中的数据,数据仓库管理部件:它主要用于维护数据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。备份、恢复数据以及管理数据的安全权限问题。24数据仓库系统的组成(数据仓库系统的组成(2)n数据仓库前端工具集数据仓库前端工具集n查询查询/报表工具:以图形化方式和报表方式显示数据,报表工具:以图形化方式和报表方式显示数据,帮助了解数据的结构、关系以及动态性。帮助了解数据
31、的结构、关系以及动态性。nOLAP工具:通过对信息的多种可能的观察形式进行快工具:通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的速、一致和交互性的存取,便于用户对数据进行深入的分析和观察。分析和观察。n数据挖掘工具:从大量数据中挖掘出具有规律性的知识,数据挖掘工具:从大量数据中挖掘出具有规律性的知识,以及数据之间的内在联系。以及数据之间的内在联系。n前端开发工具:提供用户编程接口,便于在现有系统的前端开发工具:提供用户编程接口,便于在现有系统的基础上进行二次开发,增强系统的伸缩性。基础上进行二次开发,增强系统的伸缩性。n数据仓库数据仓库:在数据仓库系统中,
32、数据仓库是一个在数据仓库系统中,数据仓库是一个数据存储集合,它的存储形式通常有多维数据库,数据存储集合,它的存储形式通常有多维数据库,关系型数据库及其他存储方式。关系型数据库及其他存储方式。25数据转换n统一数据编码:数据仓库中的数据从各个数据源提取出来的,统一数据编码:数据仓库中的数据从各个数据源提取出来的,尽管经过转换后数据格式已经统一,但数据的编码、描述尽管经过转换后数据格式已经统一,但数据的编码、描述在各个源系统中都有很大的区别。为了改进数据仓库中数在各个源系统中都有很大的区别。为了改进数据仓库中数据质量,提高数据仓库中数据的可用性,必须统一数据编据质量,提高数据仓库中数据的可用性,必
33、须统一数据编码。本系统中编码转换主要包括:码。本系统中编码转换主要包括:n日期格式转换:大多数业务环境中有许多不同的日期和时间日期格式转换:大多数业务环境中有许多不同的日期和时间类型,所以,几乎每个数据仓库的实现都必须将日期和时类型,所以,几乎每个数据仓库的实现都必须将日期和时间变换成标准的数据格式。数据仓库必须用单一的模式规间变换成标准的数据格式。数据仓库必须用单一的模式规定日期和时间信息。定日期和时间信息。n测量单位的转换:数据仓库中对于数值型字段应保持一致的测量单位的转换:数据仓库中对于数值型字段应保持一致的单位。在元数据库中创建表单位。在元数据库中创建表Units和和UnitTypes
34、来表示各种来表示各种单位的换算关系。表单位的换算关系。表UnitTypes记录了数据仓库系统中的记录了数据仓库系统中的单位类型,初始元数据库中共分六种单位类型:时间单位、单位类型,初始元数据库中共分六种单位类型:时间单位、货币单位、重量单位、长度单位、面积单位、体积单位。货币单位、重量单位、长度单位、面积单位、体积单位。在表在表Units中记录了单位名、单位类型以及同类型单位之间中记录了单位名、单位类型以及同类型单位之间的相互转换关系。的相互转换关系。26转换器的设计与实现转换器的设计与实现n转换器的功能:数据结构转换和数据类型转换。转换器的功能:数据结构转换和数据类型转换。n从数据源中提取数
35、据并转换格式的过程:先将各类数据从数据源中提取数据并转换格式的过程:先将各类数据库系统中不同格式的数据转换成文本文件,然后再利用库系统中不同格式的数据转换成文本文件,然后再利用批拷贝命令将数据导入目标系统中。以使数据仓库获得批拷贝命令将数据导入目标系统中。以使数据仓库获得新的数据提供决策分析使用。新的数据提供决策分析使用。n数据准备区的使用:首先从源数据中提取数据,转换成数据准备区的使用:首先从源数据中提取数据,转换成数据仓库所要求的格式后存储在数据仓库的一个称为数数据仓库所要求的格式后存储在数据仓库的一个称为数据准备区的缓冲区中。在该区域中,可以暂时存储原始据准备区的缓冲区中。在该区域中,可
36、以暂时存储原始数据,然后由集成器对数据进行清理、集成后再装载到数据,然后由集成器对数据进行清理、集成后再装载到数据仓库中。数据仓库中。源数据数据准备区数据仓库27数据净化数据净化n当数据从源数据库中提取到数据准备区后,必须先进行数当数据从源数据库中提取到数据准备区后,必须先进行数据净化才可以装载到数据仓库中去。数据净化主要指对数据净化才可以装载到数据仓库中去。数据净化主要指对数据字段的有效值检验。有效值的检验通常包括:范围检验、据字段的有效值检验。有效值的检验通常包括:范围检验、枚举字段取值和相关检验。范围检验要求数据保证落在预枚举字段取值和相关检验。范围检验要求数据保证落在预期的范围之内,通
37、常对数据范围和日期范围进行检验,如期的范围之内,通常对数据范围和日期范围进行检验,如对任何在指定范围之外的日期的发票都应删除。枚举字段对任何在指定范围之外的日期的发票都应删除。枚举字段取值指对一个记录在该字段的取值,若不在指定的值中,取值指对一个记录在该字段的取值,若不在指定的值中,则应该删除。相关检验要求将一个字段中的值与另外一个则应该删除。相关检验要求将一个字段中的值与另外一个字段中的值进行相关检验,即在数据库中某个字段应与另字段中的值进行相关检验,即在数据库中某个字段应与另一个字段形成外键约束。一个字段形成外键约束。28监控器捕捉数据变化的途径监控器捕捉数据变化的途径n数据仓库提供的是离
38、线数据数据仓库提供的是离线数据,与源数据存在时间差。与源数据存在时间差。n时标方法:指在数据库中的数据设一个时标,如果新插入或更时标方法:指在数据库中的数据设一个时标,如果新插入或更新一个数据记录,在记录中插入新的时标或加上更新时的时标,新一个数据记录,在记录中插入新的时标或加上更新时的时标,然后根据时标判断哪些数据是变化的,并把变化的数据追加到然后根据时标判断哪些数据是变化的,并把变化的数据追加到数据仓库中去。数据仓库中去。nDELTA文件:该文件是由应用产生的,并记录了应用所改变文件:该文件是由应用产生的,并记录了应用所改变的所有内容。利用的所有内容。利用DELTA文件记录数据的变化,不需
39、要扫描文件记录数据的变化,不需要扫描整个数据库,所以效率较高,但生成的整个数据库,所以效率较高,但生成的DELTA文件的应用并文件的应用并不普遍。不普遍。n映象文件:在上次提取数据库数据到数据仓库之后及本次提取映象文件:在上次提取数据库数据到数据仓库之后及本次提取数据库数据之前,对数据库分别作一次快照,然后通过比较两数据库数据之前,对数据库分别作一次快照,然后通过比较两幅快照的不同来确定要追加的数据。这种方法需要占用大量的幅快照的不同来确定要追加的数据。这种方法需要占用大量的系统资源,对系统的性能影响比较大。系统资源,对系统的性能影响比较大。n日志文件:由于日志文件是数据库的固有机制,所以它对
40、系统日志文件:由于日志文件是数据库的固有机制,所以它对系统性能的影响比较小,另外它还有性能的影响比较小,另外它还有DELTA文件的优点,提取数文件的优点,提取数据只局限于日志文件而不用扫描整个数据库。所以日志文件是据只局限于日志文件而不用扫描整个数据库。所以日志文件是最可行的一种方法。最可行的一种方法。29信息集成服务信息集成服务Copyright IBM Corporation30IBM的解决方案的解决方案31元数据n数据仓库的所有数据都要通过元数据来管理和控制。元数据仓库的所有数据都要通过元数据来管理和控制。元数据描述关于源数据的说明,包括源数据的来源、源数数据描述关于源数据的说明,包括源
41、数据的来源、源数据的名称、源数据的定义、源数据的创建时间等对源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管理所需要的信息。据进行管理所需要的信息。n源数据的来源说明源数据是从哪个系统、哪个历史数据、源数据的来源说明源数据是从哪个系统、哪个历史数据、哪个办公数据、哪个哪个办公数据、哪个WebWeb页、哪个外部系统抽取而来。页、哪个外部系统抽取而来。源数据说明源数据在数据仓库的作用、用途、数据类型源数据说明源数据在数据仓库的作用、用途、数据类型和长度等。和长度等。32元数据元数据(2)n元数据:是用来描述数据的数据。它描述和定位数据组件、元数据:是用来描述数据的数据。它描述和定位数据
42、组件、它们的起源及它们在数据仓库进程中的活动;关于数据和它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述操作的相关描述(输入、计算和输出输入、计算和输出)。元数据可用文件存。元数据可用文件存在元数据库中。元数据反映数据仓库中的数据项是从哪个在元数据库中。元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程。特定的数据源填充的,经过哪些转换、集成过程。n要有效的管理数据仓库,必须设计一个描述能力强、内容要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。完善的元数据。33元数据管理器元数据管理器n客户端登录:负责接收客户端登录信息并进行用户权
43、限检查。客户端登录:负责接收客户端登录信息并进行用户权限检查。n元数据管理器的用户接口:以接口形式向用户提供对元数据元数据管理器的用户接口:以接口形式向用户提供对元数据 增、删、改、查的服务,包括:源数据信息、数据仓库信息、增、删、改、查的服务,包括:源数据信息、数据仓库信息、星型模型信息、维信息、维表字段信息、事实表字段信息、星型模型信息、维信息、维表字段信息、事实表字段信息、映射事实表字段信息、映射维表字段信息、链接事实表与维映射事实表字段信息、映射维表字段信息、链接事实表与维表字段的信息。表字段的信息。n元数据的存储:元数据管理器中的元数据存储程序负责接收元数据的存储:元数据管理器中的元
44、数据存储程序负责接收由接口程序传递来的关于对元数据进行增加、修改和删除等由接口程序传递来的关于对元数据进行增加、修改和删除等信息,并根据所提供的参数执行存储过程,将元数据的有关信息,并根据所提供的参数执行存储过程,将元数据的有关信息保存于服务器端的元数据库中。信息保存于服务器端的元数据库中。34元数据管理器的设计与实现元数据管理器的设计与实现n元数据的作用元数据的作用:定义数据仓库的作用定义数据仓库的作用,指明数据仓库中信息指明数据仓库中信息的内容和位置的内容和位置,刻画数据的抽取和转换规则刻画数据的抽取和转换规则,存储与数据仓存储与数据仓库主题有关的各种商业信息。库主题有关的各种商业信息。n
45、在客户端提供图形化界面工具。例如,用户想在多维模型在客户端提供图形化界面工具。例如,用户想在多维模型中加入一维或者在某一维中加入维元素,不仅可以通过图中加入一维或者在某一维中加入维元素,不仅可以通过图形化界面工具完成而且可以在用户自已编写的应用程序中形化界面工具完成而且可以在用户自已编写的应用程序中调用应用程序接口函数,修改后的结果将记入元数据库中。调用应用程序接口函数,修改后的结果将记入元数据库中。然后系统将根据元数据库中的新内容进行数据的追加。然后系统将根据元数据库中的新内容进行数据的追加。35操作数据存储操作数据存储Business data warehouse业务业务系系统统(Oper
46、ational systems)数据集市(数据集市(Data marts)操作数据存操作数据存储储(Operational data store)元数据元数据(MetaData)36数据仓库中的数据组织数据仓库中的数据组织高度综合级高度综合级轻度综合级轻度综合级当前综合级当前综合级早期细节级早期细节级多级数据多级数据37数据仓库的数据模型数据仓库的数据模型 星型图模型星型图模型 物理数据模型物理数据模型概念模型概念模型逻辑模型逻辑模型物理模型物理模型面向用户的需求面向用户的需求细细 化层化层次次更详细的更详细的技术细节技术细节信息包图信息包图38数据仓库建模和设计数据仓库建模和设计nProce
47、ss of building an abstract model for the data,which is stored in the data and represents the data warehouse content.39概念模型概念模型n由于大多数商务数据是多维的,由于大多数商务数据是多维的,但传统的数据模型表示三维以但传统的数据模型表示三维以上的数据有一定困难。概念模上的数据有一定困难。概念模型简化了这个过程并且允许用型简化了这个过程并且允许用户与开发者和其他用户建立联户与开发者和其他用户建立联系:系:n确定系统边界:决策类型、需确定系统边界:决策类型、需要的信息、原始信息要
48、的信息、原始信息n确定主题域及其内容:主题域确定主题域及其内容:主题域的公共键码、联系、属性组的公共键码、联系、属性组n确定维度:如时间维、销售位确定维度:如时间维、销售位置维、产品维、组别维等置维、产品维、组别维等n确定类别:相应维的详细类别确定类别:相应维的详细类别n确定指标和事实:用于进行分确定指标和事实:用于进行分析的数值化信息析的数值化信息40实例实例例试画出销售分析的概念模型。例试画出销售分析的概念模型。解:首先根据销售分析的实际需求,确定信息包的维度、类别和解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:指标与事实:(1)维度:包括日期维、销售地点维、销售产品
49、维、年龄组别维、)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。性别维等。(2)类别:确定各维的详细类别,如:日期维包括年()类别:确定各维的详细类别,如:日期维包括年(10)、季)、季度(度(40)、月()、月(120)等类别,括号中的数字分别指出各类别)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(的数量;销售地点维包括国家(15)、区域()、区域(45)、城市)、城市(280)、区()、区(880)、商店()、商店(2000)等类别,括号中的数字)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年同样分别指出各类别的数量;类似地,
50、可以确定销售产品、年龄组别维、性别维等的详细类别。龄组别维、性别维等的详细类别。(3)度量和事实:确定用于进行分析的数值化信息,包括预测销)度量和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。售量、实际销售量和预测偏差等。41销售分析的概念模型销售分析的概念模型日期日期销售地点销售地点销售产品销售产品年龄组别年龄组别性别性别年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(2000)度量和事实度量和事实:预测销售量、实际销售量、预测偏差预测销售量、实际销售量、预