《数据仓库与数据挖掘技术概述1final.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘技术概述1final.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据仓库与数据挖掘技术概述 数据仓库参考教材n数据仓库与数据挖掘原理及应用技术 王丽珍等,科学出版社,2004年 n其它参考书nBuilding the data warehouse,W.H Inmon,机械工业出版社 2004nThe Data Warehouse Toolkit(2ndEdition)R.Kimball 电子工业出版社 2002nData Mining:Concepts and Techniques.JiaweiHan and MichelineKamber.机械工业出版社,2001.n史忠植,知识发现,清华大学出版社,史忠植,知识发现,清华大学出版社,2002课程主要内容
2、n概述n数据仓库n联机分析处理n数据仓库的设计n数据预处理 n维度建模n数据挖掘n聚类n关联规则 n分类概述-数据仓库基本概念n数据仓库技术产生的背景n什么是数据仓库技术信息技术发展的几个阶段n1960s:数据采集、数据库创建阶段n集中于原始文件的处理n层次数据库和网状数据库n1970s:关系数据库管理系统n关系数据模型和关系数据库管理系统nE-R模型、SQL语言、查询处理和优化、OLTP(恢复和并发技术)n1980s:高级数据库管理系统n面向对象数据库、对象关系数据库、主动数据库、演绎数据库、模糊数据库、空间数据库、时空数据库、统计数据库n数据挖掘技术n1990s:数据仓库、联机分析处理和数
3、据挖掘n数据仓库、联机分析处理和数据挖掘,多媒体数据库,Web数据库、Data Stream企业信息化建设现状n在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展作出了巨大贡献n各类信息系统大多属于面向事务处理的OLTP系统n信息系统多年运行,积累了大量的数据n数据是一种宝贵的资源,但没有充分发挥作用n管理决策层对数据分析基础平台的需求日益强烈企业信息化建设提出了更高的要求n市场竞争日益激烈创造竞争优势n需要及时、准确的做出科学决策n科学决策必须以准确、有效的数据为基础n充分利用现有数据,将它转化为信息分析人员典型的信息需求n覆盖企业内部信息、合作伙伴信息和市场信息n覆盖综合信
4、息和明细信息n覆盖当前数据和历史数据n高可用性n高质量的数据(一致性、完整性)n支持各种不同的分析方法n数据定义符合业务人员要求n组织内部n横向共享信息n数据的重构n个人授权n服务和质量管理n组织之间n合作伙伴n客户驱动的解决方案n战略联盟n价值链和供应链n市场n竞争对手n市场分割n实时的市场行情n全球化操作型数据和分析型数据的区别原始数据/操作型数据导出数据/分析型数据面向应用面向主题详细的综合的,或提炼的在访问瞬间是准确的代表过去的数据,快照是为日常工作服务为管理者服务可更新不更新重复运行启发式运行处理需求预先可知处理需求事先不知道非冗余性总是存在冗余对性能要求高对性能要求宽松一次访问一个
5、单元一次访问一个集合静态结构:可变的内容结构灵活访问频繁访问很少或不多现有数据库系统处理分析型应用存在的问题数据可信性n数据没有同一时间基准n例如:一个企业的两个部门向管理者呈送报表n部门A,于星期天傍晚抽取了分析所需的数据,结论为业绩上升10%n部门B,于星期三下午抽取了分析所需的数据,结论为业绩下降15%n算法不同n部门A使用的是旧帐号n部门B使用的是大帐号n多次抽取,扩大了上述两个问题n用抽取程序从数据库/文件中抽取数据,并存放起来,然后又在此基础上再次进行抽取,从数据进入系统到提供分析往往经过8、9次的抽取。在实际中经常存在这样“蜘蛛网”问题n没有统一规划和设计n数据模型不一致n数据定
6、义不一致n数据准确性差,冗余度高n业务流程发生变化n历史数据不统一、不规范n解决方案:n深入、全面、客观的数据源分析建立数据仓库系统数据可信性(续)n外部数据问题n一位分析员把华尔街日报的数据带进系统n另一位将商业周刊的数据进入系统n数据一旦进入系统,往往已失去“身份”,并且一位分析员也不知道另一位分析员所输入的数据开始时就不是同一个公共的数据源n部门A最初来源于文件XYZn部门B最初来源于DB ABC现有数据库系统处理分析型应用存在的问题从数据到信息n例如:“今年的帐户情况与前五年比较”n涉及大量应用:储蓄应用、贷款、即期汇票管理、信托,而这些应用并未集成。n没有足够的历史数据:n贷款部门,
7、拥有二年的数据n银行存折处理,拥有一年的数据n即期汇票管理只有60天的数据n现金交易处理具有18个月的数据。n数据不一致问题:同名不同义、同义不同名,例如M/F,Male/Femalen外部数据和非结构化数据现有数据库系统处理分析型应用存在的问题生产率n为了生成一个企业报表,必须经过n获得源数据n定位和分析数据:由于同名不同义、同义不同名,很难准确定位和分析,可能造成进一步的混乱n把数据加工成报告n要写许多程序,每个程序必须客户化(与客户环境有关)n程序会涉及公司具有的各种技术n由于定位数据困难,检索所要的数据是一件很麻烦的事n完成任务需要很长时间n定位数据+获得数据+集成报告,完成任务所需时
8、间较长n每份报告各自需求不同,因此每份报告所需要的时间都很长。数据仓库要解决的基本问题n全局范围内统一数据视图n数据内容n数据的完整性n数据的准确性n数据的一致性n数据组织n面向分析决策第一章数据仓库基本概念n数据仓库技术产生的背景n什么是数据仓库技术数据仓库的定义n对数据仓库的理解n数据仓库用于支持管理和决策,面向分析型数据处理,它不同于企业现有的面向交易的操作型数据库;n数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据。n数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(N
9、on-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策和信息的全局共享。W.H.Inmon面向主题的数据组织n主题:宏观分析领域所涉及的分析对象n采用面向事务进行数据组织,其特点为:n充分考虑企业的部门组织结构和业务活动n反映企业内部数据流动情况,业务处理的数据流程n与业务处理流程中的单据、票证、文档有良好的对应n数据与应用(数据的处理)有一定的对应n例:保险公司:n面向应用(操作):财产险、寿险、健康险、意外险。n面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整、一致的描述。n例:保险公司:n面向主题:客户、保单、保费、理赔(赔款)。面
10、向主题数据组织的实现举例n多个表面向主题数据组织的实现举例(续一)面向主题数据组织的实现举例(续二)数据仓库的特点:集成的n操作型数据库n面向特殊应用n每一个数据库面向特定的应用,各类应用(包括其相关的数据库)之间相互独立。n系统的发展经历一个长期的过程n数据仓库n集成的n数据仓库中的数据从建立时开始,面向整个企业的分析处理,数据仓库中的数据是已经集成了的,消除了数据的不一致性.n在某个时间点完成设计,实现需要经历一个长期的不断迭代的过程数据仓库的特点:集成的n消除冲突:不一致,同名异义、异名同义、单位不统一等等,需要进行数据清理(因为来源于不同的子系统,与不同的主要逻辑捆绑)n数据的综合和计
11、算:可在抽取数据时;也可在进入DW以后。数据仓库的特点:相对稳定的数据仓库的特点:相对稳定的n一般不修改,只追加;过期限的数据可从DW中移走(删去);n对DW,主要是查询,DWMS比DBMS要简单n可不考虑并发控制n要考虑性能(因为查询数据量大)和界面友好(对高层管理者)数据仓库的特点:反映历史变化数据仓库的特点:反映历史变化n码键包含时间项n不断增加新的数据内容;n删去过时的数据;例如:超过10年的数据n与时间有关的综合数据:随时间变化而重新组合数据仓库的特点:反映历史变化n操作型数据与DW中的数据比较n操作型环境n60-90天数据n记录能被更新n码中不一定包括时间元素n数据仓库n5-10年数据n数据的复杂快照n码中包括时间元素第一章数据仓库基本概念n数据仓库技术产生的背景n什么是数据仓库技术数据库技术与数据仓库技术n数据库技术在系统功能和性能需求n强调的是多用户环境下如何针对并发用户的增删改操作,保证数据的一致性和可恢复性,并发用户的吞吐量为数据库管理系统的重要性能指标n数据仓库技术在系统功能和性能需求n强调的是大数据量环境下的高效、快速查询,查询的吞吐量为数据仓库管理系统的重要性能指标