数据挖掘技术.pptx

上传人:莉*** 文档编号:80044138 上传时间:2023-03-22 格式:PPTX 页数:46 大小:319.33KB
返回 下载 相关 举报
数据挖掘技术.pptx_第1页
第1页 / 共46页
数据挖掘技术.pptx_第2页
第2页 / 共46页
点击查看更多>>
资源描述

《数据挖掘技术.pptx》由会员分享,可在线阅读,更多相关《数据挖掘技术.pptx(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1为什么要数据挖掘?n数据的爆炸性增长:从TB到PBn丰富数据的来源:商业:WEB、电子商务、交易数据、股市.科学:遥感、生物信息学、科学模拟,社会及每个人:新闻、数码相机n我们被数据所淹没,但却渴望知识“需要是发明之母”数据挖掘:海量数据的自动分析技术第1页/共46页2数据库技术的演化60-70年代:网络数据库、层次数据库70-80年代:关系数据库模型和原型系统80-90年代:各种高级数据模型、各类以应用为导向的数据库。90-今:数据挖掘、数据仓库、多媒体数据库、WEB第2页/共46页3什么是数据挖掘?数据挖掘(从数据中发现知识)从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的

2、和可能有用的模式或知识 数据挖掘的替换词数据库中的知识挖掘(KDD)知识提炼数据/模式分析数据考古数据捕捞、信息收获等等。第3页/共46页4第4页/共46页5在今天,NBA的教练有了他们的新式武器:决策支持下的数据分析。大约20个NBA球队使用了IBM公司开发的数据挖掘软件来优化他们的战术组合。该软件就因为研究了魔术队队员不同的布阵,在魔术队与迈阿密热队的比赛中找到了获胜的机会。(1)系统分析显示魔术队先发阵容中的两个后卫哈德卫和伯兰在前两场中被评为17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫阿姆斯创组合时,魔术队得分为正14分。(2)在下一场中,魔

3、术队增加了阿姆斯创的上场时间。此招果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。有趣的数据挖掘-美国NBA第5页/共46页6零售业用于识别顾客的购买模式,在顾客的统计特征中发现关联,预测促销活动的反应,进行市场分析。啤酒和尿布的的关系,我们非常熟悉!如在购买面包和黄油的顾客中,有如在购买面包和黄油的顾客中,有90%90%的人同时也买了牛奶的人同时也买了牛奶”:(面包面包+黄黄油油)()(牛奶牛奶)。数据挖掘其他应用第6页/共46页7n银行洗钱:发现可疑的货币交易行为二八定律:意大利经济学家帕累托发现了财富和收益间的关系,潜心研究发现,社会上的大部分财富被少数人占有,从

4、大量具体的事实中挖掘出一个简单而让人不可思议的结论:如果社会上20的人占有社会80的财富,那么可以推测,10的人占有了65的财富,而5的人则占有了社会50的财富。数据挖掘其他应用第7页/共46页8保险如;保险客户流失性判断数据挖掘其他应用收入5万元年龄35岁不易流失易流失是否事业单位不易流失易 流 失YNYYNN第8页/共46页9股票预设预测一支股票的走势几乎是不可能,但是通过相关分析,可以找出一支股票的走势与另一只股票走势的潜在规律,比如数据挖掘曾经得到过这个结论:“如果微软的股票下跌4%,那么IBM的股票将在两周内下跌5%”。医疗探求各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗

5、方案的治疗效果,以及对疾病的诊断、治疗和医学研究是非常有价值和发展前景的。同时,医疗数据是既有文本、如:预测肝癌患者存活期如:预测肝癌患者存活期数据挖掘其他应用第9页/共46页10专家们通过搜集1990年到2002年间因肝癌死亡的456名患者的各项指标,把患者血液检查结果、症状等详细信息数字化,所涉及的数据达77万种,然后运用数据挖掘分析其相关性。结果发现,某些数据和肝癌患者的存活期密切相关,如一种“PIVKA”蛋白质异常程度的数值到一定标准以上,90以上的肝癌患者存活期不到一年。使用新方法不仅可较准确地预测肝癌患者的存活期,而且有助于选择恰当的治疗方法,来保持或改善那些与存活期密切相关的数值

6、,进而延长患者生命。预测肝癌患者存活期第10页/共46页11第11页/共46页12第12页/共46页13第13页/共46页14一 前言数据仓库是紧跟internet而上,成为了信息社会中获得企业竞争优势的关键。据相关咨询公司调查,全球2000家大公司已有90%将internet 网络和数据仓库这两项技术列入了企业的未来计划。第14页/共46页15一 前言(续)IBM 公司所推崇的BI(商业智能),其核心就是数据仓库。微软从SQL SVRVER7.0以后,将数据仓库功能集成到数据库中,并建立的数据仓库联盟。ORACLE 公司已经有了自己ORACLE EXPRESS 系列数据仓库产品用来提供决策支

7、持。我国招商银行等、中国电信、中国移动等都已经建立起了自己的数据仓库系统。第15页/共46页16一数据仓库概念的提出顾名思义,数据仓库就是数据的仓库,它在存放大量数据的同时,又像仓库一样将大量的数据有效的管理起来。数据仓库主要侧重于对海量数据的组织和管理,提供有效的数据访问的手段。第16页/共46页17一数据仓库概念的提出(续)目前在信息管理方面存在的普遍问题包括:(1)数据太多,“信息不足”的状况随着数据库技术的发展,各企业积累并存放了大量的业务数据,但真正能为企业提供辅助决策的信息也太少。(2)异构环境的数据源由于市场竞争激烈,新产品开发周期缩短,如何综合利用分散的、异构环境的数据源,及时

8、得到准确的信息是使企业取得成功的关键。第17页/共46页18一数据仓库概念的提出(续)(3)事务型处理环境不适宜DSS的应用事务处理和分析处理的性能特性不同事务处理:存取操作频率高而每次操作处理的时间短。分析处理;某个DSS应用程序可能需要连续使用几个小时,从而消耗掉大量的系统资源,将具有如此不同处理性能的两种应用放在一个环境中运行,这种行为是不适当的。数据集成的问题在DSS中数据收集得越完整,得到的结果越可靠。历史数据的问题 事务处理一般只需要当前的数据 而对于DSS而言,历史数据是非常重要的第18页/共46页19二数据仓库的概念1什么是数据仓库随着大型数据库技术的发展及实际应用的需要,数据

9、仓库技术(Data Warehouse,DW)被提出来解决管理决策应用的问题。1996年,构建数据仓库一书中,对数据仓库做的定义为:面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策。第19页/共46页202数据仓库的特点(1)数据仓库是面向主题的数据仓库系统是相对数据库系统而言的,数据库系统是事件驱动、面向应用的;数据仓库系统则是面向主题的。对于银行来说,客户是个永恒的主题,要研究客户的消费行为和心理,就要对客户进行各种分类,以此解决哪些客户的信用好,哪些客户的风险较大,等等诸如此类的问题就是一个主题。(2)数据仓库是集成的不同的应用程序设计者设计的程序,可能有许多方面的

10、不同,如数据编码、命名、习惯等。因此,原始数据进入数据仓库之前,必须经过加工与集成。首先要统一原始数据中所有不一致的地方,如字段的同名异义、异名同义、单位不统一、字长不统一等,还要将原始数据结构从面向应用转换为面向主题。第20页/共46页212数据仓库的特点(续)(3)数据仓库是非易失的由于数据仓库保存的数据是反映历史的,因此对其操作只有两种,分别为数据载入、数据访问。数据仓库只有经过长时间之后,才会有老化数据的清除等问题的出现。(4)数据仓库是随时间变化的 数据仓库随时间不断地增加新的数据,不断将当前最新的操作型数据统一集成到数据仓库中。并且数据仓库内的数据一旦被载入,就不能修改。一般的操作

11、性环境中的数据只保持60-90天,虽然数据仓库内的数据在很长的时间(5-10年)不发生变化。但是,数据仓库中必须包含反映时间的属性。第21页/共46页223数据仓库系统和传统数据库系统的区别数据仓库和数据库是不同的概念 数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。数据仓库系统和传统数据库系统相比,不同点表现在以下几方面。第22页/共46页233数据仓库系统和传统数据库系统的区别(续)对比内容数据库数据仓库数据内容数据内容当前值当前值历史的、存档的、归纳的、历史的、存档的、归纳的、计算的数据计算的数据数据目标数据目标面

12、向业务操作程序、重复面向业务操作程序、重复处理处理面向主体域、管理决策分面向主体域、管理决策分析应用析应用数据特性数据特性动态变化、按字段更新动态变化、按字段更新静态、不能直接更新、只静态、不能直接更新、只是定时添加是定时添加数据结构数据结构高度结构化、复杂、市和高度结构化、复杂、市和操作计算操作计算简单、适合分析简单、适合分析使用频率使用频率高高中到低中到低数据访问量数据访问量每个事务只访问少量记录每个事务只访问少量记录有的事务可能要访问大量有的事务可能要访问大量记录记录对相应时间的要求对相应时间的要求以秒为单位计量以秒为单位计量以秒、分钟、甚至小时为以秒、分钟、甚至小时为计量单位计量单位第

13、23页/共46页24第24页/共46页251 1 联机分析处理技术产生的背景六十年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展。93年,Codd提出了联机分析处理(OLAP)的概念。他认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了联机分析处理的概念即OLAP。第25页/共46页262 2 相关的概念1相关定义定义1:OLAP是针对特定问题的联机数据访问和分析。通

14、过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。第26页/共46页273 OLAP3 OLAP和OLTPOLTP的区别OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。OLTPOLAP功能日常操作决策支持DB设计面向应用的面向主题的数据最新

15、数据细节数据是二维的分立的历史数据聚集数据是多维的集成的存取读/写,数十条记录一般只读,上百万条工作单位简单的事务复杂的查询DB100MB-GB100GB-TB第27页/共46页285 OLAP5 OLAP的多维数据分析多维分析方式迎合了人们的思维模式多维数据分析是指对以多维形式组织起来的数据采取切片、切块、旋转和钻取等各种分析动作。以求剖析数据,使最终用户能从多个角度、多侧面地观察数据仓库中的数据,从而深入地了解包含在数据中的信息、内涵。第28页/共46页295 OLAP5 OLAP的多维数据分析(续)(1)切片在多维数组的某一维上选定一维成员的动作成为切片。在多维数组的某一维上选定一维成员

16、的动作成为切片。(2)(2)切块:切块:在多维数组的某一维上选定某一区间的维成员的动作。在多维数组的某一维上选定某一区间的维成员的动作。第29页/共46页305 OLAP5 OLAP的多维数据分析(续)(3)旋转:旋转既是改变一个报告或者页面的维方向。第30页/共46页315 OLAP5 OLAP的多维数据分析(续)(4)钻取钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获得更多的细节性数据,钻取一般是指向下钻取。第31页/共46页326 6 具体实现-1-1数据入口关系型数据库数据转换程序数据仓库事实表,维表,度量,计算成员的定义多维数据集图型表格第32页/共46页336 6 具

17、体实现-2-21ORACLE产品中的:datawarehousebuilder用以完成数据的抽取、转换、装载工具(etl)expressolap分析工具2其它产品也有3通过自己的开发和设计来完成。第33页/共46页34数据挖掘当前的热点(1)网站的数据挖掘(2)生物信息或基因的数据挖掘(3)文本的数据挖掘第34页/共46页353数据挖掘的发展进化阶段进化阶段商业问题商业问题支持技术支持技术产品特点产品特点数据搜集数据搜集(60年代年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘提供历史性的、静态的数据信息数据访问数据访问(80年代年代-90年代年代)“在新英格兰的分部去年三月的销售额是

18、多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBC Oracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;数据仓库;决策支持决策支持(90年代末期年代末期)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库在各种层次上提供回溯的、动态的数据信息数据挖掘数据挖掘(正在流行)(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据仓库提供预测性的信息第35页/共46页364数据挖掘的概念数据挖掘是从大量的、不完全的、有噪声的

19、、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。第36页/共46页375数据挖掘的功能数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。(1)自动预测趋势和行为(2)关联分析(3)聚类(4)概念描述(5)偏差检测数据挖掘可粗略地理解为三部曲:数据准备、数据挖掘,结果的解释评估。第37页/共46页386数据挖掘的方法根据数据挖掘的方法分,可粗分为:统计方法机器学习方法神经

20、网络方法数据库方法又可以进一步的细分为如下的结构!第38页/共46页39(1)统计方法回归分析(多元回归、自回归、罗吉斯回归等)判别分析(贝叶斯判别、费歇尔判别、非参数判别等)聚类分析(系统聚类、动态聚类等)探索性分析(主元分析法、相关分析法等)以及模糊集、粗糙集、支持向量机等。(2)机器学习归纳学习方法(决策树(ID3算法)、规则归纳等)、基于范例的推理CBR遗传算法贝叶斯信念网络等。(3)神经网络方法前向神经网络(BP算法等)自组织神经网络(自组织特征映射、竞争学习等)等。(4)数据库方法基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。第39页/共46页40(1)统计方

21、法回归分析(多元回归、自回归、罗吉斯回归等)判别分析(贝叶斯判别、费歇尔判别、非参数判别等)聚类分析(系统聚类、动态聚类等)探索性分析(主元分析法、相关分析法等)以及模糊集、粗糙集、支持向量机等。(2)机器学习归纳学习方法(决策树(ID3算法)、规则归纳等)、基于范例的推理CBR遗传算法贝叶斯信念网络等。(3)神经网络方法前向神经网络(BP算法等)自组织神经网络(自组织特征映射、竞争学习等)等。(4)数据库方法基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。第40页/共46页41其中,(X)表示在给定X=x条件下,Y=1发生的概率。通过对logistic回归方程进行对数变换

22、来表示,Logistic回归模型可写成下列格式:第41页/共46页427数据挖掘的流程数据挖掘是指一个完整的过程,该过程从大型数据仓库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识.数据挖掘环境可示意如下图:数据仓库数据挖掘工具可视化工具第42页/共46页43名词解释1数据仓库2聚类3数据挖掘4人工神经网络5OLAP6概念描述第43页/共46页44简答题1数据仓库和传统数据库的区别和联系是什么?2数据挖掘的主要功能是什么?3简述OLAP在多维数据模型中的几个基本操作?4数据挖掘的步骤包括那些?5数据挖掘与传统分析方法的区别是什么?6简述事务处理与分析处理的操作特点的不同?7简述数据仓库系统的体系结构?8OLAP的基本特征和可构造的多维数据模型有哪些?9如何理解数据挖掘功能中的关联分析?第44页/共46页45论述题1试分析数据挖掘技术在金融领域的应用情况?2试分析数据挖掘技术在医疗卫生领域的应用情况?3谈谈你对数据挖掘技术的理解?第45页/共46页46感谢您的观看。第46页/共46页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁