《数据挖掘与知识发现-课程课件.ppt》由会员分享,可在线阅读,更多相关《数据挖掘与知识发现-课程课件.ppt(94页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、知识发现与数据挖掘的基本概念数据挖掘方法和技术数据挖掘的知识表示知识发现的定义知识发现的研究问题知识发现的过程知识发现系统的结构知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。定性知识和定量知识的发现知识发现方法知识发现的应用数据准备数据挖掘
2、结果的解释和评估数据准备数据集成:对数据进行合并处理、数据检查和清洗工作数据选择:缩小处理数据的范围,提高数据挖掘的质量数据预处理:削减数据维数或降维,克服数据挖掘工具的局限性数据挖掘探索性数据分析:利用图形化方式对数据进行探索描述建模:描述数据的所有特征预测建模:建立一个根据已知变量预测其它变量的模型分类回归寻找模式和规则:进行模式探测根据内容检索:根据用户感兴趣的模式建立相似的模式结果的解释和评估结果的解释结果不满足用户要求,换一种挖掘方法结果非常抽象,换一种容易理解的方法结果的评估所采用的数据挖掘技术的有效性用于挖掘的数据质量和数量知识发现系统管理器知识库和商业分析员数据仓库的数据库接口
3、数据选择知识发现引擎知识发现评价知识发现描述商业分析员数据仓库知识库接口数据库数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统管理器:知识发现系统管理器:作用是控制并管理整个知识发现过程 商业分析员数据仓库知识库接口数据库数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识库和商业分析员知识库和商业分析员知识库包含了源于各方面的知识。商业分析员要按一种有效的方式指导关注信息的发现。商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器数据仓库的数据库接口数据仓库的数据库接口知识发现系统的数据库接口可以直接与数据仓库通信。商业
4、分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器数据选择数据选择确定从数据仓库中需要抽取的数据及数据结构商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现引擎知识发现引擎将知识库中的抽取算法提供给数据选择构件抽取的数据商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现评价知识发现评价有助于商业分析员筛选模式,选出那些关注性的信息商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现描述知识发现描述发现、评价并辅
5、助商业分析员在知识库中保存关注性发现结果以备将来引用,并保持知识发现与管理人员的通信商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器数据挖掘的进化历程数据挖掘的任务数据挖掘的分类数据挖掘的对象数据挖掘与专家系统的区别数据挖掘的进化历程数据挖掘的任务数据挖掘的分类数据挖掘的对象数据挖掘与专家系统的区别进进化化阶阶段段商商业问题业问题支持技支持技术术产产品厂家品厂家产产品特点品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”
6、关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信
7、息数据挖掘的范围 数据库可以由此拓展深度和广度 数据挖掘的范围 数据库可以由此拓展深度和广度“数据挖掘”这个名字来源于它有点类似于在山脉中挖掘有价值的矿藏在商业应用里,它就表现为在大型数据库里面搜索有价值的商业信息这两种过程都需要对巨量的材料进行详细地过滤,并且需要智能且精确地定位潜在价值的所在。对于给定了大小的数据库,数据挖掘技术可以用它如下的超能力产生巨大的商业机会:自动趋势预测 自动探测以前未发现的模式“数据挖掘”这个名字来源于它有点类似于在山脉中挖掘有价值的矿藏在商业应用里,它就表现为在大型数据库里面搜索有价值的商业信息这两种过程都需要对巨量的材料进行详细地过滤,并且需要智能且精确地定
8、位潜在价值的所在。对于给定了大小的数据库,数据挖掘技术可以用它如下的超能力产生巨大的商业机会:自动趋势预测 自动探测以前未发现的模式数据挖掘能自动在大型数据库里面找寻潜在的预测信息。传统上需要很多专家来进行分析的问题,现在可以快速而直接地从数据中间找到答案。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。“数据挖掘”这个名字来源于它有点类似于在山脉中挖掘有价值的矿藏在商业应用里,它就表现为在大型数据库里面搜索有价值的商业信息这两种过程都需要对巨量的材料进行详细地过滤,并且需要智能且精确地定位潜在价值的
9、所在。对于给定了大小的数据库,数据挖掘技术可以用它如下的超能力产生巨大的商业机会:自动趋势预测 自动探测以前未发现的模式数据挖掘工具扫描整个数据库并辨认出那些隐藏着的模式,比如通过分析零售数据来辨别出表面上看起来没联系的产品,实际上有很多情况下是一起被售出的情况。数据挖掘技术可以让现有的软件和硬件更加自动化,并且可以在升级的或者新开发的平台上执行。当数据挖掘工具运行于高性能的并行处理系统上的时候,它能在数分钟内分析一个超大型的数据库。这种更快的处理速度意味着用户有更多的机会来分析数据,让分析的结果更加准确可靠,并且易于理解。数据挖掘的范围 数据库可以由此拓展深度和广度 深度上,允深度上,允许许
10、有更多的列存在。有更多的列存在。以往,在进行较复杂的数据分析时,专家们限于时间因素,不得不对参加运算的变量数量加以限制,但是那些被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。现在,高性能的数据挖掘工具让用户对数据库能进行通盘的深度遍历,并且任何可能参选的变量都被考虑进去,再不需要选择变量的子集来进行运算了。广度上,允广度上,允许许有更多的行存在。有更多的行存在。更大的样本让产生错误和变化的概率降低,这样用户就能更加精确地推导出一些虽小但颇为重要的结论。数据挖掘的进化历程数据挖掘的任务数据挖掘的分类数据挖掘的对象数据挖掘与专家系统的区别关联分析时序模式聚类分类偏差检测预测关联分
11、析时序模式聚类分类偏差检测预测在数据记录的数据项之间发掘关联关系,某些数据项的出现预示着该记录中其它一些数据项出现的可能。面包和牛奶的故事关联规则的形式:支持度Support:表示该规则所代表的事例占全部事例的百分比置信度Confidence:表示该规则所代表事例占满足前提条件事例的百分比关联分析时序模式聚类分类偏差检测预测给定一段时间内的数据记录,发掘记录间的相关性,当前记录中某些数据项的出现预示着其它数据项在随后记录中出现的可能性。纵向的关联关联分析时序模式聚类分类偏差检测预测将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类原则:同一类别的对象间距离尽可能小;不同类别的对
12、象间距离尽可能大。考虑对象间的相似性问题关联分析时序模式聚类分类偏差检测预测给定属于不同类型的数据记录,根据记录中数据项的特征为每种类型生成分类模型。分类模型用于预测新的数据记录所属类型。汽车销售的例子必须事先给出分类的标号决策树分类:规则分类:IF()Then()Else()关联分析时序模式聚类分类偏差检测预测在数据分析中发现有很多异常情况存在于数据库中,我们可以根据这种异常情况获得很多有用的信息用于统计试验检测信用卡欺骗的例子关联分析时序模式聚类分类偏差检测预测利用历史数据或数据分布依据一定的模型计算出数值数据或识别出未来分布趋势等。用于分类的预测和用于回归的预测关联分析Apriori,A
13、prioriTid序列分析AprioriAll,AprioriSome,DynamicSome数据分类RIPPER,ID3,C4.5,Naive Bayes,数据挖掘的进化历程数据挖掘的任务数据挖掘的分类数据挖掘的对象数据挖掘与专家系统的区别数据挖掘数据库技术信息科学可视化统计学机器学习其他学科根据挖掘的数据库类型分类 根据挖掘的知识类型分类 根据应用分类 根据所用的方法和技术分类 根据挖掘的数据库类型分类 根据挖掘的知识类型分类 根据应用分类 根据所用的方法和技术分类 与数据库匹配的数据挖掘技术分类关系数据挖掘非关系型数据挖掘处理的数据的特定类型分类空间的数据挖掘时间序列的数据挖掘文本的数据
14、挖掘多媒体的数据挖掘根据挖掘的数据库类型分类 根据挖掘的知识类型分类 根据应用分类 根据所用的方法和技术分类 关联时序聚类分类偏差检测预测分析根据挖掘的数据库类型分类 根据挖掘的知识类型分类 根据应用分类 根据所用的方法和技术分类 金融行业的数据挖掘电信行业的数据挖掘保险行业的数据挖掘医药行业的数据挖掘税务部门的数据挖掘根据挖掘的数据库类型分类 根据挖掘的知识类型分类 根据应用分类 根据所用的方法和技术分类 归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法归纳学习是符号学习中研究得最为广泛得一种方法。给定关于某个概念的
15、一系列已知的正例和反例,其任务是从中归纳出一个通用的概念描述归纳学习能够获得新的概念,创立新的规则,发现新的理论它的一般操作是泛化(generalization)和特化(specialization)泛化用来扩展一假设的语义信息,以使其能够包含更多的正例,应用于更多的情况特化是泛化的相反的操作,用于限制概念描述的应用范围归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法神经网络方法类遗传算法类所谓人工神经网络(Artificial Neural network)是指利用工程技术手段模拟人脑神经网络的结构和功能的一种技术系统。它是一种大规模并行的非线性动力学系统,简称为神经网络人脑是
16、由大量的神经元通过及其丰富和完善的联接而形成的一个灵活多变的、错综复杂的神经网络神经元结构图树突树突轴突轴突突触突触 人工神经元结构模型图 w1 w2 wn ui Yix1 x2 xnf o人工神经元:又称为处理单元、节点或短期记忆 oxi:神经元的输入owi:突触连接强度即权值oui:神经元的内部状态o :阈值 oYi:神经元的输出,规定神经元在一定输入的作用下,超过某一阈值,神经元才兴奋,才能引起输出是一简单非线性激活又称为神经元的功能函数神经网络方法类遗传算法类遗传算法是模拟生物进化过程的算法:分别由繁殖(选择)、交叉(重组)、变异三个基本算子归纳学习法仿生物技术法公式发现法统计分析法模
17、糊数学法可视技术法o该类对若干变量进行一定的数学运算,求得相应的数学公式。由物理定律发现系统BACON和经验公式发现系统FDD构成。o物理定律发现系统BACON是对数据项进行初等数学运算形成组合数据项,若它的值为常数项,我们就得到了组合数据项等于常数的公式,该系统有BACON.1BACON.5五个版本。o经验公式发现系统FDD是对两个数据项交替取初等函数后与另一数据项的线性组合若为直线时,就找到了数据项的初等函数的线性组合公式归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法求目标数据的最大值、最小值、总和和平均值等的常用统计:求相关系数来度量变量间的相关程度的相关分析;求回归方程
18、(线性或非线性)来表示变量间的数量关系的回归分析;从样本统计量的值得出差异,来确定总体参数之间是否存在差异(假设检验)的差异分析;直接比较样本中各样本之间的距离,将距离较近的归为一类。而将距离较远的分在不同类中的聚类分析;建立一个或多个判别函数,并确定一个判别标准。归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法模糊聚类模糊分类模糊关联规则 归纳学习法仿生物技术法公式发现法统计分析法模糊数学法可视技术法可视化技术是对数据挖掘过程及结果的图形显示技术。可视化技术在数据挖掘中的广泛应用已形成了可视化数据挖掘类的多种方法。应用:提取几何图形绘制显示和演放 关系数据库文本图像与视频数据W
19、EB数据归纳学习方法仿生物技术公式发现统计分析方法模糊数学方法可视化技术相同点:都是利用已有信息来解决问题区别:数据挖掘是从海量已有数据中发现隐藏的、潜在的知识来进行决策支持;专家系统是利用专家知识或启发性知识,按一定的推理规则来帮助人们解决问题。数据挖掘强调事实第一、惟数据;专家系统强调经验第一、惟专家规则决策树知识基(浓缩数据)网络权值公式规则知识由规则知识由前提条件前提条件和和结论结论两部分组成两部分组成 前提条件前提条件 由字段项由字段项(属性属性)的取值的的取值的 合取合取(与与,),)和析取和析取(或或,),)组合而成组合而成结论结论为决策字段项为决策字段项(属性属性)的取值或者类
20、别组成的取值或者类别组成 类型类型身高身高头发头发HR附附第第一一类类人人矮矮金色金色蓝色蓝色高高红色红色蓝色蓝色高高金色金色蓝色蓝色矮矮金色金色灰色灰色第第二二类类人人高高金色金色黑色黑色矮矮黑色黑色蓝色蓝色高高黑色黑色蓝色蓝色高高黑色黑色灰色灰色矮矮金色金色黑色黑色规则的例子规则的例子IF(发色发色=金色金色红色红色)(眼睛眼睛=蓝色蓝色灰色灰色)THEN 第一类人第一类人 IF(发色发色=黑色黑色)()(眼睛眼睛=黑色黑色)THEN 第二类人第二类人 规则知识规则知识 ID3决策树决策树的建立方法:的建立方法:首先由信息量最大的字段首先由信息量最大的字段(属性属性)作为根结点作为根结点接
21、着根的各个取值为分枝接着根的各个取值为分枝,对各个分枝所划分的对各个分枝所划分的数据元组数据元组(记录记录)子集子集,重复建树过程重复建树过程,扩展决策树扩展决策树最后得到相同类别的子集最后得到相同类别的子集,以该类别作为叶结点以该类别作为叶结点 商店个数商店个数位置位置规模规模档次档次经营效果经营效果1010市中心市中心大大高高一般一般1515市中心市中心大大一般一般成功成功8 8市中心市中心一般一般高高成功成功6 6城乡结合部城乡结合部大大一般一般一般一般6 6城乡结合部城乡结合部一般一般一般一般成功成功1010市中心市中心一般一般一般一般一般一般商店定位决策树商店定位决策树 天气天气温度
22、温度湿度湿度风况风况运动运动晴晴85858585无无不适合不适合晴晴80809090有有不适合不适合多云多云83837878无无适合适合有雨有雨70709696无无适合适合有雨有雨68688080无无适合适合有雨有雨65657070有有不适合不适合多云多云64646565有有适合适合晴晴72729595无无不适合不适合晴晴69697070无无适合适合有雨有雨75758080无无适合适合晴晴75757070有有适合适合多云多云72729090有有适合适合多云多云81817575无无适合适合有雨有雨71718080有有不适合不适合决策树的例子决策树的例子2天气?overcast湿度?风况?70无有
23、天晴有雨适合不适合不适合适合适合多云通过数据挖掘的方法能大大压缩数据库的通过数据挖掘的方法能大大压缩数据库的元组和字段项元组和字段项,最后得到浓缩数据最后得到浓缩数据,称为称为知知识基识基 它是原数据库的精华它是原数据库的精华,很容易转换成规则很容易转换成规则知识知识 类型类型身高身高头发头发HR附附第第一一类类人人矮矮金色金色蓝色蓝色高高红色红色蓝色蓝色高高金色金色蓝色蓝色矮矮金色金色灰色灰色第第二二类类人人高高金色金色黑色黑色矮矮黑色黑色蓝色蓝色高高黑色黑色蓝色蓝色高高黑色黑色灰色灰色矮矮金色金色黑色黑色类型类型头发头发眼睛眼睛第一类人第一类人金色金色蓝色蓝色红色红色蓝色蓝色金色金色灰色灰
24、色第二类人第二类人金色金色黑色黑色黑色黑色蓝色蓝色黑色黑色灰色灰色知识基知识基(浓缩数据)浓缩数据)神经网络方法经过对训练样本的学习后神经网络方法经过对训练样本的学习后,所得到的知识是网络连接权值和结点的阈所得到的知识是网络连接权值和结点的阈值值一般表示为矩阵和向量一般表示为矩阵和向量 神经网络结构和权值神经网络结构和权值 在大量实验数据在大量实验数据(数值数值)中蕴涵着一定的规中蕴涵着一定的规律性律性,通过公式发现算法通过公式发现算法,可以找出各种变量可以找出各种变量间的相互关系间的相互关系,用用公式公式表示表示 可以得到开普勒可以得到开普勒第三定律第三定律:d d3 3/p/p2 2=25
25、=25 水里水里金星金星地球地球火星火星木星木星土星土星周期周期P/d882253656874343.510767.5距离距离d/Gm581081492287781430太阳系行星运动数据中包含行星运动周期太阳系行星运动数据中包含行星运动周期(旋转旋转一周所需时间一周所需时间,d),d),以及它与太阳的距离以及它与太阳的距离(围绕太围绕太阳旋转的椭圆轨道的长半轴阳旋转的椭圆轨道的长半轴,Gm),Gm)案例案例是指经历过的一次完整事件是指经历过的一次完整事件案例是解决新问题的一种知识案例是解决新问题的一种知识基于案例的推理基于案例的推理(CBRCBR,Case Based Reasoning,Case Based Reasoning)在案例库中搜索相似的案例,通过对旧案例在案例库中搜索相似的案例,通过对旧案例的修改来解决新问题。的修改来解决新问题。案例案例知识一般表示为三元组:知识一般表示为三元组:1.1.问题描述:对求解问题及周围环境特征的描述;问题描述:对求解问题及周围环境特征的描述;2.2.解描述:对问题求解方案的描述;解描述:对问题求解方案的描述;3.3.效果描述:描述解决方案的结果情况,是成功还效果描述:描述解决方案的结果情况,是成功还是失败是失败