《数据挖掘与知识发现.ppt》由会员分享,可在线阅读,更多相关《数据挖掘与知识发现.ppt(94页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六章第六章数据挖掘与知识发现数据挖掘与知识发现提纲n n知识发现与数据挖掘的基本概念n n数据挖掘方法和技术n n数据挖掘的知识表示知识发现与数据挖掘的基本概念n n知识发现的定义n n知识发现的研究问题n n知识发现的过程n n知识发现系统的结构知识发现的定义(KDD,Knowledge Discovery in DatabaseKDD,Knowledge Discovery in Database)n n知识发现是用一种简洁的方式从大量数据中抽取信息的一知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在种技术,所抽取的信息是隐含的、未知的
2、,并且具有潜在应用价值。应用价值。n n知识发现可看成是一种有价值信息的搜寻过程,它不必预知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规它还能通过全面的信息发现与分析,找到有价值的商业规则。则。n n知识发现意味着在数据仓库或数据集市的几千兆、几万兆知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。字
3、节数据中寻找预先未知的商业模式与事实。知识发现的研究问题n n定性知识和定量知识的发现n n知识发现方法n n知识发现的应用知识发现的过程n n数据准备数据准备n n数据挖掘数据挖掘n n结果的解释和评估结果的解释和评估知识发现的过程n n数据准备数据准备数据集成:对数据进行合并处理、数据检查和清洗工作数据集成:对数据进行合并处理、数据检查和清洗工作数据选择:缩小处理数据的范围,提高数据挖掘的质量数据选择:缩小处理数据的范围,提高数据挖掘的质量数据预处理:削减数据维数或降维,克服数据挖掘工具数据预处理:削减数据维数或降维,克服数据挖掘工具的局限性的局限性知识发现的过程n n数据挖掘数据挖掘探索
4、性数据分析:利用图形化方式对数据进行探索探索性数据分析:利用图形化方式对数据进行探索描述建模:描述数据的所有特征描述建模:描述数据的所有特征预测建模:建立一个根据已知变量预测其它变量的模型预测建模:建立一个根据已知变量预测其它变量的模型分类分类回归回归寻找模式和规则:进行模式探测寻找模式和规则:进行模式探测根据内容检索:根据用户感兴趣的模式建立相似的模式根据内容检索:根据用户感兴趣的模式建立相似的模式知识发现的过程n n结果的解释和评估结果的解释和评估结果的解释结果的解释结果不满足用户要求,换一种挖掘方法结果不满足用户要求,换一种挖掘方法结果非常抽象,换一种容易理解的方法结果非常抽象,换一种容
5、易理解的方法结果的评估结果的评估所采用的数据挖掘技术的有效性所采用的数据挖掘技术的有效性用于挖掘的数据质量和数量用于挖掘的数据质量和数量知识发现系统的结构n n知识发现系统管理器知识发现系统管理器n n知识库和商业分析员知识库和商业分析员n n数据仓库的数据库接口数据仓库的数据库接口n n数据选择数据选择n n知识发现引擎知识发现引擎n n知识发现评价知识发现评价n n知识发现描述知识发现描述商业分析员数据仓库知识库接口数据库数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n知识发现系统管理器:知识发现系统管理器:知识发现系统管理器:知识发现系统管理器:作用是作
6、用是控制并管理整个知控制并管理整个知识发现过程识发现过程 商业分析员数据仓库知识库接口数据库数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n知识库和商业分析员知识库和商业分析员知识库和商业分析员知识库和商业分析员知识库包含了源于各方面知识库包含了源于各方面的知识。商业分析员要按的知识。商业分析员要按一种有效的方式指导关注一种有效的方式指导关注信息的发现信息的发现。商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n数据仓库的数据库接口数据仓库的数据库接口数据仓库的数据库接口数据仓库的数据库接口知识
7、发现系统的数据库接口知识发现系统的数据库接口可以直接与数据仓库通信。可以直接与数据仓库通信。商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n数据选择数据选择数据选择数据选择确定从数据仓库中需要抽确定从数据仓库中需要抽取的数据及数据结构取的数据及数据结构商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n知识发现引擎知识发现引擎知识发现引擎知识发现引擎将知识库中的抽取算法提将知识库中的抽取算法提供给数据选择构件抽取的供给数据选择构件抽取的数据数据商业分析员数据仓库知
8、识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n知识发现评价知识发现评价知识发现评价知识发现评价有助于商业分析员筛选模式,有助于商业分析员筛选模式,选出那些关注性的信息选出那些关注性的信息商业分析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现系统的结构n n知识发现描述知识发现描述知识发现描述知识发现描述发现、评价并辅助商业分发现、评价并辅助商业分析员在知识库中保存关注析员在知识库中保存关注性发现结果以备将来引用性发现结果以备将来引用,并保持知识发现与管理人并保持知识发现与管理人员的通信员的通信商业分
9、析员数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器知识发现与数据挖掘的基本概念n n数据挖掘的进化历程数据挖掘的进化历程n n数据挖掘的任务数据挖掘的任务n n数据挖掘的分类数据挖掘的分类n n数据挖掘的对象数据挖掘的对象n n数据挖掘与专家系统的区别数据挖掘与专家系统的区别知识发现与数据挖掘的基本概念n n数据挖掘的进化历程数据挖掘的进化历程n n数据挖掘的任务数据挖掘的任务n n数据挖掘的分类数据挖掘的分类n n数据挖掘的对象数据挖掘的对象n n数据挖掘与专家系统的区别数据挖掘与专家系统的区别数据挖掘的进化历程进进化化阶阶段段商商业问题业问题支持技支持技
10、术术产产品厂家品厂家产产品特点品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrat
11、egy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息数据挖掘的进化历程n n数据挖掘的范围 n n数据库可以由此拓展深度和广度 数据挖掘的进化历程n n数据挖掘的范围 n n数据库可以由此拓展深度和广度 数据挖掘的范围n n“数据挖掘数据挖掘”这这个名字来源于它有点个名字来源于它有点类类似于在山脉中挖掘似于在山脉中挖掘有价有价值值的的矿矿藏藏n n在商在商业应业应用里,它就表用里,它就表现为现为在大型数据在大型数据库库里面搜索有价里面
12、搜索有价值值的商的商业业信息信息n n这这两种两种过过程都需要程都需要对对巨量的材料巨量的材料进进行行详细详细地地过滤过滤,并且需,并且需要智能且精确地定位潜在价要智能且精确地定位潜在价值值的所在。的所在。n n对对于于给给定了大小的数据定了大小的数据库库,数据挖掘技,数据挖掘技术术可以用它如下的可以用它如下的超能力超能力产产生巨大的商生巨大的商业业机会机会:自动趋势预测自动趋势预测 自动探测以前未发现的模式自动探测以前未发现的模式数据挖掘的范围n n“数据挖掘数据挖掘”这这个名字来源于它有点个名字来源于它有点类类似于在山脉中挖掘似于在山脉中挖掘有价有价值值的的矿矿藏藏n n在商在商业应业应用
13、里,它就表用里,它就表现为现为在大型数据在大型数据库库里面搜索有价里面搜索有价值值的商的商业业信息信息n n这这两种两种过过程都需要程都需要对对巨量的材料巨量的材料进进行行详细详细地地过滤过滤,并且需,并且需要智能且精确地定位潜在价要智能且精确地定位潜在价值值的所在。的所在。n n对对于于给给定了大小的数据定了大小的数据库库,数据挖掘技,数据挖掘技术术可以用它如下的可以用它如下的超能力超能力产产生巨大的商生巨大的商业业机会机会:自动趋势预测自动趋势预测 自动探测以前未发现的模式自动探测以前未发现的模式自动趋势预测n n数据挖掘能自数据挖掘能自动动在大型数据在大型数据库库里面找里面找寻寻潜在的潜
14、在的预预测测信息。信息。传统传统上需要很多上需要很多专专家来家来进进行分析的行分析的问题问题,现现在可以快速而直接地从数据中在可以快速而直接地从数据中间间找到答案。找到答案。n n一个典型的利用数据挖掘一个典型的利用数据挖掘进进行行预测预测的例子就是目的例子就是目标营销标营销。数据挖掘工具可以根据。数据挖掘工具可以根据过过去去邮邮件推件推销销中中的大量数据找出其中最有可能的大量数据找出其中最有可能对对将来的将来的邮邮件推件推销销作出反作出反应应的客的客户户。数据挖掘的范围n n“数据挖掘数据挖掘”这这个名字来源于它有点个名字来源于它有点类类似于在山脉中挖掘似于在山脉中挖掘有价有价值值的的矿矿藏
15、藏n n在商在商业应业应用里,它就表用里,它就表现为现为在大型数据在大型数据库库里面搜索有价里面搜索有价值值的商的商业业信息信息n n这这两种两种过过程都需要程都需要对对巨量的材料巨量的材料进进行行详细详细地地过滤过滤,并且需,并且需要智能且精确地定位潜在价要智能且精确地定位潜在价值值的所在。的所在。n n对对于于给给定了大小的数据定了大小的数据库库,数据挖掘技,数据挖掘技术术可以用它如下的可以用它如下的超能力超能力产产生巨大的商生巨大的商业业机会机会:自动趋势预测自动趋势预测 自动探测以前未发现的模式自动探测以前未发现的模式自动探测以前未发现的模式n n数据挖掘工具数据挖掘工具扫扫描整个数据
16、描整个数据库库并辨并辨认认出那些出那些隐隐藏着的藏着的模式,比如通模式,比如通过过分析零售数据来辨分析零售数据来辨别别出表面上看起来出表面上看起来没没联联系的系的产产品,品,实际实际上有很多情况下是一起被售出的上有很多情况下是一起被售出的情况。情况。n n数据挖掘技数据挖掘技术术可以可以让现让现有的有的软软件和硬件更加自件和硬件更加自动动化,化,并且可以在升并且可以在升级级的或者新开的或者新开发发的平台上的平台上执执行。行。n n当数据挖掘工具运行于高性能的并行当数据挖掘工具运行于高性能的并行处处理系理系统统上的上的时时候,它能在数分候,它能在数分钟钟内分析一个超大型的数据内分析一个超大型的数
17、据库库。这这种种更快的更快的处处理速度意味着用理速度意味着用户户有更多的机会来分析数据,有更多的机会来分析数据,让让分析的分析的结结果更加准确可靠,并且易于理解。果更加准确可靠,并且易于理解。数据挖掘的进化历程n n数据挖掘的范围 n n数据库可以由此拓展深度和广度 数据库可以由此拓展深度和广度n n深度上,允深度上,允深度上,允深度上,允许许许许有更多的列存在。有更多的列存在。有更多的列存在。有更多的列存在。以往,在以往,在进进行行较较复复杂杂的数据分析的数据分析时时,专专家家们们限于限于时间时间因素,不因素,不得不得不对对参加运算的参加运算的变变量数量加以限制,但是那些被量数量加以限制,但
18、是那些被丢丢弃而没有弃而没有参加运算的参加运算的变变量有可能包含着另一些不量有可能包含着另一些不为为人知的有用信息。人知的有用信息。现现在,高性能的数据挖掘工具在,高性能的数据挖掘工具让让用用户对户对数据数据库库能能进进行通行通盘盘的深的深度遍度遍历历,并且任何可能参,并且任何可能参选选的的变变量都被考量都被考虑进虑进去,再不需要去,再不需要选选择变择变量的子集来量的子集来进进行运算了。行运算了。n n广度上,允广度上,允广度上,允广度上,允许许许许有更多的行存在。有更多的行存在。有更多的行存在。有更多的行存在。更大的更大的样样本本让产让产生生错误错误和和变变化的概率降低,化的概率降低,这样这
19、样用用户户就能更加就能更加精确地推精确地推导导出一些出一些虽虽小但小但颇为颇为重要的重要的结论结论。知识发现与数据挖掘的基本概念n n数据挖掘的进化历程数据挖掘的进化历程n n数据挖掘的任务数据挖掘的任务n n数据挖掘的分类数据挖掘的分类n n数据挖掘的对象数据挖掘的对象n n数据挖掘与专家系统的区别数据挖掘与专家系统的区别数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n n预测数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n n预测关联分析n n在数据记录的数据项之间发掘关联关系,某些数据项的出现预示着该记录中其它一些数据项出现的可
20、能。n n面包和牛奶的故事关联分析n n关联规则的形式:n n支持度Support:表示该规则所代表的事例占全部事例的百分比表示该规则所代表的事例占全部事例的百分比n n置信度Confidence:表示该规则所代表事例占满足前提条件事例的百表示该规则所代表事例占满足前提条件事例的百分比分比数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n n预测时序模式n n给定一段时间内的数据记录,发掘记录间的相关性,当前记录中某些数据项的出现预示着其它数据项在随后记录中出现的可能性。n n纵向的关联数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n
21、n预测聚类将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类n n聚类原则:同一类别的对象间距离尽可能小;同一类别的对象间距离尽可能小;不同类别的对象间距离尽可能大。不同类别的对象间距离尽可能大。n n考虑对象间的相似性问题数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n n预测分类n n给定属于不同类型的数据记录,根据记录中数据项的特征为每种类型生成分类模型。n n分类模型用于预测新的数据记录所属类型。n n汽车销售的例子n n必须事先给出分类的标号分类决策树分类:规则分类:IF()Then()Else()数据挖掘的任务n n关联分析n n时序模
22、式n n聚类n n分类n n偏差检测n n预测偏差检测n n在数据分析中发现有很多异常情况存在于数据库在数据分析中发现有很多异常情况存在于数据库中,我们可以根据这种异常情况获得很多有用的中,我们可以根据这种异常情况获得很多有用的信息信息n n用于统计试验检测用于统计试验检测n n信用卡欺骗的例子信用卡欺骗的例子数据挖掘的任务n n关联分析n n时序模式n n聚类n n分类n n偏差检测n n预测预测n n利用历史数据或数据分布依据一定的模型计算出利用历史数据或数据分布依据一定的模型计算出数值数据或识别出未来分布趋势等。数值数据或识别出未来分布趋势等。n n用于分类的预测和用于回归的预测用于分类
23、的预测和用于回归的预测数据挖掘的算法n n关联分析Apriori,AprioriTidApriori,AprioriTidn n序列分析AprioriAll,AprioriSome,DynamicSomeAprioriAll,AprioriSome,DynamicSomen n数据分类RIPPER,ID3,C4.5,NaiveBayes,RIPPER,ID3,C4.5,NaiveBayes,知识发现与数据挖掘的基本概念n n数据挖掘的进化历程数据挖掘的进化历程n n数据挖掘的任务数据挖掘的任务n n数据挖掘的分类数据挖掘的分类n n数据挖掘的对象数据挖掘的对象n n数据挖掘与专家系统的区别数据
24、挖掘与专家系统的区别数据挖掘的分类数据挖掘数据库技术信息科学可视化统计学机器学习其他学科数据挖掘的分类n n根据挖掘的数据库类型分类n n根据挖掘的知识类型分类n n根据应用分类n n根据所用的方法和技术分类数据挖掘的分类n n根据挖掘的数据库类型分类n n根据挖掘的知识类型分类n n根据应用分类n n根据所用的方法和技术分类根据挖掘的数据库类型分类n n与数据库匹配的数据挖掘技术分类关系数据挖掘关系数据挖掘非关系型数据挖掘非关系型数据挖掘n n处理的数据的特定类型分类空间的数据挖掘空间的数据挖掘时间序列的数据挖掘时间序列的数据挖掘文本的数据挖掘文本的数据挖掘多媒体的数据挖掘多媒体的数据挖掘数
25、据挖掘的分类n n根据挖掘的数据库类型分类n n根据挖掘的知识类型分类n n根据应用分类n n根据所用的方法和技术分类根据挖掘的知识类型分类n n关联n n时序n n聚类n n分类n n偏差检测n n预测分析数据挖掘的分类n n根据挖掘的数据库类型分类n n根据挖掘的知识类型分类n n根据应用分类n n根据所用的方法和技术分类根据应用分类n n金融行业的数据挖掘n n电信行业的数据挖掘n n保险行业的数据挖掘n n医药行业的数据挖掘n n税务部门的数据挖掘数据挖掘的分类n n根据挖掘的数据库类型分类n n根据挖掘的知识类型分类n n根据应用分类n n根据所用的方法和技术分类根据所用的方法和技术
26、分类n n归纳学习法归纳学习法n n仿生物技术法仿生物技术法n n公式发现法公式发现法n n统计分析法统计分析法n n模糊数学法模糊数学法n n可视技术法可视技术法根据所用的方法和技术分类n n归纳学习法归纳学习法n n仿生物技术法仿生物技术法n n公式发现法公式发现法n n统计分析法统计分析法n n模糊数学法模糊数学法n n可视技术法可视技术法归纳学习法n n归纳学习是符号学习中研究得最为广泛得一种方法。给定关归纳学习是符号学习中研究得最为广泛得一种方法。给定关于某个概念的一系列已知的正例和反例,其任务是从中归纳于某个概念的一系列已知的正例和反例,其任务是从中归纳出一个通用的概念描述出一个通
27、用的概念描述n n归纳学习能够获得新的概念,创立新的规则,发现新的理论归纳学习能够获得新的概念,创立新的规则,发现新的理论n n它的一般操作是泛化它的一般操作是泛化(generalization)(generalization)和特化和特化(specialization)(specialization)n n泛化用来扩展一假设的语义信息,以使其能够包含更多的正泛化用来扩展一假设的语义信息,以使其能够包含更多的正例,应用于更多的情况例,应用于更多的情况n n特化是泛化的相反的操作,用于限制概念描述的应用范围特化是泛化的相反的操作,用于限制概念描述的应用范围根据所用的方法和技术分类n n归纳学习法
28、归纳学习法n n仿生物技术法仿生物技术法n n公式发现法公式发现法n n统计分析法统计分析法n n模糊数学法模糊数学法n n可视技术法可视技术法仿生物技术法n n神经网络方法类n n遗传算法类神经网络方法类n n所谓人工神经网络所谓人工神经网络(Artificial Neural network)(Artificial Neural network)是指利用是指利用工程技术手段工程技术手段模拟模拟人脑神经网络人脑神经网络的结构和的结构和功能的一种技术系统。它是一种大规模并行的非线功能的一种技术系统。它是一种大规模并行的非线性动力学系统,简称为神经网络性动力学系统,简称为神经网络n n人脑是由大
29、量的神经元通过及其丰富和完善的联接人脑是由大量的神经元通过及其丰富和完善的联接而形成的一个灵活多变的、错综复杂的神经网络而形成的一个灵活多变的、错综复杂的神经网络神经网络方法类-理论基础理论基础神经元结构图树突树突轴突轴突突触突触神经网络方法类 人工神经元结构模型图人工神经元结构模型图 w w1 1 w w2 2 w wn n ui Yix1 x2 xnf 神经网络方法类o o人工神经元:又称为处理单元、节点或短期记忆人工神经元:又称为处理单元、节点或短期记忆 o ox xi i :神经元的输入神经元的输入o ow wi i:突触连接强度即权值突触连接强度即权值o ou ui i :神经元的内
30、部状态神经元的内部状态o o:阈值阈值 o oY Yi i:神经元的输出,神经元的输出,规定神经元在一定输入的作用下,规定神经元在一定输入的作用下,超过某一阈值,神经元才兴奋超过某一阈值,神经元才兴奋,才能引起输出是一简单才能引起输出是一简单非线性激活又称为神经元的功能函数非线性激活又称为神经元的功能函数仿生物技术法n n神经网络方法类n n遗传算法类遗传算法类遗传算法是模拟生物进化过程的算法:分别由繁殖(选择)、交叉(重组)、变异三个基本算子根据所用的方法和技术分类n n归纳学习法归纳学习法n n仿生物技术法仿生物技术法n n公式发现法公式发现法n n统计分析法统计分析法n n模糊数学法模糊
31、数学法n n可视技术法可视技术法公式发现法o o该该类类对对若若干干变变量量进进行行一一定定的的数数学学运运算算,求求得得相相应应的的数数学学公公式式。由由物物理理定定律律发发现现系系统统BACONBACON和和经经验验公公式式发发现现系系统统FDDFDD构构成。成。o o物物理理定定律律发发现现系系统统BACONBACON是是对对数数据据项项进进行行初初等等数数学学运运算算形形成成组组合合数数据据项项,若若它它的的值值为为常常数数项项,我我们们就就得得到到了了组组合合数数据据项项等等于于常常数数的的公公式式,该该系系统统有有BACON.1BACON.1BACON.5BACON.5五五个个版版
32、本。本。o o经经验验公公式式发发现现系系统统FDDFDD是是对对两两个个数数据据项项交交替替取取初初等等函函数数后后与与另另一一数数据据项项的的线线性性组组合合若若为为直直线线时时,就就找找到到了了数数据据项项的的初等函数的线性组合公式初等函数的线性组合公式根据所用的方法和技术分类n n归纳学习法归纳学习法n n仿生物技术法仿生物技术法n n公式发现法公式发现法n n统计分析法统计分析法n n模糊数学法模糊数学法n n可视技术法可视技术法统计分析法n n求目标数据的最大值、最小值、总和和平均值等求目标数据的最大值、最小值、总和和平均值等的常用统计:的常用统计:求相关系数来度量变量间的相关程度
33、的相关分析;求相关系数来度量变量间的相关程度的相关分析;求回归方程(线性或非线性)来表示变量间的数量关系求回归方程(线性或非线性)来表示变量间的数量关系的回归分析;的回归分析;从样本统计量的值得出差异,来确定总体参数之间是否从样本统计量的值得出差异,来确定总体参数之间是否存在差异(假设检验)的差异分析;存在差异(假设检验)的差异分析;直接比较样本中各样本之间的距离,将距离较近的归为直接比较样本中各样本之间的距离,将距离较近的归为一类。而将距离较远的分在不同类中的聚类分析;一类。而将距离较远的分在不同类中的聚类分析;建立一个或多个判别函数,并确定一个判别标准。建立一个或多个判别函数,并确定一个判
34、别标准。根据所用的方法和技术分类n n归纳学习法归纳学习法n n仿生物技术法仿生物技术法n n公式发现法公式发现法n n统计分析法统计分析法n n模糊数学法模糊数学法n n可视技术法可视技术法模糊数学法n n模糊聚类n n模糊分类n n模糊关联规则根据所用的方法和技术分类n n归纳学习法归纳学习法n n仿生物技术法仿生物技术法n n公式发现法公式发现法n n统计分析法统计分析法n n模糊数学法模糊数学法n n可视技术法可视技术法可视技术法n n可视化技术是对数据挖掘过程及结果的图形显示技术。n n可视化技术在数据挖掘中的广泛应用已形成了可视化数据挖掘类的多种方法。应用:提取几何图形提取几何图形
35、绘制绘制显示和演放显示和演放 数据挖掘的对象n n关系数据库n n文本n n图像与视频数据n nWEB数据数据挖掘方法和技术n n归纳学习方法n n仿生物技术n n公式发现n n统计分析方法n n模糊数学方法n n可视化技术数据挖掘与专家系统的区别相同点:都是利用已有信息来解决问题相同点:都是利用已有信息来解决问题区别:数据挖掘是从海量已有数据中发现隐藏的、区别:数据挖掘是从海量已有数据中发现隐藏的、潜在的知识来进行决策支持;专家系统是利用专潜在的知识来进行决策支持;专家系统是利用专家知识或启发性知识,按一定的推理规则来帮助家知识或启发性知识,按一定的推理规则来帮助人们解决问题。数据挖掘强调事
36、实第一、惟数据;人们解决问题。数据挖掘强调事实第一、惟数据;专家系统强调经验第一、惟专家专家系统强调经验第一、惟专家数据挖掘的知识表示n n规则n n决策树n n知识基(浓缩数据)n n网络权值n n公式规则n n规则知识由规则知识由前提条件前提条件和和结论结论两部分组成两部分组成 前提条件前提条件前提条件前提条件 由字段项由字段项由字段项由字段项(属性属性属性属性)的取值的的取值的的取值的的取值的 合取合取合取合取(与与与与,)和析取和析取和析取和析取(或或或或,)组合而成组合而成组合而成组合而成结论结论结论结论为决策字段项为决策字段项为决策字段项为决策字段项(属性属性属性属性)的取值或者类
37、别组成的取值或者类别组成的取值或者类别组成的取值或者类别组成 类型类型身高身高头发头发HR附附第第一一类类人人矮矮金色金色蓝色蓝色高高红色红色蓝色蓝色高高金色金色蓝色蓝色矮矮金色金色灰色灰色第第二二类类人人高高金色金色黑色黑色矮矮黑色黑色蓝色蓝色高高黑色黑色蓝色蓝色高高黑色黑色灰色灰色矮矮金色金色黑色黑色规则的例子规则的例子IF(发色发色=金色金色红色红色)(眼睛眼睛=蓝色蓝色灰色灰色)THEN 第一类人第一类人 IF(发色发色=黑色黑色)()(眼睛眼睛=黑色黑色)THEN 第二类人第二类人 规则知识规则知识 决策树n nID3决策树决策树的建立方法:的建立方法:首先由信息量最大的字段首先由信
38、息量最大的字段首先由信息量最大的字段首先由信息量最大的字段(属性属性属性属性)作为根结点作为根结点作为根结点作为根结点接着根的各个取值为分枝接着根的各个取值为分枝接着根的各个取值为分枝接着根的各个取值为分枝,对各个分枝所划分的对各个分枝所划分的对各个分枝所划分的对各个分枝所划分的数据元组数据元组数据元组数据元组(记录记录记录记录)子集子集子集子集,重复建树过程重复建树过程重复建树过程重复建树过程,扩展决策树扩展决策树扩展决策树扩展决策树最后得到相同类别的子集最后得到相同类别的子集最后得到相同类别的子集最后得到相同类别的子集,以该类别作为叶结点以该类别作为叶结点以该类别作为叶结点以该类别作为叶结
39、点 决策树的例子1商店个数商店个数位置位置规模规模档次档次经营效果经营效果1010市中心市中心大大高高一般一般1515市中心市中心大大一般一般成功成功8 8市中心市中心一般一般高高成功成功6 6城乡结合部城乡结合部大大一般一般一般一般6 6城乡结合部城乡结合部一般一般一般一般成功成功1010市中心市中心一般一般一般一般一般一般商店定位决策树商店定位决策树 天气天气温度温度湿度湿度风况风况运动运动晴晴85858585无无不适合不适合晴晴80809090有有不适合不适合多云多云83837878无无适合适合有雨有雨70709696无无适合适合有雨有雨68688080无无适合适合有雨有雨6565707
40、0有有不适合不适合多云多云64646565有有适合适合晴晴72729595无无不适合不适合晴晴69697070无无适合适合有雨有雨75758080无无适合适合晴晴75757070有有适合适合多云多云72729090有有适合适合多云多云81817575无无适合适合有雨有雨71718080有有不适合不适合决策树的例子决策树的例子2天气?overcast湿度?风况?70无有天晴有雨适合不适合不适合适合适合多云知识基n n通过数据挖掘的方法能大大压缩数据库的通过数据挖掘的方法能大大压缩数据库的元组和字段项元组和字段项,最后得到浓缩数据最后得到浓缩数据,称为称为知知识基识基 n n它是原数据库的精华它是
41、原数据库的精华,很容易转换成规则知很容易转换成规则知识识 知识基的例子类型类型身高身高头发头发HR附附第第一一类类人人矮矮金色金色蓝色蓝色高高红色红色蓝色蓝色高高金色金色蓝色蓝色矮矮金色金色灰色灰色第第二二类类人人高高金色金色黑色黑色矮矮黑色黑色蓝色蓝色高高黑色黑色蓝色蓝色高高黑色黑色灰色灰色矮矮金色金色黑色黑色类型类型头发头发眼睛眼睛第一类人第一类人金色金色蓝色蓝色红色红色蓝色蓝色金色金色灰色灰色第二类人第二类人金色金色黑色黑色黑色黑色蓝色蓝色黑色黑色灰色灰色知识基知识基(浓缩数据)浓缩数据)网络权值n n神经网络方法经过对训练样本的学习后神经网络方法经过对训练样本的学习后,所所得到的知识是
42、网络连接权值和结点的阈值得到的知识是网络连接权值和结点的阈值n n一般表示为矩阵和向量一般表示为矩阵和向量 网络权值的例子神经网络结构和权值神经网络结构和权值公式n n在大量实验数据在大量实验数据(数值数值)中蕴涵着一定的规中蕴涵着一定的规律性律性,通过公式发现算法通过公式发现算法,可以找出各种变量可以找出各种变量间的相互关系间的相互关系,用用公式公式表示表示 公式的例子可以得到开普勒可以得到开普勒可以得到开普勒可以得到开普勒第三定律第三定律第三定律第三定律:d d d d3 3 3 3/p/p/p/p2 2 2 2=25=25=25=25 水里水里金星金星地球地球火星火星木星木星土星土星周期
43、周期P/d882253656874343.510767.5距离距离d/Gm581081492287781430太阳系行星运动数据中包含行星运动周期太阳系行星运动数据中包含行星运动周期(旋转旋转一周所需时间一周所需时间,d),d),以及它与太阳的距离以及它与太阳的距离(围绕太围绕太阳旋转的椭圆轨道的长半轴阳旋转的椭圆轨道的长半轴,Gm),Gm)案例n n案例案例是指经历过的一次完整事件是指经历过的一次完整事件n n案例是解决新问题的一种知识案例是解决新问题的一种知识n n基于案例的推理基于案例的推理(CBR,Case Based Reasoning)在案例库中搜索相似的案例,通过对旧案例在案例库
44、中搜索相似的案例,通过对旧案例的修改来解决新问题。的修改来解决新问题。案例n n案例案例知识一般表示为三元组:知识一般表示为三元组:1.1.1.1.问题描述:对求解问题及周围环境特征的描述;问题描述:对求解问题及周围环境特征的描述;问题描述:对求解问题及周围环境特征的描述;问题描述:对求解问题及周围环境特征的描述;2.2.2.2.解描述:对问题求解方案的描述;解描述:对问题求解方案的描述;解描述:对问题求解方案的描述;解描述:对问题求解方案的描述;3.3.3.3.效果描述:描述解决方案的结果情况,是成功还效果描述:描述解决方案的结果情况,是成功还效果描述:描述解决方案的结果情况,是成功还效果描述:描述解决方案的结果情况,是成功还是失败是失败是失败是失败