《第二章 知识发现.ppt》由会员分享,可在线阅读,更多相关《第二章 知识发现.ppt(90页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章第二章 知识发现知识发现内 容|知识|知识发现|知识发现的任务|知识发现的方法|知识发现的对象 2知 识 一知知识识概概念念|回顾上一章的内容 数据:是原材料,它只描述发生了什么事情,并不能构成决策或行动的可靠基础。信息:通过对数据进行分析找出其中关系,赋予数据以某种意义和联系,这就形成了所谓的信息。信息虽然给出了数据中一些有一定意义的东西,但是它往往和人们所要完成的任务没有直接的联系,也还不能作为判断、决策和行动的依据。知识:对信息进行再加工,即进行更深入的归纳分析,才能获得更有用的信息,即知识。3客观世界收集数据分析信息深入分析知识决策与行动数据与知识的关系描述图知 识 一知知识识概
2、概念念4知 识 一知知识识概概念念|知识的分类:z陈述性知识:提供概念和事实,描述系统状态、环境和条件,使人们知道是什么。z过程性知识:提供有关状态的变化、问题求解过程的操作、演算和动作的知识。z控制性知识:用控制策略表示问题的知识。用于协调整个问题的求解过程5知 识 二 知知识识特特性性|知识具有以下特性:z客观性z相对性z进化性z依附性z可重用性z共享性6内 容|知识|知识发现|知识发现的任务|知识发现的方法|知识发现的对象 7知识发现 一知知识识发发现现概概念念|知识发现概念:从数据集中抽取和精化新的模式 z 数据形态:数字、符号、图形、图象、声音等z数据组织方式:结构、半结构、非结构z
3、结果表示形式:规则、法则、科学规律、方程或概念网等8知识发现 二K KD DD D概概念念|数据库知识发现(Knowledge Discovery in Database,KDD):从数据集数据集中识别出有有效的效的、新颖的新颖的、潜在有用的潜在有用的,以及最最终可理解终可理解的模式模式的非平凡过程非平凡过程。9知识发现 二K KD DD D概概念念z数据集:一组事实F(如关系数据库中的记录)z模式:一个用语言L来表示的一个表达式E,它可用来描述数据集F的某个子集FE,但E必须比FE的枚举要简单(所用的描述信息量要少)z非平凡过程:在KDD中过程指多阶段的处理,涉及数据准备、模式搜索、知识评价
4、以及反复的修改求精;非平凡是指过程要具有一定程度的智能性、自动性10知识发现 二K KD DD D概概念念|有效性、新颖性、潜在有用性和最终可理解性综合在一起称为兴趣性z有效性:发现的模式对于新的数据仍具有一定的可信度z新颖性:要求发现的模式是新的z潜在有用性:指发现的知识将来有实际的效用z最终可理解性:要求发现的模式能被用户理解,目前主要体现在简洁性上11知识发现 二知知识识发发现现过过程程数据集变换后数据预处理数据 目标数据选取抽样变换预处理知识数据挖掘解释评价抽取的信息可视化可视化知识发现过程示意图知识发现过程示意图12知识发现 三知知识识发发现现过过程程|知识发现可粗略的理解为三步曲:
5、z数据准备(data preparation)z数据开采(data mining)z结果的解释评估(interpretation and evaluation)13知识发现 三数数据据准准备备|数据准备又可分为三个子步骤:1.数据选取(data selection),其目的是确定发现任务的操作对象(目标数据,target data)。v目标数据是根据用户的需要从原始数据库中抽取的一组数据2.数据预处理(data preprocessing),一般包括噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等14知识发现 三数数据据准准备备3.数据变换(data transformation),其
6、主要目的是消减数据维数或降维(dimension reduction),即从初始特征找出真正有用的特征以减少数据开采时要考虑的特征或变量个数 15知识发现 三数数据据开开采采|数据开采阶段首先要确定开采的任务或目的是什么(如数据总结、分类、聚类、关联规则发现或序列模式发现等)。确定了开采任务后,就要决定用什么样的开采算法。z选择算法主要考虑两个因素:一是尽量选取与数据特征相关的算法二是用户或实际运行系统的要求。(具体的数据挖掘方法将在后面的章节中详细论述)16知识发现 三结结果果解解释释和和评评价价|结果解释和评价:数据挖掘阶段发现出来的模式,经过用户或机器的评价z可能存在冗余或无关的模式,这
7、时需要将其剔除;z也有可能模式不满足用户的要求,这时则需要整个发现过程退回到发现阶段之前,如重新选择数据,采用新的数据变换方法、设定新的数据挖掘参数值,甚至换一种挖掘算法。17知识发现 三结结果果解解释释和和评评价价|另外,KDD由于最终是面向用户的,因此可能要对发现的模式进行可视化,或者把结果转化为用户易懂的另一种表示。18知识发现 三知知识识发发现现过过程程中中的的注注意意事事项项|数据挖掘仅仅是知识发现整个过程中的一个步骤。z数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性;二是用于采掘的数据的质量和数量|整个采掘过程是一个不断反馈的过程19知识发现 三知知识识发发现现
8、过过程程中中的的注注意意事事项项|可视化在数据挖掘的各个阶段都扮演着重要的角色。z在数据准备阶段,用户可能要使用散点图、直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的理解,从而为更好的选取数据打下基础;z在开采阶段用户则要使用与领域问题有关的可视化工具;z而在表示结果阶段,可视化技术更是不可缺少的20内 容|知识|知识发现|知识发现的任务|知识发现的方法|知识发现的对象 21知识发现的任务|知识发现的任务:z数据总结z概念描述z分类与预测z聚类分析z关联分析z异常分析z建模22知识发现的任务一数数据据总总结结一一|数据总结的目的:对数据进行浓缩,给出它的紧凑描述|数据总结的方法:
9、传统的也是最简单的方法是对数据库的各个字段求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示23知识发现的任务一数数据据总总结结二二|数据泛化:(数据挖掘主要关心从数据泛化的角度来讨论数据总结)一种把数据库中的有关数据从低层次抽象到高层次上的过程。z为什么要泛化:为了不遗漏任何可能有用的数据信息,数据库内的数据或对象所包含的信息总是最原始、最基本的信息。而人们有时又希望从高层次的视图上处理或浏览数据,因此需要对数据进行不同层次上的泛化以适应各种查询要求24知识发现的任务一数数据据总总结结三三|数据泛化目前主要有两种技术:z多维数据分析方法:是一种数据仓库技术,也称作联机分析处理
10、(On-Line Analytical Processing,OLAP)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。z面向属性的归纳方法:多维数据分析方法针对的是数据仓库,而数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了面向属性的归纳方法。25知识发现的任务一数数据据总总结结四四多维数据分析方法思路:在数据分析中常用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是把汇集操作的结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。l多维数据分析方法已在决策支
11、持系统中获得了成功的应用,如SAS数据分析软件包,IBM的决策分析工具都是用了多维数据分析技术。26知识发现的任务一数数据据总总结结五五|面向属性的归纳方法的思路:直接对感兴趣的数据视图(用SQL查询语言即可获得)进行泛化,而不是象多维数据分析那样预先存储泛化数据。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。z有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则以及关联规则等。27知识发现的任务二概概念念描描述述一一|概念描述:定性与对比 一个对含有大量数据的数据集合进行概述性(su
12、mmarized)的总结并获得简明(concise)、准确(precise)的描述,这种描述就称为概念描述(concept description)。获得概念描述的方法主要有以下两种:z利用更为广义的属性,对所分析数据进行概要总结(data characterization);其中被分析的数据就称为目标数据集(target class)z对两类所分析的数据特点进行对比并对对比结果给出概要性总结(data discrimination);而其中两类被分析的数据集分别被称为目标数据集和对比数据集(contrasting class)28知识发现的任务二概概念念描描述述二二|数据概要总结(data
13、characterization)就是利用数据描述属性中更广义的(属性)内容对其进行归纳描述。其中被分析的数据,常常可以通过简单的数据库查询来获得。如:对我校的讲师情况进行概要总结(给出概念描述)。数据概要总结通常都用更广义的关系表(generalized relations)或特征描述规则(characteristic rules)来加以输出表示。例子:一个数据挖掘系统需要从我校职工数据库中,挖掘出我校讲师情况的概要总结,并给出(我校)讲师概念描述。数据挖掘首先利用SQL查询语句从我校职工数据库中,选择其中讲师信息数据;之后利用数据概要总结挖掘算法,获得我校讲师情况的一个概要描述总结并用概念
14、描述规则描述出来。其中一条概念描述规则可以是:“62%(age24)”,表示我校讲师中约有三分之二的人年龄在24岁至30岁之间。显然这是我校数百位青年讲师情况的一个概念描述。29知识发现的任务二概概念念描描述述三三|数据对比概要总结(data discrimination),就是利用描述两类数据集中特征的更广义内容以及对比数据集的实际情况,对目标数据集进行概要总结并给出其概念描述。目标数据集和对比数据集通常均由用户所提供数据库查询命令而获得。例如:对销量增长10%的软件与同期销量停滞的软件进行对比,给出概要总结与概念描述。在数据集对比概要总结中所使用的挖掘方法与单一数据集概要总结所使用的方法基
15、本相同;其结果输出形式也很类似,只是对比概要总结加入了对比描述因子以帮助区分目标数据集与对比数据集的对比情况。对比数据概要总结的输出结果也常常采用表格形式或对比规则形式(discriminate rule)来加以描述。30知识发现的任务二概概念念描描述述四四 例子:一个数据挖掘系统需要从我校职工数据库中,针对我校副教授情况(对比数据集),对我校讲师情况(目标数据集)进行对比概要总结,并给出我校讲师对比概念描述。数据挖掘首先利用SQL查询语句从我校职工数据库中,选择其中副教授和讲师信息数据;之后利用对比数据概要总结挖掘算法,获取我校(对比副教授)讲师情况的一个对比概要描述总结并对比概念描述规则加
16、以表示出来。其中一条对比概念描述规则可以是:“讲师:78%(papers3)and(teaching course=3)and(teaching course=2)”;该对比规则表示我校讲师中约有四分之三的人发表论文少于三篇且主讲课程不超过一门;而对比之下我校副教授中约有三分之二的人发表论文不少于三篇且主讲课程不少于一门。31知识发现的任务三分分类类与与预预测测一一|分类(classification):就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到某种离散类别之一。分类模型(或函数)可以通过分类挖掘算法从一组训练样
17、本数据(其类别归属已知)中学习获得。分类挖掘所获的分类模型可以采用多种形式加以描述输出。其中主要的表示方法有:分类规则(IF-THEN)、决策树(decision trees)、数学公式(mathematical formulae)和神经网络。决策树是一个具有层次结构的树状结构决策树可以很容易地转换为分类规则。32知识发现的任务三分分类类与与预预测测二二例子:下表是一个关于劳工合同谈判的数据集合(来自加拿大1987-1988劳工谈判数据)33 劳工合同谈判结果识别知识决策树知识发现的任务三分分类类与与预预测测三三34知识发现的任务三分分类类与与预预测测四四 分类通常用于预测未知数据实例的归属类
18、别(有限离散值),如一个银行客户的信用等级是属于A级、B级还是C级。但在一些情况下,需要预测某数值属性的值(连续数值),这样的分类就被称为预测(predication)。尽管预测既包括连续数值的预测,也包括有限离散值的分类;但一般还是使用预测(predication)来表示对连续数值的预测;而使用分类来表示对有限离散值的预测。35知识发现的任务四聚聚类类分分析析一一 分类与预测方法所使用的数据是已知类别归属(class-labeled data),属于有教师监督学习方法;而聚类分析(无论是在学习还是在归类预测时)所分析处理的数据均是无(事先确定)类别归属,类别归属标志在聚类分析处理的数据集中是
19、不存在的,因此聚类分析属于无教师监督学习方法。聚类分析(clustering analysis)中,首先需要根据“各聚集(clusters)内部数据对象间的相似度最大化;而各聚集(clusters)对象间相似度最小化”的基本聚类分析原则,以及度量数据对象之间相似度的计算公式,将聚类分析的数据对象划分为若干组(groups)。因此一个组中数据对象间的相似度要比不同组数据对象间的相似度要大。每一个聚类分析所获得的组就可以视为是一个同类别归属的数据对象集合,更进一步从这些同类别数据集,又可以通过分类学习36知识发现的任务四聚聚类类分分析析二二获得相应的分类预测模型(规则)。此外通过反复不断地对所获得
20、的聚类组进行聚类分析,还可获得初始数据集合的一个层次结构模型。例子:对在一个商场购买力较大的顾客居住地进行聚类分析,以帮助商场主管针对相应顾客群采取有针对性的营销策略。下图所示为进行这种聚类分析的一个示意描述。聚类分析示意图37知识发现的任务五关关联联分分析析一一 关联分析(association analysis):从给定的数据集发现频繁出现的项集模式知识(又称为关联规则,association rules).关联分析广泛应用于市场营销,事务分析等应用领域 上述关联规则表示:该商场有2%的顾客年龄在20岁到29岁且收入在2万到3万之间,这群顾客中有60%的人购买了MP3,或者说这群顾客购买M
21、P3的概率为六成 38知识发现的任务五关关联联分分析析二二 对于一个商场经理,或许更想知道哪些商品是常在一起购买,描述这样的情况的一条关联规则说明如下:上述关联规则表示:该商场1%销售交易事务记录中包含“computer”和“software”两个商品;而对于一条包含(购买)“computer”商品的交易事务记录(transaction)有60%可能也包含(购买)“software”商品 39知识发现的任务六异异类类分分析析一一 异类(outlier):那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为异类。之前许多数据挖掘方法都在正式进行数据挖掘之前就将这些异类作为噪声或意外而将
22、其排除在数据挖掘的分析处理范围之内。但在一些应用场合,如各种商业欺诈行为的自动检测,小概率发生的事件(数据)往往比经常发生的事件(数据)更有挖掘价值。对异类数据的分析处理通常就称为异类挖掘。数据中的异类可以利用数理统计方法分析获得,即利用已知数据所获得的概率统计分布模型,或利用相似度计算所获得的相似数据对象分布,分析确认异类数据。而偏离检测就是从数据已有或期望值中找出某些关键测度显著的变化。40知识发现的任务六异异类类分分析析二二|示例:异类分析可以用于从大量商品购买记录中,依据各帐户平常所发生的购买行为,发现正在进行信用卡诈骗的购买行为(异类行为)。例如:可以根据购买的发生地点、购买商品类型
23、和购买频率等发现属于信用卡诈骗的购买行为(异类数据)。对于一个商场而言,与去年同期相比,今年的商品销售累计的下降,就是一种异常情况;若下降幅度较大时,就可以利用数据挖掘工具来帮助分析解释这一异常情况,如:与去年同期相比,今年公司雇用的人员较少。41知识发现的任务七演演化化分分析析 数据演化分析(evolution analysis):对随时间变化的数据对象的变化规律和趋势进行建模描述。这一建模手段包括:概念描述、对比概念描述、关联分析、分类分析、时间相关数据(time-related)分析(这其中又包括:时序数据分析、序列或周期模式匹配,以及基于相似性的数据分析)。示例:利用演化分析方法可对股
24、市主要股票交易数据(时序数据,time-series data)进行分析,以便获得整个股票市场的股票演化规律,以及一个特定股票的变化规律,这种规律或许能够帮助预测股票市场上的股票价格,从而有效提高投资回报率。42内 容|知识|知识发现|知识发现的任务|知识发现的方法|知识发现的对象 43知识发现的方法|统计方法|机器学习|神经计算|可视化44知识发现的方法统统计计方方法法一一|统计方法是从事物的外在数量上的表现去推断该事物可能的规律性统计分析方法所能处理的问题:观测一些自然现象或专门安排的试验所得的资料是否与理论相符、在多大程度上相符、偏离可能是朝哪个方向等等事物数据假说结论验证后结论采集统计
25、分析 理论分析 实践验证45知识发现的方法统统计计方方法法二二|近百年统计学得到很大的发展:z19001920 数据描述z19201940 统计模型的曙光z19401960 数理统计时代z19601980 随机模型假设的挑战z19801990 松弛结构模型假设z19901999 建模复杂的数据结构46知识发现的方法统统计计方方法法三三1960-1980年间,统计学领域出现了一场革命:要从观测数据对依赖关系进行估计,只要知道未知依赖关系所属的函数集的某些一般的性质就足够了。引导这一革命的是60年代的四项发现:1.Tikhonov,Ivanov和Philips发现的关于解决不适定问题的正则化原则2
26、.Parzen,Rosenblatt和Chentsov发现的参数统计学3.Vapnik和Chervonenkis发现的在泛函数空间的大数定理,以及它与学习过程的关系4.Kolmogorov,Solomonoff和Chaitin发现的算法复杂性及其与归纳推理的关系47知识发现的方法统统计计方方法法四四|与统计学有关的机器学习方法:z传统方法传统方法:主要研究渐进理论,即当样本趋于无穷多时的统计性质。z模糊集模糊集:是表示和处理不确定性数据的重要方法。z支持向量支持向量机:建立在计算学习理论的结构风险最小化原则之上。z粗糙集粗糙集:用于处理含糊性和不确定性。48传传统统方方法法知识发现的方法统统计
27、计方方法法五五|传统方法:主要研究主要研究渐进理论,即当样本趋于无穷多时的统计性质|传统方法主要考虑主要考虑测试预想的假设是否与数据模型拟合,它依赖于依赖于显式的基本概率模型|统计方法处理过程处理过程可分为以下三个阶段:z搜集数据搜集数据:采样、试验设计z分析数据分析数据:建模、知识发现、可视化z进行推理进行推理:预测、分类|常见的统计方法:z回归分析(多元回归、自回归)z判别分析(贝叶斯(Baysian)判别、费歇尔(fisher)判别、非参数判别)z聚类分析(系统聚类、动态聚类等)z探索性分析(主元分析法、相关分析法)49知识发现的方法统统计计方方法法六六|目前国际上流行的统计软件:zSA
28、S(Statistics Analysis System)被国内外许多学者誉为最权威的统计软件,操作复杂,较适合于专业统计人员使用zSPSS(Statistics Package for the Social Sciences)个人用户市场占有率第一zBMDP(Biomedical Computer Programs)方法全面灵活,有很多独具特色的分析方法。被SPSS收购zSYSTAT(The System for Statistics)方法齐全,速度快,精度高,软件小,具有突出的图形优势,被SPSS收购zEPIINFO和EPIMAP(Epidemiology Information)主要应用
29、于流行病学领域,含有丰富的联机帮助50模模糊糊集集知识发现的方法统统计计方方法法七七|模糊集模糊集是表示和处理不确定性数据的重要方法|模糊集不仅可以处理不完全数据、噪声或不精确数据,而且在开发数据的不确定性模型方面是有用的,能提供比传统方法更灵巧、更平滑的性能51支支持持向向量量机机知识发现的方法统统计计方方法法八八|支持向量机(Support Vector Machine,SVM)建立在计算学习理论的结构风险最小化原则之上|主要思想:针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率|优点:可以处理线性不可分的情况52粗粗糙糙集集知识发现的方法统统计计方方法法
30、八八|粗糙集(rough set)理论由Zdziskew Pawlak在1982年提出,用于处理含糊性和不确定性。|粗糙集是由集合的下近似、上近似来定义的。下近似下近似中的每一个成员都是该集合的确定成员,而不是上近似中的成员肯定不是该集合的成员。粗糙集的上近似上近似是下近似和边界区的合并。边界区的成员可能是该集合的成员,但不是确定的成员。可以认为粗糙集是具有三值隶属函数的模糊集,即是、不是、也许。|粗糙集与模糊集一样是一种处理数据不确定性的数学工具,常与规则归纳、分类和聚类方法结合起来使用,很少单独使用53知识发现的方法机机器器学学习习一一|机器学习的定义:如果一个系统能够通过执行某种过程而改
31、进它的性能,这就是学习|机器学习的三个要点:z过程z系统z改变性能54知识发现的方法机机器器学学习习二二|一个简单的学习系统模型:环境学习单元知识库执行单元反馈55知识发现的方法机机器器学学习习三三|机器学习的研究方法:z建模:使用多项式等为基函数,利用优化的方法建立模型,以刻划被控对象的行为z用MP模型进行优化:将扩展为多个神经元的MP模型作为优化算法的基函数56知识发现的方法机机器器学学习习四四|常用的机器学习方法1.规则归纳:由已知的相关规则推出结论。(规则反映数据项中某些属性或数据集中某些数据项之间的统计相关性)57知识发现的方法机机器器学学习习五五2.决策树:决策树的每一个非终结点表
32、示所考虑的数据项的测试或决策。一个确定分枝的选择取决于测试的结果。为了对数据集分类,从根结点开始,根据判定自顶向下,趋向终结点或叶节点。当到达终结点时,则决策树生成。决策树也可以解释为特定形式的规则集,以规则的层次组织为特征58知识发现的方法机机器器学学习习六六3.范例推理:直接使用过去的经验或解法来求解给定的问题。给定一个特定问题,范例推理就检索范例库,寻找相似的范例,若存在相似的范例则它们的解法就可以用来求解新的问题。该新问题被加到范例库以便将来参考。1.范例库中无相似范例2.加入到范例库特定问题范例库问题解59知识发现的方法机机器器学学习习七七3.贝叶斯信念网络:是概率分布的图表示。是一
33、种直接的,非循环的图,节点表示属性变量,边表示属性变量之间的概率依赖关系。与每个节点相关的是条件概率分布,描述该节点与其父节点之间的关系。60知识发现的方法机机器器学学习习八八3.科学发现:在试验环境下发现科学定律。4.遗传算法:按照自然进化原理提出的一种优化策略。在求解过程中,通过最好解的选择和彼此组合,则可以期望解的集合将会越来越好。61知识发现的方法神神经经计计算算一一|神经网络是模仿人脑神经网络的结构和某些工作机制而建立的一种计算模型。z特点:利用大量的简单计算单元(神经元)连成网络,来实现大规模并行计算z工作机理:通过学习,改变神经元之间的联接强度62知识发现的方法神神经经计计算算二
34、二z常用的神经计算模型:多层感知机反传网络自适应映射网络SOM63知识发现的方法可可视视化化一一|可视化(Visualization)就是把数据、信息和知识转化为可视的表示形式的过程。z特点:1.信息可视化的焦点在于信息。信息具有内在的抽象性,它可以是数据,也可以是过程、关系或概念等。故而可视化的关键就在于寻找和发现新的可视化的隐喻(metaphors)来表示信息。2.信息的数据量更大64知识发现的方法可可视视化化二二3.信息来源不一。不同的信息类型有不同的可视化方法,复合类型的可视化更需要做灵活的处理。4.信息可视化的任务是要对信息进行观察、操作、检索、导航、探索、过滤、发现和理解。5.信息
35、可视化的相关领域很广泛。涉及人机界面、数据挖掘、图象处理与图形学、甚至认知工程和大众心理学以及艺术等人文科学65知识发现的方法可可视视化化三三|可视化方法 现有的数据可视化方法主要有柱状图、树图、盒图、散点图、平行坐标轴以及三维立方等数据可视化描述方法。下面就这些方法给出一些实例 66知识发现的方法可可视视化化三三(一一)|基于平行坐标系的可视化图3.3 平行坐标系实例67知识发现的方法可可视视化化三三(二二)|二维散点图映射68知识发现的方法可可视视化化三三(三三)|基于盒图的可视化方法69知识发现的方法可可视视化化三三(四四)|柱状图可视化方法|一根柱代表一个类分布,底层颜色代表纯净的程度
36、,尽可能利用颜色。70知识发现的方法可可视视化化三三(五五)|饼图的可视化方法71知识发现的方法可可视视化化三三(六六)|时间的可视化|从图中可以看出不同步骤所占的时间比率以及它们之间的对比。72知识发现的方法可可视视化化三三(七七)|分布信息的表示|利用图形的多维特点来表示信息,在图形维数用尽的情况下,再利用数据图表。73内 容|知识|知识发现|知识发现的任务|知识发现的方法|知识发现的对象 74知识发现的对象|数据库|文本|Web信息|空间数据|图象和视频数据75知识发现的对象数数据据库库一一|从数据库进行知识发现就是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的平凡过
37、程|目前研究的主要问题:1.超大数据量。对于海量数据库,遍历是不现实的。解决方法:根据发现任务选择相关的域空间,随机抽样。76知识发现的对象数数据据库库二二2.动态变化的数据。联机系统应保证数据的变化不会导致错误的发生。解决方法:采用的方法应具有可增加性。3.噪声。手工录入及主观选取数据都会导致数据有噪声。而噪声的存在又会导致最终抽取的模式的准确性,造成模式的不确定性。解决方法:使用概率的方法来表示这种模式或者消噪。77知识发现的对象数数据据库库三三4.数据不完整。数据库中某些记录的属性域可能存在空值现象。另外对于特定的发现任务可能不存在其必须的记录域。解决:估值,同时还要删除某些数据。5.冗
38、余信息。数据库中的同一信息同时存储在多个地方以及函数依赖都能造成冗余。冗余信息可能造成错误的知识发现。解决:删除样本之间、字段之间的冗余。同时系统应该清楚数据库中有哪些依赖关系。78知识发现的对象数数据据库库四四6.数据稀疏。数据库对应于可能的巨大的发现空间,它的实际数据记录的密度非常稀疏。目前还没有较成熟的解决方法。79知识发现的对象|数据库|文本|Web信息|空间数据|图象和视频数据80知识发现的对象文文本本一一|页面模式抽取需要经过文本分析过程。文本分析过程就是分析文本,从中找出一些特征,以利于将来的使用。|文本分析有以下几个过程:z语种识别z特征提取z聚类z分类81知识发现的对象文文本
39、本二二z语种识别:语种识别工具能自动发现文本使用的是何种语言。主要利用文本内容的一些线索去识别语种。z特征提取:主要是识别文本中词项的意义,提取过程是自动的。特征识别工具采取两种模式:单独分析文本根据其他相似的文本自动建立一个词典,然后在文本中找到在词典中出现的词项。82知识发现的对象文文本本三三z聚类:就是把一个文本集合分成几组的过程。每组中的文本在某种情况下相似。聚类可以描述整个文本集的内容。聚类后,组内的文本相似度极大,组间的文本相似度极小。z分类:分类工具把文本分配到已存在的类中,即已存在的“主题”中。83知识发现的对象|数据库|文本|Web信息|空间数据|图象和视频数据84知识发现的
40、对象WWe eb b信信息息|Web信息挖掘技术:根据面向Internet的分布式信息资源的特点的一种模式抽取过程,它不仅能查找到分布式信息资源中已存在的信息,还能识别出大量存在于数据中的隐含的、有效的规律。z特点:由于结构形式不一,故难度较大85知识发现的对象|数据库|文本|Web信息|空间数据|图象和视频数据86知识发现的对象空空间间数数据据|地理数据与其他类型数据的一个重要区别就是它的空间特性。|空间数据挖掘的任务有:z空间数据特征比较z空间聚类分析z空间分类z空间关联z空间模式分析|应用:地理信息系统,数字地球等87知识发现的对象|数据库|文本|Web信息|空间数据|图象和视频数据88
41、知识发现的对象图图象象和和视视频频数数据据一一|所谓面向图象和视频的数据挖掘是指从大量的图象和视频数据中挖掘出有用的信息。其关键的问题是图象和视频信息本身的表示问题。z图象和视频的基本特征一般可以用颜色、纹理、形状、运动向量来描述。z高级概念可以看成是一种特征模式,例如大片的庄稼可以认为是具有某种颜色分布和纹理特征的大块图象区域89知识发现的对象图图象象和和视视频频数数据据二二z高层概念是我们所关心的,它可能是某种物体的存在、某种现象的发生。z底层的基本特征与高层概念之间,必然存在某种映射关系,可以用数据挖掘的方法发现。高级概念概念量化概念向量原始图象或视频流特征抽取特征向量数据挖掘算法有用的信息90