数据挖掘与知识发现(讲稿1---概述)37405.docx

上传人:you****now 文档编号:48742811 上传时间:2022-10-06 格式:DOCX 页数:23 大小:121.01KB
返回 下载 相关 举报
数据挖掘与知识发现(讲稿1---概述)37405.docx_第1页
第1页 / 共23页
数据挖掘与知识发现(讲稿1---概述)37405.docx_第2页
第2页 / 共23页
点击查看更多>>
资源描述

《数据挖掘与知识发现(讲稿1---概述)37405.docx》由会员分享,可在线阅读,更多相关《数据挖掘与知识发现(讲稿1---概述)37405.docx(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、装订线数据挖掘与知识发现讲稿 主讲:刘以安前期基础课程:数据库、人工智能参考书:知知识发现,清清华大学出出版社,史史忠植编,22004第1章 概述随着信息社社会和知识识经济时代代的来临,信信息正以前前所未有的的速度膨胀胀。面对浩浩如烟海的的信息资源源,人类的的自然智能能越来越显显得难于驾驾驭。如何何用人造的的智能去模模仿和扩展展人类的自自然智能,实实现信息的的智能化处处理,是信信息社会和和知识经济济所面临的的一个重大大课题。人工智能作作为一门研研究机器(计计算机)智智能的学科科,其目的的是要用人人工的方法法和技术,研研制智能机机器或智能能系统,来来模仿、延延伸和拓展展人的智能能。因此,人人工智

2、能是是人类迈向向信息、迎迎接知识经经济挑战所所必须具备备的一项核核心技术。难难怪有人把把人工智能能同原子能能技术、空空间技术一一起称为220世纪的的三大尖端端科技成就就。但人工工智能系统统较率低,不不能应用于于实际。随着计算机机、Intterneet的普及及,以及数数据库(DDB)技术术的迅速发发展和数据据库管理系系统(DBBMS)的的广泛应用用,导致许许多领域积积累了海量量数据(如如,从普通通的超市业业务数据、信信用卡记录录数据、电电话呼叫清清单、政府府统计数据据到不太普普通的天体体图像、分分子数据库库和医疗记记录等)。现现有的DBB技术大多多可高效地地实现数据据查询、统统计和维护等管理理功

3、能,但但却无法发发现数据中中存在的关关联和规则则,无法根根据现有的的数据预测测未来的发发展趋势。数据库中中存在着大大量数据,却却缺乏从这这些数据中中自动、高高效地获取取知识的手手段,出现现了“数据丰富富,知识贫贫乏”的现象。此外,在在数据操纵纵方面:信信息的提取取及其相关关处理技术术却远远落落后。为此此,针对庞庞大的数据据库及其中中的海量数数据信息源源,仅依靠靠传统的数数据检索机机制和统计计分析方法法已远不能能满足需要要。需求是发展展之母,数数据管理系系统(DBBMS)和和人工智能能中机器学学习两种技技术的发展展和结合,促促成了在数数据库中发发现知识这这一新技术术的诞生,即基于数数据库知识识发

4、现(KKnowlledgee Disscoveery iin Daatabaase,KKDD)及及其核心技技术-数据挖掘掘产生并迅迅速发展起起来。它的的出现为自自动和智能地把海海量数据转转化成有用用的信息和和知识提供供了手段。1.1 知知识知识不仅是是人工智能能领域中研研究的重要要对象,而且且也是知识识工程与知知识发现处处理的重要要对象。什什么是知识识?(到目目前为止,知知识还没有有统一的严严格的形式式化定义)知识是人们们在改造客客观世界的的实践中积积累起来的的认识和经经验,是一切智智能行为的的基础。广义地说说,知识是是人们通过过学习、发发现或感悟悟到的对世世界的认识识总和,是是人类认识识的结

5、晶。狭义地说,知识是一种有组织的经验、价值观、相关信息和洞察力的组合。与知识相相关联的两两个概念是是数据和信息所谓数据是是指人们为为了描述客客观世界中中的具体事事物而引入入的一些数数字、字符符、文字等等符号或符符号的组合合。如,“建国500岁”中的“建国”、“50岁”都是数据据。所谓信息是是指不同的的有用数据据组成的一一种结构。如如“建国80岁”,就是一一条信息。数据、信信息和知识识间的关系系是:l 数据是信息息的载体和和表示;l 信息是数据据在特定场场合下的含含义,或者者说信息是是数据的语语义。如“建国80岁”。但相同同的数据在在不同的场场合会有不不同的含义义。l 信息仅是对对客观事物物的一

6、般性性描述,它它还不是知知识。只有有经过对其其进行加工工、整理、解解释、挑选选和改造,形形成对客观观世界规律律性认识后后才能称为为知识。可可见,知识识是对信息息进行智能能性加工所所形成的对对客观世界界规律性的的认识。(如,水,在在标准大气气压下,加加热到1000度就会会沸腾)实现对信息息的加工过过程,实际际上也是一一种把信息息关联在一一起的过程程。因此,也也可把有关关信息关联联在一起所所形成的信信息结构称称为知识。从这种意意义上讲,“信息”与“关联”是构成知识的两个要素。信息之间关关联的形式式很多,其其中最常用用的一种形形式为: 如如果 则 (IFF THHEN)如,“如果果他学过人人工智能课

7、课程,则他他应该知道道什么叫知知识”。1.2 什什么是知识识工程?知识工程的的概念出现现于19777年的人人工智能联联合会议上上,由费根根鲍姆教授提提出的,至至今也没有有严格的定定义,但人们普普遍认为,知识工程程是以知识识为处理对对象,借用工程程化的思想想,应用人工工智能的原原理、方法法和技术去设计、构构造和维护护知识型系系统的一门门学科,是人工智智能的一个个应用分支支。知识工程的的目的是在在研究知识识的基础上上,开发智能系系统。所以,知识识工程的核核心则是专专家系统。由此知,知识的获获取、知识识的表示、知知识的运用用便构成知知识工程的的三大要素素。知识工程的的研究内容容,主要包括括:基础理论

8、论研究、实实用技术的的开发、知知识型系统统工具研究究和智能机机等相关课课题的研究究。其中,基础础理论研究究包括:知识的本本质、知识识的表示、推推理、获取取和学习方方法等;实用技术主主要研究解解决建立知知识系统过过程中遇到到的问题,包括:实用知识识表示方法法、实用知知识获取技技术、实用用知识推理理方法、知知识库结构构系统、知知识系统体体系结构、知知识库管理理技术、知知识型系统统的调试与与评估技术术、实用解解释技术、实实用接口技技术等;知识型系统统工具研究究,主要是是为了给系系统的开发发提供良好好的环境工工具,以提高系系统研制的的质量和缩缩短系统研研制周期等等。 知识工程系系统的特点n 知识工程系

9、系统能解决决专家水平平的问题;n 系统能快速速的进行假假设和搜索索解答;n 系统能做出出具有专家家水平的解解答;n 系统具有大大量的基础础知识和通通用的问题题求解能力力;n 系统应能选选择问题的的恰当表示示方式,其中的知知识型系统统是一个符符号系统;n 系统具有自自动推理的的能力,能从结构构步骤分析析、解决、推推理问题等等,这些都表表现出具有有人工智能能及其系统统的特点。因此,同样可以说说,知识工程程是人工智智能的一个个重要应用用分支 知识工程与与人工智能能的关系传统人工智智能不能进进入实用阶阶段,主要要原因有n 人工智能系系统的知识识库中只含含有少量的的规则和事事实;n 人工智能系系统的效率

10、率极低。而知识工程程是人工智智能在知识识信息处理理方面的发发展,它研研究如何由由计算机表表示知识,进进行问题的的自动求解解。知识工工程的研究究使人工智智能的研究究从理论转向了了应用,从基基于推理的模型型转向基于于知识的模型型,是新一一代计算机机的重要理理论基础。它它的根本目目的是在研研究知识的的基础上,开开发人工智智能系统,补补充和扩大大大脑的功功能,开创创人-机共共同思考的的时代。 知识工程与与专家系统统的关系专家系统是是知识工程程的核心。知识工程程的发展首首先决定于于专家系统统的发展,专家系统统的发展必必将推动人人工智能的的应用。专家系统的的开发有三三个基本的的要素:领域专家家、知识工工程

11、师、大大量实例。在建立专专家系统时时,首先由知知识工程师师把领域专专家的专门门知识总结结出来,以适当的的形式存入入计算机,建立起知知识库(KKB),根根据这些专专门知识,系统可以以进行推理理,做出判断断和决策,能够解决决一些只有有人类专家家才能解决决的困难问问题,专家系统统主要是指指软件系统统。通常一个最最基本的专专家系统应应由:知识识库、数据据库、推理理机、解释释机构、知知识获取机机构和用户户界面6个个部分组成成。图1 专专家系统的的基本结构构其主要功能能描述如下下: (11)知识库库(Knoowleddge BBase)知识库是指指以某种存存储结构存存储领域专专家的知识识,包括事事实和可行

12、行的操作与与规则等。为为了建立专专家库,需需对领域问问题的专家家知识,用用相应的知知识表示方方法将其表表示出来,然然后再进行行形式化,并并经编码放放入知识库库中。所以,专家家库的建立立,首先要要解决知识识获取与知知识表示的的问题。知知识获取是是指知识工工程师如何何从领域专专家那里获获得将要纳纳入知识库库的知识。知知识表示要要解决的问问题是如何何使用计算算机能够理理解的形式式来表示和和存储知识识的问题。通常,知识识库中的知知识分为两两大类型:一类是领领域中的事事实,称为为事实性知知识,这是是一种广泛泛公用的知知识,也即即写在书本本上的知识识及常识;另一类是是启发性知知识,它是是领域专家家在长期工

13、工作实践中中积累起来来的经验总总结。(2)数据据库也称全局数数据库或综综合数据库库。是用于于存储与求求解问题有有关的初始始数据(如如,事实、数数据、初始始状态(证证据)和和推理过程程中得到的的中间数据据。如,在医疗疗专家系统统中,数据据库中存放放的仅是当当前患者的的情况,如如姓名、年年龄、症状状等及推理理过程中得得到的一些些中间结果果、病情等等;在气象专家家系统中,数数据库中存存放的是当当前气象要要素,如云云量、温度度、气压以以及推理得得到的中间间结果等。由此看出,专专家系统数数据库只是是一个存储储很少的用用于暂存中中间信息的的工作存储储器(也称称内涵数据据库),而而不是通常常概念上的的用于存

14、放放大量信息息的数据库库(也称外外延数据库库)。(3)推理理机推理机是一一组用来控控制、协调调整个专家家系统的程程序。它根根据全局数数据库的当当前内容,从从知识库中中选择可匹匹配的规则则,并通过过执行规则则来修改数数据库中的的内容,再再通过不断断地推理导导出问题的的结论。推推理机中包包含如何从从知识库中中选择规则则的策略和和当有多个个可用规则则时如何消消解规则冲冲突的策略略。(4)解释释机构用于向用户户解释专家家系统的行行为,包括括解释“系统是怎怎样得出这这一结论的的”、“系统为什什么要提出出这样的问问题来询问问用户”等用户需需要解释的的问题。(5)知识识获取机构构知识获取是是专家系统统的一种

15、辅辅助功能,它它可为修改改知识库中中的原有知知识和扩充充新知识提提供相应手手段。知识获取机机构的基本本任务是把把知识加入入到知识库库中,并负负责维持知知识的一致致性及完整整性,建立立起性能良良好的知识识库。通常,不同同的专家系系统,知识识获取功能能和实现方方法差别较较大。如, 有的系统首首先由知识识工程师向向领域专家家获取知识识,然后通通过相应的的知识编辑辑软件把知知识送到知知识库中; 有的系统自自身就具有有部分学习习功能,由由系统直接接与领域专专家对话获获取知识; 有的系统具具有较强的的学习功能能,可在系系统运行过过程中通过过归纳、总总结,得出出新的知识识。总之,不管管采用方式式,知识获获取

16、都是目目前专家系系统研究中中的一个重重要问题。所以,知识识工程的概概念从19777年提出至至今,现已成为一一门新兴的的边缘学科科。它是人人工智能,数数据库技术术,数理逻逻辑,认知知科学,心心理学等学学科交叉发发展的结果果。1.3知识识发现KDD(KKnowlledgee Disscoveery iin Daatabaase)一一词是于11989年年8月在美美国底特律律市召开的的第一届KKDD国际际学术会议议上正式形形成的。研研究的问题题主要有: 定性知识和和定量知识识的发现; 知识发现方方法; 知识发现的的应用等。KDD的含含义,由FFayyaad定义为为:从数据据集中识别别出有效的的、新颖的

17、的、潜在有有用的,以以及最终可可理解的模模式的非平平凡过程。涉及几个概概念:“数据集”、“模式”、“过程”、“有效性”、“新颖性”、“潜在有用用性”和“最终可理理解性”。数据集:数数据库记录录的集合FF;模式:即知知识,它给给出了数据据特性或数数据之间的的关系,是是对数据所所包含的信信息更抽象象的描述。按按功能可以以分为预测测型模式和和描述型模模式。在实实际应用中中,可以细细分为关联联模式、分分类模式、聚聚类模式和和序列模式式等。过程:通常常在KDDD中指多阶阶段的处理理,涉及数数据准备、模模式搜索、知知识评价以以及反复的的修改求精精;该过程程要求是非非平凡的,意意思是要有有一定程度度的智能性

18、性、自动性性;有效性:是是指发现的的模式对于于新的数据据仍保持一一定的可信信度;新颖性:要要求发现的的模式应该该是新的;潜在有用性性:是指发发现的知识识将来有实实际效用,如如,用于决决策支持系系统里可提提高经济效效益;最终可理解解性:要求求发现的模模式能被用用户理解,目目前它主要要体现在简简洁性上。其中,“有有效性”、“新颖性”、“潜在有用用性”和“最终可理理解性”综合在一一起称为兴兴趣性。KDD的研研究内容是是:如何自动动地去处理理数据库中中大量的原原始数据,从从中挖掘搜搜索出具有有规则、富富有意义的的模式。它的发现现过程主要要有三个步步骤: 数据准备,又又包括数据据选取(DData sel

19、eectioon)、数数据预处理理(Datta prreproocesssing)和和数据变换换(Datta trransfformaationn)三个子子步骤; 数据挖掘(DData Miniing)阶阶段; 结果解释和和评价。即:KDDD=数据准准备+DMM+解释评评价。图1 KKDD过程程由上图知,知知识发现的的过程可粗粗略的理解解为三部曲曲:数据准准备(Daata pprepaaratiion)、数数据挖掘(Dataa minning)以及结果果的解释评评估(innterpprepaaratiion aand eevaluuatioon)。 数据准准备又可分分为:数据据选取、数数据预处

20、理理和数据变变换三个子子步骤。l 数据选取的的目的是确确定发现任任务的操作作对象,即即目标数据据。它是根根据用户的的需求从原原始数据库库中抽取的的一组数据据。l 数据预处理理一般包括括消除噪声声、推导计计算缺值数数据、消除除重复记录录、完成数数据类型转转换(如,把把连续值数数据转换为为离散型数数据,以便便符号归纳纳;或把离离散型数据据转换为连连续值型数数据,以便便神经网络络归纳)等等;l 数据变换的的主要目的的是消减数数据的维数数或降维,即即从初始特特征中找出出真正有用用的特征,以以减少数据据开采时要要考虑的特特征或变量量个数。 数据挖挖掘阶段:)确定开开采的任务务或目的,如如数据总结结、分类

21、、聚聚类、关联联规则发现现或序列模模式发现等等;)确定使使用的开采采算法。选择实现算算法有两个个考虑因素素:(1) 不同的数据据有不同的的特点,因因此需要用用与之相关关的算法来来挖掘;(2) 用户或实际际运行系统统的要求,有有的用户可可能希望获获取描述型型的、容易易理解的知知识(如,采采用规则表表示的挖掘掘方法显然然好于神经经网络之类类的方法),而而有的用户户只希望获获取预测准准确度尽可可能高的预预测型知识识。选择了了挖掘算法法后,就可可以实施数数据挖掘操操作,获取取有用的模模式。 结果解解释和评价价,对数据据挖掘发现现出来的模模式,应经经用户或机机器评价后后才能成为为知识。因因为 )挖掘出出

22、来的模式式可能存在在冗余或无无关的模式式,此时需需将其剔除除; )挖掘出出来的模式式可能不满满足用户要要求,这时时应退回到到发现阶段段之前,如如重选数据据、采取新新的变换方方法和新的的开采算法法等 )KDDD最终是要要面向人类用户户,因此,应应对挖掘发发现的模式式进行可视视化(如散散点图、直直方图等),或或把结果转转换为用户户易懂的另另一种表示示,如把分分类决策树树转换为“ifthenn”规则。由此过程可可得:1、数据挖挖掘仅仅是是整个知识识发现过程程中的一个个步骤。挖挖掘质量的的好坏有两两个影响要要素:(1) 是所采用的的数据挖掘掘技术的有有效性;(2) 是采用的数数据质量和和数量(数数据量

23、的大大小)。如如果选择了了错误的数数据或不适适当的属性性,或对数数据进行了了不适当的的转换,则则挖掘的结结果不会成成功。2、整个挖挖掘过程是是一个不断断反馈的过过程。比如如,用户在在挖掘途中中发现选择择的数据不不太满意,或或使用的挖挖掘技术产产生不了期期望的结果果。这时,用用户需要重重复先前的的过程,甚甚至从头重重新开始。3、可视化化技术在数数据挖掘的的各个阶段段都起着重重要的作用用。特别是是在数据准准备阶段,用用户可能要要使用散点点图、直方方图等统计计可视化技技术来显示示有关数据据,以期对对数据有一一个初步的的了解,从从而为更好好地选取数数据打下基基础;在挖挖掘阶段,用用户则要使使用与领域域

24、问题有关关的可视化化工具;在在表示结果果阶段,则则可能要用用到可视化化技术以使使得发现的的知识更易易于理解。问题:数据据挖掘的可可视化主要要包括哪些些研究内容容? 目前流流行的可视视化技术主主要有哪几几种? 答: 数据挖挖掘的可视视化主要研研究包括(1) 数据的可视视化: 将数据据的不同粒粒度或不同同的抽象级级别用多种种可视化方方式进行描描述.对被挖掘掘的原始数数据的可视视化有助于于确定合适适的模型进进行数据挖挖掘处理;(2) 数据结果的的可视化: 将数据据挖掘后得得到的知识识和结果用用可视化形形式表示出出来.知识表达达、解释和和评价的可可视化有助助于理解所所获得的知知识并检验验知识的真真伪和

25、实用用性;(3) 数据挖掘过过程的可视视化:用可可视化形式式描述各种种挖掘过程程,用户通通过可视化化方式可以以了解挖掘掘数据的来来源、数据据的抽取过过程、具体体的挖掘计计算和推理理过程等。 目前流流行的可视视化技术主主要有:(1) 面向像素技技术:其基基本思想是是将每个数数据值映射射到一个有有色的像素素上并将属属于某个属属性的数据据值表示在在一个独立立的窗口中中;(2) 几何投影技技术:其目目标是在多多维数据集集中找到“有意义”的投影,是是一种平行行坐标轴可可视化技术术。该技术术通过使用用相互平行行而且等距距的坐标轴轴将多维空空间映射成成两维显示示。(3) 基于图标技技术:是将将一个多级级数据

26、项映映射成一个个图标,是是一种条状状图技术。在在该技术中中,用两维维来进行坐坐标显示,而而剩下的维维则被映射射成条状图图标的角度度或条状图图标的长度度;(4) 层次技术:是对多维维空间进行行细分,然然后以一种种层次的形形式表示这这些子空间间。由于KDDD是一门受受到来自各各种不同领领域的研究究者关注的的交叉学科科(如涉及及:统计学学、机器学学习、数据据库技术、模模式识别、人人工智能和和可视化等等),因此此导致了很很多不同的的术语名称称。除KDDD外,主主要还有:“数据挖掘掘”、知识抽抽取(knnowleedge extrractiion)、信信息发现、智智能数据分分析、探索索式数据分分析、信息

27、息收获、数数据考古学学(datta arrchaeeologgy)、数数据捕捞(ddata dreddgingg)等等。其其中,最常常用的术语语是“知识发现现”和“数据挖掘掘”。1995年年在加拿大大召开了第第一届知识识发现和数数据挖掘(DData Mingg, DMM)国际学学术会议。由于把数据库中的“数据”形象地比喻成矿床,把KDD比作从数据矿山中找到蕴藏的知识金块。从此“数据挖掘”一词很快流传开来。又由于数据据挖掘是KKDD过程程中的关键键步骤,所所以目前多多数人不加加区分地使使用知识发发现和数据据挖掘这两两个术语。相对来讲,数数据挖掘主主要流行于于统计界、数数据分析、数数据库和管管理信

28、息系系统界;而知识发现现主要流行行于人工智智能和机器器学习界。1.4 知知识发现的的对象知识发现的的对象是数数据集。数数据集类型型有:关系系数据库、面面向对象数数据库、空空间数据库库、时态数数据库、文文本数据库库源、多媒媒体数据库库、异质数数据库以及及万维网(WWeb)数数据库等。其其中,关系系数据库是是典型的结结构化数据据。目前,随随着技术的的发展,数数据挖掘对对象已逐步步扩大到半半结构化或或非结构化化数据,如如Web数数据、图像和视视频数据以以及文本数数据等。1、关系数数据库对关系数据据库,数据据挖掘方法法主要是研研究数据库库中属性之之间的关系系,挖掘出出多个属性性取值之间间的规则。由由于

29、关系数数据库的特特点,促使使了数据挖挖掘方法的的改善。关系数据库库的特点如如下: 数据动动态性数据的动态态变化是数数据库的一一个主要特特点。由于于数据的存存取和修改改,使数据据的内容经经常发生变变化,这就就要求数据据挖掘方法法能适应这这种变化。渐渐增式数据据挖掘方法法就是针对对数据变化化,使挖掘掘的规则(知识)能满足变变化后的数数据库内容容。 数据不不完整性数据不完整整性主要反反映在数据据库中记录录的域值丢丢失或不存存在(空值值)。这种种不完整数数据给数据据挖掘带来来了困难。为为此,必须须对数据进进行预处理理,填补该该数据域的的可能值。数据噪声声由于数据录录入等原因因,造成错错误的数据据,即数

30、据据噪声。含含噪声的数数据挖掘会会影响抽取取模式的准准确性,并并增加了数数据挖掘的的困难度。 数据冗冗余性这表现在同同一信息在在多处重复复出现。函函数依赖是是一个通常常的冗余形形式。冗余余信息可能能造成错误误的数据挖挖掘,至少少有些挖掘掘的知识是是用户不感感兴趣的。为为了避免这这种情况发发生,数据据挖掘时,需需要知道数数据库中有有哪些固有有的依赖关关系。 数据稀稀疏性表现在实例例空间中数数据稀疏,数数据稀疏会会使数据挖挖掘丢失有有用的模式式。 海量数数据数据库中的的数据在不不断增长,已已出现很多多海量数据据库。数据据挖掘方法法需要逐步步适应这种种海量数据据挖掘,如如建立有效效的索引机机制和快速

31、速查询方法法等。2、文本数数据库文本是以文文字串形式式表示的数数据文件。文本分析包括:关键词或特征提取;相似检索;文本聚类和文本分类等。文本中的特特征如人名名、地名、组组织名等是是某些文本本中的重要要信息,特特征提取对对掌握该文文本的内容容很重要。 关键词词或特征提提取一篇文本中中,标题是是该文本的的高度概括括。标题中中的关键词词是标题的的核心内容容。关键词词的提取对对于掌握该该文本的内内容至关重重要。文本中的特特征如人名名、地名、组组织名等是是某些文本本中的重要要信息,特特征提取对对掌握该文文本的内容容很重要。 相似检检索对文本中关关键词的相相似检索是是了解文本本内容的一一种重要方方法。如,

32、“专家系统”与“人工智能”两个关键词是有一定联系的,研究专家系统的文本,一定属于人工智能的研究领域。 文本聚聚类对于文本标标题中关键键词(主题题词)的相相似匹配是是对文本聚聚类的一种种简单方法法。定义关关键词的相相似度,将将便于文本本的简单聚聚类,类中中文本满足足关键词的的相似度,类类间文本的的关键词超超过相似度度。 文本分分类将文本分类类到各文本本类中,一一般需要采采用一个算算法,这些些算法包括括分类器算算法、近邻邻算法等,这这需要按文文本中的关关键词或特特征的相似似度来区分分。3、图像与与视频数据据库图像与视频频数据库是是典型的多多媒体数据据库。数据据以点阵信信息及帧形形式存储,数数据量很

33、大大。图像与与视频的数数据挖掘包包括:图像像与视频特特征提取;基于内容容的相似检检索;视频频镜头的编编辑与组织织等。 图像与与视频特征征提取图像与视频频特征有颜颜色、纹理理和形状等等。这些特特征提取是是用基于内内容的相似似检索。如如,海水是是蓝色、海海滩是黄色色、房屋的的形状及颜颜色等,都都需要从大大量图像和和视频数据据中提取。 基于内内容的相似似检索根据图像、视视频特征的的分布、比比例等进行行基于内容容的相似检检索,可以以将图像和和视频数据据进行聚类类以及分类类,也能完完成对新图图像或视频频的识别。如如,对遥感感图像或视视频的识别别,这种应应用非常广广泛,例如如,森林火火灾的发现现与报警,河

34、河流水灾的的预报等。 视频镜镜头的编辑辑与组织镜头代表一一段连续动动作(视频频数据流)。典典型的镜头头编辑如足足球的射门门、某段新新闻节目等等,都需要要在冗长的的视频数据据流中进行行自动裁取取。经过编辑的的镜头,按按某种需要要重新组织织,将形成成特定需求求的新视频频节目。如如足球射门门集锦,某某个新闻事事件的连续续报道等。4、Webb数据库随着Intterneet的发展展和普及,网网站数目的的迅速增长长及上网人人数的剧烈烈增多,使使网络数据据量呈指数数增长,WWeb数据据挖掘已成成为新课题题。Webb数据挖掘掘具有如下下特点: 异构数数据集成和和挖掘Web上每每一站点是是一个数据据源,各数数据

35、源都是是异构的,形形成了一个个巨大的异异构的数据据库环境。将将这些站点点的异构数数据进行集集成,给用用户提供一一个统一的的视图,才才能在Weeb上进行行数据挖掘掘。 半结构构化数据模模型抽取Web上的的数据非常常复杂,没没有特定的的模型描述述。虽然每每个站点上上的数据是是结构化的的,但各自自的设计对对整个网络络而言是一一个非完全全结构化的的数据,称称为半结构构化数据。对半结构化化数据模型型的查询和和集成,需需要寻找一一种半结构构化模型抽抽取技术来来自动抽取取各站点的的数据。如,XMLL是一种半半结构化的的数据模型型,容易实实现Webb中的信息息共享与交交换。总之,Weeb数据挖挖掘正在逐逐步形

36、成热热点。1.5 知知识发现的的分类知识发现涉涉及多个学学科,主要要包括数据据库、统计计学和机器器学习等三三大主要技技术。数据库技术术经过200世纪800年代的大大发展,除除关系数据据库外,又又陆续出现现面向对象象数据库、多多媒体数据据库、分布布式数据库库以及Weeb数据库库等。数据据库的应用用从一般查查询到模糊糊查询和智智能查询,数数据库计算算已趋向并并行计算。从从以上数据据库中挖掘掘知识正在在兴起并已已得到迅速速发展。统计学是一一门古老学学科,现已已逐渐走向向社会。成成为社会调调查、了解解民意以及及制定决策策的重要手手段。机器学习是是人工智能能的重要分分支。它是是在专家系系统获取知知识出现

37、瓶瓶颈后发展展起来的。机机器学习的的大部分方方法和技术术已演变为为数据挖掘掘方法和技技术。知识发现可可按数据库库类型、知知识发现对对象、知识识发现任务务、知识发发现方法与与技术,以以及应用等等几个方面面进行分类类。(1)按数数据库类型型分类知识发现主主要是在关关系数据库库中挖掘知知识。随着着数据库类类型的不断断增加,逐逐步出现了了不同数据据库的知识识发现。现现有:关系系数据的知知识发现、模模糊数据的的知识发现现、历史数数据的知识识发现和空空间数据的的知识发现现等多种不不同数据库库的知识发发现类型。(2)按知知识发现的的对象分类类知识发现除除了对数据据库这个主主要的对象象进行知识识发现外,还还有

38、文本数数据知识发发现、多媒媒体数据知知识发现和和Web网网数据知识识发现等。由由于对象不不同,知识识发现的方方法相差很很大,文本本、多媒体体、Webb网数据均均是非结构构化数据,知知识发现的的难度将很很大。(3)按知知识发现的的任务分类类知识发现的的任务主要要有:关联联分析、时时序模式、聚聚类、分类类、偏差检检测以及预预测六项。故故按知识发发现的任务务分类有:关联规则则知识发现现、序列知知识发现、聚聚类知识发发现、分类类知识发现现、偏差分分析知识发发现以及预预测知识发发现等类型型。(4)按知知识发现方方法和技术术分类归纳学习类类、仿生物物技术类、公公式发现类类、统计分分析类、模模糊数学类类、可

39、视化化技术类等等等。1.6 知知识发现的的方法可粗分为:统计方法法、机器学学习方法、神神经网络方方法、数据据库方法和和可视化方方法。统计方法可可细分为:回归分析析、判别分分析、聚类类分析、探探索性分析析等;机器学习可可细分为:归纳学习习方法、基基于范例学学习、遗传传算法等;神经网络可可细分为:前向神经经网络、自自组织神经经网络等;数据库方法法主要是:多维数据据分析或OOLAP方方法,另外外还有面向向属性的归归纳方法。对可视化方方法主要是是把数据、信信息和知识识转化为可可视的表示示形式的过过程。1.7 知知识发现的的任务数据挖掘与与知识发现现是一个以以数据库、人人工智能、数数理统计、可可视化四大

40、大支柱技术术为基础,多多学科交叉叉、渗透、融融合形成的的新的交叉叉学科。数据挖掘的的任务是从从大量的数数据中发现现模式。根根据数据挖挖掘的任务务可分为多多种类型,其其中比较典典型的有: 预测模型 关联分析 分类分析 聚类分析 序列分析 偏差检测 模式相似性性挖掘 Web数据据挖掘预测模型型(Preedicttive Modeelingg):所谓谓预测即从从数据库或或数据仓库库中已知的的数据推测测未知的数数据或对象象集中某些些属性的值值分布。建立预测模模型的常用用方法: 回归分析 线性模型 关联规则 决策树预测测 遗传算法 神经网络关联(AAssocciatiion)分分析:关联联规则描述述了一

41、组数数据项之间间的密切度度或关系。关关联分析用用于发现项项目集之间间的关联。在在关联规则则挖掘算法法中,通常常给出了置置信度和支支持度两个个概念,对对于置信度度和支持度度均大于给给定阈值的的规则称为为强规则,而而关联分析析主要就是是对强规则则的挖掘。关联规则挖挖掘近几年年研究较多多。现在,关关联规则的的挖掘已经经从单一概概念层次关关联规则的的发现发展展到多概念念层次的关关联规则的的发现,并并把研究的的重点放在在提高算法法的效率和和规模可收收缩性上。它它广泛地运运用于帮助助市场导向向、商品目目录设计客客户关系管管理)(CCRM)和和其他各种种商业决策策过程中。关联分析算算法:APPRIORRI算

42、法、DHHP算法、DIIC算法、PAARTITTION算算法及它们们的各种改改进算法等等。另外,对对于大规模模、分布在在不同站点点上的数据据库或数据据仓库,关关联规则的的挖掘可以以使用并行行算法,如如:Count分布算算法、Data分布算法法、Candiddate 分布布算法、智智能Data分布算法法(IDDD)和DMAA分布算法法等。分类(CClasssificcatioon)分析析:所谓分分类是根据据数据的特特征为每个个类别建立立一个模型型,根据数数据的属性性将数据分分配到不同同的组中。在实际应用用过程中,分分类规则可可以分析分分组中数据据的各种属属性,并找找出数据的的属性模型型,从而确确

43、定哪些数数据属于哪哪些组。这这样就可以以利用该模模型来分析析已有数据据,并预测测新数据将将属于哪一一个组。类类的描述可可以是显式式的,如用用一组特征征概念描述述;也可以以是隐式的的,如用一一个数学公公式或数学学模型描述述。分类分分析已经成成功地用于于顾客分类类、疾病分分类、商业业建模和信信用卡分析析等。分类分析的的常用方法法: 约略(Roough)集集 决策树 神经网络 统计分析法法目前,分类类方法和研研究成果很很多,判别别方法的好好坏,可从从下面3个个方面进行行:(1)预测测准确度(对对非样本数数据的判别别准确度); (2)计计算复杂度度; (3)模模式简洁度度(在同样样效果情况况下,希望望

44、决策树小小或规则少少)。注:在数据据库中,往往往存在噪噪声数据,缺缺损值和疏疏密不均匀匀等问题,他他们对分类类算法获取取的知识将将产生坏的的影响。聚类(CClustterinng)分析析:所谓聚聚类是指一一组彼此间间非常“相似”的数据对对象的集合合。相似的的程度可以以通过距离离函数来表表示,由用用户或专家家指定。聚类分析是是按照某种种相近程度度度量方法法将数据分分成互不相相同的一些些分组。每每一个分组组中的数据据相近,不不同分组之之间的数据据相差较大大。好的聚聚类方法可可以产生高高质量的聚聚类,保证证每一聚类类内部的相相似性很高高,而各聚聚类之间的的相似性很很低。聚类类分析的核核心是将某某些定

45、性的的相近程度度测量方法法转换成定定量测试方方法。采用用聚类分析析,系统可可以根据部部分数据发发现规律,找找出对全体体数据的描描述。聚类分析的的常用方法法: 随机搜索聚聚类法 特征聚类 CF树序列(SSequeence)分分析:序列列分析主要要用于分析析数据仓库库中的某类类与时间相相关的数据据,搜索类类似的序列列或子序列列,并挖掘掘时序模式式、周期性性、趋势和和偏离等。例如,它可可以导出类类似“若AT&TT股票连续续上涨两天天且DECC股票不下下跌,则第第三天IBBM股票上上涨的可能能性为755%”的数数据关系。序序列模式可可以看成是是一种特定定的关联模模型,它在在关联模型型中增加了了时间属性

46、性。偏差检测测(Devviatiion DDetecctionn):用于于检测并解解释数据分分类的偏差差,它有助助于滤掉知知识发现引引擎所抽取取的无关信信息,也可可滤掉那些些不合适的的数据,同同时可产生生新的关注注性事实。偏差包括很很多有用的的知识,如如以下4类类:(1) 分类中的反反常实例;(2) 模式的例外外;(3) 观察结果对对模型预测测的偏差;(4) 量值随时间间的变化。偏差检测的的基本方法法是寻找观观察结果与与参照之间间的差别。观观察结果常常常是某一一个域的值值或多个域域值的汇总总。参照是是给定模型型的预测、外外界提供的的标准或另另一观察。模式相似似性挖掘:用于在时时间数据库库或空间

47、数数据库中搜搜索相似模模式时,从从所有对象象中找出用用户定义范范围内的对对象;或找找出所有元元素对,元元素对中两两者的距离离小于用户户定义的距距离范围。模模式相似性性挖掘的方方法有相似似度测量法法、遗传算算法等。Web数数据挖掘:万维网是是一个巨大大的、分布布广泛的和和全球性的的信息服务务中心,其其中包含了了丰富的超超链接信息息,为数据据挖掘提供供了丰富的的资源。WWeb数据据挖掘包括括Web使用用模式挖掘掘、Webb结构挖掘掘和Webb内容挖掘掘等。Web使用用模式挖掘掘:在Web环境境中,文档档和对象一一般都是通通过链接来来便于用户户访问。捕捕捉用户的的存取模式式或发现一一个Webb网站最频频繁的访问问路径称为为Web使用用模式挖掘掘或Webb路径挖掘掘。Web结构构挖掘:是是挖掘Weeb的链接接结构,并并找出关于于

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 管理制度

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁