《(本科)第6章数据挖掘概述教学ppt课件.ppt》由会员分享,可在线阅读,更多相关《(本科)第6章数据挖掘概述教学ppt课件.ppt(84页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、(本科)第6章 数据挖掘概述教学ppt课件LOGO第六章第六章 数据挖掘概述数据挖掘概述东北财经大学电子商务学院东北财经大学电子商务学院第六章第六章 数据挖掘概述数据挖掘概述数据挖掘的产生数据挖掘的产生1数据挖掘的定义数据挖掘的定义2数据挖掘的分类数据挖掘的分类3数据挖掘的任务数据挖掘的任务4东北财经大学电子商务学院东北财经大学电子商务学院数据挖掘常用技术和工具数据挖掘常用技术和工具5数据预处理数据预处理6数据挖掘的流程数据挖掘的流程7数据挖掘的应用及发展趋势数据挖掘的应用及发展趋势86.1 6.1 数据挖掘的产生数据挖掘的产生6.1.1 6.1.1 网络技术的高度发展网络技术的高度发展 进入
2、20世纪九十年代,伴随着因特网的出现和发展,以及随之而来的企业内部网和企业外部网以及虚拟私有网的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。这样,展现在人们面前的已不是局限于本部门、本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋。 国内首家在线实时交易电子商务公司 从事专业网上支付服务的先行者 6.1 6.1 数据挖掘的产生数据挖掘的产生 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等,由此积累的数据日益膨胀,数据量达到GB甚至TB级,而且高维数据也日益成为主流。 大量信
3、息在给人们带来方便的同时也带来了问题。人们开始考虑:“在这被称之为信息爆炸的时代,如何才能不被信息的汪洋大海所淹没?如何从中及时发现有用的知识、提高信息利用率?”另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,但是由于缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。现实的需求促使一门新的技术数据挖掘技术的诞生。6.1.6.1.2 2数据爆炸但知识贫乏数据爆炸但知识贫乏 6.1 6.1 数据挖掘的产生数据挖掘的产生6.1.6.1.3 3支持数据挖掘技术的技术基础支持数据挖掘技术的技术基础 数据挖掘技
4、术是人们长期对数据库技术进行研究和开发的结果。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,他们是:海量数据搜集强大的多处理计算机数据挖掘算法6.1 6.1 数据挖掘的产生数据挖掘的产生 进化阶段进化阶段 商业问题商业问题 支持技术支持技术 产品厂家产品厂家 产品特点产品特点数据搜集数据搜集(20(20世纪世纪6060年代年代) )“过去五年中我的总过去五年中我的总收入是多少?收入是多少?”计算机、磁带、磁盘、计
5、算机、磁带、磁盘、文件系统和层次型、网文件系统和层次型、网状型数据库系统状型数据库系统IBM,CDCIBM,CDC提供历史性的、提供历史性的、静态的数据信静态的数据信息息数据访问数据访问(20(20世纪世纪8080年代年代) )“在新英格兰的分部在新英格兰的分部去年三月的销售额是去年三月的销售额是多少?多少?”关系数据库(关系数据库(RDBMSRDBMS)、)、结构化查询语言结构化查询语言(SQLSQL)、联机事务处)、联机事务处理(理(OLTPOLTP)、开放式数)、开放式数据库互联(据库互联(ODBCODBC)OracleOracle、IngresIngres、SybaseSybase、I
6、nformixInformix、IBMIBM、MicrosoftMicrosoft在记录级提供在记录级提供历史性的、动历史性的、动态数据信息态数据信息数据仓库数据仓库、决策支持决策支持(20(20世纪世纪9090年代年代) )“在新英格兰的分部在新英格兰的分部去年三月的销售额是去年三月的销售额是多少?波士顿据此可多少?波士顿据此可得出什么结论?得出什么结论?”联机分析处理(联机分析处理(OLAPOLAP)、)、多维数据库、数据仓库多维数据库、数据仓库PilotPilot、ComshareComshare、ArborArbor、CognosCognos、MicrostrategyMicrostr
7、ategy在各种层次上在各种层次上提供回溯的、提供回溯的、动态的数据信动态的数据信息息数据挖掘数据挖掘(2121世纪初世纪初正在流行)正在流行)“下个月波士顿的销下个月波士顿的销售会怎么样?为什售会怎么样?为什么?么?”高级算法、多处理器计高级算法、多处理器计算机、海量数据库算机、海量数据库PilotPilot、LockheedLockheed、IBMIBM、SGISGI、SASSAS等其等其他初创公司他初创公司提供预测性的提供预测性的信息信息6.1.6.1.4 4 从商业数据到商业信息的进化从商业数据到商业信息的进化6.6.2 2 数据挖掘的数据挖掘的定义定义6.6.2 2.1 .1 技术角
8、度的定义技术角度的定义 从技术角度来讲, 数据挖掘(Data Mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 国内首家在线实时交易电子商务公司 从事网上支付服务佼佼者从事专业网上支付服务的先行者 数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用。原始数据可以是结构化结构化,如关系数据库中的数据;也可以是半结构半结构化化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方
9、法可以是数学数学的,也可以是非数学是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。6.6.2 2 数据挖掘的数据挖掘的定义定义6.6.2 2. .2 2 商业角度的定义商业角度的定义 数据挖掘作为一种新数据挖掘作为一种新的商业信息处理技术的商业信息处理技术, 其其主要特点是对商业数据库主要特点是对商业数据库中的大量业务数据进行抽中的大量业务数据进行抽取、转换、分析和其他模取、转换、分析和其他模型化处理型化处理, 从中提取辅助从中提取辅助商业决策的关键性数据,商业决策的关键性数据,而且能够对将来的趋势和而且能够对将
10、来的趋势和行为进行预测,从而很好行为进行预测,从而很好地支持人们的决策。地支持人们的决策。数据挖掘数据挖掘商业角度的定义商业角度的定义 按企业既定业务目标,按企业既定业务目标,对大量的企业数据进行探对大量的企业数据进行探索和分析,揭示隐藏的、索和分析,揭示隐藏的、未知的或验证已知的规律未知的或验证已知的规律性,并进一步将其模型化性,并进一步将其模型化的先进有效的方法,以帮的先进有效的方法,以帮助企业的决策者调整市场助企业的决策者调整市场策略,减少风险,做出正策略,减少风险,做出正确的决策。确的决策。6.6.2 2 数据挖掘的数据挖掘的定义定义 为了统一认识,在为了统一认识,在1996年出版的权
11、威论文集知识发现与年出版的权威论文集知识发现与数据挖掘进展中,数据挖掘进展中,Fayyad、Piatetsky-Shapiro和和Smyth给出给出了了KDD和数据挖掘的最新定义,将二者加以区分。和数据挖掘的最新定义,将二者加以区分。 知识发现是识别出存在于数据库中有效的、新颖的、具有潜知识发现是识别出存在于数据库中有效的、新颖的、具有潜在价值的乃至最终可理解的模式的非平凡过程。在价值的乃至最终可理解的模式的非平凡过程。 数据挖掘是数据挖掘是KDD中通过特定的算法在可接受的计算效率限制中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。内生成特定模式的一个步骤。 6.6.2 2.
12、.3 3数据挖掘与知识发现数据挖掘与知识发现 观点一:观点一: 数据挖掘是数据挖掘是KDDKDD过程的一个关键步骤过程的一个关键步骤6.6.2 2 数据挖掘的数据挖掘的定义定义6.6.2 2. .3 3数据挖掘与知识发现数据挖掘与知识发现 观点一:观点一: 数据挖掘是数据挖掘是KDDKDD过程的一个关键步骤过程的一个关键步骤6.6.2 2 数据挖掘的数据挖掘的定义定义 这种观点得到大多数学者认同这种观点得到大多数学者认同,有它的合理性有它的合理性。虽然我们可虽然我们可以从数据仓库、以从数据仓库、WebWeb等源数据中挖掘知识,但是这些数据源都是等源数据中挖掘知识,但是这些数据源都是和数据库技术
13、相关的。数据仓库是由源数据库集成而来的,即使和数据库技术相关的。数据仓库是由源数据库集成而来的,即使是像是像WebWeb这样的数据源恐怕也离不开数据库技术来组织和存储抽这样的数据源恐怕也离不开数据库技术来组织和存储抽取的信息。因此取的信息。因此,KDDKDD是一个更广义的范畴,它包括数据清洗、是一个更广义的范畴,它包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式生成及评估等数据集成、数据选择、数据转换、数据挖掘、模式生成及评估等一系列步骤。这样,我们可以把一系列步骤。这样,我们可以把KDDKDD看作是一些基本功能构件的看作是一些基本功能构件的系统化协同工作系统,而数据挖掘则是这个系统
14、中的一个关键的系统化协同工作系统,而数据挖掘则是这个系统中的一个关键的部分。部分。 6.6.2 2. .3 3数据挖掘与知识发现数据挖掘与知识发现 观点一:观点一: 数据挖掘是数据挖掘是KDDKDD过程的一个关键步骤过程的一个关键步骤6.6.2 2 数据挖掘的数据挖掘的定义定义数据挖掘与数据挖掘与KDD含义相同含义相同 有些人认为,数据挖掘与有些人认为,数据挖掘与KDDKDD只是叫法不一样,它们的含只是叫法不一样,它们的含义基本相同。事实上,在现今的文献中,许多场合,如技术综义基本相同。事实上,在现今的文献中,许多场合,如技术综述等,这两个术语仍然不加区分地使用着。有人说,述等,这两个术语仍然
15、不加区分地使用着。有人说,KDDKDD在人在人工智能界更流行,而数据挖掘在数据库界使用更多。也有人说,工智能界更流行,而数据挖掘在数据库界使用更多。也有人说,一般在研究领域被称作一般在研究领域被称作KDDKDD,在工程领域则称之为数据挖掘。,在工程领域则称之为数据挖掘。所以,数据挖掘定义有广义和狭义之分。从广义的观点,数据所以,数据挖掘定义有广义和狭义之分。从广义的观点,数据挖掘是从大型数据集(挖掘是从大型数据集(可能可能是不完全的、有噪声的、不确定性是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道、对
16、决策有用的知识的过程。从这种狭义的观点上,我们可道、对决策有用的知识的过程。从这种狭义的观点上,我们可以定义数据挖掘时从特定形式的数据集中提炼知识的过程。以定义数据挖掘时从特定形式的数据集中提炼知识的过程。 6.6.2 2. .3 3数据挖掘与知识发现数据挖掘与知识发现 观点二:观点二: 6.6.2 2 数据挖掘的数据挖掘的定义定义KDD看成数据挖掘的一个特例看成数据挖掘的一个特例 既然数据挖掘系统可以从关系型数据库、事务数据库、数既然数据挖掘系统可以从关系型数据库、事务数据库、数据仓库、空间数据库、文本数据以及诸如据仓库、空间数据库、文本数据以及诸如WebWeb等多种数据组织形等多种数据组织
17、形式中挖掘知识,那么数据库中的知识发现只是数据挖掘的一个方式中挖掘知识,那么数据库中的知识发现只是数据挖掘的一个方面。这是早期比较流行的观点,在许多文献可以看到这种说法。面。这是早期比较流行的观点,在许多文献可以看到这种说法。因此,从这个意义说,数据挖掘就是从数据库、数据仓库以及其因此,从这个意义说,数据挖掘就是从数据库、数据仓库以及其他数据存储方式中挖掘有用知识的过程。这种描述强调了数据挖他数据存储方式中挖掘有用知识的过程。这种描述强调了数据挖掘在源数据形式上的多样性。掘在源数据形式上的多样性。6.6.2 2. .3 3数据挖掘与知识发现数据挖掘与知识发现 观点三:观点三: 6.6.3 3
18、数据挖掘的数据挖掘的分类分类 数据挖掘是一个交叉学科领域数据挖掘是一个交叉学科领域, ,受多个学科影响受多个学科影响, ,包括包括数据库技术、统计学、机器学习、可视化和信息科学等。数据库技术、统计学、机器学习、可视化和信息科学等。根据不同的标准,分类不同。根据不同的标准,分类不同。数据挖掘数据挖掘数据库技术统计学机器学习模式识别信息科学其他技术可视化6.6.3 3 数据挖掘的数据挖掘的分类分类6.3.16.3.1根据挖掘的数据库类型分类根据挖掘的数据库类型分类 数据挖掘系统可以根据挖掘的数据库类型分类。数据数据挖掘系统可以根据挖掘的数据库类型分类。数据库系统本身可以根据不同的标准(如数据模型、
19、数据类型库系统本身可以根据不同的标准(如数据模型、数据类型或所涉及的应用)分类,每一类可能需要自己的数据挖掘或所涉及的应用)分类,每一类可能需要自己的数据挖掘技术。这样,数据挖掘系统就可以相应分类。技术。这样,数据挖掘系统就可以相应分类。 按照数据模型分类,可分为关系型、事务型、面向对按照数据模型分类,可分为关系型、事务型、面向对象型、对象象型、对象- -关系型或数据仓库的数据挖掘系统。关系型或数据仓库的数据挖掘系统。 按照所处理数据的特定类型分类,可分为空间型、时按照所处理数据的特定类型分类,可分为空间型、时间序列型、文本型、流数据型、多媒体型的数据挖掘系统,间序列型、文本型、流数据型、多媒
20、体型的数据挖掘系统,或基于国际互联网或基于国际互联网WWWWWW的数据挖掘系统等。的数据挖掘系统等。 关系数据库系统是支持关系模型的数据库系统,它是表的汇关系数据库系统是支持关系模型的数据库系统,它是表的汇集。关系数据库的表采用二维表格来存储数据,是一种按行与集。关系数据库的表采用二维表格来存储数据,是一种按行与列排列的具有相关信息的逻辑组,它类似于工作单表。一个数列排列的具有相关信息的逻辑组,它类似于工作单表。一个数据库可以包含任意多个数据表。每个表都被赋予唯一的名字。据库可以包含任意多个数据表。每个表都被赋予唯一的名字。每个表包含一组属性(列或字段),通常存放大量元组(行或每个表包含一组属
21、性(列或字段),通常存放大量元组(行或记录)。关系表中的每个元组代表一个对象,被唯一的关键字记录)。关系表中的每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构造语义数据标识,并被一组属性值描述。通常为关系数据库构造语义数据模型,如实体模型,如实体联系(联系(ERER)模型。)模型。ERER数据模型将数据库表示成数据模型将数据库表示成一组实体和它们之间的联系。一组实体和它们之间的联系。关系数据可以通过数据库查询访问。数据库查询使用如关系数据可以通过数据库查询访问。数据库查询使用如SQLSQL这样的关系查询语言或借助于图形用户界面书写。这样的关系查询语言或借助于图形
22、用户界面书写。关系型数据挖掘关系型数据挖掘 事务数据库的数据挖掘就是从商业的交易数据中发现一些事务数据库的数据挖掘就是从商业的交易数据中发现一些规律。一般地,事务数据库由一个文件组成,其中每个记录代规律。一般地,事务数据库由一个文件组成,其中每个记录代表一个事务或交易。通常,一个事务包含一个唯一的事务标识表一个事务或交易。通常,一个事务包含一个唯一的事务标识号号 (transaction ID) (transaction ID) ,和一个组成事务的项的列表(如,在商店,和一个组成事务的项的列表(如,在商店购买的商品)。事务数据库可能有一些与之相关联的附加表,购买的商品)。事务数据库可能有一些与
23、之相关联的附加表,包含关于销售的其他信息,如事务的日期、顾客的包含关于销售的其他信息,如事务的日期、顾客的 ID ID 号、销售号、销售者的者的 ID ID 号、销售分店,等等。事务数据库的数据挖掘经常应用号、销售分店,等等。事务数据库的数据挖掘经常应用在购物篮数据分析中,可以回答这样的问题:在购物篮数据分析中,可以回答这样的问题:“商场里哪些商品商场里哪些商品适合摆放在一起进行销售?适合摆放在一起进行销售?”。事务型数据挖掘事务型数据挖掘 面向对象的数据库就是基于面向对象的思想进行设计的数面向对象的数据库就是基于面向对象的思想进行设计的数据库类型,它在传统数据库中引入了面向对象的概念,如对象
24、据库类型,它在传统数据库中引入了面向对象的概念,如对象标识、封装、继承、多态性等,以支持复杂应用领域中的数据标识、封装、继承、多态性等,以支持复杂应用领域中的数据建模要求。建模要求。 面向对象数据库的数据挖掘可用于发现基于对象层次的知面向对象数据库的数据挖掘可用于发现基于对象层次的知识。事实上,面向对象数据库的类层次结构对描述知识发现的识。事实上,面向对象数据库的类层次结构对描述知识发现的背景知识提供了自然的支持,其继承和封装机制也能支持数据背景知识提供了自然的支持,其继承和封装机制也能支持数据挖掘的模块化、可重用性和多态性。挖掘的模块化、可重用性和多态性。面向对象型数据挖掘面向对象型数据挖掘
25、 对象对象关系数据库基于对象关系数据库基于对象关系数据模型构造。这种模关系数据模型构造。这种模型通过提供处理复杂对象的丰富数据类型和对象定位,扩充关型通过提供处理复杂对象的丰富数据类型和对象定位,扩充关系模型。因为大部分复杂的数据库应用需要处理复杂的对象和系模型。因为大部分复杂的数据库应用需要处理复杂的对象和结构,对象结构,对象关系数据库在业界和应用中日趋流行。关系数据库在业界和应用中日趋流行。 从概念上讲,对象从概念上讲,对象关系数据库模型继承了面向对象数据关系数据库模型继承了面向对象数据库的基本概念。其中,用一般术语,把每个实体看作一个对象。库的基本概念。其中,用一般术语,把每个实体看作一
26、个对象。涉及一个对象的数据和代码封装在一个单元中。涉及一个对象的数据和代码封装在一个单元中。 对于对象对于对象关系系统中的数据挖掘,需要开发新的技术,关系系统中的数据挖掘,需要开发新的技术,处理复杂的对象结构、复杂的数据类型、类和子类层次结构、处理复杂的对象结构、复杂的数据类型、类和子类层次结构、特性继承以及方法和过程。特性继承以及方法和过程。对象关系型数据挖掘对象关系型数据挖掘 数据仓库是一个面向主题的、集成的、随时间不断变化的、数据仓库是一个面向主题的、集成的、随时间不断变化的、稳定的数据集合,它用于支持企业或组织的决策分析处理。稳定的数据集合,它用于支持企业或组织的决策分析处理。 数据挖
27、掘技术已经成为数据仓库应用中极为重要和相对独数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的工具。数据挖掘和数据仓库是融合与互动发展的。一方面,立的工具。数据挖掘和数据仓库是融合与互动发展的。一方面,由于数据仓库中数据是经过整理和集成的,简化了数据挖掘过由于数据仓库中数据是经过整理和集成的,简化了数据挖掘过程中的重要步骤,提高了数据挖掘的效率和能力,确保数据挖程中的重要步骤,提高了数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。另一方面,在数据仓库中,掘中数据来源的广泛性和完整性。另一方面,在数据仓库中,数据挖掘比多维分析要更进一步。例如,如果管理人员要求比数据挖掘比多维分
28、析要更进一步。例如,如果管理人员要求比较某产品在各地区过去一年的销量,可以通过多维分析得到答较某产品在各地区过去一年的销量,可以通过多维分析得到答案。如果管理人员想要预测该产品在未来一年的销量,就需要案。如果管理人员想要预测该产品在未来一年的销量,就需要利用数据挖掘工具。另外,数据仓库的特殊性也对数据挖掘提利用数据挖掘工具。另外,数据仓库的特殊性也对数据挖掘提出了更高的要求,如算法的执行效率、知识的动态维护等。出了更高的要求,如算法的执行效率、知识的动态维护等。数据仓库的数据挖掘数据仓库的数据挖掘 空间数据库存是一种应用于地理空间数据处理与信息分析空间数据库存是一种应用于地理空间数据处理与信息
29、分析领域的具有工程性质的数据库领域的具有工程性质的数据库, ,它所管理的对象主要是地理空间它所管理的对象主要是地理空间数据数据, ,包括空间数据和非空间数据。包括空间数据和非空间数据。 随着随着GISGIS技术在各个行业的应用以及数据挖掘、空间数据采技术在各个行业的应用以及数据挖掘、空间数据采集技术、数据库技术的迅速发展,对从空间数据库发现隐含识集技术、数据库技术的迅速发展,对从空间数据库发现隐含识的需求日益增长,从而出现了用于在空间数据库中进行知识发的需求日益增长,从而出现了用于在空间数据库中进行知识发现的技术现的技术空间数据挖掘空间数据挖掘(Spatial Data Mining)(Spa
30、tial Data Mining)。空间数据挖。空间数据挖掘是从空间数据库中提取隐含的、用户感兴趣的空间和非空间掘是从空间数据库中提取隐含的、用户感兴趣的空间和非空间模式和普遍特征的过程。空间数据挖掘需要综合数据挖掘与空模式和普遍特征的过程。空间数据挖掘需要综合数据挖掘与空间数据库技术。它可用于对空间数据的理解,空间关系和空间间数据库技术。它可用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现,空间知识库的构造,空间数据库与非空间数据间关系的发现,空间知识库的构造,空间数据库的重组和空间查询的优化。的重组和空间查询的优化。空间数据库数据挖掘空间数据库数据挖掘 时间数据库通常存放包含时
31、间相关属性的关系数据。这些时间数据库通常存放包含时间相关属性的关系数据。这些属性可能涉及若干时间标签,每个都具有不同的语义。属性可能涉及若干时间标签,每个都具有不同的语义。 序列数据库存放具有或不具有具体时间概念的有序事件的序列数据库存放具有或不具有具体时间概念的有序事件的序列。如顾客购物序列、序列。如顾客购物序列、WebWeb点击流和生物学序列。点击流和生物学序列。 时序数据库是指由随时间变化的序列值或事件组成的数据时序数据库是指由随时间变化的序列值或事件组成的数据库。值通常是在等时间间隔测得的数据。很多应用中时序数据库。值通常是在等时间间隔测得的数据。很多应用中时序数据库很普遍,如股票市场
32、的每日波动,动态产品加工过程,科学库很普遍,如股票市场的每日波动,动态产品加工过程,科学实验,医疗,等等。实验,医疗,等等。时间序列数据库时间序列数据库 在现实世界中,可获取的大部分信息是存储在文本数据库在现实世界中,可获取的大部分信息是存储在文本数据库(或文档数据库)中的,由来自各种数据源(如新闻文章、研(或文档数据库)中的,由来自各种数据源(如新闻文章、研究论文、书籍、数字图书馆、电子邮件消息和究论文、书籍、数字图书馆、电子邮件消息和 Web Web 页面)的页面)的大量文档组成。大量文档组成。 传统的信息检索技术已不适应日益增加的大量文本数据处传统的信息检索技术已不适应日益增加的大量文本
33、数据处理的需要。典型的大量文档中只有很少一部分与某一个体或用理的需要。典型的大量文档中只有很少一部分与某一个体或用户相关。而不清楚文档中的内容,就很难形成有效的查询,从户相关。而不清楚文档中的内容,就很难形成有效的查询,从数据中分析和提取有用信息。用户需要有关的工具完成不同文数据中分析和提取有用信息。用户需要有关的工具完成不同文档的比较,以及文档重要性和相关性排列,或找出多文档的模档的比较,以及文档重要性和相关性排列,或找出多文档的模式或趋势。因此,文档挖掘就成为数据挖掘中一个日益流行而式或趋势。因此,文档挖掘就成为数据挖掘中一个日益流行而重要的研究课题。重要的研究课题。文本数据库数据挖掘文本
34、数据库数据挖掘 多媒体数据挖掘多媒体数据挖掘MDM (Multimedia Data Mining) MDM (Multimedia Data Mining) 是目前国是目前国际上数据库、多媒体技术和信息决策领域最前沿的研究方向之际上数据库、多媒体技术和信息决策领域最前沿的研究方向之一一, , 是数据挖掘的一个新兴而且富有挑战性的领域。是数据挖掘的一个新兴而且富有挑战性的领域。 多媒体数据库是指存储和管理大量多媒体对象的数据库,如多媒体数据库是指存储和管理大量多媒体对象的数据库,如音频数据、图像数据、视频数据、序列数据以及超文本数据(包音频数据、图像数据、视频数据、序列数据以及超文本数据(包含
35、文本、文本标记和链接)。含文本、文本标记和链接)。 多媒体数据包括文本、图像、视频、音频等多媒体数据包括文本、图像、视频、音频等, ,文本和图像是静文本和图像是静态媒体态媒体, ,视频和音频是连续媒体。数据挖掘中常把数据看作相似视频和音频是连续媒体。数据挖掘中常把数据看作相似的但相互独立实体的集合。数据挖掘的目的是寻找实体之间普遍的但相互独立实体的集合。数据挖掘的目的是寻找实体之间普遍存在的模式。多媒体数据很难纳入这样的框架。所以,不能将多存在的模式。多媒体数据很难纳入这样的框架。所以,不能将多媒体挖掘与传统的数据挖掘等同起来。媒体挖掘与传统的数据挖掘等同起来。多媒体数据库数据挖掘多媒体数据库
36、数据挖掘 Web Web数据库,就是能将数据库技术与数据库,就是能将数据库技术与WebWeb技术很好地融合技术很好地融合在一起,使数据库系统成为在一起,使数据库系统成为WebWeb的重要有机组成部分的数据库,的重要有机组成部分的数据库,能够实现数据库与网络技术的无缝有机结合。能够实现数据库与网络技术的无缝有机结合。 Web Web挖掘指使用数据挖掘技术在挖掘指使用数据挖掘技术在WWWWWW数据中发现潜在的、数据中发现潜在的、有用的模式或信息。有用的模式或信息。WebWeb挖掘研究覆盖了多个研究领域,包括挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习数据库
37、技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。与传统数据和数据仓库相比,和神经网络等。与传统数据和数据仓库相比,WebWeb上的信息是上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以以很难直接以WebWeb网页上的数据进行数据挖掘,而必须经过必网页上的数据进行数据挖掘,而必须经过必要的数据处理。要的数据处理。Web数据挖掘数据挖掘6.6.3 3 数据挖掘的数据挖掘的分类分类6.3.6.3.2 2根据挖掘的根据挖掘的知识类型知识类型分类分类 根据所挖掘的知识类型分类根据所挖掘的知识类型分类即根据数据
38、挖掘的功能即根据数据挖掘的功能, ,如特征化、区分、关联、分类、聚类、孤立点分析和演变如特征化、区分、关联、分类、聚类、孤立点分析和演变分析、偏差分析、类似性分析等分类。一个综合的数据挖分析、偏差分析、类似性分析等分类。一个综合的数据挖掘系统通常提供多种和掘系统通常提供多种和/ /或集成的数据挖掘功能。或集成的数据挖掘功能。 此外此外, ,数据挖掘系统可以根据所挖掘的知识的粒度或数据挖掘系统可以根据所挖掘的知识的粒度或抽象层进行区分抽象层进行区分, ,包括概化知识包括概化知识( (在高抽象层在高抽象层) )、原始层知识、原始层知识( (在原始数据层在原始数据层) )或多层知识或多层知识( (考
39、虑若干抽象层考虑若干抽象层) ) 。一个高级。一个高级数据挖掘系统应当支持多抽象层的知识发现。数据挖掘系统应当支持多抽象层的知识发现。 数据挖掘系统还可以分类为挖掘数据规则性数据挖掘系统还可以分类为挖掘数据规则性( (通常出通常出现的模式现的模式) ) 和挖掘数据的奇异性和挖掘数据的奇异性( (如异常或孤立点如异常或孤立点) ) 。一般。一般地,概念描述、关联和相关分析、分类、预测和聚类挖掘地,概念描述、关联和相关分析、分类、预测和聚类挖掘数据的规则性,将离群点作为噪声排除。这些方法也能帮数据的规则性,将离群点作为噪声排除。这些方法也能帮助检测离群点。助检测离群点。 6.6.3 3 数据挖掘的
40、数据挖掘的分类分类6.3.6.3.3 3根据挖掘根据挖掘所用的技术所用的技术分类分类 数据挖掘系统可以根据所用的数据挖掘技术分类。这数据挖掘系统可以根据所用的数据挖掘技术分类。这些技术可以根据用户交互程度分类,可粗分为:自动系统、些技术可以根据用户交互程度分类,可粗分为:自动系统、交互探查系统、查询驱动系统等。交互探查系统、查询驱动系统等。 根据所用的数据分析方法,可粗分为:机器学习方法、根据所用的数据分析方法,可粗分为:机器学习方法、统计方法、神经网络方法、统计方法、神经网络方法、数据库方法数据库方法等。等。 复杂的数据挖掘系统通常采用多种数据挖掘技术,或复杂的数据挖掘系统通常采用多种数据挖
41、掘技术,或采用有效的、集成的技术,结合一些方法的优点。采用有效的、集成的技术,结合一些方法的优点。 在在机器学习机器学习中,可细分为:归纳学习方法中,可细分为:归纳学习方法( (决策树、规则归决策树、规则归纳等纳等) )、基于范例学习、遗传算法等。、基于范例学习、遗传算法等。在在统计方法统计方法中,可细分为:回归分析中,可细分为:回归分析( (多元回归、自回归等多元回归、自回归等) )、判别分析判别分析( (贝叶斯判别、费歇尔判别、非参数判别等贝叶斯判别、费歇尔判别、非参数判别等) )、聚类分析、聚类分析( (系统聚类、动态聚类等系统聚类、动态聚类等) )、探索性分析、探索性分析( (主元分析
42、法、相关分析法主元分析法、相关分析法等等) )等。等。在在神经网络方法神经网络方法中,可细分为:前向神经网络中,可细分为:前向神经网络(BP(BP算法等算法等) )、自组织神经网络自组织神经网络( (自组织特征映射、竞争学习等自组织特征映射、竞争学习等) )等。等。数据库方法数据库方法主要是多维数据分析或主要是多维数据分析或OLAP OLAP 方法,另外还有面方法,另外还有面向属性的归纳方法。向属性的归纳方法。6.6.3 3 数据挖掘的数据挖掘的分类分类6.3.6.3.4 4根据挖掘的根据挖掘的应用应用分类分类 数据挖掘系统也可以根据其应用分类。例如数据挖掘系统也可以根据其应用分类。例如, ,
43、可能有可能有些数据挖掘系统特别适合金融、教育、电信、生命科学、些数据挖掘系统特别适合金融、教育、电信、生命科学、股票市场、电子通讯等。不同的应用通常需要集成对于该股票市场、电子通讯等。不同的应用通常需要集成对于该应用特别有效的方法。因此应用特别有效的方法。因此, ,普通的、泛化的、全能的数普通的、泛化的、全能的数据挖掘系统可能并不适合特定领域的挖掘任务。据挖掘系统可能并不适合特定领域的挖掘任务。 电信行业的数据挖掘,如恶意欠费和欺诈行为分析;电信行业的数据挖掘,如恶意欠费和欺诈行为分析;金融业的数据挖掘,如信用卡审批和管理以及金融诈骗检测等;金融业的数据挖掘,如信用卡审批和管理以及金融诈骗检测
44、等;保险业的数据挖掘,如风险评估和保险欺诈分析;保险业的数据挖掘,如风险评估和保险欺诈分析;商业的数据挖掘,如目标定位和调整商品布局;商业的数据挖掘,如目标定位和调整商品布局;制造业的数据挖掘,如优化制造流程;制造业的数据挖掘,如优化制造流程;体育界的数据挖掘,如体育界的数据挖掘,如NBANBA的球员个人技术数据分析;的球员个人技术数据分析;天文学领域的数据挖掘,如天文图像分析;天文学领域的数据挖掘,如天文图像分析;医药卫生领域的数据挖掘,如分析基因组合发现新药;医药卫生领域的数据挖掘,如分析基因组合发现新药; 交通运输领域的数据挖掘,如优化航班路线及人员配备。交通运输领域的数据挖掘,如优化航
45、班路线及人员配备。6.6.4 4 数据挖掘的数据挖掘的任务任务 按照数据挖掘作用模式来划分按照数据挖掘作用模式来划分, , 数据挖掘的任务可以数据挖掘的任务可以分为两大类分为两大类: : 预测型模式预测型模式( ( 如如: :序列模式、分类模式、回归序列模式、分类模式、回归模式、偏差分析模式等模式、偏差分析模式等) ) 和和描述型模式描述型模式( ( 如如: : 聚类模式、关聚类模式、关联模式和序列模式等联模式和序列模式等) ) 。 预测性任务在当前数据上进行推断预测性任务在当前数据上进行推断, , 以进行预测。预以进行预测。预测型建模可能是基于使用其它的历史数据。测型建模可能是基于使用其它的
46、历史数据。 描述性任务刻画数据库中数据的一般特征描述性任务刻画数据库中数据的一般特征,它是对数它是对数据中的模式或关系进行辨识据中的模式或关系进行辨识, , 与预测型模型不同与预测型模型不同, , 描述型模描述型模式式提供了一种探索被分析数据性质的方法提供了一种探索被分析数据性质的方法, , 而不是预测新而不是预测新的性质。的性质。 6.6.4 4 数据挖掘的数据挖掘的任务任务 6.4.1 6.4.1关联分析关联分析 关联分析关联分析(Association Analysis)(Association Analysis)是要发现大量数据中项集之是要发现大量数据中项集之间有趣的关联或相关联系间有
47、趣的关联或相关联系, , 从而为某些决策提供必要支持从而为某些决策提供必要支持, , 它是它是数据库中存在的一类重要的、可被发现的知识数据库中存在的一类重要的、可被发现的知识, , 被广泛应用于被广泛应用于决策支持系统。它展示了数据间未知的依赖关系决策支持系统。它展示了数据间未知的依赖关系, , 根据这种关根据这种关联性就可从某一数据对象的信息来推断另一数据对象的信息。联性就可从某一数据对象的信息来推断另一数据对象的信息。关联性是一种统计意义上的关系关联性是一种统计意义上的关系, , 并以置信度因子和支持度因并以置信度因子和支持度因子衡量关联的程度。通常须设定最小的置信度和支持度作为阀子衡量关
48、联的程度。通常须设定最小的置信度和支持度作为阀值。值。 例如例如, , 从一家超市的数据仓库中从一家超市的数据仓库中, , 可以发现的一条典型关联可以发现的一条典型关联规则可能是规则可能是“买面包和黄油的顾客十有八九也买牛奶买面包和黄油的顾客十有八九也买牛奶”, ”, 也可也可能是能是“买食品的顾客几乎都用信用卡买食品的顾客几乎都用信用卡”, ”, 这些发现对于商家实这些发现对于商家实施客户化的销售计划和策略是非常有用的。施客户化的销售计划和策略是非常有用的。6.6.4 4 数据挖掘的数据挖掘的任务任务 6.4.2 6.4.2分类分析分类分析 分类分析就是通过分析训练集中的数据分类分析就是通过
49、分析训练集中的数据, , 为每个类别做出为每个类别做出准确的描述或建立分析模型或挖掘出分类规则准确的描述或建立分析模型或挖掘出分类规则, , 它代表了这类它代表了这类数据的整体信息数据的整体信息, , 即该类的内涵描述即该类的内涵描述, , 一般用规则或决策树模式一般用规则或决策树模式表示;再利用所发现的模式表示;再利用所发现的模式, , 参照新的数据的特征变量参照新的数据的特征变量, , 将其映将其映射入已知的类别。射入已知的类别。 建立分类决策树的方法建立分类决策树的方法, , 典型的有典型的有ID3ID3、C4.5C4.5和和IBLEIBLE等方等方法。建立分类规则的方法法。建立分类规则
50、的方法, , 典型的有典型的有AQ AQ 方法方法, , 粗集方法和遗传粗集方法和遗传分类器等。分类器等。 分类可用于规则描述和预测分类可用于规则描述和预测, , 如电信部门根据以前的数如电信部门根据以前的数据将客户分成了不同的类别据将客户分成了不同的类别, , 现在就可以根据这些类别来区分现在就可以根据这些类别来区分申请上网的客户是哪一类申请上网的客户是哪一类, , 以采取不同的营销方案以采取不同的营销方案; ; 并可预测银并可预测银行托收的客户应为高配置策略。行托收的客户应为高配置策略。6.6.4 4 数据挖掘的数据挖掘的任务任务 6.4.3 6.4.3聚类分析聚类分析 聚类分析就是按一定