《(精品)《数据仓库与数据挖掘》(演示稿)第6章.ppt》由会员分享,可在线阅读,更多相关《(精品)《数据仓库与数据挖掘》(演示稿)第6章.ppt(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1复旦大学复旦大学 软件学院软件学院2004.042004.04数据仓库与数据挖掘数据仓库与数据挖掘(第(第6章)章)2第第6章章数据挖掘的基本概念与常用方法数据挖掘的基本概念与常用方法主要内容主要内容从从OLTP到数据挖掘到数据挖掘联机分析处理(联机分析处理(OLAP)数据挖掘的基本概念数据挖掘的基本概念数据挖掘过程数据挖掘过程数据挖掘的常用方法数据挖掘的常用方法数据挖掘的类型数据挖掘的类型3从从OLTP到数据挖掘到数据挖掘数据库应用的规模和深度数据库应用的规模和深度点点 线线 面面 互联网互联网 在线分析处理在线分析处理(OLAP)在线事务处理在线事务处理 决策支持决策支持(DS)(OLT
2、P)数据挖掘数据挖掘(Data Mining)4事务型处理与分析型处理事务型处理与分析型处理事务型处理:即操作型处理,是指对数据库的联事务型处理:即操作型处理,是指对数据库的联机操作处理。事务型处理是用来协助企业对响应机操作处理。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组纪录的驱动、面向应用的,通常是对一个或一组纪录的增、删、改以及简单查询等。事务型处理的应用增、删、改以及简单查询等。事务型处理的应用程序和数据是紧紧围绕着所管理的事件来构造的。程序和数据是紧紧围绕着所管理的事件来构造的。
3、在事务型处理环境中,数据库要求能支持日常事在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。而每次操作处理的时间短。5分析型处理分析型处理分析型处理:用于管理人员的决策分析,例如分析型处理:用于管理人员的决策分析,例如DSS、EIS、和多维分析等。它帮助决策者分、和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。在分要访问大量的历史数据,支持复杂的查询。在分析型处理中,并不是对从事务型处理环境析型
4、处理中,并不是对从事务型处理环境 中得中得到的细节数据进行分析。细节数据量太大,会严到的细节数据进行分析。细节数据量太大,会严重影响分析的效率,而且太多的细节数据不利于重影响分析的效率,而且太多的细节数据不利于分析人员将注意力集中于有用的信息。分析型处分析人员将注意力集中于有用的信息。分析型处理过程中经常用到外部数据,这部分数据不是由理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数事务型处理系统产生的,而是来自于其他外部数据源。据源。6事务型处理数据和分析型处理数据的区别事务型处理数据和分析型处理数据的区别 事务型处理数据事务型处理数据 分析型处理数据分析型
5、处理数据细节的细节的 综合的,或提炼的综合的,或提炼的在存取瞬间是准确的在存取瞬间是准确的 代表过去的数据代表过去的数据可更新可更新 不可更新,只读的不可更新,只读的操作需求事先可知道操作需求事先可知道 操作需求事先不知操作需求事先不知生命周期符合生命周期符合SDLC完全不同的生命周期完全不同的生命周期对性能要求高对性能要求高 对性能要求宽松对性能要求宽松一个时刻操作一个单元一个时刻操作一个单元一个时刻操作一个一个时刻操作一个事务驱动事务驱动分析驱动分析驱动面向应用面向应用面向分析面向分析一次操作数据量小一次操作数据量小一次操作数据量大一次操作数据量大支持日常操作支持日常操作支持管理需求支持管
6、理需求 7数据库系统的局限性数据库系统的局限性E-R模型适于描述高度结构化的日常事务细节数据,模型适于描述高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。表现为静态数据,不需直接更新,但可周期性刷新。决策分析型数据是多维性,分析内容复杂。决策分析型数据是多维性,分析内容复杂。在事务处理环境中,决策者可能并不关心具体的细节在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析
7、效率,另一方面这些细节数据一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。会分散决策者的注意力。8数据库系统的局限性数据库系统的局限性当事务型处理环境和分析型处理环境在同一个数据当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。行几个小时,从而消耗大量的系统资源。决策型分析数据的数据量大,这些数据有来自企业决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外
8、部的。来自企业外部的数内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能据中的一些非结构化数据,数据库系统常常是无能为力的。为力的。9多库系统的限制多库系统的限制可用性:源站点或通信网络故障将导致系统瘫可用性:源站点或通信网络故障将导致系统瘫痪痪,源站点不能通过网络在线联入多库系统源站点不能通过网络在线联入多库系统;响应速度:全局查询多级转换和通信传输响应速度:全局查询多级转换和通信
9、传输,延延迟和低层效率影响响应速度迟和低层效率影响响应速度;系统性能系统性能:总体性能取决于源站点中性能最低总体性能取决于源站点中性能最低的系统的系统,影响系统性能的发挥影响系统性能的发挥;系统开销:每次查询要启动多个局部系统系统开销:每次查询要启动多个局部系统,通通信和运行开销大信和运行开销大 10数据仓库系统的结构数据仓库系统的结构最终用户最终用户可视化工具可视化工具数据挖掘工具数据挖掘工具多维分析工具多维分析工具多维数据多维数据数数据据仓仓库库工工具具层层数数据据仓仓库库层层11 数据仓库工具数据仓库工具查询型工具:对分析结果(发展趋势或模式总结)的查询查询型工具:对分析结果(发展趋势或
10、模式总结)的查询 简单的多维查询简单的多维查询+查询报告工具查询报告工具+RBDMS验证型工具:用户提出假设,利用各种工具,通过反复,递归验证型工具:用户提出假设,利用各种工具,通过反复,递归 的检索查询以验证或否定自己的假设,从数据仓的检索查询以验证或否定自己的假设,从数据仓 库中发现事实库中发现事实多维分析工具(多维分析工具(OLAP):可为查询,报告,图形以及基本的多可为查询,报告,图形以及基本的多维操作提提供接口维操作提提供接口挖掘型工具:从大量数据中发现数据模式,预测趋势和行为挖掘型工具:从大量数据中发现数据模式,预测趋势和行为 的数据挖掘工具的数据挖掘工具12联机分析处理联机分析处
11、理(On-Line Analytical Processing,OLAP)OLAP的概念:是一类软件技术,它的概念:是一类软件技术,它针对特定针对特定问题的联机数据访问和分析,问题的联机数据访问和分析,可使决策者通过可使决策者通过对信息的多种观察角度进行快速、一致和交互对信息的多种观察角度进行快速、一致和交互的存取,以获得对信息的深入理解。的存取,以获得对信息的深入理解。,通过对,通过对信息的信息的 多种观察形式进行交互存取。多种观察形式进行交互存取。OLAP的特点:的特点:在线:快速响应、交互操作(可由在线:快速响应、交互操作(可由C/S结构实现)结构实现)多维:多维:信息已变换,以信息已变
12、换,以在不同维观察数据在不同维观察数据13联机分析处理联机分析处理绝对模型:静态数据分析,比较历史数据或行为描述绝对模型:静态数据分析,比较历史数据或行为描述过去的事实,一般查询表格工具。过去的事实,一般查询表格工具。解释模型:静态数据分析,利用系统已有的多层次的解释模型:静态数据分析,利用系统已有的多层次的综合路径,(需临时建立多维视图)找出事实发生的综合路径,(需临时建立多维视图)找出事实发生的原因,工具渐多。原因,工具渐多。思考模型:动态数据分析,说明在一维或多维上引入思考模型:动态数据分析,说明在一维或多维上引入变量或参数,将会发生什么变化,支持工具较少。变量或参数,将会发生什么变化,
13、支持工具较少。动态模型:高级动态数据分析,用以表示在多维上需动态模型:高级动态数据分析,用以表示在多维上需要引用哪些变量或参数,以及引入后产生的结果,支要引用哪些变量或参数,以及引入后产生的结果,支持工具较少。持工具较少。14联机分析处理的基本概念概念联机分析处理的基本概念概念变量:数值度量指标变量:数值度量指标维:观察数据的角度维:观察数据的角度维的层次:一个维内部数据的概括程度维的层次:一个维内部数据的概括程度维成员:维的一个取值(多层)维成员:维的一个取值(多层)多维数组:多维数组:(维(维1,维,维2,维,维n,变量),变量)数据单元:多维数组的取值数据单元:多维数组的取值(维成员(维
14、成员1,维成员,维成员2,维成员,维成员n,变量值),变量值)15多维分析的基本操作多维分析的基本操作切片(切片(Slice):选定多维数据集的一个维的成:选定多维数据集的一个维的成员。如:(地区,时间,产品)员。如:(地区,时间,产品)(地区,时间,服装)(地区,时间,服装)切块切块 (Dice):选定多维数据集的两个或两个:选定多维数据集的两个或两个以上维的成员。如:(地区,时间,产品)以上维的成员。如:(地区,时间,产品)(上海,时间,服装)(上海,时间,服装)旋转(旋转(Rotate):改变多维数据集显示的维):改变多维数据集显示的维方向方向其他操作:钻过(其他操作:钻过(Drill-
15、across)、钻透)、钻透(Drill-through)以及统计类计算)以及统计类计算16OLAP的准则的准则(E.F.Codd 1993)准则准则1:OLAP模型必须提供多维概念视图模型必须提供多维概念视图准则准则2:透明性准则分析工具位置对用户透明透明性准则分析工具位置对用户透明准则准则3:存取能力准则开放、高效、异构存取能力准则开放、高效、异构准则准则4:稳定的报表功能报表能力和响应速度稳定的报表功能报表能力和响应速度不应有明显降低不应有明显降低准则准则5:客户客户/服务器体系结构两层或三层服务器体系结构两层或三层C/S结构,智能化服务结构,智能化服务准则准则6:维的等同性准则每一维在
16、结构和操作维的等同性准则每一维在结构和操作功能上等同功能上等同17OLAP的准则的准则(E.F.Codd 1993)准则准则7:动态的稀疏矩阵处理准则动态的稀疏矩阵处理准则OLAP服务器的服务器的物理结构适用于特定的发现模式,能提供优化的稀疏物理结构适用于特定的发现模式,能提供优化的稀疏矩阵处理(有效存储数据)矩阵处理(有效存储数据)准则准则8:多用户支持能力准则并发访问、数据完整多用户支持能力准则并发访问、数据完整性、安全性性、安全性准则准则9:非受限的跨维操作所有维的生成、处理平非受限的跨维操作所有维的生成、处理平等,能处理维间相关计算等,能处理维间相关计算准则准则10:直观的数据操纵数据
17、操作直观易懂直观的数据操纵数据操作直观易懂准则准则11:灵活的报表生成操作、分析、综合、查看灵活的报表生成操作、分析、综合、查看数据按需要依次排列数据按需要依次排列准则准则12:不受限维与聚集层次通用分析模型至少不受限维与聚集层次通用分析模型至少15个维,任意定义聚集和聚集层次个维,任意定义聚集和聚集层次18基于多维数据库基于多维数据库(MDDB)的的OLAP MOLAPOLAP服务器:存储服务器:存储OLAP服务软件和多维数据库服务软件和多维数据库MDDB存储:采用存储:采用“超立方超立方体体”形式形式MDDB存取存取:多维操作:多维操作DBDW多维视图多维视图 基础数据基础数据 计算结果计
18、算结果多维数据多维数据库引擎库引擎客户客户多维多维存取存取19基于多维数据库基于多维数据库(MDDB)的的OLAP MOLAP的功能的功能对查询的快速响应对查询的快速响应与多维数据库交互与多维数据库交互挖掘各维数据间的联系挖掘各维数据间的联系计算引擎和比较分析计算引擎和比较分析交叉维计算交叉维计算综合统计和财务计算综合统计和财务计算计时功能(年、月、日、时分、财务日历等)计时功能(年、月、日、时分、财务日历等)查询数据仓库底层细节数据查询数据仓库底层细节数据导航功能导航功能20基于关系数据库的基于关系数据库的OLAPROLAP用关系表达式描述多维概念大量的关系表用关系表达式描述多维概念大量的关
19、系表用星型模型、雪花模型用星型模型、雪花模型 构造维模型构造维模型DBDW基础数据基础数据元数据元数据计算结果计算结果多维综多维综合引擎合引擎多维多维视图视图SQL存取存取多维多维存取存取RDBMS服务器服务器关系型关系型OLAP 服务器服务器 客户客户ROLAP结构简图结构简图21MOLAP与与 ROLAP比较比较性能性能MOLAPROLAP查询查询快快慢慢数据加载数据加载时间长时间长时间短时间短分析分析精度高精度高受受SQL限制限制数据集市大小数据集市大小大大较小较小维的管理维的管理复杂复杂较易较易维护维护较易较易复杂复杂22数据挖掘数据挖掘数据挖掘(数据挖掘(ata Mining):又称
20、为数据库中的知:又称为数据库中的知识发现,是基于、机器学习、统计学等技术,高识发现,是基于、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。这们感兴趣的、能别人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。者作
21、出正确的决策。模式:它给出了数据特性或数据之间的关系,是对数模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。为关联模式、分类模式、聚类模式和序列模式等。23数据挖掘的发展数据挖掘的发展“从数据中发现有用模式从数据中发现有用模式”历来有很多称法,如历来有很多称法,如:数据挖掘数据挖掘(data mining)知识提取知识提取(knowledge extraction)信息发
22、现信息发现(information discovery)信息收获信息收获(information harvesting)数据考古数据考古(data archaeology)数据模式处理数据模式处理(data pattern processing)“数据挖掘数据挖掘”的称法大部分是由统计学家,数据分的称法大部分是由统计学家,数据分析学家和析学家和MIS团体使用的,在数据库领域也得到团体使用的,在数据库领域也得到了广泛接受。了广泛接受。24数据挖掘的发展数据挖掘的发展7080年代:知识发现与数据挖掘结合年代:知识发现与数据挖掘结合1989年年6月:在美国底特律举行了第一届月:在美国底特律举行了第一
23、届“从从数据库中数据库中知识发现知识发现”的国际学术会议,在这次会的国际学术会议,在这次会议中第一次使用了议中第一次使用了KDD 这个词来强调这个词来强调“知识知识”是数据驱动是数据驱动(data-driven)发现的最终结果。发现的最终结果。1995:加拿大召开第一届知识发现与数据挖掘:加拿大召开第一届知识发现与数据挖掘国际学术会议国际学术会议25历届有关历届有关KDD的学术会议的学术会议 时间时间 会议名称会议名称 会议地点会议地点接受论文数接受论文数提交提交论文数论文数Jun.1989Workshop on KDDDetroit,Michigan,USA29296969Jul.1991W
24、orkshop on KDDAnaheim,California,USA25254646Jul.1993Workshop on KDDWashington,USA2828404019951995KDD95Montreal,Canada4040135135Aug.1996KDD96Portland,Oregon,USA4545220220Feb.1997PAKDD97Singapore35359797Aug.1997KDD97California,USAApr.1998PAKDD98Melbourne,AustraliaAug.1998KDD98New York,USA26数据挖掘的发展数据挖掘
25、的发展数据挖掘技术的应用开发在国外已经迅速发展,许数据挖掘技术的应用开发在国外已经迅速发展,许多大公司(如多大公司(如Informix,Oracle,IBM等)都投等)都投入了巨资对其进行研究,并开发出了一些产品和原入了巨资对其进行研究,并开发出了一些产品和原型,如型,如DBMiner、Quest、EXPLORA等。等。第一本关于数据挖掘的国际学术杂志第一本关于数据挖掘的国际学术杂志Data Mining and Knowledge Discovery于于1997年年3月创刊。月创刊。国内在这方面的研究起步比较晚,早期研究的方向国内在这方面的研究起步比较晚,早期研究的方向多集中于关联规则的挖掘
26、,近来关于时序模式、分多集中于关联规则的挖掘,近来关于时序模式、分类、聚类、类、聚类、WEB数据挖掘等的研究也日益受到重数据挖掘等的研究也日益受到重视,并取得了不少可喜的成果,一些原型系统或数视,并取得了不少可喜的成果,一些原型系统或数据挖掘工具已经研制成功并在不断完善中。据挖掘工具已经研制成功并在不断完善中。27DM系统的体系结构系统的体系结构(1)DW 的步骤:的步骤:l数据准备:数据准备:n数据集成数据集成n数据选择数据选择n预分析预分析l挖掘挖掘l表述表述l评价评价(2)DW 系统的结构:系统的结构:用户界面用户界面结果输出结果输出数据挖掘核心数据挖掘核心知识库知识库数据仓库数据仓库数
27、据库数据库文件系统文件系统其他其他数据源数据源ODBC或其他专用数据库接口或其他专用数据库接口28l数据准备阶段:经过处理过的数据一般存储数据准备阶段:经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式响到数据挖掘的效率和准确度以及最终模式的有效性。包括:的有效性。包括:n数据的选择:选择相关的数据数据的选择:选择相关的数据n数据的净化:消除噪音、冗余数据数据的净化:消除噪音、冗余数据n数据的推测:推算缺失数据数据的推测:推算缺失数据n数据的转化:离散值数据与连续值数据之间的相数据的转化:离散值数据与连续值
28、数据之间的相互转换、数据值的分组分类、数据项之间的计算互转换、数据值的分组分类、数据项之间的计算组合等组合等n数据的缩减:减少数据量数据的缩减:减少数据量数据挖掘的过程数据挖掘的过程29数据挖掘的过程数据挖掘的过程挖掘阶段:该阶段是数据挖掘的核心步挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得分析数据并通过可视化工具表述所获得的模式或规则。的模式或规则。30数据挖掘的过程
29、数据挖掘的过程评价阶段:在数据挖掘中得到的模式可能是评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用据用户多年的经验,有些模式也可以直接用数据来检验其准确性。数据来检验其准确性。31数据挖掘的过程数据挖掘的过程巩固和运用阶段:用户理解的、并被认为是符巩固和运用阶段:用
30、户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一由此可能产生新的问题,而需要对知识作进一步的优化。步的
31、优化。32数据挖掘系统的结构数据挖掘系统的结构数据挖掘系统可以采用三层的数据挖掘系统可以采用三层的C/S结构:结构:第一层:为图形用户界面,位于系统的客户端;第一层:为图形用户界面,位于系统的客户端;第二层:为数据挖掘引擎,它是数据挖掘系统的核第二层:为数据挖掘引擎,它是数据挖掘系统的核心,位于系统的应用服务器端;心,位于系统的应用服务器端;第三层:为数据库与数据仓库,位于数据服务器端。第三层:为数据库与数据仓库,位于数据服务器端。33数据挖掘系统的结构数据挖掘系统的结构图形用户界面图形用户界面该模块实现用户与数据挖掘系统之间的该模块实现用户与数据挖掘系统之间的通信,允许用户与系统交互。用户可
32、以通信,允许用户与系统交互。用户可以通过图形化界面指定数据挖掘任务、输通过图形化界面指定数据挖掘任务、输入有关信息,根据系统以可视化形式输入有关信息,根据系统以可视化形式输出的数据挖掘的中间结果进行探索式的出的数据挖掘的中间结果进行探索式的数据挖掘。此外,该模块还提供用户浏数据挖掘。此外,该模块还提供用户浏览数据库和数据仓库模式或数据结构、览数据库和数据仓库模式或数据结构、评价数据挖掘的模式等功能。评价数据挖掘的模式等功能。34数据挖掘系统的结构数据挖掘系统的结构 数据挖掘引擎数据挖掘引擎数据挖掘引擎是数据挖掘系统最基本、数据挖掘引擎是数据挖掘系统最基本、最重要的部分,是数据挖掘系统的核心。最
33、重要的部分,是数据挖掘系统的核心。该部分由一系列功能模块组成,分别用该部分由一系列功能模块组成,分别用于关联规则挖掘、分类规则挖掘、聚类于关联规则挖掘、分类规则挖掘、聚类规则挖掘、时序与序列数据挖掘和规则挖掘、时序与序列数据挖掘和WEB数据挖掘等。数据挖掘等。35数据挖掘系统的结构数据挖掘系统的结构数据库与数据仓库数据库与数据仓库该部分位于数据服务器端,包括数据库、该部分位于数据服务器端,包括数据库、知识库、文件系统、其他数据源以及存放知识库、文件系统、其他数据源以及存放经过数据准备提取和集成后数据的数据仓经过数据准备提取和集成后数据的数据仓库。在知识库中存放领域知识,用于搜索库。在知识库中存
34、放领域知识,用于搜索和对模式进行评价。和对模式进行评价。数据库与数据仓库服务器的功能是根据用数据库与数据仓库服务器的功能是根据用户的数据挖掘请求,提取相应的数据供数户的数据挖掘请求,提取相应的数据供数据挖掘引擎使用。据挖掘引擎使用。36数据挖掘常用技术数据挖掘常用技术生物学方法生物学方法人工神经网络人工神经网络遗传算法遗传算法信息论方法信息论方法决策树决策树集合论方法集合论方法约略集约略集模糊集模糊集最邻近技术最邻近技术统计学方法统计学方法可视化技术可视化技术37生物学方法生物学方法神经网络方法神经网络方法神经网络是人工智能领域的一个重要的分支。采用神经神经网络是人工智能领域的一个重要的分支。
35、采用神经网络设计的系统模拟人脑的结构,而与传统的系统截然网络设计的系统模拟人脑的结构,而与传统的系统截然不同。由医学可知,人的大脑中有几十亿个大脑细胞不同。由医学可知,人的大脑中有几十亿个大脑细胞(称为神经元),这些神经元通过神经中枢的导电神经(称为神经元),这些神经元通过神经中枢的导电神经纤维互相连接,从而形成一个复杂的脑神经网络。人在纤维互相连接,从而形成一个复杂的脑神经网络。人在学习某一件事的时候,某些神经元的连接得到强化。学习某一件事的时候,某些神经元的连接得到强化。在人工神经网络中,用计算机处理单元来模拟人脑的神在人工神经网络中,用计算机处理单元来模拟人脑的神经元,并将这些处理单元象
36、人脑的神经元那样互相连接经元,并将这些处理单元象人脑的神经元那样互相连接起来,构成一个网络。神经网络并非使用编程的方式让起来,构成一个网络。神经网络并非使用编程的方式让计算机去做某项工作,而是采用所谓计算机去做某项工作,而是采用所谓“训练训练”的方法让的方法让神经网络进行神经网络进行“学习学习”。完成某项工作的正确动作,使。完成某项工作的正确动作,使得神经网络的某些连接或模式得到强化;而错误的动作得神经网络的某些连接或模式得到强化;而错误的动作则使神经网络的相应连接或模式不被强化。从而让神经则使神经网络的相应连接或模式不被强化。从而让神经网络网络“学会学会”如何去做这项工作。如何去做这项工作。
37、38生物学方法生物学方法神经网络方法神经网络方法神经网络通过学习待分析数据中的模式来构造模神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的,型,一般可对隐类型进行分类,用于非线性的,复杂的数据。它通过模拟人脑神经元结构进行数复杂的数据。它通过模拟人脑神经元结构进行数据挖掘。据挖掘。以以MP模型和模型和Hebb学习规则为基础,学习规则为基础,建立了三大类多种神经网络模型:建立了三大类多种神经网络模型:前馈式网络:以感知机、反向传播模型、函数型网络为前馈式网络:以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。代表,可用于预测、模式识别等方面。
38、反馈式网络:以反馈式网络:以Hopfield的离散模型和连续模型为代的离散模型和连续模型为代表,分别用于联想记忆和优化计算。表,分别用于联想记忆和优化计算。自组织网络:以自组织网络:以ART模型、模型、Koholon模型为代表,用模型为代表,用于聚类。于聚类。39生物学方法生物学方法遗传算法遗传算法遗传算法(遗传算法(Genetic Algorithms,简记为,简记为GI):):是一种借鉴生物界自然选择和进化机制发展起来的高是一种借鉴生物界自然选择和进化机制发展起来的高度并行、随机、自适应搜索算法。遗传算法的研究历度并行、随机、自适应搜索算法。遗传算法的研究历史比较短,是从史比较短,是从20
39、世纪世纪60年代末期到年代末期到70年代初才开年代初才开始的,当时的一些学者从试图解释自然界中生物的复始的,当时的一些学者从试图解释自然界中生物的复杂适应过程入手,模拟生物进化的机制来建立人工系杂适应过程入手,模拟生物进化的机制来建立人工系统的模型。经过近统的模型。经过近30的发展,现已取得了理论研究的的发展,现已取得了理论研究的进展和丰硕的应用成果。目前,以遗传算法为核心的进展和丰硕的应用成果。目前,以遗传算法为核心的进化算法已与模糊系统理论、人工神经网络等一起成进化算法已与模糊系统理论、人工神经网络等一起成为人工智能研究中的热点,受到许多学科的共同关注。为人工智能研究中的热点,受到许多学科
40、的共同关注。40生物学方法生物学方法遗传算法遗传算法遗传算法的研究与生物进化理论和遗传学密切相关。遗传算法的研究与生物进化理论和遗传学密切相关。生命的基本特征包括生长、繁殖、新陈代谢和遗传与生命的基本特征包括生长、繁殖、新陈代谢和遗传与变异。生命是进化的产物,现代的生物是在长期的进变异。生命是进化的产物,现代的生物是在长期的进化过程中发展起来的。化过程中发展起来的。达尔文提出了用自然选择来解释生物的进化过程,该达尔文提出了用自然选择来解释生物的进化过程,该学说包括遗传、变异、生存斗争和适者生存三个方面。学说包括遗传、变异、生存斗争和适者生存三个方面。生物进化是非常复杂的,它将涉及诸如染色体、脱
41、氧生物进化是非常复杂的,它将涉及诸如染色体、脱氧核糖核酸、遗传因子、种群、基因、进化、选择、复核糖核酸、遗传因子、种群、基因、进化、选择、复制、交叉、变异、编码与解码等许多名词术语,而且制、交叉、变异、编码与解码等许多名词术语,而且许多现象尚无法用现有的进化理论来解释。许多现象尚无法用现有的进化理论来解释。41生物学方法遗传算法生物学方法遗传算法遗传算法的基本思想:从代表问题的可能潜在解遗传算法的基本思想:从代表问题的可能潜在解集的一个种群开始,一个种群是由经过基因编码集的一个种群开始,一个种群是由经过基因编码的一定数量的个体组成,每个个体是染色体带有的一定数量的个体组成,每个个体是染色体带有
42、特征的实体,染色体是多个基因的集合,它决定特征的实体,染色体是多个基因的集合,它决定了个体的形状和外部表现;通过模拟基因编码形了个体的形状和外部表现;通过模拟基因编码形成初代种群,然后按照适者生存和优胜劣汰的原成初代种群,然后按照适者生存和优胜劣汰的原则逐代演化产生出越来越好的近似解;在每一代,则逐代演化产生出越来越好的近似解;在每一代,根据问题域中个体的适应度大小进行选择,并借根据问题域中个体的适应度大小进行选择,并借助遗传算子进行组合交叉和变异,从而产生出代助遗传算子进行组合交叉和变异,从而产生出代表新的解集的种群;以上过程将导致种群象自然表新的解集的种群;以上过程将导致种群象自然进化一样
43、的后代种群比前代种群更加适用于环境,进化一样的后代种群比前代种群更加适用于环境,末代种群中的最优个体经过解码可以作为问题的末代种群中的最优个体经过解码可以作为问题的最优近似解。最优近似解。42生物学方法生物学方法遗传算法遗传算法遗传算法中的三个基本操作:遗传算法中的三个基本操作:选择:即通过适应度的计算确定重组或交叉的个体,并确定选择:即通过适应度的计算确定重组或交叉的个体,并确定被选个体将产生多少个子代个体。被选个体将产生多少个子代个体。交叉:又称为基因重组,即结合来自父代种群中的信息产生交叉:又称为基因重组,即结合来自父代种群中的信息产生新的个体。新的个体。变异:即交叉之后子代的基因按小概
44、率扰动所产生的变化。变异:即交叉之后子代的基因按小概率扰动所产生的变化。遗传算法可起到产生优良后代的作用。这些后代需满足遗传算法可起到产生优良后代的作用。这些后代需满足适应值,经过若干代的遗传,将得到满足要求的后代适应值,经过若干代的遗传,将得到满足要求的后代(问题的解)。(问题的解)。遗传算法提供了一种求解复杂系统优化问题的通用框架,遗传算法提供了一种求解复杂系统优化问题的通用框架,它不依赖于问题的具体领域,因此可以应用于函数优化、它不依赖于问题的具体领域,因此可以应用于函数优化、组合优化、生产调度、自动控制、机器人智能控制、图组合优化、生产调度、自动控制、机器人智能控制、图像处理、模式识别
45、、机器学习、数据挖掘等众多领域。像处理、模式识别、机器学习、数据挖掘等众多领域。43信息论方法信息论方法信息论是研究信息的测度及其性质、信息传输和信信息论是研究信息的测度及其性质、信息传输和信息处理系统的一般规律的学科分支。其研究内容主息处理系统的一般规律的学科分支。其研究内容主要包括:以编码理论为中心的所谓狭义信息论,它要包括:以编码理论为中心的所谓狭义信息论,它研究信息的测度、信息的容量、信源特性、信源编研究信息的测度、信息的容量、信源特性、信源编码、信道和信息系统模型等;信号处理技术,它研码、信道和信息系统模型等;信号处理技术,它研究信号和噪音分析、信号的过滤与检测,以及有关究信号和噪音
46、分析、信号的过滤与检测,以及有关理论;以计算机为中心的信息处理技术与理论,例理论;以计算机为中心的信息处理技术与理论,例如模式识别、自学习理论、自动机器翻译等。如模式识别、自学习理论、自动机器翻译等。在数据挖掘中,决策树(在数据挖掘中,决策树(decision tree)是一种)是一种广泛使用的图解法决策分析工具,它把影响各行动广泛使用的图解法决策分析工具,它把影响各行动的有关因素(自然状态、概率、损益值等)用树型的有关因素(自然状态、概率、损益值等)用树型图表示,可直观形象地表示出各条件和所允许的行图表示,可直观形象地表示出各条件和所允许的行动以及各种结果中间的关系。动以及各种结果中间的关系
47、。44决策树方法决策树方法决策树:用树结构表示决策集,这些决策产生决策树:用树结构表示决策集,这些决策产生规则,用于对数据集进行分类。规则,用于对数据集进行分类。决策树的建立:利用训练集生成一个测试函数,决策树的建立:利用训练集生成一个测试函数,根据不同取值建立树的分支,再在每个分支子根据不同取值建立树的分支,再在每个分支子集中重复建树的分支的过程,即可建立决策树。集中重复建树的分支的过程,即可建立决策树。然后对决策树进行剪枝处理,即可得到规则。然后对决策树进行剪枝处理,即可得到规则。典型的决策树方法:典型的决策树方法:ID3、分类回归树、分类回归树(CART)、)、C4.5等。等。45集合论
48、方法约略集集合论方法约略集约略集(约略集(Rough Set)又称为粗糙集和粗集,)又称为粗糙集和粗集,是由波兰华沙理工大学是由波兰华沙理工大学Z.Pawlak教授等提教授等提出的研究不完整数据、不精确知识的表达、学出的研究不完整数据、不精确知识的表达、学习和归纳的理论与方法。习和归纳的理论与方法。约略集方法与使用统计学方法或模糊集合论方约略集方法与使用统计学方法或模糊集合论方法处理不精确数据的方法不同,它是以对观察法处理不精确数据的方法不同,它是以对观察和测量所得数据进行分类的能力为基础的,为和测量所得数据进行分类的能力为基础的,为智能信息处理提供了有效的理论基础和处理技智能信息处理提供了有
49、效的理论基础和处理技术。术。46集合论方法约略集集合论方法约略集约略集理论是约略集理论是Z.Pawlak于于1982年在年在计算机与信计算机与信息科学息科学国际杂志上发表的论文国际杂志上发表的论文“Rough Sets”中首中首先提出的一个分析数据的数学理论。在分类的意义先提出的一个分析数据的数学理论。在分类的意义下,这个理论定义了模糊性与不确定性的概念,由下,这个理论定义了模糊性与不确定性的概念,由于最初的研究大多是用波兰文发表的,因此,这项于最初的研究大多是用波兰文发表的,因此,这项研究在当时并未引起国际计算机学界的重视,研究研究在当时并未引起国际计算机学界的重视,研究地域局限在东欧各国。
50、到了地域局限在东欧各国。到了80年代末,这个理论引年代末,这个理论引起了世界各国学者的注意,人们对约略集理论的主起了世界各国学者的注意,人们对约略集理论的主要兴趣在于它恰好反映了人们以不完全信息或知识要兴趣在于它恰好反映了人们以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力。如到的某些不精确的结果而进行分类数据的能力。如医学、药学、工业、工程技术、控制系统、社会科医学、药学、工业、工程技术、控制系统、社会科学、地球科学、开关电路、图象处理和其他许多方学、地球科学、开关电路、图象处理和其他许多方面都