《数据挖掘原理与SPSS Clementine应用宝典第3章数据挖掘的体系结构与模型.ppt》由会员分享,可在线阅读,更多相关《数据挖掘原理与SPSS Clementine应用宝典第3章数据挖掘的体系结构与模型.ppt(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典第第3章章 数据挖掘的体数据挖掘的体系结构与模型系结构与模型数据挖掘的体系结构数据挖掘的体系结构数据挖掘的过程模型数据挖掘的过程模型Fayyad模型模型CRISP-DM模型模型4/30/20234/30/20234/30/20232 2LOGO3.1 数据挖掘的体系结构 数据挖掘系统由各类数据数据挖掘系统由各类数据库、挖掘前处理模块、挖库、挖掘前处理模块、挖掘操作模块、模式评估模掘操作模块、模式评估模块、知识输出模块组成,块、知识输出模块组成,这些模块的有机组成就构这些模块的有机组成就构成了数据挖掘系统的体系成了数据挖掘
2、系统的体系结构。结构。数据清理集成抽取转换挖掘前处理模块挖掘前处理模块挖掘结果评估模式评估模块模式评估模块系统外数据库数据挖掘处理挖掘操作模块挖掘操作模块知识输出知识输出模块知识输出模块数据库管理模块数据库管理模块各 类 数 据库数据仓库挖 掘 知 识库模式用户数据挖掘系统的体系结构图数据挖掘系统的体系结构图3 3LOGO3.1 数据挖掘的体系结构数据库管理模块,负责对系统内数据库、数据仓库、挖数据库管理模块,负责对系统内数据库、数据仓库、挖掘知识库的维护与管理。这些数据库、数据仓库是对外掘知识库的维护与管理。这些数据库、数据仓库是对外部数据库进行转换、清理、净化得到,它是数据挖掘的部数据库进
3、行转换、清理、净化得到,它是数据挖掘的基础。基础。挖掘前处理模块,对所收集到的数据进行清理、集成、挖掘前处理模块,对所收集到的数据进行清理、集成、选择、转换,生成数据仓库或数据挖掘库。其中:清理,选择、转换,生成数据仓库或数据挖掘库。其中:清理,主要清除噪音;集成,将多种数据源组合在一起;选择,主要清除噪音;集成,将多种数据源组合在一起;选择,选择与问题相关的数据;转换,将选择数据转换成可挖选择与问题相关的数据;转换,将选择数据转换成可挖掘形式。掘形式。4 4LOGO3.1 数据挖掘的体系结构模式评估模块,对数据挖掘结果进行评估。由于所挖掘模式评估模块,对数据挖掘结果进行评估。由于所挖掘出的模
4、式可能有许多,需要将用户的兴趣度与这些模式出的模式可能有许多,需要将用户的兴趣度与这些模式进行分析对比,评估模式价值,分析不足原因,如果挖进行分析对比,评估模式价值,分析不足原因,如果挖掘出的模式与用户兴趣度相差大,需返回相应的过程掘出的模式与用户兴趣度相差大,需返回相应的过程(如,挖掘前处理或挖掘操作)重新执行。(如,挖掘前处理或挖掘操作)重新执行。知识输出模块,完成对数据挖掘出的模式进行翻译、解知识输出模块,完成对数据挖掘出的模式进行翻译、解释,以人们易于理解的方式提供给真正渴望知识的决策释,以人们易于理解的方式提供给真正渴望知识的决策者使用。者使用。5 5LOGO3.1 数据挖掘的体系结
5、构挖掘操作模块,利用各种数据挖掘算法针对数据库、数挖掘操作模块,利用各种数据挖掘算法针对数据库、数据仓库、数据挖掘库,并借助挖掘知识库中的规则、方据仓库、数据挖掘库,并借助挖掘知识库中的规则、方法、经验和事实数据等,挖掘和发现知识。法、经验和事实数据等,挖掘和发现知识。6 6LOGO3.2 数据挖掘的过程模型数据挖掘的过程模型 Fayyad数据挖掘模型将数据库中的知识发现看作是一个多阶段的处理过程,它从数据集中识别出以模式来表示的知识,在整个知识发现的过程中包括很多处理步骤,各步骤之间相互影响,反复调整,形成一种螺旋式的上升过程。Fayyad数据挖掘过程模型数据挖掘过程模型 7 7LOGO3.
6、2.1 Fayyad模型 Fayyad处理过程共分为处理过程共分为9个处理阶段,分别是个处理阶段,分别是:数据准备:了解数据准备:了解KDD相关领域的有关情况,熟悉有关的相关领域的有关情况,熟悉有关的背景知识,并弄清楚用户的要求。背景知识,并弄清楚用户的要求。数据选择:根据用户的要求从数据库中提取与数据选择:根据用户的要求从数据库中提取与KDD相关相关的数据,的数据,KDD将主要从这些数据中进行知识提取,在此将主要从这些数据中进行知识提取,在此过程中,会利用一些数据库操作对数据进行处理。过程中,会利用一些数据库操作对数据进行处理。8 8LOGO3.2.1 Fayyad模型数据清洗和预处理:对数
7、据进行再加工,检查数据的完数据清洗和预处理:对数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据可以利用统计方法进行填补。丢失的数据可以利用统计方法进行填补。数据降维数据降维/转换:对经过预处理的数据,根据知识发现的转换:对经过预处理的数据,根据知识发现的任务对数据进行再处理,主要通过投影或数据库中的其任务对数据进行再处理,主要通过投影或数据库中的其它操作减少数据量。它操作减少数据量。确定确定KDD的目标的目标 根据用户的要求:确定根据用户的要求:确定KDD是发现何种是发现何种类型的知识,因为对类型的知识,因为
8、对KDD的不同要求会在具体的知识发的不同要求会在具体的知识发现过程中采用不同的知识发现算法。现过程中采用不同的知识发现算法。9 9LOGO3.2.1 Fayyad模型确定知识发现算法:确定知识发现算法:根据阶段根据阶段5所确定的任务,选择合所确定的任务,选择合适的知识发现算法,这包括选取合适的模型和参数,并适的知识发现算法,这包括选取合适的模型和参数,并使得知识发现算法与整个使得知识发现算法与整个KDD的评判标准相一致。的评判标准相一致。数据挖掘数据挖掘(Data Mining):运用选定的知识发现算法,从:运用选定的知识发现算法,从数据中提取出用户所感兴趣的知识,并以一定的方式表数据中提取出
9、用户所感兴趣的知识,并以一定的方式表示出来。示出来。模式解释:模式解释:对发现的模式(知识)进行解释,在此过程对发现的模式(知识)进行解释,在此过程中,为了取得更为有效的知识。中,为了取得更为有效的知识。1010LOGO3.2.1 Fayyad模型知识评价:知识评价:将发现的知识以用户能了解的方式呈现给用将发现的知识以用户能了解的方式呈现给用户。这期间也包含对知识的一致性检查,以确信本次发户。这期间也包含对知识的一致性检查,以确信本次发现的知识不与以前发现的知识相抵触。现的知识不与以前发现的知识相抵触。1111LOGO3.2.1 Fayyad模型 Fayyad过程模型是一个偏技术的模型,该模型
10、在实际过程模型是一个偏技术的模型,该模型在实际应用中存在以下两个问题:应用中存在以下两个问题:1.为什么选择这些数据?为什么选择这些数据?Fayyad过程模型忽略了具体业务过程模型忽略了具体业务问题的确定。这也是确定选择哪些数据的关键所在。问题的确定。这也是确定选择哪些数据的关键所在。2.模型怎样使用?数据挖掘是分析型环境中的一门技术,如模型怎样使用?数据挖掘是分析型环境中的一门技术,如果数据挖掘是一种数据分析技术,那么数据挖掘应该在分果数据挖掘是一种数据分析技术,那么数据挖掘应该在分析型环境中使用。但是,挖掘出的模型需要返回到操作型析型环境中使用。但是,挖掘出的模型需要返回到操作型环境中进行
11、应用。因此,需要构成一个从操作型环境到分环境中进行应用。因此,需要构成一个从操作型环境到分析型环境再到操作型环境的封闭的信息流。析型环境再到操作型环境的封闭的信息流。1212LOGO3.2.2 CRISP-DM模型 CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)注重数据,跨行业数据挖掘标准流程)注重数据挖掘技术的应用,解决了挖掘技术的应用,解决了Fayyad模型存在的两个问题。模型存在的两个问题。CRISP-DM过程模型从商业的角度给出对数据挖掘过程模型从商业的角度给出对数据挖掘方法的理解。目前数据挖掘
12、系统的研制和开发大都遵循方法的理解。目前数据挖掘系统的研制和开发大都遵循CRISP-DM标准,将典型的挖掘和模型的部署紧密结合。标准,将典型的挖掘和模型的部署紧密结合。1313LOGO3.2.2 CRISP-DM模型 CRISP-DM模型过程的基本步骤包括:业务理解、模型过程的基本步骤包括:业务理解、数据理解、数据准备、建立模型、模型评价、模型实施。数据理解、数据准备、建立模型、模型评价、模型实施。业务理解业务理解数据理解数据理解数据准备数据准备建立模型建立模型评价评价实施实施数据数据CRISP-DM数据挖掘过程模型数据挖掘过程模型1414LOGO3.2.2 CRISP-DM模型CRISP-D
13、M模型的各个阶段任务。业务理解业务理解(Business Understanding)最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。1515LOGO3.2.2 CRISP-DM模型数据理解数据理解(Data Understanding)数据理解阶段从初始的数据收集开始,通过一些活动数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设
14、。隐含信息的假设。1616LOGO3.2.2 CRISP-DM模型数据准备数据准备(Data Preparation)数据准备阶段包括从未处理数据中构造最终数据集的数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段所有活动。这些数据将是模型工具的输入值。这个阶段的任务有一个能执行多次,没有任何规定的顺序。任务的任务有一个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清包括表、记录和属性的选择,以及为模型工具转换和清洗数据。洗数据。1717LOGO3.2.2 CRISP-DM模型建立模型(建立模型(Modeling)
15、选择和应用不同的模型技术,模型参数被调整到最佳的选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。跳回到数据准备阶段。1818LOGO3.2.2 CRISP-DM模型评价(评价(Evaluation)已经从数据分析的角度建立了高质量显示的模型。在开已经从数据分析的角度建立了高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,始最后部署模型之前,重要的事情是彻底地评估模型
16、,检查构造模型的步骤,确保模型可以完成业务目标。这检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。的决定必须达成。1919LOGO3.2.2 CRISP-DM模型实施实施(Deployment)通常,模型的创建不是项目的结束。模型的作用是通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担实施的工作。析人员承担实施的工作。2020LOGO练习练习为什么数据挖掘者对数据的理解很重要?为什么数据挖掘者对数据的理解很重要?如果面对学校数据库,你认为数据挖掘的目标是什么?如果面对学校数据库,你认为数据挖掘的目标是什么?2121LOGO2222