《第04讲-智能决策理论与方法-1上课讲义.ppt》由会员分享,可在线阅读,更多相关《第04讲-智能决策理论与方法-1上课讲义.ppt(76页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第04讲-智能决策理论与方法-1*决策理论与方法-智能决策理论与方法智能决策理论与方法智能决策理论与方法1 1、智能决策理论的形成背景、智能决策理论的形成背景、智能决策理论的形成背景、智能决策理论的形成背景2 2、知识发现、知识发现、知识发现、知识发现3 3、粗糙集理论、粗糙集理论、粗糙集理论、粗糙集理论4 4、机器学习、机器学习、机器学习、机器学习*决策理论与方法-智能决策理论与方法智能决策理论与方法智能决策理论与方法形成背景形成背景vv人类面临越来越复杂的决策任务和决策环境人类面临越来越复杂的决策任务和决策环境人类面临越来越复杂的决策任务和决策环境人类面临越来越复杂的决策任务和决策环境:决
2、策问题所涉及的变量规模越来越大;决策问题所涉及的变量规模越来越大;决策问题所涉及的变量规模越来越大;决策问题所涉及的变量规模越来越大;决策所依赖的信息具有不完备性、模糊性、不确定性等特决策所依赖的信息具有不完备性、模糊性、不确定性等特决策所依赖的信息具有不完备性、模糊性、不确定性等特决策所依赖的信息具有不完备性、模糊性、不确定性等特点,使得决策问题难以全部定量化地表示出来;点,使得决策问题难以全部定量化地表示出来;点,使得决策问题难以全部定量化地表示出来;点,使得决策问题难以全部定量化地表示出来;某些决策问题及其目标可能是模糊的、不确定的,使得决某些决策问题及其目标可能是模糊的、不确定的,使得
3、决某些决策问题及其目标可能是模糊的、不确定的,使得决某些决策问题及其目标可能是模糊的、不确定的,使得决策者对自己的偏好难以明确,随着决策分析的深入,对策者对自己的偏好难以明确,随着决策分析的深入,对策者对自己的偏好难以明确,随着决策分析的深入,对策者对自己的偏好难以明确,随着决策分析的深入,对决策问题的认知加深,自己原有的偏好决策问题的认知加深,自己原有的偏好决策问题的认知加深,自己原有的偏好决策问题的认知加深,自己原有的偏好/倾向得到不断地倾向得到不断地倾向得到不断地倾向得到不断地修正,使得决策过程出现不断调整的情况,修正,使得决策过程出现不断调整的情况,修正,使得决策过程出现不断调整的情况
4、,修正,使得决策过程出现不断调整的情况,vv这时,传统的决策数学模型已经难以胜任求解复杂度过高的这时,传统的决策数学模型已经难以胜任求解复杂度过高的这时,传统的决策数学模型已经难以胜任求解复杂度过高的这时,传统的决策数学模型已经难以胜任求解复杂度过高的决策问题、含有不确定性的决策问题以及半结构化、非结构决策问题、含有不确定性的决策问题以及半结构化、非结构决策问题、含有不确定性的决策问题以及半结构化、非结构决策问题、含有不确定性的决策问题以及半结构化、非结构化的决策问题,因而产生了智能决策理论、方法及技术。化的决策问题,因而产生了智能决策理论、方法及技术。化的决策问题,因而产生了智能决策理论、方
5、法及技术。化的决策问题,因而产生了智能决策理论、方法及技术。*决策理论与方法-智能决策理论与方法智能决策理论与方法智能决策理论与方法AI的应用模式的应用模式vv智能决策方法智能决策方法智能决策方法智能决策方法是应用人工智能是应用人工智能是应用人工智能是应用人工智能(Artificial Intelligence,AI)(Artificial Intelligence,AI)相相相相关理论方法,融合传统的决策数学模型和方法而产生的具有关理论方法,融合传统的决策数学模型和方法而产生的具有关理论方法,融合传统的决策数学模型和方法而产生的具有关理论方法,融合传统的决策数学模型和方法而产生的具有智能化推
6、理和求解的决策方法,其典型特征是能够在不确定、智能化推理和求解的决策方法,其典型特征是能够在不确定、智能化推理和求解的决策方法,其典型特征是能够在不确定、智能化推理和求解的决策方法,其典型特征是能够在不确定、不完备、模糊的信息环境下,通过应用符号推理、定性推理不完备、模糊的信息环境下,通过应用符号推理、定性推理不完备、模糊的信息环境下,通过应用符号推理、定性推理不完备、模糊的信息环境下,通过应用符号推理、定性推理等方法,对复杂决策问题进行建模、推理和求解。等方法,对复杂决策问题进行建模、推理和求解。等方法,对复杂决策问题进行建模、推理和求解。等方法,对复杂决策问题进行建模、推理和求解。AIAI
7、应用于应用于应用于应用于决策科学主要有两种模式决策科学主要有两种模式决策科学主要有两种模式决策科学主要有两种模式:针对可建立精确数学模型的决策问题,由于问题的复杂性,针对可建立精确数学模型的决策问题,由于问题的复杂性,针对可建立精确数学模型的决策问题,由于问题的复杂性,针对可建立精确数学模型的决策问题,由于问题的复杂性,如组合爆炸、参数过多等而无法获得问题的解析解,需如组合爆炸、参数过多等而无法获得问题的解析解,需如组合爆炸、参数过多等而无法获得问题的解析解,需如组合爆炸、参数过多等而无法获得问题的解析解,需要借助要借助要借助要借助AIAI中的智能搜索算法获得问题的数值解;中的智能搜索算法获得
8、问题的数值解;中的智能搜索算法获得问题的数值解;中的智能搜索算法获得问题的数值解;针对无法建立精确数学模型的不确定性决策问题、半结构针对无法建立精确数学模型的不确定性决策问题、半结构针对无法建立精确数学模型的不确定性决策问题、半结构针对无法建立精确数学模型的不确定性决策问题、半结构化或非结构化决策问题,需要借助化或非结构化决策问题,需要借助化或非结构化决策问题,需要借助化或非结构化决策问题,需要借助AIAI方法建立相应的决方法建立相应的决方法建立相应的决方法建立相应的决策模型并获得问题的近似解。策模型并获得问题的近似解。策模型并获得问题的近似解。策模型并获得问题的近似解。*决策理论与方法-智能
9、决策理论与方法智能决策理论与方法智能决策理论与方法1 1、智能决策理论的形成背景、智能决策理论的形成背景、智能决策理论的形成背景、智能决策理论的形成背景2 2、知识发现、知识发现、知识发现、知识发现3 3、粗糙集理论、粗糙集理论、粗糙集理论、粗糙集理论4 4、机器学习、机器学习、机器学习、机器学习*决策理论与方法-智能决策理论与方法知识发现知识发现动机动机vv智能决策的核心是如何获取支持决策的信息和知识智能决策的核心是如何获取支持决策的信息和知识智能决策的核心是如何获取支持决策的信息和知识智能决策的核心是如何获取支持决策的信息和知识。vv问题问题问题问题知识获取是基于知识的系统知识获取是基于知
10、识的系统知识获取是基于知识的系统知识获取是基于知识的系统(KBS)(KBS)(KBS)(KBS)的最大瓶颈的最大瓶颈的最大瓶颈的最大瓶颈推理机推理机知识工程师知识工程师领域专家领域专家决策者决策者知识库知识库问题请求问题请求推理结果推理结果*决策理论与方法-智能决策理论与方法知识发现知识发现动机动机vv问题问题问题问题推理规则的获取与推理规则的获取与推理规则的获取与推理规则的获取与KBSKBSKBSKBS中知识获取一样难,因而基于中知识获取一样难,因而基于中知识获取一样难,因而基于中知识获取一样难,因而基于案例推理案例推理案例推理案例推理(Case-Based(Case-Based(Case-
11、Based(Case-Based ReasoningReasoningReasoningReasoning)渐渐变成基于案例检渐渐变成基于案例检渐渐变成基于案例检渐渐变成基于案例检索索索索(Case-Based(Case-Based(Case-Based(Case-Based RetrievingRetrievingRetrievingRetrieving)。推理机推理机决策者决策者案例库案例库问题请求问题请求推理结果推理结果规则库规则库知识工程师知识工程师领域专家领域专家*决策理论与方法-智能决策理论与方法知识发现知识发现动机动机决策者决策者数据分析师数据分析师数据中心数据中心不一定满意的决
12、策不一定满意的决策决策支持查询决策支持查询查询结果查询结果vv问题问题问题问题数据分析师与决策者之间对问题的理解存在偏差数据分析师与决策者之间对问题的理解存在偏差数据分析师与决策者之间对问题的理解存在偏差数据分析师与决策者之间对问题的理解存在偏差缺少有创造性的决策建议缺少有创造性的决策建议缺少有创造性的决策建议缺少有创造性的决策建议技术问题:如查询效率技术问题:如查询效率技术问题:如查询效率技术问题:如查询效率(RDBMS)(RDBMS)(RDBMS)(RDBMS)*决策理论与方法-智能决策理论与方法知识发现知识发现动机动机推理机推理机数据挖掘工具数据挖掘工具数据中心数据中心决策者决策者知识库
13、知识库问题请求问题请求推理结果推理结果背景知识背景知识领域专家领域专家vv优点优点优点优点知识独立于问题本身知识独立于问题本身知识独立于问题本身知识独立于问题本身知识的获取主要通过数据挖掘实现知识的获取主要通过数据挖掘实现知识的获取主要通过数据挖掘实现知识的获取主要通过数据挖掘实现有创造性收获有创造性收获有创造性收获有创造性收获*决策理论与方法-智能决策理论与方法Data Mining within the DSS*决策理论与方法-智能决策理论与方法知识发现知识发现动机动机vvKDDKDDKDDKDD带来的新问题带来的新问题带来的新问题带来的新问题知识发现问题:如何从数据中将知识挖掘出来?知识
14、发现问题:如何从数据中将知识挖掘出来?知识发现问题:如何从数据中将知识挖掘出来?知识发现问题:如何从数据中将知识挖掘出来?面临许多技术问题:面临许多技术问题:面临许多技术问题:面临许多技术问题:如如如如数据异构问题数据异构问题数据异构问题数据异构问题、数据具有数据具有数据具有数据具有噪音且信息不完整、使用什么样的挖掘算法、知噪音且信息不完整、使用什么样的挖掘算法、知噪音且信息不完整、使用什么样的挖掘算法、知噪音且信息不完整、使用什么样的挖掘算法、知识如何表示等识如何表示等识如何表示等识如何表示等知识评价问题:知识评价问题:知识评价问题:知识评价问题:数据本身具有权威性、客观性,数据本身具有权威
15、性、客观性,数据本身具有权威性、客观性,数据本身具有权威性、客观性,但知识不具备。知识如何评价?但知识不具备。知识如何评价?但知识不具备。知识如何评价?但知识不具备。知识如何评价?*决策理论与方法-智能决策理论与方法参考书推荐参考书推荐*决策理论与方法-智能决策理论与方法为什么要开展数据挖掘?为什么要开展数据挖掘?vv信息技术的广泛应用产生了大量的数据:信息技术的广泛应用产生了大量的数据:信息技术的广泛应用产生了大量的数据:信息技术的广泛应用产生了大量的数据:流数据(生产数据、监控数据、传感数据)流数据(生产数据、监控数据、传感数据)流数据(生产数据、监控数据、传感数据)流数据(生产数据、监控
16、数据、传感数据)各种各种各种各种(时间时间时间时间)序列数据(证券交易,基因序列)序列数据(证券交易,基因序列)序列数据(证券交易,基因序列)序列数据(证券交易,基因序列)对象关系数据(社交网络,分子结构)对象关系数据(社交网络,分子结构)对象关系数据(社交网络,分子结构)对象关系数据(社交网络,分子结构)管理数据(管理数据(管理数据(管理数据(MISMISMISMIS,ERPERPERPERP:财务、人力资源、客户关系):财务、人力资源、客户关系):财务、人力资源、客户关系):财务、人力资源、客户关系)空间数据(空间数据(空间数据(空间数据(GISGISGISGIS、GPSGPSGPSGPS
17、)多媒体数据(视频监控,视频分享)多媒体数据(视频监控,视频分享)多媒体数据(视频监控,视频分享)多媒体数据(视频监控,视频分享)文本数据(学术论文,新闻,微博,博客)文本数据(学术论文,新闻,微博,博客)文本数据(学术论文,新闻,微博,博客)文本数据(学术论文,新闻,微博,博客)万维网数据(内容,结构,使用,交易数据)万维网数据(内容,结构,使用,交易数据)万维网数据(内容,结构,使用,交易数据)万维网数据(内容,结构,使用,交易数据)*决策理论与方法-智能决策理论与方法为什么要开展数据挖掘?为什么要开展数据挖掘?vvBig DataBig Data大数据时代大数据时代大数据时代大数据时代第
18、一,第一,第一,第一,数据体量(数据体量(数据体量(数据体量(VolumeVolume)巨大)巨大)巨大)巨大 。从。从。从。从TBTB级别,跃升到级别,跃升到级别,跃升到级别,跃升到PBPB级别。级别。级别。级别。第二,第二,第二,第二,数据类型繁多数据类型繁多数据类型繁多数据类型繁多(VarietyVariety)。网络日志、视频、图。网络日志、视频、图。网络日志、视频、图。网络日志、视频、图片、地理位置信息等等。片、地理位置信息等等。片、地理位置信息等等。片、地理位置信息等等。第三,第三,第三,第三,价值(价值(价值(价值(ValueValue)密度低)密度低)密度低)密度低。以视频为例
19、,连续不间断。以视频为例,连续不间断。以视频为例,连续不间断。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。监控过程中,可能有用的数据仅仅有一两秒。监控过程中,可能有用的数据仅仅有一两秒。监控过程中,可能有用的数据仅仅有一两秒。第四,第四,第四,第四,处理速度(处理速度(处理速度(处理速度(VelocityVelocity)快)快)快)快。1 1秒定律。秒定律。秒定律。秒定律。We are drowning in data,but starving for knowledge!We are drowning in data,but starving for knowledge!
20、*决策理论与方法-智能决策理论与方法20222022年年年年1111月月月月1515日日日日电子商务新进展:电子商务新进展:电子商务新进展:电子商务新进展:数据挖掘数据挖掘数据挖掘数据挖掘KDD&DMvv知识发现知识发现知识发现知识发现(Knowledge Discovery in Databases,KDD)(Knowledge Discovery in Databases,KDD)是是是是指从大量数据中提取指从大量数据中提取指从大量数据中提取指从大量数据中提取有用的有用的有用的有用的(useful)(useful)、新颖的新颖的新颖的新颖的(novel)(novel)、有效有效有效有效的的
21、的的(valid)(valid)并最终能被人理解并最终能被人理解并最终能被人理解并最终能被人理解(understandable)(understandable)的的的的模式模式模式模式(patterns)(patterns)的处理过程的处理过程的处理过程的处理过程(process)(process)。vv数据挖掘数据挖掘数据挖掘数据挖掘(Data Mining(Data Mining,DM)DM)是是是是KDDKDD的核心阶段的核心阶段的核心阶段的核心阶段,通过实施通过实施通过实施通过实施相关算法获得期望的模式。相关算法获得期望的模式。相关算法获得期望的模式。相关算法获得期望的模式。*决策理论
22、与方法-智能决策理论与方法KDD过程过程理解、定义用户的目标和理解、定义用户的目标和理解、定义用户的目标和理解、定义用户的目标和KDDKDD运行的环境。运行的环境。运行的环境。运行的环境。*决策理论与方法-智能决策理论与方法KDD过程过程(1 1)选取可用的数据;)选取可用的数据;)选取可用的数据;)选取可用的数据;(2 2)定义附加的、必须的数据,)定义附加的、必须的数据,)定义附加的、必须的数据,)定义附加的、必须的数据,如领域知识;如领域知识;如领域知识;如领域知识;(3 3)数据集成为一个数据集,)数据集成为一个数据集,)数据集成为一个数据集,)数据集成为一个数据集,供供供供KDDKD
23、D使用。使用。使用。使用。*决策理论与方法-智能决策理论与方法KDD过程过程(1 1 1 1)缺失值处理)缺失值处理)缺失值处理)缺失值处理(2 2 2 2)剔除噪声或异常数据)剔除噪声或异常数据)剔除噪声或异常数据)剔除噪声或异常数据*决策理论与方法-智能决策理论与方法KDD过程过程(1 1 1 1)维数约简)维数约简)维数约简)维数约简(特征选择与特征选择与特征选择与特征选择与抽取,数据采样抽取,数据采样抽取,数据采样抽取,数据采样)(2 2 2 2)属性转换)属性转换)属性转换)属性转换(离散化和泛离散化和泛离散化和泛离散化和泛化化化化)(3 3 3 3)数据编码)数据编码)数据编码)数
24、据编码*决策理论与方法-智能决策理论与方法KDD过程过程(1)(1)确定数据挖掘类型,如分类、确定数据挖掘类型,如分类、确定数据挖掘类型,如分类、确定数据挖掘类型,如分类、聚类、回归;聚类、回归;聚类、回归;聚类、回归;(2)(2)选择特定的方选择特定的方选择特定的方选择特定的方法;法;法;法;(3)(3)执行数据挖掘算法。执行数据挖掘算法。执行数据挖掘算法。执行数据挖掘算法。*决策理论与方法-智能决策理论与方法KDD过程过程评估和解释所挖掘的模式,评估和解释所挖掘的模式,评估和解释所挖掘的模式,评估和解释所挖掘的模式,重点是可理解性、有用性重点是可理解性、有用性重点是可理解性、有用性重点是可
25、理解性、有用性.*决策理论与方法-智能决策理论与方法KDD过程过程与原有知识系统合并。与原有知识系统合并。与原有知识系统合并。与原有知识系统合并。挑战挑战挑战挑战:动态与增量挖掘问题。动态与增量挖掘问题。动态与增量挖掘问题。动态与增量挖掘问题。*决策理论与方法-智能决策理论与方法数据预处理数据预处理空值估算空值估算vv空值空值空值空值是指属性值未知且不可用、与其它任何值都不相同的符是指属性值未知且不可用、与其它任何值都不相同的符是指属性值未知且不可用、与其它任何值都不相同的符是指属性值未知且不可用、与其它任何值都不相同的符号。在样本数据集中,空值在所有非主码属性中都可能出现。号。在样本数据集中
26、,空值在所有非主码属性中都可能出现。号。在样本数据集中,空值在所有非主码属性中都可能出现。号。在样本数据集中,空值在所有非主码属性中都可能出现。空值出现的主要原因空值出现的主要原因空值出现的主要原因空值出现的主要原因:在信息收集时忽略了一些认为不重要的数据或信息提供者在信息收集时忽略了一些认为不重要的数据或信息提供者在信息收集时忽略了一些认为不重要的数据或信息提供者在信息收集时忽略了一些认为不重要的数据或信息提供者不愿意提供,而这些数据对以后的信息处理可能是有用不愿意提供,而这些数据对以后的信息处理可能是有用不愿意提供,而这些数据对以后的信息处理可能是有用不愿意提供,而这些数据对以后的信息处理
27、可能是有用的;的;的;的;某些属性值未知;某些属性值未知;某些属性值未知;某些属性值未知;数据模型的限制。数据模型的限制。数据模型的限制。数据模型的限制。*决策理论与方法-智能决策理论与方法数据预处理数据预处理空值估算空值估算vv空值处理的常用方法空值处理的常用方法空值处理的常用方法空值处理的常用方法:从训练集中移去含未知值的实例;从训练集中移去含未知值的实例;从训练集中移去含未知值的实例;从训练集中移去含未知值的实例;用某个最可能的值进行替换;用某个最可能的值进行替换;用某个最可能的值进行替换;用某个最可能的值进行替换;基于样本中其它属性的取值和分类信息,构造规则来预测基于样本中其它属性的取
28、值和分类信息,构造规则来预测基于样本中其它属性的取值和分类信息,构造规则来预测基于样本中其它属性的取值和分类信息,构造规则来预测丢失的数据,并用预测结果丢失的数据,并用预测结果丢失的数据,并用预测结果丢失的数据,并用预测结果“填补填补填补填补”丢失值;丢失值;丢失值;丢失值;应用贝叶斯公式确定未知值的概率分布,选择一最可能的应用贝叶斯公式确定未知值的概率分布,选择一最可能的应用贝叶斯公式确定未知值的概率分布,选择一最可能的应用贝叶斯公式确定未知值的概率分布,选择一最可能的值填补空值或根据概率分布用不同值填补空值形成多个值填补空值或根据概率分布用不同值填补空值形成多个值填补空值或根据概率分布用不
29、同值填补空值形成多个值填补空值或根据概率分布用不同值填补空值形成多个对象;对象;对象;对象;将含有未知值的一个给定样本数据集转换成一个新的、可将含有未知值的一个给定样本数据集转换成一个新的、可将含有未知值的一个给定样本数据集转换成一个新的、可将含有未知值的一个给定样本数据集转换成一个新的、可能不相容的但每个属性值均已知的数据集,方法是将某能不相容的但每个属性值均已知的数据集,方法是将某能不相容的但每个属性值均已知的数据集,方法是将某能不相容的但每个属性值均已知的数据集,方法是将某个属性的未知值用所有该属性的可能值替换形成多个数个属性的未知值用所有该属性的可能值替换形成多个数个属性的未知值用所有
30、该属性的可能值替换形成多个数个属性的未知值用所有该属性的可能值替换形成多个数据集。据集。据集。据集。*决策理论与方法-智能决策理论与方法数据预处理数据预处理连续属性离散化连续属性离散化问题描述问题描述 设设 为一样本数据集,为一样本数据集,为非空有限为非空有限集合,集合,C是条件属性集,是条件属性集,D是决策属性集。假设对于任意有是决策属性集。假设对于任意有 ,R是实数集,则是实数集,则 为连续属性。设为连续属性。设 是是 上的分割点集合,上的分割点集合,记为记为其中其中 ,为一整数,表示离散为一整数,表示离散化程度,可以看作按属性将论域中的对象分成化程度,可以看作按属性将论域中的对象分成 类
31、。类。3kik ki i-121*决策理论与方法-智能决策理论与方法数据预处理数据预处理连续属性离散化连续属性离散化对于需要离散化的连续属性集对于需要离散化的连续属性集对于需要离散化的连续属性集对于需要离散化的连续属性集 ,其分割点集合记为,其分割点集合记为,其分割点集合记为,其分割点集合记为将将将将c ci i属性的连续取值映射到离散空间,即对于任意属性的连续取值映射到离散空间,即对于任意属性的连续取值映射到离散空间,即对于任意属性的连续取值映射到离散空间,即对于任意若其属性若其属性若其属性若其属性c ci i 的取值在区间的取值在区间的取值在区间的取值在区间 内,则将属内,则将属内,则将属
32、内,则将属性值重新标记为性值重新标记为性值重新标记为性值重新标记为j j。这样就把原来含有连续属性的样本数据集。这样就把原来含有连续属性的样本数据集。这样就把原来含有连续属性的样本数据集。这样就把原来含有连续属性的样本数据集A A转换成离散化的数据集转换成离散化的数据集转换成离散化的数据集转换成离散化的数据集 。因此离散化问题本质上可归结。因此离散化问题本质上可归结。因此离散化问题本质上可归结。因此离散化问题本质上可归结为利用选取的分割点对属性的值域空间进行划分的问题。为利用选取的分割点对属性的值域空间进行划分的问题。为利用选取的分割点对属性的值域空间进行划分的问题。为利用选取的分割点对属性的
33、值域空间进行划分的问题。*决策理论与方法-智能决策理论与方法数据预处理数据预处理连续属性离散化连续属性离散化离散化方法离散化方法离散化方法离散化方法典型的有等区间方法、等信息量方法、基于信息熵的方法、典型的有等区间方法、等信息量方法、基于信息熵的方法、典型的有等区间方法、等信息量方法、基于信息熵的方法、典型的有等区间方法、等信息量方法、基于信息熵的方法、HolteHolte的的的的1R1R离散化方法、统计试验方法、超平面搜索方法以及离散化方法、统计试验方法、超平面搜索方法以及离散化方法、统计试验方法、超平面搜索方法以及离散化方法、统计试验方法、超平面搜索方法以及用户自定义区间等。应用不同的准则
34、可将现有的离散化方法用户自定义区间等。应用不同的准则可将现有的离散化方法用户自定义区间等。应用不同的准则可将现有的离散化方法用户自定义区间等。应用不同的准则可将现有的离散化方法分为局部与全局方法分为局部与全局方法分为局部与全局方法分为局部与全局方法(论域空间论域空间论域空间论域空间)、静态与动态方法、静态与动态方法、静态与动态方法、静态与动态方法(属性空间属性空间属性空间属性空间)和有导师与无导师方法和有导师与无导师方法和有导师与无导师方法和有导师与无导师方法(是否依赖决策属性是否依赖决策属性是否依赖决策属性是否依赖决策属性)。(1)(1)等区间离散化方法等区间离散化方法等区间离散化方法等区间
35、离散化方法等区间分割是将连续属性的值域等分成等区间分割是将连续属性的值域等分成等区间分割是将连续属性的值域等分成等区间分割是将连续属性的值域等分成 ()()个区间个区间个区间个区间,一一一一般由用户确定。般由用户确定。般由用户确定。般由用户确定。*决策理论与方法-智能决策理论与方法数据预处理数据预处理连续属性离散化连续属性离散化 假设某个属性的最大属性值为假设某个属性的最大属性值为假设某个属性的最大属性值为假设某个属性的最大属性值为x xmaxmax,最小属性值为,最小属性值为,最小属性值为,最小属性值为x xminmin,用,用,用,用户给定的分割点参数为户给定的分割点参数为户给定的分割点参
36、数为户给定的分割点参数为k k,则分割点间隔为,则分割点间隔为,则分割点间隔为,则分割点间隔为=(=(x xmaxmax-x xminmin)/)/k k,所得到的属性分割点为所得到的属性分割点为所得到的属性分割点为所得到的属性分割点为x xminmin+i+i ,i=1,2,i=1,2,k k。(2)(2)等信息量离散化方法等信息量离散化方法等信息量离散化方法等信息量离散化方法 等信息量分割首先将测量值进行排序,然后将属性值域分成等信息量分割首先将测量值进行排序,然后将属性值域分成等信息量分割首先将测量值进行排序,然后将属性值域分成等信息量分割首先将测量值进行排序,然后将属性值域分成k k个
37、区间,每个区间包含相同数量的测量值。假设某个属性个区间,每个区间包含相同数量的测量值。假设某个属性个区间,每个区间包含相同数量的测量值。假设某个属性个区间,每个区间包含相同数量的测量值。假设某个属性的最大属性值为的最大属性值为的最大属性值为的最大属性值为x xmaxmax ,最小属性值为,最小属性值为,最小属性值为,最小属性值为x xminmin ,用户给定的分割,用户给定的分割,用户给定的分割,用户给定的分割点参数为点参数为点参数为点参数为k k,样本集中的对象个数为,样本集中的对象个数为,样本集中的对象个数为,样本集中的对象个数为n n,则需要将样本集中的,则需要将样本集中的,则需要将样本
38、集中的,则需要将样本集中的对象按该属性的取值从小到大排列,然后按对象数平均划分对象按该属性的取值从小到大排列,然后按对象数平均划分对象按该属性的取值从小到大排列,然后按对象数平均划分对象按该属性的取值从小到大排列,然后按对象数平均划分为为为为k k段即得到分割点集,每两个相邻分割点之间的对象数均段即得到分割点集,每两个相邻分割点之间的对象数均段即得到分割点集,每两个相邻分割点之间的对象数均段即得到分割点集,每两个相邻分割点之间的对象数均为为为为n/kn/k。*决策理论与方法-智能决策理论与方法数据预处理数据预处理连续属性离散化连续属性离散化(3)(3)统计试验方法统计试验方法统计试验方法统计试
39、验方法统计试验方法根据决策属性分析区间划分之间的独立程度,统计试验方法根据决策属性分析区间划分之间的独立程度,统计试验方法根据决策属性分析区间划分之间的独立程度,统计试验方法根据决策属性分析区间划分之间的独立程度,确定分割点的有效性。确定分割点的有效性。确定分割点的有效性。确定分割点的有效性。对于任意分割点对于任意分割点对于任意分割点对于任意分割点 ,均可将,均可将,均可将,均可将 分成分成分成分成2 2个区个区个区个区间间间间 和和和和 ,两区间的独立程度为:,两区间的独立程度为:,两区间的独立程度为:,两区间的独立程度为:其中:其中:其中:其中:r r是决策类数目是决策类数目是决策类数目是
40、决策类数目n nij ij是在第是在第是在第是在第l l区间中属于第区间中属于第区间中属于第区间中属于第j j决策类的对象数决策类的对象数决策类的对象数决策类的对象数*决策理论与方法-智能决策理论与方法数据预处理数据预处理连续属性离散化连续属性离散化 若若若若 ,则取,则取,则取,则取 基于统计试验的离散化方法是将基于统计试验的离散化方法是将基于统计试验的离散化方法是将基于统计试验的离散化方法是将 值较大的分割点作为有效值较大的分割点作为有效值较大的分割点作为有效值较大的分割点作为有效分割点。分割点。分割点。分割点。*决策理论与方法-智能决策理论与方法Taxonomy of Data Mini
41、ng Methods*决策理论与方法-智能决策理论与方法Taxonomy of Data Mining MethodsvvVerification-oriented(the system verifies the users Verification-oriented(the system verifies the users hypothesis):including the most common methods of hypothesis):including the most common methods of traditional statistics,like goodness
42、of fit(traditional statistics,like goodness of fit(拟合优度拟合优度拟合优度拟合优度)test,)test,tests of hypotheses(tests of hypotheses(假设检验假设检验假设检验假设检验,e.g.,t-test of means),e.g.,t-test of means),and analysis of variance(ANOVAand analysis of variance(ANOVA,方差分析或方差分析或方差分析或方差分析或F-F-检验检验检验检验).).vvDiscovery-oriented(th
43、e system finds new rules and Discovery-oriented(the system finds new rules and patterns autonomously):prediction methods VS patterns autonomously):prediction methods VS description methodsdescription methods;supervised learningsupervised learning(有导师学习有导师学习有导师学习有导师学习)VS unsupervised learningVS unsup
44、ervised learning*决策理论与方法-智能决策理论与方法KDD Goals&Methodsvv归纳总结归纳总结归纳总结归纳总结(Induction&Summarization)(Induction&Summarization):从泛化的角度总:从泛化的角度总:从泛化的角度总:从泛化的角度总结数据,即从低层次数据抽象出高层次的描述的过程。结数据,即从低层次数据抽象出高层次的描述的过程。结数据,即从低层次数据抽象出高层次的描述的过程。结数据,即从低层次数据抽象出高层次的描述的过程。主要主要主要主要方法:归纳、泛化。方法:归纳、泛化。方法:归纳、泛化。方法:归纳、泛化。vv泛化泛化泛化泛
45、化(Generalization)(Generalization)是用来扩展一假设的语义信息,使其是用来扩展一假设的语义信息,使其是用来扩展一假设的语义信息,使其是用来扩展一假设的语义信息,使其能够包含更多的能够包含更多的能够包含更多的能够包含更多的正例正例正例正例,应用于更多的对象。,应用于更多的对象。,应用于更多的对象。,应用于更多的对象。动物动物哺乳类哺乳类鸟类鸟类企鹅企鹅食肉类食肉类蹄类蹄类飞禽类飞禽类走禽类走禽类虎虎印度豹印度豹长颈鹿长颈鹿斑马斑马信天翁信天翁鹰鹰驼鸟驼鸟动物世界概念树动物世界概念树第第1 1层层第第2 2层层第第3 3层层第第4 4层层*决策理论与方法-智能决策理论
46、与方法KDD Goals&Methodsvv关联规则关联规则关联规则关联规则(Association Rules)(Association Rules):关联规则的形式为关联规则的形式为关联规则的形式为关联规则的形式为ABAB,A A为前件,为前件,为前件,为前件,B B为后件为后件为后件为后件。(Day=Friday)and(Day=Friday)and(Product=Diaper)(Product=Beer)(Product=Diaper)(Product=Beer)为一典型关为一典型关为一典型关为一典型关联规则联规则联规则联规则 A A为满足前件的对象集,为满足前件的对象集,为满足前件
47、的对象集,为满足前件的对象集,B B为满足后件的对象,为满足后件的对象,为满足后件的对象,为满足后件的对象,N N为全部对象集。为全部对象集。为全部对象集。为全部对象集。典型方法:典型方法:典型方法:典型方法:AprioriApriori算法。算法。算法。算法。*决策理论与方法-智能决策理论与方法关联规则发现关联规则发现(Apriori算法算法)vvAprioriApriori算法由算法由算法由算法由Agrawal&SrikantAgrawal&Srikant在在在在19941994年提出年提出年提出年提出vv主要思想主要思想主要思想主要思想:一个频繁项集(支持度超过给定值的项集)的子集一定是
48、一个频繁项集(支持度超过给定值的项集)的子集一定是一个频繁项集(支持度超过给定值的项集)的子集一定是一个频繁项集(支持度超过给定值的项集)的子集一定是频繁的频繁的频繁的频繁的vv例如,例如,若若beer,diaper,nutsbeer,diaper,nuts是频繁的是频繁的,那么那么beer,beer,diaper diaper 一定是频繁的一定是频繁的.任一项是非频繁的,则包含该项的超集一定是不频繁的任一项是非频繁的,则包含该项的超集一定是不频繁的任一项是非频繁的,则包含该项的超集一定是不频繁的任一项是非频繁的,则包含该项的超集一定是不频繁的。vv例如,例如,若若beer,diaperbee
49、r,diaper是不频繁的是不频繁的,那么那么 beer,beer,diaper,nutsdiaper,nuts一定是不频繁的一定是不频繁的.*决策理论与方法-智能决策理论与方法关联规则发现关联规则发现(Apriori算法算法)ProcedureProcedureFind the Find the frequent itemsetsfrequent itemsets:the sets of items that:the sets of items that have minimum support(Apriori)have minimum support(Apriori)uuA subset
50、of a frequent itemset must also be a A subset of a frequent itemset must also be a frequent itemsetfrequent itemset,i.e.,if,i.e.,if A A B B is is a frequent itemset,a frequent itemset,both both A A and and B B should be a frequent itemset should be a frequent itemsetuuIteratively find frequent items