《不确定性决策理论与方法概述lsu.pptx》由会员分享,可在线阅读,更多相关《不确定性决策理论与方法概述lsu.pptx(124页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、决策理论与方法决策理论与方法 不确定性决策理论与方法不确定性决策理论与方法合肥工业大学管理学院合肥工业大学管理学院合肥工业大学管理学院合肥工业大学管理学院20232023年年年年5 5月月月月4 4日日日日不确定性决策理论与方法不确定性决策理论与方法1 1、不确定性决策概述、不确定性决策概述、不确定性决策概述、不确定性决策概述2 2、关联规则发现、关联规则发现、关联规则发现、关联规则发现3 3、聚类分析、聚类分析、聚类分析、聚类分析4 4、连接分析、连接分析、连接分析、连接分析5 5、粗糙集分析、粗糙集分析、粗糙集分析、粗糙集分析6 6、决策树、决策树、决策树、决策树7 7、神经网络、神经网络
2、、神经网络、神经网络8 8、支持向量机、支持向量机、支持向量机、支持向量机不确定性决策不确定性决策vv不确定性决策不确定性决策不确定性决策不确定性决策:指难以获得各种状态发生的概率,甚至对未指难以获得各种状态发生的概率,甚至对未指难以获得各种状态发生的概率,甚至对未指难以获得各种状态发生的概率,甚至对未来状态都难以把握的决策问题。来状态都难以把握的决策问题。来状态都难以把握的决策问题。来状态都难以把握的决策问题。vv特点特点特点特点:状态的不确定性。:状态的不确定性。:状态的不确定性。:状态的不确定性。不确定性不确定性不确定性不确定性:不确定性来自人类的主观认识与客观实际之间不确定性来自人类的
3、主观认识与客观实际之间不确定性来自人类的主观认识与客观实际之间不确定性来自人类的主观认识与客观实际之间存在的差异。事物发生的随机性、人类知识的不完全、存在的差异。事物发生的随机性、人类知识的不完全、存在的差异。事物发生的随机性、人类知识的不完全、存在的差异。事物发生的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的模糊性不可靠、不精确和不一致以及自然语言中存在的模糊性不可靠、不精确和不一致以及自然语言中存在的模糊性不可靠、不精确和不一致以及自然语言中存在的模糊性和歧义性,都反映了这种差异,都会带来不确定性。不和歧义性,都反映了这种差异,都会带来不确定性。不和歧义性,都反映了
4、这种差异,都会带来不确定性。不和歧义性,都反映了这种差异,都会带来不确定性。不确定性就造成了具有相同描述信息的对象可能属于不同确定性就造成了具有相同描述信息的对象可能属于不同确定性就造成了具有相同描述信息的对象可能属于不同确定性就造成了具有相同描述信息的对象可能属于不同概念。概念。概念。概念。vv解决问题的主要理论方法解决问题的主要理论方法解决问题的主要理论方法解决问题的主要理论方法:人工智能与不确定性理论:人工智能与不确定性理论:人工智能与不确定性理论:人工智能与不确定性理论不确定性决策准则不确定性决策准则vv在决策者无法获取状态的概率时,贝叶斯决策准则就难以凑在决策者无法获取状态的概率时,
5、贝叶斯决策准则就难以凑在决策者无法获取状态的概率时,贝叶斯决策准则就难以凑在决策者无法获取状态的概率时,贝叶斯决策准则就难以凑效。下面介绍几种常用的不确定性决策准则。效。下面介绍几种常用的不确定性决策准则。效。下面介绍几种常用的不确定性决策准则。效。下面介绍几种常用的不确定性决策准则。vv悲观准则或极小化极大准则悲观准则或极小化极大准则悲观准则或极小化极大准则悲观准则或极小化极大准则【Wald,1950Wald,1950】考察采取行考察采取行考察采取行考察采取行动动动动a ai i,i i=1,2,m=1,2,m时时时时可能出可能出可能出可能出现现现现的最坏后果,即的最坏后果,即的最坏后果,即
6、的最坏后果,即最大最大最大最大损损损损失失失失s si i或或或或最小效用最小效用最小效用最小效用u ui i;选择选择选择选择行行行行动动动动a ak k,使得,使得,使得,使得s sk k(u uk k)在所有行在所有行在所有行在所有行动动动动中最小中最小中最小中最小(最大最大最大最大)。vv乐观准则乐观准则乐观准则乐观准则考察采取行考察采取行考察采取行考察采取行动动动动a ai i,i i=1,2,m=1,2,m时时时时可能出可能出可能出可能出现现现现的最好后果,即的最好后果,即的最好后果,即的最好后果,即最小最小最小最小损损损损失失失失o oi i或或或或最大效用最大效用最大效用最大效
7、用v vi i;选择选择选择选择行行行行动动动动a ak k,使得,使得,使得,使得o ok k(v vk k)在所有行在所有行在所有行在所有行动动动动中最小中最小中最小中最小(最大最大最大最大)。不确定性决策准则不确定性决策准则vv乐观系数法乐观系数法乐观系数法乐观系数法【Hurwicz,1951Hurwicz,1951】考察采取行考察采取行考察采取行考察采取行动动动动a ai i,i i=1,2,m=1,2,m时时时时可能出可能出可能出可能出现现现现的最坏后果和最的最坏后果和最的最坏后果和最的最坏后果和最好后果,即最大好后果,即最大好后果,即最大好后果,即最大损损损损失失失失s si i和
8、最小和最小和最小和最小损损损损失失失失o oi i或或或或最小效用最小效用最小效用最小效用u ui i和和和和最大最大最大最大效用效用效用效用v vi i;设设设设决策人的决策人的决策人的决策人的乐观乐观乐观乐观系数系数系数系数为为为为 ,则则则则选择选择选择选择行行行行动动动动a ak k,使得,使得,使得,使得(1-(1-)s sk k+o ok k(1-(1-)u uk k+v vk k)在所有行在所有行在所有行在所有行动动动动中最小中最小中最小中最小(最大最大最大最大)。不确定性决策准则不确定性决策准则vv后悔值极小化极大法后悔值极小化极大法后悔值极小化极大法后悔值极小化极大法【Sav
9、age,1951Savage,1951】在状在状在状在状态态态态 j j下考察采取行下考察采取行下考察采取行下考察采取行动动动动a ai i的的的的损损损损失失失失l lji ji或或或或效用效用效用效用u uji ji和,并将其与和,并将其与和,并将其与和,并将其与在此状在此状在此状在此状态态态态下采取不同行下采取不同行下采取不同行下采取不同行动时动时动时动时的最小的最小的最小的最小损损损损失失失失s sj j或或或或最大效用最大效用最大效用最大效用u uj j进进进进行比行比行比行比较较较较,其差,其差,其差,其差值值值值的大小定的大小定的大小定的大小定义为义为义为义为后悔后悔后悔后悔值值
10、值值r rji ji,从而形成一个后,从而形成一个后,从而形成一个后,从而形成一个后悔悔悔悔值值值值表;表;表;表;针对针对针对针对后悔后悔后悔后悔值值值值表,表,表,表,应应应应用悲用悲用悲用悲观观观观准准准准则则则则求解:找出不同状求解:找出不同状求解:找出不同状求解:找出不同状态态态态下采取下采取下采取下采取行行行行动动动动a ai i的最大后悔的最大后悔的最大后悔的最大后悔值值值值pipi,然后再使所有行,然后再使所有行,然后再使所有行,然后再使所有行动动动动的最大后悔的最大后悔的最大后悔的最大后悔值值值值极小,其所极小,其所极小,其所极小,其所对应对应对应对应的行的行的行的行动记为动
11、记为动记为动记为决策决策决策决策结结结结果。果。果。果。不确定性决策准则不确定性决策准则vv等概率法等概率法等概率法等概率法【Laplace,1825Laplace,1825】LaplaceLaplace认为认为认为认为,对对对对真真真真实实实实的自然状的自然状的自然状的自然状态态态态一无所知一无所知一无所知一无所知等价于等价于等价于等价于所有自所有自所有自所有自然状然状然状然状态态态态具有相同的概率。具有相同的概率。具有相同的概率。具有相同的概率。然后借助于然后借助于然后借助于然后借助于贝贝贝贝叶斯准叶斯准叶斯准叶斯准则进则进则进则进行决策。行决策。行决策。行决策。不确定性决策准则不确定性决
12、策准则vv不确定性决策问题举例不确定性决策问题举例不确定性决策问题举例不确定性决策问题举例【Milnor,1954Milnor,1954】a a1 1a a2 2a a3 3a a4 4 1 12 23 34 43 3 2 22 23 30 01 1 3 34 43 34 44 4 4 43 33 34 44 4不确定性决策准则不确定性决策准则vv不确定性决策问题举例不确定性决策问题举例不确定性决策问题举例不确定性决策问题举例【Milnor,1954Milnor,1954】a a1 1a a2 2a a3 3a a4 4最小损失最小损失最小损失最小损失后悔值后悔值后悔值后悔值a a1 1a a
13、2 2a a3 3a a4 4 1 12 23 34 43 32 20 01 12 21 1 2 22 23 30 01 10 02 23 30 01 1 3 34 43 34 44 43 31 10 01 11 1 4 43 33 34 44 43 30 00 01 11 1最大损失最大损失最大损失最大损失(悲观)(悲观)(悲观)(悲观)4 43 34 44 4a a2 2最大后最大后悔值悔值pi2321最小损失最小损失(乐观)(乐观)2301a a3 3a4乐观系数乐观系数乐观系数乐观系数4-24-2 3 34-44-4 4-34-3 0.250.250.25,a a3 3等等等等 概概概
14、概 率率率率2.752.753.003.003.003.003.003.00a a1 1不确定性决策准则不确定性决策准则公理公理公理公理悲观准则悲观准则悲观准则悲观准则乐观系数乐观系数乐观系数乐观系数后悔值后悔值后悔值后悔值等概率等概率等概率等概率1.1.1.1.完全序完全序完全序完全序 2.2.2.2.标号无关性标号无关性标号无关性标号无关性 3.3.3.3.标度无关性标度无关性标度无关性标度无关性 4.4.4.4.强优势原则强优势原则强优势原则强优势原则 5.5.5.5.无关方案独立无关方案独立无关方案独立无关方案独立 6.6.6.6.后果加常无关性后果加常无关性后果加常无关性后果加常无关
15、性 7.7.7.7.后果排序无关性后果排序无关性后果排序无关性后果排序无关性 8.8.8.8.状态行复制无关性状态行复制无关性状态行复制无关性状态行复制无关性 智能决策理论与方法智能决策理论与方法形成背景形成背景vv人类面临越来越复杂的决策任务和决策环境人类面临越来越复杂的决策任务和决策环境人类面临越来越复杂的决策任务和决策环境人类面临越来越复杂的决策任务和决策环境:决策问题所涉及的变量规模越来越大;决策问题所涉及的变量规模越来越大;决策问题所涉及的变量规模越来越大;决策问题所涉及的变量规模越来越大;决策所依赖的信息具有不完备性、模糊性、不确定性等特决策所依赖的信息具有不完备性、模糊性、不确定
16、性等特决策所依赖的信息具有不完备性、模糊性、不确定性等特决策所依赖的信息具有不完备性、模糊性、不确定性等特点,使得决策问题难以准确地量化表示;点,使得决策问题难以准确地量化表示;点,使得决策问题难以准确地量化表示;点,使得决策问题难以准确地量化表示;某些决策问题及其目标可能是模糊的、不确定的,使得决某些决策问题及其目标可能是模糊的、不确定的,使得决某些决策问题及其目标可能是模糊的、不确定的,使得决某些决策问题及其目标可能是模糊的、不确定的,使得决策者对自己的偏好难以明确,随着决策分析的深入,对策者对自己的偏好难以明确,随着决策分析的深入,对策者对自己的偏好难以明确,随着决策分析的深入,对策者对
17、自己的偏好难以明确,随着决策分析的深入,对决策问题的认知加深,自己原有的偏好决策问题的认知加深,自己原有的偏好决策问题的认知加深,自己原有的偏好决策问题的认知加深,自己原有的偏好/倾向得到不断地倾向得到不断地倾向得到不断地倾向得到不断地修正,使得决策过程出现不断调整的情况。修正,使得决策过程出现不断调整的情况。修正,使得决策过程出现不断调整的情况。修正,使得决策过程出现不断调整的情况。vv这时,传统的决策数学模型已经难以胜任求解复杂度过高的这时,传统的决策数学模型已经难以胜任求解复杂度过高的这时,传统的决策数学模型已经难以胜任求解复杂度过高的这时,传统的决策数学模型已经难以胜任求解复杂度过高的
18、决策问题、含有不确定性的决策问题以及半结构化、非结构决策问题、含有不确定性的决策问题以及半结构化、非结构决策问题、含有不确定性的决策问题以及半结构化、非结构决策问题、含有不确定性的决策问题以及半结构化、非结构化的决策问题,因而产生了智能决策理论、方法及技术。化的决策问题,因而产生了智能决策理论、方法及技术。化的决策问题,因而产生了智能决策理论、方法及技术。化的决策问题,因而产生了智能决策理论、方法及技术。智能决策理论与方法智能决策理论与方法AI的应用模式的应用模式vv智能决策方法智能决策方法智能决策方法智能决策方法是应用人工智能是应用人工智能是应用人工智能是应用人工智能(Artificial
19、Intelligence,AI)(Artificial Intelligence,AI)相相相相关理论方法,融合传统的决策数学模型和方法而产生的具有关理论方法,融合传统的决策数学模型和方法而产生的具有关理论方法,融合传统的决策数学模型和方法而产生的具有关理论方法,融合传统的决策数学模型和方法而产生的具有智能化推理和求解的决策方法,其典型特征是能够在不确定、智能化推理和求解的决策方法,其典型特征是能够在不确定、智能化推理和求解的决策方法,其典型特征是能够在不确定、智能化推理和求解的决策方法,其典型特征是能够在不确定、不完备、模糊的信息环境下,通过应用符号推理、定性推理不完备、模糊的信息环境下,通
20、过应用符号推理、定性推理不完备、模糊的信息环境下,通过应用符号推理、定性推理不完备、模糊的信息环境下,通过应用符号推理、定性推理等方法,对复杂决策问题进行建模、推理和求解。等方法,对复杂决策问题进行建模、推理和求解。等方法,对复杂决策问题进行建模、推理和求解。等方法,对复杂决策问题进行建模、推理和求解。AIAI应用于应用于应用于应用于决策科学主要有两种模式决策科学主要有两种模式决策科学主要有两种模式决策科学主要有两种模式:针对可建立精确数学模型的决策问题,由于问题的复杂性,针对可建立精确数学模型的决策问题,由于问题的复杂性,针对可建立精确数学模型的决策问题,由于问题的复杂性,针对可建立精确数学
21、模型的决策问题,由于问题的复杂性,如组合爆炸、参数过多等而无法获得问题的解析解,需如组合爆炸、参数过多等而无法获得问题的解析解,需如组合爆炸、参数过多等而无法获得问题的解析解,需如组合爆炸、参数过多等而无法获得问题的解析解,需要借助要借助要借助要借助AIAI中的智能搜索算法获得问题的数值解;中的智能搜索算法获得问题的数值解;中的智能搜索算法获得问题的数值解;中的智能搜索算法获得问题的数值解;针对无法建立精确数学模型的不确定性决策问题、半结构针对无法建立精确数学模型的不确定性决策问题、半结构针对无法建立精确数学模型的不确定性决策问题、半结构针对无法建立精确数学模型的不确定性决策问题、半结构化或非
22、结构化决策问题,需要借助化或非结构化决策问题,需要借助化或非结构化决策问题,需要借助化或非结构化决策问题,需要借助AIAI方法建立相应的决方法建立相应的决方法建立相应的决方法建立相应的决策模型并获得问题的近似解。策模型并获得问题的近似解。策模型并获得问题的近似解。策模型并获得问题的近似解。知识发现知识发现动机动机vv智能决策的核心是如何获取支持决策的信息和知识。智能决策的核心是如何获取支持决策的信息和知识。智能决策的核心是如何获取支持决策的信息和知识。智能决策的核心是如何获取支持决策的信息和知识。vv问题问题问题问题知识获取是基于知识的系统知识获取是基于知识的系统知识获取是基于知识的系统知识获
23、取是基于知识的系统(KBS)(KBS)(KBS)(KBS)的最大瓶颈的最大瓶颈的最大瓶颈的最大瓶颈推理机推理机知识工程师知识工程师领域专家领域专家决策者决策者知识库知识库问题请求问题请求推理结果推理结果知识发现知识发现动机动机vv问题问题问题问题推理规则的获取与推理规则的获取与推理规则的获取与推理规则的获取与KBSKBSKBSKBS中知识获取一样难,因而基于中知识获取一样难,因而基于中知识获取一样难,因而基于中知识获取一样难,因而基于案例推理案例推理案例推理案例推理(Case-Based(Case-Based(Case-Based(Case-Based ReasoningReasoningRe
24、asoningReasoning)渐渐变成基于案例检渐渐变成基于案例检渐渐变成基于案例检渐渐变成基于案例检索索索索(Case-Based(Case-Based(Case-Based(Case-Based RetrievingRetrievingRetrievingRetrieving)。推理机推理机决策者决策者案例库案例库问题请求问题请求推理结果推理结果规则库规则库知识工程师知识工程师领域专家领域专家知识发现知识发现动机动机决策者决策者数据分析师数据分析师数据中心数据中心不一定满意的决策不一定满意的决策决策支持查询决策支持查询查询结果查询结果vv问题问题问题问题数据分析师与决策者之间对问题的理
25、解存在偏差数据分析师与决策者之间对问题的理解存在偏差数据分析师与决策者之间对问题的理解存在偏差数据分析师与决策者之间对问题的理解存在偏差缺少有创造性的决策建议缺少有创造性的决策建议缺少有创造性的决策建议缺少有创造性的决策建议技术问题:如查询效率技术问题:如查询效率技术问题:如查询效率技术问题:如查询效率(RDBMS)(RDBMS)(RDBMS)(RDBMS)知识发现知识发现动机动机推理机推理机数据挖掘工具数据挖掘工具数据中心数据中心决策者决策者知识库知识库问题请求问题请求推理结果推理结果背景知识背景知识领域专家领域专家vv优点优点优点优点知识独立于问题本身知识独立于问题本身知识独立于问题本身知
26、识独立于问题本身知识的获取主要通过数据挖掘实现知识的获取主要通过数据挖掘实现知识的获取主要通过数据挖掘实现知识的获取主要通过数据挖掘实现有创造性收获有创造性收获有创造性收获有创造性收获Data Mining within the DSS知识发现知识发现动机动机vvKDDKDDKDDKDD带来的新问题带来的新问题带来的新问题带来的新问题知识发现问题:如何从数据中将知识挖掘出来?知识发现问题:如何从数据中将知识挖掘出来?知识发现问题:如何从数据中将知识挖掘出来?知识发现问题:如何从数据中将知识挖掘出来?面临许多技术问题:面临许多技术问题:面临许多技术问题:面临许多技术问题:如如如如数据异构问题数据
27、异构问题数据异构问题数据异构问题、数据具有数据具有数据具有数据具有噪音且信息不完整、使用什么样的挖掘算法、知噪音且信息不完整、使用什么样的挖掘算法、知噪音且信息不完整、使用什么样的挖掘算法、知噪音且信息不完整、使用什么样的挖掘算法、知识如何表示等识如何表示等识如何表示等识如何表示等知识评价问题:知识评价问题:知识评价问题:知识评价问题:数据本身具有权威性、客观性,数据本身具有权威性、客观性,数据本身具有权威性、客观性,数据本身具有权威性、客观性,但知识不具备。知识如何评价?但知识不具备。知识如何评价?但知识不具备。知识如何评价?但知识不具备。知识如何评价?参考书推荐参考书推荐KDD&DMvv知
28、识发现知识发现知识发现知识发现(Knowledge Discovery in Databases,KDD)(Knowledge Discovery in Databases,KDD)是是是是指从大量数据中提取有用的指从大量数据中提取有用的指从大量数据中提取有用的指从大量数据中提取有用的(useful)(useful)、新颖的、新颖的、新颖的、新颖的(novel)(novel)、有效、有效、有效、有效的的的的(valid)(valid)并最终能被人理解并最终能被人理解并最终能被人理解并最终能被人理解(understandable)(understandable)的模式的模式的模式的模式(patt
29、erns)(patterns)的处理过程的处理过程的处理过程的处理过程(process)(process)。vv数据挖掘数据挖掘数据挖掘数据挖掘(Data Mining(Data Mining,DM)DM)是是是是KDDKDD的核心阶段的核心阶段的核心阶段的核心阶段,通过实施通过实施通过实施通过实施相关算法获得期望的模式。相关算法获得期望的模式。相关算法获得期望的模式。相关算法获得期望的模式。KDD过程过程理解、定义用户的目标和理解、定义用户的目标和理解、定义用户的目标和理解、定义用户的目标和KDDKDD运行的环境。运行的环境。运行的环境。运行的环境。KDD过程过程(1 1)选取可用的数据;)
30、选取可用的数据;)选取可用的数据;)选取可用的数据;(2 2)定义附加的、必须的数据,)定义附加的、必须的数据,)定义附加的、必须的数据,)定义附加的、必须的数据,如领域知识;如领域知识;如领域知识;如领域知识;(3 3)数据集成为一个数据集,)数据集成为一个数据集,)数据集成为一个数据集,)数据集成为一个数据集,供供供供KDDKDD使用。使用。使用。使用。KDD过程过程(1 1 1 1)缺失值处理)缺失值处理)缺失值处理)缺失值处理(2 2 2 2)剔除噪声或异常数据)剔除噪声或异常数据)剔除噪声或异常数据)剔除噪声或异常数据KDD过程过程(1 1 1 1)维数约简)维数约简)维数约简)维数
31、约简(特征选择与特征选择与特征选择与特征选择与抽取,数据采样抽取,数据采样抽取,数据采样抽取,数据采样)(2 2 2 2)属性转换)属性转换)属性转换)属性转换(离散化和泛离散化和泛离散化和泛离散化和泛化化化化)(3 3 3 3)数据编码)数据编码)数据编码)数据编码KDD过程过程(1)(1)确定数据挖掘类型,如分类、确定数据挖掘类型,如分类、确定数据挖掘类型,如分类、确定数据挖掘类型,如分类、聚类、回归;聚类、回归;聚类、回归;聚类、回归;(2)(2)选择特定的方选择特定的方选择特定的方选择特定的方法;法;法;法;(3)(3)执行数据挖掘算法。执行数据挖掘算法。执行数据挖掘算法。执行数据挖掘
32、算法。KDD过程过程评估和解释所挖掘的模式,评估和解释所挖掘的模式,评估和解释所挖掘的模式,评估和解释所挖掘的模式,重点是可理解性、有用性重点是可理解性、有用性重点是可理解性、有用性重点是可理解性、有用性.KDD过程过程与原有知识系统合并。与原有知识系统合并。与原有知识系统合并。与原有知识系统合并。挑战挑战挑战挑战:动态与增量挖掘问题。动态与增量挖掘问题。动态与增量挖掘问题。动态与增量挖掘问题。Taxonomy of Data Mining MethodsTaxonomy of Data Mining MethodsvvVerification-oriented Verification-or
33、iented(the system verifies the users(the system verifies the users hypothesis):including the most common methods of hypothesis):including the most common methods of traditional statistics,like goodness of fit(traditional statistics,like goodness of fit(拟合优度拟合优度拟合优度拟合优度)test,)test,tests of hypotheses
34、(tests of hypotheses(假设检验假设检验假设检验假设检验,e.g.,t-test of means),e.g.,t-test of means),and analysis of variance(ANOVAand analysis of variance(ANOVA,方差分析或方差分析或方差分析或方差分析或F-F-检验检验检验检验).).vvDiscovery-orientedDiscovery-oriented(the system finds new rules and (the system finds new rules and patterns autonomous
35、ly):prediction methods VS patterns autonomously):prediction methods VS description methodsdescription methods;supervised learningsupervised learning(有导师学习有导师学习有导师学习有导师学习)VS unsupervised learningVS unsupervised learningTaxonomy of Data Mining Methods分类分类分类分类有监督学习有监督学习有监督学习有监督学习无监督学习无监督学习无监督学习无监督学习父母、
36、老师教父母、老师教父母、老师教父母、老师教我们认识世界我们认识世界我们认识世界我们认识世界的万事万物。的万事万物。的万事万物。的万事万物。人类认识新生人类认识新生人类认识新生人类认识新生事物。事物。事物。事物。标签化标签化标签化标签化Taxonomy of Data Mining Methodsn n有监督学习有监督学习有监督学习有监督学习输入:输入:输入:输入:X X=x x1 1,.,.,x xj j,.,.,x xN N。x xj j=x xj j1 1,.,.,x xji ji,.,.,x xjdjd T T R Rd d,x xji ji表表表表示对象示对象示对象示对象x xj j对
37、应的第对应的第对应的第对应的第i i个特征个特征个特征个特征(维度、属性、变量维度、属性、变量维度、属性、变量维度、属性、变量)的值。的值。的值。的值。输出:输出:输出:输出:Y=Y=C C1 1,.,.,C Ck k,.,.,C CK K。C Ck k表示类标签。表示类标签。表示类标签。表示类标签。模型:模型:模型:模型:Y Y=f f(X X,WW)或或或或P(Y|X)=P(Y|X)=f f(X X,WW),将输入,将输入,将输入,将输入X X映射成类映射成类映射成类映射成类标签标签标签标签Y Y或或或或Y Y的概率分布。的概率分布。的概率分布。的概率分布。WW是可调整的参数向量。是可调整
38、的参数向量。是可调整的参数向量。是可调整的参数向量。模型训练:模型训练:模型训练:模型训练:使用归纳学习方法使用归纳学习方法使用归纳学习方法使用归纳学习方法(经验风险最小化经验风险最小化经验风险最小化经验风险最小化)确定确定确定确定模型的结构模型的结构模型的结构模型的结构f f和参数和参数和参数和参数WW,训练样本集为,训练样本集为,训练样本集为,训练样本集为(x xi i,y yi i)。Taxonomy of Data Mining Methodsn n无监督学习无监督学习无监督学习无监督学习无监督分类无监督分类无监督分类无监督分类(聚类聚类聚类聚类):应用于无标签数据的分类,称为:应用于
39、无标签数据的分类,称为:应用于无标签数据的分类,称为:应用于无标签数据的分类,称为聚类分析或探究性分析,其目标是将无标签数据分类聚类分析或探究性分析,其目标是将无标签数据分类聚类分析或探究性分析,其目标是将无标签数据分类聚类分析或探究性分析,其目标是将无标签数据分类到有限、离散的到有限、离散的到有限、离散的到有限、离散的“自然状态自然状态自然状态自然状态”。“自然状态自然状态自然状态自然状态”隐藏了隐藏了隐藏了隐藏了数据的结构,而不是为未观测的样本提供一个精确刻数据的结构,而不是为未观测的样本提供一个精确刻数据的结构,而不是为未观测的样本提供一个精确刻数据的结构,而不是为未观测的样本提供一个精
40、确刻画画画画(描述而非预测描述而非预测描述而非预测描述而非预测)。无监督预测学习无监督预测学习无监督预测学习无监督预测学习(如关联规则发现、链接分析等如关联规则发现、链接分析等如关联规则发现、链接分析等如关联规则发现、链接分析等):具:具:具:具有预测能力的无监督学习。有预测能力的无监督学习。有预测能力的无监督学习。有预测能力的无监督学习。不确定性决策理论与方法不确定性决策理论与方法1 1、不确定性决策概述、不确定性决策概述、不确定性决策概述、不确定性决策概述2 2、关联规则发现、关联规则发现、关联规则发现、关联规则发现3 3、聚类分析、聚类分析、聚类分析、聚类分析4 4、连接分析、连接分析、
41、连接分析、连接分析5 5、粗糙集分析、粗糙集分析、粗糙集分析、粗糙集分析6 6、决策树、决策树、决策树、决策树7 7、神经网络、神经网络、神经网络、神经网络8 8、支持向量机、支持向量机、支持向量机、支持向量机关联规则发现关联规则发现vv关联规则关联规则关联规则关联规则(Association Rules)(Association Rules):关联规则的形式为:关联规则的形式为:关联规则的形式为:关联规则的形式为ABAB,A A为前件,为前件,为前件,为前件,B B为后件。为后件。为后件。为后件。(Day=Friday)and(Day=Friday)and(Product=Diaper)(P
42、roduct=Beer)(Product=Diaper)(Product=Beer)为一典型关为一典型关为一典型关为一典型关联规则联规则联规则联规则 A A为满足前件的对象集,为满足前件的对象集,为满足前件的对象集,为满足前件的对象集,B B为满足后件的对象,为满足后件的对象,为满足后件的对象,为满足后件的对象,N N为全部对象集。为全部对象集。为全部对象集。为全部对象集。典型方法:典型方法:典型方法:典型方法:AprioriApriori算法。算法。算法。算法。*决策理论与方法决策理论与方法-智能决策理论与方法智能决策理论与方法关联规则发现关联规则发现(Apriori算法算法)vvAprio
43、riApriori算法由算法由算法由算法由Agrawal&SrikantAgrawal&Srikant在在在在19941994年提出年提出年提出年提出vv主要思想主要思想主要思想主要思想:一个频繁项集(支持度超过给定值的项集)的子集一定是一个频繁项集(支持度超过给定值的项集)的子集一定是一个频繁项集(支持度超过给定值的项集)的子集一定是一个频繁项集(支持度超过给定值的项集)的子集一定是频繁的频繁的频繁的频繁的vv例如,例如,若若beer,diaper,nutsbeer,diaper,nuts是频繁的是频繁的,那么那么beer,beer,diaper diaper 一定是频繁的一定是频繁的.任一
44、项是非频繁的,则包含该项的超集一定是不频繁的。任一项是非频繁的,则包含该项的超集一定是不频繁的。任一项是非频繁的,则包含该项的超集一定是不频繁的。任一项是非频繁的,则包含该项的超集一定是不频繁的。vv例如,例如,若若beer,diaperbeer,diaper是不频繁的是不频繁的,那么那么 beer,beer,diaper,nutsdiaper,nuts一定是不频繁的一定是不频繁的.关联规则发现关联规则发现(Apriori算法算法)ProcedureProcedureFind the Find the frequent itemsetsfrequent itemsets:the sets of
45、 items that:the sets of items that have minimum support(Apriori)have minimum support(Apriori)uuA subset of a frequent itemset must also be a A subset of a frequent itemset must also be a frequent itemsetfrequent itemset,i.e.,if,i.e.,if A A B B is is a frequent itemset,a frequent itemset,both both A
46、A and and B B should be a frequent itemset should be a frequent itemsetuuIteratively find frequent itemsets with cardinality from Iteratively find frequent itemsets with cardinality from 1 to 1 to k(k-k(k-itemsetitemset)Use the frequent itemsets to generate association Use the frequent itemsets to g
47、enerate association rules.rules.关联规则发现关联规则发现(Apriori算法算法)Database DDatabase DScan DScan DC C1 1L L1 1L L2 2C C2 2C C2 2Scan DScan DC C3 3L L3 3Scan DScan D不确定性决策理论与方法不确定性决策理论与方法1 1、不确定性决策概述、不确定性决策概述、不确定性决策概述、不确定性决策概述2 2、关联规则发现、关联规则发现、关联规则发现、关联规则发现3 3、聚类分析、聚类分析、聚类分析、聚类分析4 4、连接分析、连接分析、连接分析、连接分析5 5、粗糙集
48、分析、粗糙集分析、粗糙集分析、粗糙集分析6 6、决策树、决策树、决策树、决策树7 7、神经网络、神经网络、神经网络、神经网络8 8、支持向量机、支持向量机、支持向量机、支持向量机聚类聚类n n聚类聚类聚类聚类(Clustering)(Clustering)的定义的定义的定义的定义聚类算法将数据分割成若干个簇,被大多数人接受的聚类算法将数据分割成若干个簇,被大多数人接受的聚类算法将数据分割成若干个簇,被大多数人接受的聚类算法将数据分割成若干个簇,被大多数人接受的定义是:簇内的相似性尽可能大定义是:簇内的相似性尽可能大定义是:簇内的相似性尽可能大定义是:簇内的相似性尽可能大(簇内同质性簇内同质性簇
49、内同质性簇内同质性),簇间,簇间,簇间,簇间的相似性尽可能小的相似性尽可能小的相似性尽可能小的相似性尽可能小(簇间异质性簇间异质性簇间异质性簇间异质性)。聚类是一个主观过程,其相似性度量都是根据发现感聚类是一个主观过程,其相似性度量都是根据发现感聚类是一个主观过程,其相似性度量都是根据发现感聚类是一个主观过程,其相似性度量都是根据发现感兴趣的兴趣的兴趣的兴趣的“簇簇簇簇”的能力主观选择的,不存在一个绝对的的能力主观选择的,不存在一个绝对的的能力主观选择的,不存在一个绝对的的能力主观选择的,不存在一个绝对的准则适用所有情境。准则适用所有情境。准则适用所有情境。准则适用所有情境。输入:输入:输入:
50、输入:X X=x x1 1,.,.,x xj j,.,.,x xN N。x xj j=x xj j1 1,.,.,x xji ji,.,.,x xjdjd T T R Rd d,x xji ji表表表表示对象示对象示对象示对象x xj j对应的第对应的第对应的第对应的第i i个特征个特征个特征个特征(维度、属性、变量维度、属性、变量维度、属性、变量维度、属性、变量)的值。的值。的值。的值。聚类聚类n n聚类的定义聚类的定义聚类的定义聚类的定义硬聚类硬聚类硬聚类硬聚类(基于划分的聚类基于划分的聚类基于划分的聚类基于划分的聚类):试图将:试图将:试图将:试图将X X分割成分割成分割成分割成KK个簇