《医学数据挖掘290页完整版教学课件汇总全书电子教案.ppt》由会员分享,可在线阅读,更多相关《医学数据挖掘290页完整版教学课件汇总全书电子教案.ppt(290页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第1章章 医学数据挖掘概述医学数据挖掘概述一、问题的提出一、问题的提出一、问题的提出一、问题的提出 随着医院数字化仪器的增加、医院信息系统、电随着医院数字化仪器的增加、医院信息系统、电子病历和电子健康档案的使用,医院的计算机中逐渐子病历和电子健康档案的使用,医院的计算机中逐渐积累了大量的数据,其量与日俱增。这些数据中蕴藏积累了大量的数据,其量与日俱增。这些数据中蕴藏着的丰富的二次信息和业务知识,如何将它们有效的着的丰富的二次信息和业务知识,如何将它们有效的分析和挖掘出来,用以提高医院的服务质量和医疗水分析和挖掘出来,用以提高医院的服务质量和医疗水平,是医院的管理者和医生越来越关心的问题。平,
2、是医院的管理者和医生越来越关心的问题。当面对越来越多迅速膨胀的大型数据库时,医生当面对越来越多迅速膨胀的大型数据库时,医生们渴望去理解数据中包含的信息,盼望获得有价值的们渴望去理解数据中包含的信息,盼望获得有价值的知识!知识!数据挖掘与知识发现数据挖掘与知识发现数据挖掘与知识发现数据挖掘与知识发现 原有的决策支持系统(DSS)和领导执行系统(EIS)已不能满足需要。数据挖掘概念的提出,使人们有能力克服这些困难,去发掘出蕴藏在数据中的信息和知识。数据挖掘是目前国际上数据库和信息决策领域的最前沿研究方向之一。数据挖掘与知识发现是存在交叉的两个概念。数据挖掘是知识发现的一个阶段,而且是核心阶段。知识
3、发现,就是从大型数据库中的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用的信息。如果把知识发现理解为一个过程或系统,数据挖掘是这一过程或系统的一个可自动执行的工具。从下图看出,知识发现是需要人工参与的多环节的过程。*挖掘算法是数据挖掘重要的组成部分。为解决特定的问题,一种或多种算法需要被选择、编译,在适于挖掘的数据环境下实施挖掘任务。1.11.1数据挖掘概念数据挖掘概念v1.1.1数据挖掘的产生数据挖掘的产生 如何使人们能够快速有效地获取自己所需的知识,成为广大信息工作者的重要研究课题。正是这种需求催生了一门目前在信息领域里最为活跃、最令人激动的领域数据挖掘和知识发现。数据
4、挖掘技术在医学领域中的应用越来越广泛(数据挖掘技术在医学领域中的应用越来越广泛(1 1)v在疾病诊断、治疗、器官移植、基因研究、图像分析、康在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面获得可喜成果。复、药物开发、科学研究等方面获得可喜成果。v南加州大学脊椎病医院利用南加州大学脊椎病医院利用Information Discovery Information Discovery 进行进行数据挖掘,该技术已应用到肿瘤学、肝脏病理学、肝炎的数据挖掘,该技术已应用到肿瘤学、肝脏病理学、肝炎的生存几率预测、泌尿学、甲状腺病例诊断、风湿病学、皮生存几率预测、泌尿学、甲状腺病
5、例诊断、风湿病学、皮肤病诊断、心脏病学、神经心理学、妇科学、产科学等领肤病诊断、心脏病学、神经心理学、妇科学、产科学等领域。域。数据挖掘技术在医学领域中的应用越来越广泛(数据挖掘技术在医学领域中的应用越来越广泛(2 2)数据挖掘在医学上的应用有其自身的优势,医学系统收集数据挖掘在医学上的应用有其自身的优势,医学系统收集到的数据大多是实际诊断和运作数据真实可靠、不受其他到的数据大多是实际诊断和运作数据真实可靠、不受其他因素影响的,这对于不断提高挖掘的质量是有利的条件。因素影响的,这对于不断提高挖掘的质量是有利的条件。随着电子病历的推广,用计算机存储病案在医院已经比较随着电子病历的推广,用计算机存
6、储病案在医院已经比较普遍。如果各医院将收集的数据进一步汇总,从些数据中普遍。如果各医院将收集的数据进一步汇总,从些数据中发现各种疾病之间的相互关系、各种疾病的发展规律,分发现各种疾病之间的相互关系、各种疾病的发展规律,分析各种治疗方案的治疗效果,对疾病的诊断、治疗和医学析各种治疗方案的治疗效果,对疾病的诊断、治疗和医学研究都非常有价值。研究都非常有价值。1.1.2 1.1.2 数据挖掘的定义数据挖掘的定义 数据挖掘,在人工智能领域,数据挖掘,在人工智能领域,习惯上又称为数据库中知识发习惯上又称为数据库中知识发现现(Knowledge Discovery in(Knowledge Discove
7、ry in Database,KDD)Database,KDD),也有人把也有人把数据挖掘视为数据库中知识发数据挖掘视为数据库中知识发现过程的一个基本步骤。知识现过程的一个基本步骤。知识发现过程以下三个阶段组成:发现过程以下三个阶段组成:(1 1)数据准备,)数据准备,(2 2)数据挖掘,)数据挖掘,(3 3)结果表达和解释。数据挖)结果表达和解释。数据挖掘可以与用户或知识库交互。掘可以与用户或知识库交互。可以从几个方面来了解数据挖掘。可以从几个方面来了解数据挖掘。v1.1.商业企业角度商业企业角度v2.2.技术实现角度技术实现角度v3.3.数据挖掘与传统分析方法的区别数据挖掘与传统分析方法的
8、区别v4.4.数据挖掘和数据仓库数据挖掘和数据仓库v5.5.数据挖掘和数据挖掘和OLAPOLAPv6.6.数据挖掘,机器学习和统计数据挖掘,机器学习和统计1.2 1.2 数据挖掘的任务数据挖掘的任务v 数据挖掘可以解决大量的医学研究问题。基于这些医学数据挖掘可以解决大量的医学研究问题。基于这些医学问题的性质,把这些问题分成下面几种数据挖掘任务。问题的性质,把这些问题分成下面几种数据挖掘任务。1.分类分类 分类是最常见的数据挖掘任务之一。疾病的诊断过程实际上就是一个疾病分类的过程,患者根据症状特征及不适部位定位到具体疾病类的具体疾病,这一过程与现实中的分类过程十分相似。2.2.聚类聚类v“物以类
9、聚物以类聚”,它基于一组属性对事例进行分组。在同一个聚类中的,它基于一组属性对事例进行分组。在同一个聚类中的事例或多或少有相同的属性值。事例或多或少有相同的属性值。例如,通过对医药市场的聚类分析,构成多因素投资组合矩阵。依据市场吸引力的大、中、小,竞争能力的强、小、弱,分为9个区域,组成三种战略地带。3.3.关联规则关联规则起源:超市购物篮起源:超市购物篮形式形式:X:XY Y(啤酒(啤酒=尿布)尿布)基本测度:基本测度:支持度(支持度(DsuppDsupp)置信度(置信度(Dconf)Dconf)在原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布
10、一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。4.4.回归回归 回归任务类似于分类任务,最大的区回归任务类似于分类任务,最大的区别是在回归任务中可预测属性是连续的。别是在回归任务中可预测属性是连续的。回归技术在统计学领域已经广泛研究了回归技术在统计学领域已经广泛研究了几个世纪。线性回归和逻辑回归是最常几个世纪。线性回归
11、和逻辑回归是最常用的回归分析方法。其它的回归分析技用的回归分析方法。其它的回归分析技术包括回归树和神经网络。术包括回归树和神经网络。回归任务能解决很多医学问题。例如,回归任务能解决很多医学问题。例如,医生可以通过身高、体重、肺活量、胸医生可以通过身高、体重、肺活量、胸围、肩宽、盆肩宽、脉搏、收缩压、舒围、肩宽、盆肩宽、脉搏、收缩压、舒张压等各项指标预测病人的健康情况。张压等各项指标预测病人的健康情况。1.3数据挖掘技术数据挖掘技术数据挖掘任务的完成需要相应的数据挖掘技术。目前的数据挖数据挖掘任务的完成需要相应的数据挖掘技术。目前的数据挖掘算法主要来自掘算法主要来自3 3个领域:统计学、机器学习
12、(人工智能)和数个领域:统计学、机器学习(人工智能)和数据库。据库。数据挖掘的焦点是自动或半自动的挖掘模式。有些机器算法应数据挖掘的焦点是自动或半自动的挖掘模式。有些机器算法应用于数据挖掘,比如神经网络、遗传算法等。用于数据挖掘,比如神经网络、遗传算法等。数据库技术是数据挖掘的第三种技术来源。因为数据挖掘需要数据库技术是数据挖掘的第三种技术来源。因为数据挖掘需要处理大量数据,如何对大量数据进行处理,需要数据库技术。处理大量数据,如何对大量数据进行处理,需要数据库技术。本书着重介绍决策树算法、时序与回归算法、神经网络、关联本书着重介绍决策树算法、时序与回归算法、神经网络、关联规则和聚类分析,并结
13、合数据挖掘工具规则和聚类分析,并结合数据挖掘工具SQL Server SQL Server Business Intelligence Development StudioBusiness Intelligence Development Studio进行介绍。进行介绍。1.4 1.4 数据挖掘工具数据挖掘工具SQL Server 2005SQL Server 20051.51.5数据挖掘技术在医学领域中的应用特点、现状及展望数据挖掘技术在医学领域中的应用特点、现状及展望1.1.医学数据的特点以及医学数据挖掘的独特性医学数据的特点以及医学数据挖掘的独特性 医学信息蕴含了医疗过程和医患活动的全部
14、数据资源,既有有关临床的医医学信息蕴含了医疗过程和医患活动的全部数据资源,既有有关临床的医疗信息又有医院管理的信息,尤其是前者反映了医学的独特性。这些信息具有疗信息又有医院管理的信息,尤其是前者反映了医学的独特性。这些信息具有模式的多态性模式的多态性(纯数据、图像、信号、文字记录等纯数据、图像、信号、文字记录等)、不完整性、不完整性(疾病信息的客疾病信息的客观不完整和描述疾病的主观不完整观不完整和描述疾病的主观不完整)、较强时间性、复杂性和冗余性。加之其、较强时间性、复杂性和冗余性。加之其低数学特征、非规范化形式以及医患信息的不对称和医学资料涉及较多的伦理、低数学特征、非规范化形式以及医患信息
15、的不对称和医学资料涉及较多的伦理、法律问题法律问题,从而决定了医学数据挖掘的独特性。从而决定了医学数据挖掘的独特性。2.2.数据挖掘在医学领域中的应用现状数据挖掘在医学领域中的应用现状l基础医学领域:基础医学领域:l疾病的临床诊断和治疗方面疾病的临床诊断和治疗方面l流行病学研究和医学统计方法学方面:流行病学研究和医学统计方法学方面:l医院和卫生事业管理方面:医院和卫生事业管理方面:l其它:其它:(Methodology&Practice)第第2章章 数据挖掘方法和最佳实践数据挖掘方法和最佳实践一、问题的提出一、问题的提出一、问题的提出一、问题的提出v数据挖掘的方法越来越多、越来越复杂,如果某个
16、环数据挖掘的方法越来越多、越来越复杂,如果某个环节没有做好,数据挖掘工作就可能失败。因此,掌握节没有做好,数据挖掘工作就可能失败。因此,掌握好方法论是学习数据挖掘的关键,根据作者多年数据好方法论是学习数据挖掘的关键,根据作者多年数据挖掘经验,在国内外先进经验的基础上,发展了一套挖掘经验,在国内外先进经验的基础上,发展了一套有效的习惯性方法。本章将把这些实践活动总结出的有效的习惯性方法。本章将把这些实践活动总结出的有序步骤,作为数据挖掘的方法论来展示。数据挖掘有序步骤,作为数据挖掘的方法论来展示。数据挖掘是一个自然的迭代过程,有些过程需要多次重复进行,是一个自然的迭代过程,有些过程需要多次重复进
17、行,完全跳过某个过程不一定恰当。完全跳过某个过程不一定恰当。2.1为什么需要方法为什么需要方法 数据挖掘是从过去的数据中获取知识,帮助未来更好决策。本章介绍的实践方法主要为了避免知识获取过程中出现以下两个不希望的结果:获取了不真实的知识;获取了真实但无用的知识。这就像水手要学会绕开海上的漩涡和海中的暗礁等危险一样,数据挖掘人员需要了解如何避免这些常见的陷阱。2.1.12.1.1获取不真实的知识获取不真实的知识 获取不真实的知识比获取无用的知识更加危险,因为人们可能依据这些不正确的信息做出重要的决策;如果依据不正确的信息进行医学决策,那将是灾难性的。心脏形态B超检查数据的“病变形态分类”是将二维
18、超声测量的高血压患者心肌20个节段的厚度,与正常者的数据放在一起,用最小距离聚类分析(Minimum Distance Clusters)的方法将心脏形态分成不同的类型。例如,高血压病程与心脏形变例如,高血压病程与心脏形变 从聚类分析结果中可以看出,随着高血压病程的持续,心脏的形态变化日益严重,且某些节段的厚度与病程的关系十分密切。都是是向心性肥厚吗?2.1.22.1.2获取真实但无用的知识获取真实但无用的知识v1.1.获取已知的知识获取已知的知识 获取已知的知识确实可以给我们一个有用的提示,从技术角度来说,这表明数据挖掘工作确有成效,而且数据本身也已经相当精确,这是非常令人鼓舞的。如果数据和
19、所应用的数据挖掘技术足以发现已知正确的事实,据此可以相信其他发现也可能为真。建立了一棵决策树建立了一棵决策树嗓子痛链球菌感染咽炎链球菌感染咽炎发烧过敏过敏感冒感冒yesyesnono2.2.获取不能使用的知识获取不能使用的知识卫生监督中的卫生监督中的“知信行知信行”模型模型知:知:知识和学习,是基础;(知识和学习,是基础;(信:信:信念和态度,是动力)信念和态度,是动力);行:行:产生产生促进健康行为、消除危害健康行为等行为改变的过程,是目标。促进健康行为、消除危害健康行为等行为改变的过程,是目标。培训次数增加 以上结果表明经培训后,知识得分下降以上结果表明经培训后,知识得分下降 数据挖掘方法
20、论的目的是数据挖掘方法论的目的是避免获得不真实的知识,以避免获得不真实的知识,以及任何没有用的知识。更积及任何没有用的知识。更积极的理解是,数据挖掘方法极的理解是,数据挖掘方法论的目标是确保数据挖掘得论的目标是确保数据挖掘得到稳定的模型,以便将该模到稳定的模型,以便将该模型用于要解决的社会、企业型用于要解决的社会、企业和医学问题。和医学问题。2.2假设测试假设测试1.产生假设产生假设例如:假设餐饮服务业的员工经过卫生知识的培训,在有例如:假设餐饮服务业的员工经过卫生知识的培训,在有了卫生知识的基础上,认真工作。当下次卫生监督执法检了卫生知识的基础上,认真工作。当下次卫生监督执法检查中各项指标均
21、为优秀。查中各项指标均为优秀。v2.测试假设测试假设v假设测试是科学家和统计学家惯于花费心血研究的事情。假设测试是科学家和统计学家惯于花费心血研究的事情。假设是一种解释,它的正确性可以由分析数据来检验。这假设是一种解释,它的正确性可以由分析数据来检验。这些数据或者仅仅由观察收集,或者由实验生成。当结果显些数据或者仅仅由观察收集,或者由实验生成。当结果显示,用于医院做决策的这些假设是不正确的时候,假设测示,用于医院做决策的这些假设是不正确的时候,假设测试是最有价值的。试是最有价值的。(“知信行知信行”模型模型)2.3 2.3 数据挖掘的方法数据挖掘的方法v进行数据挖掘的时候,进行数据挖掘的时候,
22、首先要将实际问题转化首先要将实际问题转化为数据挖掘问题,能否为数据挖掘问题,能否转换为恰当的数据挖掘转换为恰当的数据挖掘问题是进行数据挖掘的问题是进行数据挖掘的关键。关键。为了尽可能避免获取不真实或者真实但无用的知识,必须采取恰当的方法。本节将数据挖掘的方法分为几个步骤,参见下图。数据挖掘的方法可以简单的概括为数据挖掘的方法可以简单的概括为5 5个步骤个步骤v定义问题:清晰地定义出业务问题,包括业务理解和数据理解,要确定数据挖掘定义问题:清晰地定义出业务问题,包括业务理解和数据理解,要确定数据挖掘的目的。的目的。v数据准备:数据准备包括:选择数据数据准备:数据准备包括:选择数据-在大型数据库和
23、数据仓库目标中提取数据在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理挖掘的目标数据集;数据预处理-进行数据再加工,包括检查数据的完整性及数进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。据的一致性、去噪声,填补丢失的域,删除无效数据等。v数据挖掘和建模:根据数据功能的类型和和数据的特点选择相应的算法,在净化数据挖掘和建模:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。和转换过的数据集上进行数据挖掘。v结果分析和模型评估:对数据挖掘的结果进行解释和评价,转换成为能够最终被结果分析和模型评估:对数据
24、挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。用户理解的知识。v模型的运用:将分析所得到的模型集成到业务信息系统的组织结构中去。模型的运用:将分析所得到的模型集成到业务信息系统的组织结构中去。(亦可参照书上细化的11个步骤)小结小结 这里所说的数据挖掘和模型建立,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的模型和知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。第三章第三章 决策树决策树28本章要点一、引言二、什么是决策树三、决策树的建
25、立(ID3算法)四、Microsoft SQL Server 2005实践决策树五、决策树的数据准备29你能判定他/她买计算机的可能性大不大吗?姓名姓名v年年龄龄n收收入入n学学生生n信信誉誉n电话电话v地址地址n邮邮编编n买计算买计算机机n张张三三n23v4000n是是n良良n281-322-0328n2714 Ave.M77388v买买n李李四四n34n2800n否否v优优n713-239-7830n5606 Holly Crn78766n买买v王王二二n70n1900n否否n优优v281-242-3222n2000 Bell Blvd.n70244n不买不买n赵赵五五18v900n是是n
26、良良n281-550-0544n100 Main Streetv70244n买买n刘刘兰兰n34n2500否否v优优n713-239-7430n606 Holly Ctn78566n买买u杨杨俊俊27u8900否否1.优优281-355-7990v233 Rice Blvd.n70388n不买不买n张张毅毅n389500v否否n优优n281-556-0544n399 Sugar Rd.n78244买买一、引例30决策树的用途(一)31决策树的用途(二)n计数计数n年年龄龄n收收入入v学学生生n信誉信誉n归类:买归类:买计算机?计算机?n64n青青v高高n否否n良良n不买不买n64v青青n高高n
27、否否n优优n不买不买128v中中n高高n否否n良良n买买v60n老老n中中n否否n良良买买v64n老老n低低n是是n良良l买买64老老低低是是优优不买不买l64l中中低低是是优优买买v128n青青n中中n否否n良良不买不买v64n青青n低低n是是n良良买买132v老老n中中n是是n良良n买买v64n青青n中中n是是n优优v买买n32n中中n中中n否否优优v买买n32n中中n高高n是是v良良n买买n63n老老n中中v否否n优优n不买不买n1 n老老v中中n否否n优优n买买假定公司假定公司收集收集了左表数据,了左表数据,那么对于任意给定的客人那么对于任意给定的客人(测试样例),你能帮助公(测试样例
28、),你能帮助公司将这位客人归类吗?司将这位客人归类吗?即:你能预测这位客人是属即:你能预测这位客人是属于于“买买”计算机的那一类,计算机的那一类,还是属于还是属于“不买不买”计算机的计算机的那一类?那一类?又:你需要多少有关这位客又:你需要多少有关这位客人的信息才能回答这个问题人的信息才能回答这个问题?决策树可以帮助你解决好这决策树可以帮助你解决好这个问题个问题32决策树的用途(二)n计计数数年年龄龄v收收入入n学学生生n信信誉誉n归类:买归类:买计算机?计算机?n64v青青n高高n否否n良良n不买不买64v青青n高高n否否n优优n不买不买v128n中中n高高n否否n良良买买60v老老n中中n
29、否否n良良n买买64v老老n低低n是是n良良n买买64老老v低低n是是n优优n不买不买n64中中v低低n是是n优优n买买n128v青青n中中n否否n良良n不买不买v64n青青n低低n是是n良良买买v132n老老n中中n是是n良良v买买n64n青青n中中n是是v优优n买买n32n中中n中中v否否n优优n买买n32n中中高高v是是n良良n买买n63n老老v中中n否否n优优n不买不买n1 老老v中中n否否n优优n买买谁在买计算机?谁在买计算机?他他/她会买计算机吗?她会买计算机吗?年龄?年龄?学生?学生?信誉?信誉?买买青青中中老老否否是是优优良良不买不买买买买买不买不买33决策树的用途(二)一棵很
30、糟糕的决策树一棵很糟糕的决策树收入?收入?学生?学生?青中否是高低中信誉?信誉?良优年龄?年龄?不买不买买买买买不买不买n计计数数年年龄龄收收入入学学生生信信誉誉归类:买归类:买计算机?计算机?64青青高高否否良良不买不买64青青高高否否优优不买不买128中中高高否否良良买买60老老中中否否良良买买64老老低低是是良良买买64老老低低是是优优不买不买64中中低低是是优优买买128青青中中否否良良不买不买64青青低低是是良良买买132老老中中是是良良买买64青青中中是是优优买买32中中中中否否优优买买32中中高高是是良良买买63老老中中否否优优不买不买1 老老中中否否优优买买34二、什么是决策树
31、二、什么是决策树 决策树是一个类似于流程图的树状结构,是一种用来决策树是一个类似于流程图的树状结构,是一种用来表示人们为了作出某一个决策而进行的一系列判断过程的表示人们为了作出某一个决策而进行的一系列判断过程的树形图,这种方法用于表现树形图,这种方法用于表现“在什么条件下会得到什么值在什么条件下会得到什么值”之类的规则之类的规则。22:12:08年龄?年龄?学生?学生?信誉?信誉?买买青青中中老老否否是是优优良良否否买买买买否否35三、决策树的建立三、决策树的建立1.决策树建立的关键决策树建立的关键2.对测试样例的信息期望对测试样例的信息期望(The expected information
32、needed to classify a given sample(中文可能称:评中文可能称:评价函数价函数)w信息期望 的分析与计算w平均信息期望w信息期望的减少(Gain)3.决策树建立步骤(例)决策树建立步骤(例)22:12:08361.1.决策树建立的关键决策树建立的关键v1、决策树建立的关键、决策树建立的关键22:12:08树根?树根?建立一个好的决策树的关建立一个好的决策树的关键是决定树根和子树根的键是决定树根和子树根的属性属性计数计数年龄年龄收入收入学生学生信誉信誉归类:买计归类:买计算机?算机?64青青高高否否良良不买不买64青青高高否否优优不买不买128中中高高否否良良买买6
33、0老老中中否否良良买买64老老低低是是良良买买64老老低低是是优优不买不买64中中低低是是优优买买128青青中中否否良良不买不买64青青低低是是良良买买132老老中中是是良良买买64青青中中是是优优买买32中中中中否否优优买买32中中高高是是良良买买63老老中中否否优优不买不买1 老老中中否否优优买买371.1.决策树建立的关键决策树建立的关键22:12:08年龄年龄计计数数年年龄龄收收入入学学生生信信誉誉归类:买计算归类:买计算机?机?64青青高高否否良良不买不买64青青高高否否优优不买不买128青青中中否否良良不买不买64青青低低是是良良买买64青青中中是是优优买买计数计数年龄年龄收入收入
34、学生学生信誉信誉归类:买计算机?归类:买计算机?128中中高高否否良良买买64中中低低是是优优买买32中中中中否否优优买买32中中高高是是良良买买计数计数年龄年龄收入收入学生学生信誉信誉归类:买计算机?归类:买计算机?60老老中中否否良良买买64老老低低是是良良买买64老老低低是是优优不买不买132老老中中是是良良买买63老老中中否否优优不买不买1 老老中中否否优优买买382.2.对测试样例的信息期望对测试样例的信息期望v张三属于哪一类?为了回答该问题,对张三的信息期望张三属于哪一类?为了回答该问题,对张三的信息期望值是多少?值是多少?22:12:08年年龄龄计数年龄收入学生信誉归类:买计算机
35、?归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128青中否良不买64青低是良买64青中是优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?128中高否良买64中低是优买32中中否优买32中高是良买计数年龄收入学生信誉归类:买计算机?归类:买计算机?60老中否良买64老低是良买64老低是优不买132老中是良买63
36、老中否优不买1 老中否优买392.2.对测试样例的信息期望对测试样例的信息期望22:12:08年年龄龄计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128青中否良不买64青低是良买64青中是优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?128中高否良买64中低是优买32中中
37、否优买32中高是良买计数年龄收入学生信誉归类:买计算机?归类:买计算机?60老中否良买64老低是良买64老低是优不买132老中是良买63老中否优不买1 老中否优买402.2.对测试样例的信息期望对测试样例的信息期望v让我们称所需要研究的属性为“分类属性”。假设该属性共分m类,而它们每一类在数据表中计数的总和分别为s1,s2,sm。令 s=s1+s2+sm那么对于任一样例,决定它所属类别的信息期望可以用下面的公式来计算:I(s1,s2,sm)=-pi log2(pi)其中 pi=si/s22:12:10 i=1m计数年龄收入学生信誉归类:买计归类:买计算机?算机?64青高否良不买64青高否优不买
38、128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买41例:左表分类属性:买计算机?该属性共分两类(m=2):买/不买s1=641,s2=383s=s1+s2=1024p1=s1/s=641/1024=0.6260p2=s2/s=383/1024=0.3740 I(s1,s2)=I(641,383)=-(p1 log2(p1)+p2 log2(p2)=0.95372.2.对测试样例的信息期望对测试样例的信息期望22:12:10计数年龄收入学生信誉归类:买
39、计算机?归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买422.2.对测试样例的信息期望对测试样例的信息期望讨论:“买”/“不买”计算机的人数之间的比例对于信息期望值的影响I(641,383)=0.9537I(512,512)=I(4,4)=1I(51,973)=I(973,51)=0.2856I(0,1024)=I(256,0)=0I(128,256)=0.9183I(257,127)=0.9157v
40、信息期望的数值与分类属性中各类计数之间的比例有关v信息期望的数值与计数总数无关22:12:10计数年龄收入学生信誉归类:买计算归类:买计算机?机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1 老中否优买432.2.对测试样例的信息期望对测试样例的信息期望22:12:10信息期望的减少信息期望的减少(又称又称Gain)=信息期望信息期望 平均信息期望平均信息期望 基于节点数据表基于节点数据表基于该节点的所有直系基于该节点的所有直
41、系分支数据表分支数据表442.2.对测试样例的信息期望对测试样例的信息期望v平均信息期望,E,是节点各直系分支的信息期望值的加权总和1)假定选择年龄作树根节点,则:青年组:I(128,256)=0.9183中年组:I(256,0)=0老年组:I(257,127)=0.9157青年组比例:(128+256)/1024=0.375中年组比例:256/1024=0.25老年组比例:(257+127)/1024=0.375平均信息期望(加权总和):E(年龄)=0.375*0.9183+0.25*0+0.375*0.9157=0.6877Gain(年龄)=I(641,383)-E(年龄)=0.9537
42、0.6877=0.2660计数年龄收入学生信誉归类:买计算归类:买计算机?机?64青高否良不买64青高否优不买128青中否良不买64青低是良买64青中是优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?128中高否良买64中低是优买32中中否优买32中高是良买计数年龄收入学生信誉归类:买计算机?归类:买计算机?60老中否良买64老低是良买64老低是优不买132老中是良买63老中否优不买1 老中否优买452.2.对测试样例的信息期望对测试样例的信息期望2)假定选择收入作树根节点,则:高收入组:I(160,128)=0.9911中收入组:I(289,191)=0.9697低收入组:I(192
43、,64)=0.8133高收入组 比例:288/1024=0.2813中收入组比例:480/1024=0.4687低收入组比例:256/1024=0.25平均信息期望(加权总和):E(收入)=0.2813*0.9911+0.4687*0.9697+0.25*0.8133=0.9361Gain(收入)=I(641,383)-E(收入)=0.9537 0.9361=0.0176计数年龄收入学生信誉归类:买计算机?归类:买计算机?60老中否良买128青中否良不买132老中是良买64青中是优买32中中否优买63老中否优不买1 老中否优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买
44、64青高否优不买128中高否良买32中高是良买计数年龄收入学生信誉归类:买计算机?归类:买计算机?64老低是良买64老低是优不买64中低是优买64青低是良买462.2.对测试样例的信息期望对测试样例的信息期望3)假定选择学生作树根节点,则:学生组:I(420,64)=0.5635非学生组:I(221,319)=0.9761学生组比例:484/1024=0.4727 非学生组比例:540/1024=0.5273平均信息期望(加权总和):E(学生)=0.4727*0.5635+0.5273*0.9761=0.7811Gain(学生)=I(641,383)-E(学生)=0.9537 0.7811=0
45、.1726计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买128青中否良不买32中中否优买63老中否优不买1 老中否优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?64老低是良买64老低是优不买64中低是优买64青低是良买132老中是良买64青中是优买32中高是良买472.2.对测试样例的信息期望对测试样例的信息期望4)假定选择信誉作树根节点,则:良好组:I(480,192)=0.8631优秀组:I(161,191)=0.9948良好组比例:672/1024=0.6563 优秀组比例:352/1024=0.3437平均信
46、息期望(加权总和):E(信誉)=0.6563*0.8631+0.3437*0.9948=0.9048Gain(信誉)=I(641,383)-E(信誉)=0.9537 0.9048=0.0453计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否优不买64老低是优不买64中低是优买64青中是优买32中中否优买63老中否优不买1 老中否优买计数年龄收入学生信誉归类:买计算机?归类:买计算机?64青高否良不买128中高否良买60老中否良买64老低是良买128青中否良不买64青低是良买132老中是良买32中高是良买482.2.对测试样例的信息期望对测试样例的信息期望v决定树根节点决定树根节点
47、 E(年龄)年龄)=0.6877,Gain(年龄年龄)=0.2660E(收入)收入)=0.9361,Gain(收入收入)=0.0176E(学生)学生)=0.7811,Gain(学生学生)=0.1726E(信誉)信誉)=0.9048,Gain(信誉信誉)=0.0453493.3.决策树建立步骤决策树建立步骤1)决定分类属性决定分类属性2)对目前的数据表,建立一个节点对目前的数据表,建立一个节点N。3)如果数据表中的数据都属于同一类,如果数据表中的数据都属于同一类,N就是树叶,在树叶上标上所就是树叶,在树叶上标上所属的那一类。属的那一类。4)如果数据表中没有其他属性可以考虑,如果数据表中没有其他属
48、性可以考虑,N也是树叶,按照少数服从也是树叶,按照少数服从多数的原则在树叶上标上所属类别。多数的原则在树叶上标上所属类别。5)否则,根据平均信息期望值否则,根据平均信息期望值E或或Gain值选出一个最佳属性作为节点值选出一个最佳属性作为节点N的测试属性。的测试属性。6)节点属性选定以后,对于该属性的每一个值:节点属性选定以后,对于该属性的每一个值:w从N生成一个分支,并将数据表中与该分支有关的数据收集形成分支节点的数据表,在表中删除节点属性那一栏。w如果分支数据表非空,则运用以上算法从该节点建立子树。50年龄计数收入学生信誉归类:买计算机归类:买计算机?64高否良不买64高否优不买128中否良
49、不买64低是良买64中是优买计数收入学生信誉归类:买计算机?归类:买计算机?60中否良买64低是良买64低是优不买132中是良买63中否优不买1 中否优买青 中 老树叶计数收入学生信誉归类:买计算机?归类:买计算机?128高否良买64低是优买32中否优买32高是良买3.3.决策树建立步骤决策树建立步骤5122:12:12年龄计数收入学生信誉归类:买计算机归类:买计算机?64高否良不买64高否优不买128中否良不买64低是良买64中是优买计数收入学生信誉归类:买计算机归类:买计算机?60中否良买64低是良买64低是优不买132中是良买63中否优不买1 中否优买青 中 老买3.3.决策树建立步骤决
50、策树建立步骤52平均信息期望(加权总和):平均信息期望(加权总和):E(收入)收入)=0.3333*0+0.5*0.9183+0.1667*0=0.4592Gain(收入收入)=I(128,256)-E(收入收入)=0.9183 0.4592=0.4591计数收入学生信誉归类:买计算机?归类:买计算机?64高否良不买64高否优不买128中否良不买64低是良买64中是优买计数收入学生信誉归类:买计算机?归类:买计算机?64高否良不买64高否优不买计数收入学生信誉归类:买计算机?归类:买计算机?128中否良不买64中是优买计数收入学生信誉归类:买计算机?归类:买计算机?64低是良买青年组数据表分析