《第四讲判别分析优秀课件.ppt》由会员分享,可在线阅读,更多相关《第四讲判别分析优秀课件.ppt(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四讲判别分析第1页,本讲稿共38页判别分析应用十分广泛判别分析应用十分广泛在在生生产产、科科研研和和日日常常生生活活中中经经常常需需要要根根据据观观测测到到的的数数据据资资料料,对对所研究的对象进行分类。所研究的对象进行分类。在在经经济济学学中中,根根据据人人均均国国民民收收入入、人人均均工工农农业业产产值值、人人均均消消费费水水平平等等多多种种指指标来判定一个国家的经济发展程度所属类型;标来判定一个国家的经济发展程度所属类型;在在市市场场预预测测中中,根根据据以以往往调调查查所所得得的的种种种种指指标标,判判别别下下季季度度产产品品是是畅畅销销、平平常常或或滞销;滞销;在在地地质质勘勘探探
2、中中,根根据据岩岩石石标标本本的的多多种种特特性性来来判判别别地地层层的的地地质质年年代代,由由采采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在在油油田田开开发发中中,根根据据钻钻井井的的电电测测或或化化验验数数据据,判判别别是是否否遇遇到到油油层层、水水层层、干干层层或或油水混合层;油水混合层;在在农农林林害害虫虫预预报报中中,根根据据以以往往的的虫虫情情、多多种种气气象象因因子子来来判判别别一一个个月月后后的的虫虫情情是大发生、中发生或正常;是大发生、中发生或正常;在在医医疗疗诊诊断断中中,根根据据某某人人多多种种体
3、体检检指指标标(如如体体温温、血血压压、白白血血球球等等)来来判判别别此此人人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。第2页,本讲稿共38页判别分析与聚类分析的区别聚聚类类分分析析和和判判别别分分析析有有相相似似的的之之处处,都都是是起起到到分类的作用。分类的作用。但但是是,判判别别分分析析是是已已知知分分类类然然后后总总结结出出判判别别规规则则,是是一一种种有有指指导导的的学学习习。即即:判判别别分分析析是是在在已已知知研研究究对对象象分分成成若若干干类类型型(或或组组别别)并并已已取取得得各各种种类类型型的
4、的一一批批已已知知样样品品的的观观测测数数据据,在在此此基基础础上上根根据据某某些些准准则则建建立立判判别别式式,然然后后对对未未知知类类型的样品进行判别分类。型的样品进行判别分类。而而聚聚类类分分析析则则是是有有了了一一批批给给定定样样品品,而而要要划划分分的的类类型型事事先先并并不不知知道道,甚甚至至连连分分成成几几类类也也不不知知道道,希希望望用用某某种种方方法法把把观观测测进进行行合合理理的的分分类类,使使得得同同一一类类的的观观测测比比较较接接近近,不不同同类类的的观观测测相相差较多,这是无指导的学习。差较多,这是无指导的学习。第3页,本讲稿共38页正因为如此,判别分析和聚类分析往往
5、联合起来使用,正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别以对新样品进行判别。判别分析的目的是对已知分类的数据建立由数值指标构成的分类判别分析的目的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样品去分类。规则,然后把这样的规则应用到未知分类的样品去分类。
6、例如,我们有了患胃炎的病人和健康人的一些化验指标,例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别,把这种区别就可以从这些化验指标发现两类人的区别,把这种区别表示为一个判别公式,然后对怀疑患胃炎的人就可以根表示为一个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。据其化验指标用判别公式诊断。第4页,本讲稿共38页判别分析内容:判别分析内容:判别分析按判别的组数来区分,有两组判别分析和多组判判别分析按判别的组数来区分,有两组判别分析和多组判别分析;别分析;按区分不同总体的所用的数学模型来分,有线性判别和非按区分不同总体的所用的数学模型来分,
7、有线性判别和非线性判别;线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、如马氏距离最小准则、FisherFisher准则、平均损失最小准则、准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即种常用的判别方法即距离判别法距离
8、判别法、FisherFisher判别法判别法、BayesBayes判判别法别法和和逐步判别法逐步判别法。第5页,本讲稿共38页 距离判别法距离判别法基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类类的重心距离最近,就认为它来自第i类。距离判别法,对各类(或总体)的分布,并无特定的要求。第6页,本讲稿共38页 1、两个总体的距离判别法两个总体的距离判别法设设设设有有有有两两两两个个个个总总总总体体体体(或或或或称称称称两两两两类类类类)G)G1 1、GG2 2,从从从从第第第第一一一一个个个个总总总总体体体体中中中中抽抽抽抽取取取取
9、n n1 1个个个个样样样样品品品品,从从从从第第第第二二二二个个个个总总总总体体体体中中中中抽抽抽抽取取取取n n2 2个个个个样品,每个样品测量样品,每个样品测量样品,每个样品测量样品,每个样品测量p p个指标如下表:个指标如下表:个指标如下表:个指标如下表:今任取一个样品,实测指标值为今任取一个样品,实测指标值为今任取一个样品,实测指标值为今任取一个样品,实测指标值为 X X(x(x1 1,x xp p),问问问问X X应判归为哪一类应判归为哪一类应判归为哪一类应判归为哪一类?第7页,本讲稿共38页 解:首先计算解:首先计算X到到G1、G2总体的距离,分别记为总体的距离,分别记为D(X,
10、G1)和和D(X,G2),按距离最近准则判别归类,则可写,按距离最近准则判别归类,则可写成:成:如果距离定义采用欧氏距离,则可计算出如果距离定义采用欧氏距离,则可计算出然后比较然后比较D(X,G1)和和D(X,G2)大小,按距离最近准则大小,按距离最近准则判别归类。判别归类。第8页,本讲稿共38页下面用马氏距离对上述准则做较详细讨论下面用马氏距离对上述准则做较详细讨论 分别为:G1、G2的均值向量和协差阵。如果距离定义采用马氏距离即:这时判别准则可分以下两种情况给出:第9页,本讲稿共38页第10页,本讲稿共38页第11页,本讲稿共38页第12页,本讲稿共38页第13页,本讲稿共38页2、多个总
11、体的距离判别法、多个总体的距离判别法第14页,本讲稿共38页第15页,本讲稿共38页第16页,本讲稿共38页第17页,本讲稿共38页例例1:1:人文发展指数是联合国开发计划署于1990年5月发表的第一份人类发展报告中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别采用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。资料来源:UNDP人类发展报告1995年。今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别
12、分析。第18页,本讲稿共38页第19页,本讲稿共38页第20页,本讲稿共38页第21页,本讲稿共38页第22页,本讲稿共38页第23页,本讲稿共38页第24页,本讲稿共38页第25页,本讲稿共38页用SAS实现的判别分析实例第26页,本讲稿共38页第27页,本讲稿共38页解:A盆地和B盆地看做两个不同的总体,并假定两总体协差阵相等本例中变量个数p4,两类总体各有5个训练样品(nln25),另有8个待判样品下面用SASSTAT软件中的 DISCRIM过程进行判别归类 以下SAS程序首先生成SAS数据集D6ll,然后调用 DISCRIM过程对含钾和不含钾的A,B两类盆地的10个样品特征测量值用距离
13、判别的方法,建立线性判别函数,并对已知类别的 样品和待判样品进行判别归类输出611至输出613是SAS程序输出的部分结果第28页,本讲稿共38页第29页,本讲稿共38页第30页,本讲稿共38页第31页,本讲稿共38页第32页,本讲稿共38页第33页,本讲稿共38页误判概率误判概率第34页,本讲稿共38页第35页,本讲稿共38页第36页,本讲稿共38页下面的下面的Bayes判别法则是将误判概率、误判造成的损失以及各个判别法则是将误判概率、误判造成的损失以及各个总体出现的先验概率结合起来建立的一种判别规则。总体出现的先验概率结合起来建立的一种判别规则。贝叶斯判别贝叶斯判别 距离判别法是利用所给样品
14、到各个总体的距离的远近来判断其归属。这种方法计算简单,且可不涉及分布的类型,因此,适用面较广。但这种方法未考虑各个总体各自出现的可能性(概率)大小,同时也未涉及误判之后造成的损失如何,这当然不够合理。下面用一个地震预报的例子来说明这个问题。第37页,本讲稿共38页例:设根据历史上若干次发生地震和无震时的p项观测结果(如地下水中氡的含量、地磁强度、井下水位高度)已经估计出有震总体Gl与无震总体G2的有关参数。现在要根据当前观测到的p项指标来判断所获得的样品是属于G1还是G2。即是预报“明天有震”或“明天无震”。若简单地用样品到G1和G2的距离来预报就不够妥当了。首先,在全年的365天中有感地震是
15、较少的,破坏性地震更是罕见的。如果考虑到这个因素,在没有特大的异常时就应该预报“无震“,这样较为稳妥。这是由于历史上的先验知识告诉我们:“有震”与“无震“这两个总体本身各自出现的概率相差悬殊,在难以判断时,应优先判为出现的概率较大的那个总体。其次,误判有两种:“有震”报为“无震是“漏报”;“无震”报为“有震”,是“虚报”。二者皆可能造成损失,但损失却会很不相同。“漏报”会使人民在毫无准备的情况下,面临巨大灾难,会造成大量伤亡;而“虚报”则造成生产停顿,人心不安,有时的损失也不亚于“漏报”造成的损失.这个例子是说,判断一个样品属于哪一个总体时,既要考虑各个总体各自出现的概率的大小,还应考虑到错报造成的损失情况,最后才能决定样品的归属。基于以上考虑,贝叶斯学派提出了另一种判别方法习惯上称为Bayes判别法。第38页,本讲稿共38页