《第四讲判别分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第四讲判别分析优秀PPT.ppt(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四讲判别分析第一页,本课件共有38页判别分析应用十分广泛判别分析应用十分广泛在在生生产产、科科研研和和日日常常生生活活中中经经常常需需要要根根据据观观测测到到的的数数据据资料,对所研究的对象进行分类。资料,对所研究的对象进行分类。在在经经济济学学中中,根根据据人人均均国国民民收收入入、人人均均工工农农业业产产值值、人人均均消消费费水水平平等等多多种种指指标来判定一个国家的经济发展程度所属类型;标来判定一个国家的经济发展程度所属类型;在在市市场场预预测测中中,根根据据以以往往调调查查所所得得的的种种种种指指标标,判判别别下下季季度度产产品品是是畅畅销、平常或滞销;销、平常或滞销;在在地地质质勘
2、勘探探中中,根根据据岩岩石石标标本本的的多多种种特特性性来来判判别别地地层层的的地地质质年年代代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在在油油田田开开发发中中,根根据据钻钻井井的的电电测测或或化化验验数数据据,判判别别是是否否遇遇到到油油层层、水水层层、干层或油水混合层;干层或油水混合层;在在农农林林害害虫虫预预报报中中,根根据据以以往往的的虫虫情情、多多种种气气象象因因子子来来判判别别一一个个月后的虫情是大发生、中发生或正常;月后的虫情是大发生、中发生或正常;在在医医疗疗诊诊断断中中,根根据据某某人人多多
3、种种体体检检指指标标(如如体体温温、血血压压、白白血血球球等等)来来判判别别此此人人是是有有病病还还是是无无病病。总总之之,在在实实际际问问题题中中需需要要判判别别的的问问题题几几乎乎到到处处可可见。见。第二页,本课件共有38页判别分析与聚类分析的区别聚聚类类分分析析和和判判别别分分析析有有相相似似的的之之处处,都都是是起起到到分类的作用。分类的作用。但但是是,判判别别分分析析是是已已知知分分类类然然后后总总结结出出判判别别规规则则,是是一一种种有有指指导导的的学学习习。即即:判判别别分分析析是是在在已已知知研研究究对对象象分分成成若若干干类类型型(或或组组别别)并并已已取取得得各各种种类类型
4、型的的一一批批已已知知样样品品的的观观测测数数据据,在在此此基基础础上上根根据据某某些些准准则则建建立立判判别别式式,然然后后对对未未知知类类型的样品进行判别分类。型的样品进行判别分类。而而聚聚类类分分析析则则是是有有了了一一批批给给定定样样品品,而而要要划划分分的的类类型型事事先先并并不不知知道道,甚甚至至连连分分成成几几类类也也不不知知道道,希希望望用用某某种种方方法法把把观观测测进进行行合合理理的的分分类类,使使得得同同一一类类的的观观测测比比较较接接近近,不不同同类类的的观观测测相相差较多,这是无指导的学习。差较多,这是无指导的学习。第三页,本课件共有38页正因为如此,判别分析和聚类分
5、析往往联合起来使用,例如正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别行分类,然后再用判别分析建立判别式以对新样品进行判别。判别分析的目的是对已知分类的数据建立由数值指标判别分析的目的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类构成的分类规则,然后把这样的规则应用到未知分类的样品去分类。的样品去
6、分类。例如,我们有了患胃炎的病人和健康人的一些化验指标,例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别,把这种区别就可以从这些化验指标发现两类人的区别,把这种区别表示为一个判别公式,然后对怀疑患胃炎的人就可以根表示为一个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。据其化验指标用判别公式诊断。第四页,本课件共有38页判别分析内容:判别分析内容:判别分析按判别的组数来区分,有两组判别分析和多组判别分析按判别的组数来区分,有两组判别分析和多组判别分析;判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线按区分不同总体的所用的数学
7、模型来分,有线性判别和非线性判别;性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、如马氏距离最小准则、FisherFisher准则、平均损失最小准则、准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即常用的判别方法即距离判
8、别法距离判别法、FisherFisher判别法判别法、BayesBayes判别判别法法和和逐步判别法逐步判别法。第五页,本课件共有38页 距离判别法距离判别法基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类类的重心距离最近,就认为它来自第i类。距离判别法,对各类(或总体)的分布,并无特定的要求。第六页,本课件共有38页 1、两个总体的距离判别法两个总体的距离判别法设设有有两两个个总总体体(或或称称两两类类)G1、G2,从从第第一一个个总总体体中中抽抽取取n1个个样样品品,从从第第二二个个总总体体中中抽抽取取n2个个样品,每个样品测
9、量样品,每个样品测量p个指标如下表:个指标如下表:今任取一个样品,实测指标值为今任取一个样品,实测指标值为今任取一个样品,实测指标值为今任取一个样品,实测指标值为 X X(x(x1 1,x xp p),问,问,问,问X X应应应应判归为哪一类判归为哪一类判归为哪一类判归为哪一类?第七页,本课件共有38页 解:首先计算解:首先计算X到到G1、G2总体的距离,分别记为总体的距离,分别记为D(X,G1)和和D(X,G2),按距离最近准则判别归类,按距离最近准则判别归类,则可写成:则可写成:如果距离定义采用欧氏距离,则可计算出如果距离定义采用欧氏距离,则可计算出然后比较然后比较D(X,G1)和和D(X
10、,G2)大小,按距离最近准则判别大小,按距离最近准则判别归类。归类。第八页,本课件共有38页下面用马氏距离对上述准则做较详细讨论下面用马氏距离对上述准则做较详细讨论 分别为:G1、G2的均值向量和协差阵。如果距离定义采用马氏距离即:这时判别准则可分以下两种情况给出:第九页,本课件共有38页第十页,本课件共有38页第十一页,本课件共有38页第十二页,本课件共有38页第十三页,本课件共有38页2、多个总体的距离判别法、多个总体的距离判别法第十四页,本课件共有38页第十五页,本课件共有38页第十六页,本课件共有38页第十七页,本课件共有38页例例1:1:人文发展指数是联合国开发计划署于1990年5月
11、发表的第一份人类发展报告中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别采用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。资料来源:UNDP人类发展报告1995年。今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。第十八页,本课件共有38页第十九页,本课件共有38页第二十页,本课件共有38页第二十一页,本课件共有38页第二十二页,本课件共有38页第二十三页,本课件共有38页第二十四页,本课件共有
12、38页第二十五页,本课件共有38页用SAS实现的判别分析实例第二十六页,本课件共有38页第二十七页,本课件共有38页解:A盆地和B盆地看做两个不同的总体,并假定两总体协差阵相等本例中变量个数p4,两类总体各有5个训练样品(nln25),另有8个待判样品下面用SASSTAT软件中的 DISCRIM过程进行判别归类 以下SAS程序首先生成SAS数据集D6ll,然后调用 DISCRIM过程对含钾和不含钾的A,B两类盆地的10个样品特征测量值用距离判别的方法,建立线性判别函数,并对已知类别的 样品和待判样品进行判别归类输出611至输出613是SAS程序输出的部分结果第二十八页,本课件共有38页第二十九
13、页,本课件共有38页第三十页,本课件共有38页第三十一页,本课件共有38页第三十二页,本课件共有38页第三十三页,本课件共有38页误判概率误判概率第三十四页,本课件共有38页第三十五页,本课件共有38页第三十六页,本课件共有38页下面的下面的Bayes判别法则是将误判概率、误判造成的损失以判别法则是将误判概率、误判造成的损失以及各个总体出现的先验概率结合起来建立的一种判别规及各个总体出现的先验概率结合起来建立的一种判别规则。则。贝叶斯判别贝叶斯判别 距离判别法是利用所给样品到各个总体的距离的远近来判断其归属。这种方法计算简单,且可不涉及分布的类型,因此,适用面较广。但这种方法未考虑各个总体各自
14、出现的可能性(概率)大小,同时也未涉及误判之后造成的损失如何,这当然不够合理。下面用一个地震预报的例子来说明这个问题。第三十七页,本课件共有38页例:设根据历史上若干次发生地震和无震时的p项观测结果(如地下水中氡的含量、地磁强度、井下水位高度)已经估计出有震总体Gl与无震总体G2的有关参数。现在要根据当前观测到的p项指标来判断所获得的样品是属于G1还是G2。即是预报“明天有震”或“明天无震”。若简单地用样品到G1和G2的距离来预报就不够妥当了。首先,在全年的365天中有感地震是较少的,破坏性地震更是罕见的。如果考虑到这个因素,在没有特大的异常时就应该预报“无震“,这样较为稳妥。这是由于历史上的
15、先验知识告诉我们:“有震”与“无震“这两个总体本身各自出现的概率相差悬殊,在难以判断时,应优先判为出现的概率较大的那个总体。其次,误判有两种:“有震”报为“无震是“漏报”;“无震”报为“有震”,是“虚报”。二者皆可能造成损失,但损失却会很不相同。“漏报”会使人民在毫无准备的情况下,面临巨大灾难,会造成大量伤亡;而“虚报”则造成生产停顿,人心不安,有时的损失也不亚于“漏报”造成的损失.这个例子是说,判断一个样品属于哪一个总体时,既要考虑各个总体各自出现的概率的大小,还应考虑到错报造成的损失情况,最后才能决定样品的归属。基于以上考虑,贝叶斯学派提出了另一种判别方法习惯上称为Bayes判别法。第三十八页,本课件共有38页