《第4章判别分析.ppt》由会员分享,可在线阅读,更多相关《第4章判别分析.ppt(67页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第4章判别分析 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望2第一节第一节 引言引言n在我们的日常生活和工作实践中,常常会遇到判别分析问题,在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。种判别方法,判定一个新的样本归属哪一类。n例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病例如,某医院有部分患有肺炎、肝炎、
2、冠心病、糖尿病等病人的资料,记录了每个患者若干项症状指标数据。现在想利人的资料,记录了每个患者若干项症状指标数据。现在想利用现有的这些资料找出一种方法,使得对于一个新的病人,用现有的这些资料找出一种方法,使得对于一个新的病人,当测得这些症状指标数据时,能够判定其患有哪种病。当测得这些症状指标数据时,能够判定其患有哪种病。n又如,在天气预报中,我们有一段较长时间关于某地区每天又如,在天气预报中,我们有一段较长时间关于某地区每天气象的记录资料(晴阴雨、气温、气压、湿度等),现在想气象的记录资料(晴阴雨、气温、气压、湿度等),现在想建立一种用连续五天的气象资料来预报第六天是什么天气的建立一种用连续五
3、天的气象资料来预报第六天是什么天气的方法。这些问题都可以应用判别分析方法予以解决。方法。这些问题都可以应用判别分析方法予以解决。3n把这类问题用数学语言来表达,可以叙述如下:设把这类问题用数学语言来表达,可以叙述如下:设有有n个样本,对每个样本测得个样本,对每个样本测得p项指标(变量)的数项指标(变量)的数据,已知每个样本属于据,已知每个样本属于k个类别(或总体)个类别(或总体)G1,G2,Gk中的某一类,且它们的分布函数分别为中的某一类,且它们的分布函数分别为F1(x),F2(x),Fk(x)。我们希望利用这些数据,。我们希望利用这些数据,找出一种判别函数,使得这一函数具有某种最优性找出一种
4、判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样并对测得同样p项指标(变量)数据的一个新样本,项指标(变量)数据的一个新样本,能判定这个样本归属于哪一类。能判定这个样本归属于哪一类。4判别分析内容很丰富,方法众多:判别分析内容很丰富,方法众多:n按判别的总体数来区分,有两个总体判别分析和多总体判别按判别的总体数来区分,有两个总体判别分析和多总体判别分析;分析;n按区分不同总体所用的数学模型来分,有线性判别和非线性按区分不同总体所用的数学模型来分,有线性判别和非线性判别;判别;n按判别时所处理的变量方法不
5、同,有逐步判别和序贯判别等。按判别时所处理的变量方法不同,有逐步判别和序贯判别等。n判别分析可以从不同角度提出问题,因此有不同的判别准则,判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、如马氏距离最小准则、Fisher准则、平均损失最小准则、最准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。则的不同又提出多种判别方法。n本章仅介绍常用的几种判别分析方法:距离判别法、本章仅介绍常用的几种判别分析方法:距离判别法、Fisher判别法、判别法、Bayes判别法。判别
6、法。5第二节第二节 距离判别法距离判别法一一 马氏距离的概念马氏距离的概念 二二 距离判别的思想及方法距离判别的思想及方法 三三 判别分析的实质判别分析的实质 6一、马氏距离的概念一、马氏距离的概念n 7图图4.189n为为此此,我我们们引引入入一一种种由由印印度度著著名名统统计计学学家家马马哈哈拉拉诺诺比比斯斯(Mahalanobis,1936)提出的)提出的“马氏距离马氏距离”的概念。的概念。n 1011所以,马氏距离有如下的特点:所以,马氏距离有如下的特点:2、马氏距离是标准化后的变量的欧式距离、马氏距离是标准化后的变量的欧式距离1、马氏距离不受计量单位的影响、马氏距离不受计量单位的影响
7、;12 3、若变量之间是相互无关的,则协方差矩阵为对角矩阵、若变量之间是相互无关的,则协方差矩阵为对角矩阵1314二、距离判别的思想及方法二、距离判别的思想及方法 1、两个总体的距离判别问题、两个总体的距离判别问题n 问题:设有协方差矩阵问题:设有协方差矩阵相等的两个总体相等的两个总体G1和和G2,其均值,其均值分别是分别是 1和和 2,对于一个新的样品,对于一个新的样品X,要判断它来自哪个总,要判断它来自哪个总体。体。n 一般的想法是计算新样品一般的想法是计算新样品X到两个总体的马氏距离到两个总体的马氏距离D2(X,G1)和和D2(X,G2),并按照如下的判别规则进行判断,并按照如下的判别规
8、则进行判断n这个判别规则的等价描述为:求新样品这个判别规则的等价描述为:求新样品X到到G1的距离与到的距离与到G2的距离之差,如果其值为正,的距离之差,如果其值为正,X属于属于G2;否则;否则X属于属于G1。15n我们考虑我们考虑 1617n n 18 例例4.1 在企业的考核中,可以根据企业的生产经营情况把在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标企业分为优秀企业和一般企业。考核企业经营状况的指标有:有:资金利润率资金利润率=利润总额利润总额/资金占用总额资金占用总额 劳动生产率劳动生产率=总产值总产值/职工平均人数职工平均人数 产品净值率
9、产品净值率=净产值净产值/总产值总产值 三个指标的均值向量和协方差矩阵见下页表格。现有二三个指标的均值向量和协方差矩阵见下页表格。现有二个企业,观测值分别为(个企业,观测值分别为(7.8,39.1,9.6)和()和(8.1,34.2,6.9),问这两个企业应该属于哪一类?),问这两个企业应该属于哪一类?19变量变量均值向量均值向量协方差矩阵协方差矩阵优秀优秀一般一般资金利润率资金利润率13.55.468.3940.2421.41 劳动生产率劳动生产率40.729.840.2454.5811.67 产品净值率产品净值率10.76.221.4111.677.9020n n 21经计算后,得出线性判
10、别函数经计算后,得出线性判别函数W(X):):所以,该企业属于优秀企业。所以,该企业属于优秀企业。所以,该企业属于一般企业。所以,该企业属于一般企业。22n n 23n 24n这里我们应该注意到:这里我们应该注意到:25262、多个总体的距离判别问题、多个总体的距离判别问题n n 27n 28 n 29例例 4.2 n 30例例 4.2 31n 例例 4.2 32例例4.2n 33例例4.2n 34例例4.2n 如何用如何用EXCEL实现矩阵运算实现矩阵运算n矩阵不是一个数,而是一个数组。在矩阵不是一个数,而是一个数组。在Excel里,数组占用一片单元域,单里,数组占用一片单元域,单元域用大括
11、号表示,例如元域用大括号表示,例如A1:C3,以便和普通单元域,以便和普通单元域A1:C3相区别。相区别。设置时先选定单元域,同时按设置时先选定单元域,同时按ShiftCtrlEnter键,大括弧即自动产生,键,大括弧即自动产生,数组域得以确认。数组域得以确认。n矩阵相加、相减与数组的加减表达形式是一样的。例如,定义矩阵相加、相减与数组的加减表达形式是一样的。例如,定义A和和B均为均为33的数组,如果输入的数组,如果输入“=AB”或或“=A-B”,计算结果是数组对应项相加,计算结果是数组对应项相加或相减,矩阵相加、相减与数组的加减表达形式与之相同。或相减,矩阵相加、相减与数组的加减表达形式与之
12、相同。n但注意,数组的乘、除计算与矩阵的乘、除计算是有区别的。输入但注意,数组的乘、除计算与矩阵的乘、除计算是有区别的。输入“=A*B”表示数组表示数组A和和B相乘(相乘(“=A/B”表示数组表示数组A除数组除数组B),),Excel是是对两个数组中的每一对相对应的单元格进行乘或除运算,其计算规则显对两个数组中的每一对相对应的单元格进行乘或除运算,其计算规则显然不同于矩阵运算。然不同于矩阵运算。n如果要进行矩阵乘、除计算,就要用到相应的矩阵函数。表示矩阵相乘如果要进行矩阵乘、除计算,就要用到相应的矩阵函数。表示矩阵相乘可以输入可以输入“=MMULT(A,B)”,而矩阵相除是矩阵,而矩阵相除是矩
13、阵A乘乘B的逆矩阵,所以计的逆矩阵,所以计算公式是算公式是“=MMULT(A,MINVERSE(B))”。公式输入后,同时按。公式输入后,同时按ShiftCtrlEnter键得到计算结果。对于更复杂的矩阵计算,可以采用分步键得到计算结果。对于更复杂的矩阵计算,可以采用分步计算计算Excel中的常用矩阵运算函数中的常用矩阵运算函数n矩阵的转置:复制矩阵的转置:复制-选择性粘贴选择性粘贴-转置,或转置,或transpose()n求行列式:求行列式:MDETERM(array)n求逆矩阵:求逆矩阵:Minverse(array)n矩阵相乘:矩阵相乘:MMULT(array1,array2)注意结果矩
14、阵的行数与注意结果矩阵的行数与array1的行数相同,的行数相同,矩阵的列数与矩阵的列数与array2的列数相同。的列数相同。37三、判别分析的实质三、判别分析的实质*n我们知道,判别分析就是希望利用已经测得的变量我们知道,判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区最优性质,能把属于不同类别的样本点尽可能地区别开来。为了更清楚的认识判别分析的实质,以便别开来。为了更清楚的认识判别分析的实质,以便能灵活的应用判别分析方法解决实际问题,我们有能灵活的应用判别分析方法解决实际问
15、题,我们有必要了解必要了解“划分划分”这样概念。这样概念。n设设R1,R2,Rk是是p维空间维空间R p的的k个子集,如果它个子集,如果它们互不相交,且它们的和集为们互不相交,且它们的和集为R p,则称,则称R1,R2,Rk为为R p的一个划分。的一个划分。38n n 这样我们将会发现,判别分析问题实质上就是在某种意义上,这样我们将会发现,判别分析问题实质上就是在某种意义上,以最优的性质对以最优的性质对p维空间维空间R p构造一个构造一个“划分划分”,这个,这个“划分划分”就构成了一个判别规则。这一思想将在后面的各节中体现就构成了一个判别规则。这一思想将在后面的各节中体现的更加清楚。的更加清楚
16、。39课下作业课下作业n 40第三节第三节 贝叶斯(贝叶斯(Bayes)判别法)判别法一一 Bayes判别的基本思想判别的基本思想 二二 Bayes判别的基本方法判别的基本方法*三三 Bayes判别与距离判别的联系判别与距离判别的联系 41n从上节看距离判别法虽然简单、便于使用,但是该从上节看距离判别法虽然简单、便于使用,但是该方法也有它明显的不足之处。方法也有它明显的不足之处。第一,把总体等同看待,没有考虑到总体会以不同第一,把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也即判别方法与总体各的概率(先验概率)出现,也即判别方法与总体各自出现的概率的大小无关。自出现的概率的大小
17、无关。第二,判别方法与错判之后所造成的损失无关,没第二,判别方法与错判之后所造成的损失无关,没有考虑误判之后所造成的损失的差异。有考虑误判之后所造成的损失的差异。Bayes判别法就是为了解决这些问题而提出的一种判判别法就是为了解决这些问题而提出的一种判别方法,其判别效果更加理想,应用也更广泛。别方法,其判别效果更加理想,应用也更广泛。一、一、Bayes判别的基本思想判别的基本思想42一、一、Bayes判别的基本思想判别的基本思想n 43 例例4.3:办公室新来了一个雇员小王,小王是好人还是坏人大:办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率
18、家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为均为0.5。坏人总是要做坏事,偶尔会办件好事;好人总是做。坏人总是要做坏事,偶尔会办件好事;好人总是做好事,偶尔也会做件坏事:一般好人做好事的概率为好事,偶尔也会做件坏事:一般好人做好事的概率为0.9,坏,坏人做好事的概率为人做好事的概率为0.2。一天,小王做了一件好事,请问小王。一天,小王做了一件好事,请问小王是好人的概率有多大是好人的概率有多大?你现在如何判别小王的善恶你现在如何判别小王的善恶?1、最大后验概率准则、最大后验概率准则44例例4.3n同理:同理:n 45n n 用数学的语言归纳:用数学的语言归纳:46n 用数学的语言归纳
19、:用数学的语言归纳:47n n 2、最小平均误判代价准则、最小平均误判代价准则48n 49n 50n n n 51二、二、Bayes判别的基本方法判别的基本方法*n n如果已知样品如果已知样品X来自总体来自总体Gi 的先验概率为的先验概率为qi,则在规则则在规则R下,由(下,由(4.12)式知,误判的总平均损失为)式知,误判的总平均损失为5253 三种函数在统计意义上的区别三种函数在统计意义上的区别*n n n 54贝叶斯判别的解贝叶斯判别的解*n 55对对4.14a式的直观理解式的直观理解*56贝叶斯判别的解贝叶斯判别的解*n 57贝叶斯判别的解贝叶斯判别的解*n 58判别准则判别准则n 5
20、9n 两个总体时的情况:两个总体时的情况:60n 61n 例题例题4.462n 三、贝叶斯判别与距离判别的联系三、贝叶斯判别与距离判别的联系63n 贝叶斯判别与距离判别的联系贝叶斯判别与距离判别的联系64n在正态总体的假设下,贝叶斯判别所构建的判别函数,其实在正态总体的假设下,贝叶斯判别所构建的判别函数,其实就是(马氏)距离判别在考虑先验概率和协方差矩阵是否相就是(马氏)距离判别在考虑先验概率和协方差矩阵是否相等情况下的一个推广。等情况下的一个推广。n所以,贝叶斯判别,在有的统计软件中(例如所以,贝叶斯判别,在有的统计软件中(例如SAS)又被称)又被称为广义平方距离判别法。为广义平方距离判别法。贝叶斯判别与距离判别的联系贝叶斯判别与距离判别的联系65n(1)课下作业课下作业66n(2)课下作业课下作业67课下作业课下作业