第五章 判别分析.ppt

上传人:s****8 文档编号:67203574 上传时间:2022-12-24 格式:PPT 页数:40 大小:221KB
返回 下载 相关 举报
第五章 判别分析.ppt_第1页
第1页 / 共40页
第五章 判别分析.ppt_第2页
第2页 / 共40页
点击查看更多>>
资源描述

《第五章 判别分析.ppt》由会员分享,可在线阅读,更多相关《第五章 判别分析.ppt(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第五章判别分析第五章判别分析在一些自然科学和社会科学的研究中,研究对象用某种在一些自然科学和社会科学的研究中,研究对象用某种方法已划分为若干类型,当得到的一个新的样品数据(通常方法已划分为若干类型,当得到的一个新的样品数据(通常是多元的),要确定该样品属于已知类型中的哪一类,这样是多元的),要确定该样品属于已知类型中的哪一类,这样的问题属的问题属判别分析判别分析。判别分析是根据观察或测量到若干变量值,判断研究对判别分析是根据观察或测量到若干变量值,判断研究对象如何分类的方法。实际上是根据表明事物特点的变量值和象如何分类的方法。实际上是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别

2、函数对未知所属类别它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。的事物进行分类的一种分析方法。分类:分类:1、按判别的组数来分,有两组判别分析和多组判别分析、按判别的组数来分,有两组判别分析和多组判别分析2、按区分不同总体所用的数学模型来分,有线性判别和非、按区分不同总体所用的数学模型来分,有线性判别和非线性判别线性判别3、按判别对所处理的变量方法不同有逐步判别、序贯判别。、按判别对所处理的变量方法不同有逐步判别、序贯判别。4、按判别准则来分,有费歇尔判别准则、贝叶斯判别准则、按判别准则来分,有费歇尔判别准则、贝叶斯判别准则第一节第一节 距距离判别法离判别法

3、第二节第二节 以直线划分的判别法以直线划分的判别法第三节第三节 以曲线划分的判别法以曲线划分的判别法第四节第四节 费歇尔判别法费歇尔判别法第五节第五节 逐步判别法逐步判别法 1 距离判别法距离判别法1.1 统计距离统计距离设设m维空间上两点维空间上两点P(x1,x2,xm)与与Q(y1,y2,ym),P与与Q的欧氏距离:的欧氏距离:d(P,Q)=(x1y1)2+(x2y2)2+(xmym)21/2欧氏距离在处理统计问题时的缺点:要求坐标各分量的度量欧氏距离在处理统计问题时的缺点:要求坐标各分量的度量一致、波动幅度一致。一致、波动幅度一致。1936年,印度统计学家年,印度统计学家Mahalano

4、bios引入统计距离概念,引入统计距离概念,也称为也称为“马氏距离马氏距离”设设Q点坐标固定,点坐标固定,P点坐标相互独立变化。用点坐标相互独立变化。用s12,s22,sm2 表示表示P的的m个坐标的个坐标的n次观测的样本方差,则次观测的样本方差,则P到到Q的统计距的统计距离离设设X、Y是从均值向量为是从均值向量为、协方差阵为、协方差阵为的总体的总体G中抽取的中抽取的两个样本,两个样本,X与与Y两点间的马氏距离定义为两点间的马氏距离定义为X与总体与总体G的马氏距离定义为的马氏距离定义为设两总体设两总体G1、G2,它们的均值向量为,它们的均值向量为1和和2,协方差阵都为协方差阵都为,则总体,则总

5、体G1和和G2之间的马氏距离定义为之间的马氏距离定义为马氏距离满足距离的三条公理马氏距离满足距离的三条公理(1)非负性非负性d(P,Q)0,等号成立的充要条件是,等号成立的充要条件是P=Q;(2)对称性对称性d(P,Q)=d(Q,P);(3)三角不等式三角不等式d(P,Q)d(P,R)+d(R,Q)。设两个设两个m元总体元总体G1、G2,它们的均值向量为,它们的均值向量为1和和2,协协方差阵分别为方差阵分别为1、2。设。设X=(x1,x2,xm)是一待判样是一待判样品,品,距离判别准则距离判别准则为为(1)若若 d(X,G1)d(X,G2),则,则 X G2;(2)若若 d(X,G2)d(X,

6、G1),则,则 X G1;实际问题中,实际问题中,1、2、1、2往往未知,分别用其样本均往往未知,分别用其样本均值和样本方差来估计,则马氏距离的估计值分别为值和样本方差来估计,则马氏距离的估计值分别为(1)若若 d(X,G1)d(X,G2),则,则 X G2;(2)若若 d(X,G2)d(X,G1),则,则 X G1;距离判别准则距离判别准则为为设设k个个m元总体元总体G1、Gk,它们的均值向量为,它们的均值向量为1、k,协方差阵分别为协方差阵分别为1、.、k。设。设X=(x1,x2,xm)是一待判样品,是一待判样品,马氏距离马氏距离为为 若若 d(X,Gj)=minid(X,Gi),则,则

7、X Gj实际问题中,实际问题中,i、i 往往未知,分别用其样本均值和样本往往未知,分别用其样本均值和样本方差来估计方差来估计距离判别准则距离判别准则为为1.2多个总体的距离判别多个总体的距离判别(j=1,k)当当k个总体协方差矩阵相等时,个总体协方差矩阵相等时,1=2=.=k=。判别函判别函数数为为Wij(X)=0.5d2(X,Gi)d2(X,Gj)=X0.5(i+j)T-1(ij)(i,j=1,k)实际问题中,实际问题中,1、k、往往未知,分别用其样本均往往未知,分别用其样本均值和样本方差来估计值和样本方差来估计距离判别准则距离判别准则为为对所有的对所有的ji,当,当Wij(X)0时,则判时

8、,则判X Gi;当当Wij(X)=0时,则判时,则判X Gi或或X Gj。1.3 判别准则的评价判别准则的评价1误判率回代估计法误判率回代估计法设设(X1(1),X2(1),Xn1(1)与与(X1(2),X2(2),Xn2(2)是分是分别来自总体别来自总体G1、G2的样本,以全体样本作为的样本,以全体样本作为n1+n2个新样个新样本,逐个代入已建立的判别准则中,判别其归属,这个过本,逐个代入已建立的判别准则中,判别其归属,这个过程为回代。用程为回代。用n12、n21分别表示将本属于分别表示将本属于G1的样本误判为的样本误判为G2的个数、的个数、将本属于将本属于G2的样本误判为的样本误判为G1的

9、个数,误判率的的个数,误判率的回代估计回代估计当一个判别准则提出后,还要研究其优良性,即要考当一个判别准则提出后,还要研究其优良性,即要考察误判概率。察误判概率。2误判率的交叉确认估计法误判率的交叉确认估计法每次剔除一个样品,利用其余每次剔除一个样品,利用其余n1+n21个样本建立判别个样本建立判别准则,再用所建立的判别准则对删除的样品做判别,对样准则,再用所建立的判别准则对删除的样品做判别,对样本中每个样品都做上述分析,以其误判的比例来作为误判本中每个样品都做上述分析,以其误判的比例来作为误判概率的估计。具体步骤:概率的估计。具体步骤:(1)从总体从总体G1开始,剔除其中的一个样品,用剩余的

10、开始,剔除其中的一个样品,用剩余的n11个样品为个样品为G1的样本,的样本,G2的样本不变,建立判别函数;的样本不变,建立判别函数;(2)用建立的判别函数对剔除的样品作判别;用建立的判别函数对剔除的样品作判别;(3)重复重复(1)(2),对,对G2也作如此处理,其误判样品个数分也作如此处理,其误判样品个数分别记为别记为n12*、n21*。(4)交叉交叉误判率的估计误判率的估计注:一般地,总体差异越大,判别准则越有效。注:一般地,总体差异越大,判别准则越有效。2 以直线划分的判别法以直线划分的判别法一、判别的基本思想一、判别的基本思想把观测到的把观测到的n个样本看作个样本看作p维空间的维空间的n

11、个点,以个点,以某种方法将某种方法将p维空间划分为互不相交的维空间划分为互不相交的q个区域,个区域,每个区域对应着一个类,对于给定的新样本点,每个区域对应着一个类,对于给定的新样本点,必然要落入其中某个类中。必然要落入其中某个类中。对于满足类内样本点接近、类间样本点疏远的对于满足类内样本点接近、类间样本点疏远的性质,可以通过统计量来表现。性质,可以通过统计量来表现。比值越大说明类与类间差异越大,分类效果越比值越大说明类与类间差异越大,分类效果越好好二、两个类别的判别二、两个类别的判别步骤:步骤:1、计算两类、计算两类(A,B)各自的均值各自的均值2、计算类内离差平方和与类间离差平方和、计算类内

12、离差平方和与类间离差平方和3、求出判别函数求出判别函数4、计算待判样本的三个值、计算待判样本的三个值y,5、判断判断 先建立判别临界值先建立判别临界值y0,在两总体先验概率相等的假设在两总体先验概率相等的假设下,一般常取下,一般常取 如果如果 ,则判定准则为:,则判定准则为:yy0,x属于属于A组;组;yy0,x属于属于B组;组;y0,相应的特征向量,相应的特征向量a1,a2,ar。ui(X)=aiTX为第为第i个线性判别函数,当第个线性判别函数,当第1个线个线性判别函数不能很好地区分多个总体时,可再利用第性判别函数不能很好地区分多个总体时,可再利用第2、第、第3、线性判别函数。线性判别函数。

13、(a)也称为也称为判别效率判别效率。前前q个线性判别函数的累计判别能力个线性判别函数的累计判别能力(qr)Pq=(1+q)/(1+r)(一一)两个总体的两个总体的Fisher判别准则判别准则易知两总体的组间离阵易知两总体的组间离阵B的秩为的秩为1,故,故A-1B只有一个非零只有一个非零特征值特征值,对应的特征向量为,对应的特征向量为b。线性判别函数。线性判别函数u(X)=bTX,相应的判别效率相应的判别效率判别准则判别准则当当u(1)u(2)时,若时,若u(X)u(或或u*),则判,则判XG1;若;若u(X)u(或或u*),则判,则判XG2;若;若u(X)=u(或或u*),则,则X等待判。等待

14、判。当当u(1)u(2)时,类似。时,类似。3 Fisher判别准则判别准则记记 (二二)多个总体的多个总体的Fisher判别准则判别准则先取第先取第1线性判别函数线性判别函数u1(X)=a1TX,k个总体的均值向量个总体的均值向量在在 a1 上的投影为上的投影为u1(i)=a1TX(i)(i=1,k)。对待判样品。对待判样品X,计算它在,计算它在 a1 上的投影,若存在唯一的上的投影,若存在唯一的 i1,使得,使得则判则判XG1。若有多于一个总体,使其与。若有多于一个总体,使其与u1(X)距离相等且距离相等且最小,则再利用第最小,则再利用第2线性判别函数,线性判别函数,直到每个样品归属,直到

15、每个样品归属都得到确定为止。都得到确定为止。例:为研究某地区人口死亡状况,已按某种方例:为研究某地区人口死亡状况,已按某种方法将法将15个已知样本单位分为三组,选择判别变个已知样本单位分为三组,选择判别变量为量为2个:个:55岁组死亡概率岁组死亡概率q55和和80岁组死亡岁组死亡概率概率q80。建立判别函数,判定另外建立判别函数,判定另外4个待判样个待判样本属于何组。数据见本属于何组。数据见 spssex/ex602SPSSDiscriminant过程根据已知的观测量分类过程根据已知的观测量分类和表明观测量特征推导出的判别函数,并和表明观测量特征推导出的判别函数,并把各观测量的变量值回代到判别

16、函数,根把各观测量的变量值回代到判别函数,根据判别函数对观测量所属类别进行判别。据判别函数对观测量所属类别进行判别。对比原始数据的分类和按判别函数所羊的对比原始数据的分类和按判别函数所羊的分类,给出错分概率。分类,给出错分概率。功能功能给出各类观测量的单变量的描述统计量。给出各类观测量的单变量的描述统计量。给出费歇尔判别函数的系数或标准化及未标准化给出费歇尔判别函数的系数或标准化及未标准化的典则判别函数的系数。的典则判别函数的系数。给出类内相关矩阵,类内、类间协方差矩阵和总给出类内相关矩阵,类内、类间协方差矩阵和总协方差矩阵。协方差矩阵。给出按判别函数判别的各观测量所属类别。给出按判别函数判别

17、的各观测量所属类别。带有错分率的判别分析小结。带有错分率的判别分析小结。生成表明各类分布的区域图和散点图。生成表明各类分布的区域图和散点图。建立判别函数的方法建立判别函数的方法全模型法:全模型法:把用户指定的变量全部放入判别函数中,把用户指定的变量全部放入判别函数中,不管变量对判别函数是否起作用,作用的不管变量对判别函数是否起作用,作用的大小如何。大小如何。逐步选择法:逐步选择法:判别分析的基本步骤:判别分析的基本步骤:1、选择自变量及组变量、选择自变量及组变量2、计算各组单变量的描述统计量、计算各组单变量的描述统计量3、推导判别系数,给出标准化或未标准化的典则、推导判别系数,给出标准化或未标

18、准化的典则判别系数,并对函数显著性进行检验判别系数,并对函数显著性进行检验4、建立、建立Fisher线性判别函数线性判别函数5、进行判别分组、进行判别分组6、进行样本回判分析,计算错分率、进行样本回判分析,计算错分率7、输出结果、输出结果5 Bayes判别法判别法设设G1、Gk为为k个个m维总体,分别有不同的概率密度函数维总体,分别有不同的概率密度函数f1(x)、fk(x)。设。设k 个总体出现的个总体出现的先验概率分布先验概率分布为为q1、qk。误判的损失通常在判别分析前就可估计,用。误判的损失通常在判别分析前就可估计,用c(j|i)表示将属表示将属于于Gi的样品误判为的样品误判为Gj所造成

19、的所造成的损失度量损失度量。一个判别准则实质是对空间一个判别准则实质是对空间Rm作一不重叠的划分作一不重叠的划分D1、Dk,若,若X落入落入Di,则判此样品属于总体,则判此样品属于总体Gi。简记判别准则为。简记判别准则为D=(D1,Dm),以,以P(j|i,D)表示在判别准则表示在判别准则D下将事实上来自下将事实上来自Gi的样品误判为来自的样品误判为来自Gj的概率。则的概率。则1.Bayes判别法的基本思想判别法的基本思想 Bayes统计的基本思想是:统计的基本思想是:假定对所的对象假定对所的对象(总体总体)在抽样前在抽样前已有一定的认识,常用先验概率分布来描述这种认识,然后已有一定的认识,常

20、用先验概率分布来描述这种认识,然后基于抽取的样本再对先验认识做修正,得到后验概率分布,基于抽取的样本再对先验认识做修正,得到后验概率分布,再基于后验概率分布做各种统计推断。再基于后验概率分布做各种统计推断。在判别准则在判别准则D下,来自下,来自Gi的样品误判为其它总体的期望损失为的样品误判为其它总体的期望损失为在判别准则在判别准则D下,总的期望损失为下,总的期望损失为Bayes判别就是:判别就是:选择选择判别准则判别准则D=(D1,Dm),使得总的,使得总的期望损失期望损失L达到最小。达到最小。在判别准则在判别准则D下,总的期望损失为下,总的期望损失为要要使得总的期望损失使得总的期望损失L达到

21、最小,取达到最小,取2两总体的两总体的Bayes判别判别 两个总体的两个总体的Bayes判别准则判别准则特别地,设特别地,设G1、G2为两正态总体,其均值向量和协方差矩为两正态总体,其均值向量和协方差矩阵分别为阵分别为1、2、1、2。如果如果1=2=,记,记Bayes判别准则为判别准则为特别地,设特别地,设G1、G2为两正态总体,其均值向量和协方差矩为两正态总体,其均值向量和协方差矩阵分别为阵分别为1、2、1、2。如果如果12,记,记Bayes判别准则为判别准则为6 逐步判别分析逐步判别分析一、逐步判别原理一、逐步判别原理逐步判别分析从模型没有变量开始,每一步都对逐步判别分析从模型没有变量开始

22、,每一步都对模型进行检验,把模型外对模型的判别力贡献最模型进行检验,把模型外对模型的判别力贡献最大的变量加到模型中,同时考虑已经在模型中但大的变量加到模型中,同时考虑已经在模型中但又不符合留在模型中条件的变量从模型中剔除。又不符合留在模型中条件的变量从模型中剔除。一个变量能否进入模型主要取决于协方差分析的一个变量能否进入模型主要取决于协方差分析的F检验的显著性水平检验的显著性水平F统计量的构造:根据筛选后得到的变量,建立贝叶斯判根据筛选后得到的变量,建立贝叶斯判别函数进行判别分析:别函数进行判别分析:判别原则:对每个待判样本判别原则:对每个待判样本x,分别计算分别计算各类判别函数值,比较值的大

23、小,各类判别函数值,比较值的大小,x属于属于值最大组。值最大组。二、选择变量方法二、选择变量方法1、Wilks 最小法最小法2、RaoV最大法最大法3、马氏距离最大法、马氏距离最大法4、F统计量最大法统计量最大法5、剩余离差平方和最小法、剩余离差平方和最小法Wilks 最小法U统计量=组内平方和/总平方和,每一步都是统计量最小的进入判别函数容许度=1-Ri2 (Ri2为偏相关系数)RaoV最大法最大法每步每步都是使都是使RaoV统计量产生最大增量的变量进入统计量产生最大增量的变量进入判别函数判别函数P模型中的变量数,模型中的变量数,g分类数,分类数,nk第第k组样组样本大小,本大小,Wij*组

24、间协方差矩阵的逆矩阵组间协方差矩阵的逆矩阵V两组均值之差两组均值之差组间的组间的F检验检验每步都使每步都使任何两类间的最小的任何两类间的最小的F值最大值最大的变量进入判别函数的变量进入判别函数例:为研究某地区人口死亡状况,已按某种方法例:为研究某地区人口死亡状况,已按某种方法将将15个已知样本点分为三组,选择判别变量为个已知样本点分为三组,选择判别变量为6个:个:0岁组死亡概率岁组死亡概率q0,1岁组死亡概率岁组死亡概率q1,10岁组死亡岁组死亡概率概率q10,55岁组死亡概率岁组死亡概率 q55,80岁死亡概率岁死亡概率q80,平均预期寿命平均预期寿命e0。试用逐步判别法建立判别试用逐步判别法建立判别函数,判定另外函数,判定另外4个待判样本点属于何组。数据见个待判样本点属于何组。数据见 spssex/ex604

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁