《判别分析及实现精选PPT.ppt》由会员分享,可在线阅读,更多相关《判别分析及实现精选PPT.ppt(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、判别分析及实现第1页,此课件共88页哦统计方法(判别分析)统计方法(判别分析):判别分析在已知研究对象分成若干类型,并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。距离判别法首先根据已知分类的数据,分别计算各类的重心,计算新个体到每类的距离,确定最短的距离(欧氏距离、马氏距离)Fisher判别法利用已知类别个体的指标构造判别式(同类差别较小、不同类差别较大),按照判别式的值判断新个体的类别Bayes判别法计算新给样品属于各总体的条件概率,比较概率的大小,然后将新样品判归为来自概率最大的总体 第2页,此课件共88页哦判别分析:判别分析
2、是利用原有的分类信息,得到体现这种分类的函数关系式(称之为判别函数,一般是与分类相关的若干个指标的线性关系式),然后利用该函数去判断未知样品属于哪一类。对于给定的数据,用classify函数进行线性判别分析,用mahal函数计算马氏距离。第3页,此课件共88页哦1 距离判别距离判别1.1 判别分析的基本思想及意义判别分析的基本思想及意义我们首先给出常见的距离我们首先给出常见的距离:1.欧氏距离:欧氏距离:设有设有n维向量维向量x=(x1,x2,xn),y=(y1,y2,yn),则称,则称为为n维向量维向量x,y之间的欧氏距离之间的欧氏距离 第4页,此课件共88页哦在在 MATLAB 中,计算欧
3、氏距离有多种方法中,计算欧氏距离有多种方法(1)sqrt(sum(x-y).2)设设x,y是同维是同维行向量行向量(2)sqrt(dot(x-y,x-y)(3)sqrt(x-y)*(x-y)(4)dist(x,y)例例1.设设x,y是同维是同维列向量列向量,上述公式是否成立?若,上述公式是否成立?若不成立如何修改?不成立如何修改?解:解:前两个正确,后两个错误,修改如下:前两个正确,后两个错误,修改如下:sqrt(x-y)*(x-y),dist(x,y)第5页,此课件共88页哦2.绝对距离:绝对距离:在在 MATLAB 中,计算绝对距离方法如下中,计算绝对距离方法如下(1)sum(abs(x-
4、y)%行向量、列向量均可行向量、列向量均可(2)mandist(x,y)%行向量行向量为为n维向量维向量x,y之间的绝对距离之间的绝对距离.设有设有n维向量维向量x(x1,x2,xn),y=(y1,y2,yn),则称,则称例例2.若若x为为n维行向量,维行向量,y为为n维列向量如何用维列向量如何用MATLAB计算计算x,y的绝对距离?的绝对距离?第6页,此课件共88页哦3.闵可夫斯基距离闵可夫斯基距离:设有设有n维向量维向量x=(x1,x2,xn),y=(y1,y2,yn),则称,则称为为n维向量维向量x,y之间的闵可夫斯基距离之间的闵可夫斯基距离.显然,当显然,当r=2和和1时闵可夫斯基距离
5、分别为欧时闵可夫斯基距离分别为欧氏距离和绝对距离氏距离和绝对距离.在在Matlab中如何计算?中如何计算?第7页,此课件共88页哦4.马氏距离马氏距离:马氏距离是由印度统计学家马哈拉:马氏距离是由印度统计学家马哈拉诺比斯诺比斯(PC Mahalanobis)提出的,由于马氏距离具提出的,由于马氏距离具有统计意义,在距离判别分析时经常应用马氏距离有统计意义,在距离判别分析时经常应用马氏距离.(1)同一总体的两个向量之间的马氏距离同一总体的两个向量之间的马氏距离设有设有n维向量维向量x=(x1,x2,xn),y=(y1,y2,yn),则称,则称为为n维向量维向量x,y之间的马氏距离之间的马氏距离.
6、其中其中 为总体协方差矩阵为总体协方差矩阵.显然,当显然,当 为单位矩阵为单位矩阵时马氏距离就是欧氏距离时马氏距离就是欧氏距离.第8页,此课件共88页哦(2)一个向量到一个总体的马氏距离一个向量到一个总体的马氏距离设设x是取自均值向量为是取自均值向量为,协方差矩阵为,协方差矩阵为 的总体的总体G的一个的一个行向量行向量,则称,则称为为n维向量维向量x与总体与总体G的马氏距离的马氏距离.MATLAB中有一个命令:中有一个命令:mahal计算马氏距离平方计算马氏距离平方第9页,此课件共88页哦Generate some correlated bivariate data in X and comp
7、are the Mahalanobis and squared Euclidean distances of observations in Y:X=mvnrnd(0;0,1.9;.9 1,100);Y=1 1;1-1;-1 1;-1-1;d1=mahal(Y,X)%Mahalanobisd1=1.3592 21.1013 23.8086 1.4727d2=sum(Y-repmat(mean(X),4,1).2,2)%Squared Euclideand2=1.9310 1.8821 2.1228 2.0739第10页,此课件共88页哦(3)两个总体之间的马氏距离两个总体之间的马氏距离设有两个
8、总体设有两个总体G1,G2,两个总体的均值向量分,两个总体的均值向量分别为别为 ,协方差矩阵相等,皆为,协方差矩阵相等,皆为,则两个则两个总体之间的马氏距离为总体之间的马氏距离为通常,通常,在判别分析时不采用欧氏距离的原因在于,在判别分析时不采用欧氏距离的原因在于,该距离与量纲有关该距离与量纲有关.第11页,此课件共88页哦马氏距离有如下的特点:马氏距离有如下的特点:1、马氏距离不受计量单位的影响马氏距离不受计量单位的影响;2、马氏距离是标准化后的变量的欧氏距离、马氏距离是标准化后的变量的欧氏距离证明:证明:第12页,此课件共88页哦1.2 两个总体的距离判别两个总体的距离判别由于马氏距离与总
9、体的协方差矩阵有关,所以由于马氏距离与总体的协方差矩阵有关,所以利用马氏距离进行判别分析需要分别考虑两个利用马氏距离进行判别分析需要分别考虑两个总体的协方差矩阵是否相等总体的协方差矩阵是否相等.1.两个总体协方差矩阵相等的情况两个总体协方差矩阵相等的情况 线性判别函数线性判别函数()设有两个总体设有两个总体G1,G2,的均值分别为,的均值分别为协方差矩阵相等为协方差矩阵相等为考虑样品考虑样品x到两个总体的到两个总体的马氏距离平方差:马氏距离平方差:第13页,此课件共88页哦距离判距离判别别法法:设设有两个有两个协协方差相同的方差相同的总总体体 ,且且对于一个新的样品,要判定它来自哪一个总体,有
10、一个对于一个新的样品,要判定它来自哪一个总体,有一个很直观的方法:很直观的方法:计算计算:若若 第14页,此课件共88页哦其中其中于是距离判于是距离判别准则为别准则为第15页,此课件共88页哦 线性判别函数线性判别函数()注意到实数的转置等于实数自身,故有注意到实数的转置等于实数自身,故有第16页,此课件共88页哦令 注意到注意到可得可得 记记第17页,此课件共88页哦于是距离判别准则简化为:于是距离判别准则简化为:在实际问题中,由于总体的均值、协方差矩阵在实际问题中,由于总体的均值、协方差矩阵通常是未知的,数据资料来自两个总体的训练样本,通常是未知的,数据资料来自两个总体的训练样本,于是用样
11、本的均值、样本的协方差矩阵代替总体的于是用样本的均值、样本的协方差矩阵代替总体的均值与协方差均值与协方差.注意:若注意:若S1,S2分别为两个样本的协方差矩阵,分别为两个样本的协方差矩阵,则在则在 时,总体的协方差矩阵估计量时,总体的协方差矩阵估计量第18页,此课件共88页哦1.两个总体协方差矩阵相等两个总体协方差矩阵相等由于实际问题中只能得到两个样本的协方差由于实际问题中只能得到两个样本的协方差矩阵矩阵S1,S2,因此当两个总体协方差矩阵相等因此当两个总体协方差矩阵相等时如何确定总体的协方差矩阵时如何确定总体的协方差矩阵S?其中其中n1,n2分别为两个样本的容量分别为两个样本的容量.第19页
12、,此课件共88页哦判别步骤:判别步骤:1.计算计算A、B两类的均值向量与协方差阵两类的均值向量与协方差阵;ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)2.计算总体的协方差矩阵计算总体的协方差矩阵其中其中n1,n2分别为两分别为两个样本的容量个样本的容量.3.计算未知样本计算未知样本x到到A,B两类马氏平方距离之差两类马氏平方距离之差 d=(x-ma)*S-1*(x-ma)-(x-mb)*S-1*(x-mb)4.若若d0,则则x属于属于B类类第20页,此课件共88页哦上述公式可以化简为:上述公式可以化简为:W(x)=(ma-mb)*S-1*(x-(ma+mb
13、)/2)若若W(x)0,x属于属于G1;若若W(x)列数列数第24页,此课件共88页哦按照如下的判别准则:按照如下的判别准则:我们可以建立我们可以建立MATLAB的判别法如下:的判别法如下:第25页,此课件共88页哦 均未知时的判别法则均未知时的判别法则 记记 则判别函数:则判别函数:两样本的协方差阵相同两样本的协方差阵相同抽取抽取n1和和n2个子样个子样:当当时时,判断判断 当当时时,判断判断 第26页,此课件共88页哦例例 对于下雨天和非雨天两类天气情况收集如下数据对于下雨天和非雨天两类天气情况收集如下数据 雨雨 天天 非非 雨雨 天天 湿度差湿度差 温度温度 湿度差湿度差 温度温度-1.
14、9 3.2 0.2 6.2-6.9 10.4 -0.1 7.55.2 2.0 0.4 14.67.3 0.0 2.1 0.86.8 12.7 -4.6 4.30.9 -15.4 -1.7 10.9-12.5 -2.5 -2.6 13.11.5 1.3 2.6 12.83.8 6.8 -2.8 10.0第27页,此课件共88页哦不难算出:不难算出:第28页,此课件共88页哦在此很难假定在此很难假定,但仍然可以定义其马氏距离但仍然可以定义其马氏距离 如果要问当如果要问当 时是雨天还是非雨天时是雨天还是非雨天,可解得如下可解得如下 因为因为X与与G1距离小,因此判定距离小,因此判定 雨天雨天 第29
15、页,此课件共88页哦 相关相关MATLAB命令命令 第30页,此课件共88页哦 该例该例MATLAB 程序实现程序实现运行结果运行结果 第31页,此课件共88页哦例例1.现测得现测得6只只Apf和和9只只Af蠓虫的触长蠓虫的触长,翅长数据翅长数据Apf:(1.14,1.78),(1.18,1.96),(1.20,1.86),(1.26,2.00),(1.28,2.00),(1.30,1.96)Af:(1.24,1.72),(1.36,1.74),(1.38,1.64),(1.38,1.82),(1.38,1.90),(1.40,1.70),(1.48,1.82),(1.54,1.82),(1.
16、56,2.08)若若两总体协方差矩阵不等,试判别以下的三个蠓两总体协方差矩阵不等,试判别以下的三个蠓虫属于哪一类?虫属于哪一类?(1.24,1.8),(1.28,1.84),(,(1.4,2.04)第32页,此课件共88页哦解:解:Apf=1.14,1.78;1.18,1.96;1.20,1.86;1.26,2.00;1.28,2.00;1.30,1.96;Af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90;1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;x=1.24,1.8;1.28,1.84;1.4,2.
17、04;d=mahal(x,Apf)-mahal(x,Af)若若d0,则,则x属于属于Af;若若d0,则,则x属于属于Apf.Ans:d=1.7611 3.8812 3.6468故三个蠓虫均属故三个蠓虫均属Af.第33页,此课件共88页哦 从例从例1,我们发现对于两个总体的协方差矩阵是否相等,我们发现对于两个总体的协方差矩阵是否相等,得到的结论可能不同,因此在解决实际问题时,首先要判别得到的结论可能不同,因此在解决实际问题时,首先要判别两个总体的协方差矩阵是否相等?两个总体的协方差矩阵是否相等?检验检验统计量:统计量:对给定的对给定的 ,查卡方分布表得到临界值查卡方分布表得到临界值 若若Qi ,
18、则接受则接受H0,否则拒绝,否则拒绝H0第34页,此课件共88页哦对于例对于例1 1,应用检验程序如下,应用检验程序如下(=0.05=0.05):n1=6;n2=9;p=2;s=(5*s1+8*s2)/13;Q01=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1),Q02=(n2-1)*(log(det(s)-log(det(s2)-p+trace(inv(s)*s2),P=1-chi2cdf(Q01,Q02,3)对对 ,查自由度为查自由度为3的卡方分布的卡方分布,得到临界得到临界值为:值为:7.815,由于由于 Q017.815,Q020n1
19、=n1+1;else n1=n1;endend%计算计算Apf 误判为误判为Af 的个数的个数n1第38页,此课件共88页哦for j=1:9,n2(j)=(b(j,:)-m1)*inv(s)*(b(j,:)-m1)-(b(j,:)-m2)*inv(s)*(b(j,:)-m2);n2=0;if n20n2=n2+1;else n2=n2;endendwp=n1+n2/m+n%回代误判率回代误判率%计算计算Af 误判为误判为Apf 的个数的个数n2由于由于wp=0,故回代误判率故回代误判率=0第39页,此课件共88页哦(2)交叉误判率估计)交叉误判率估计 交叉误判率估计是每次剔除一个样品,利用其
20、余的交叉误判率估计是每次剔除一个样品,利用其余的m+n1个训练样本建立判别准则再用所建立的准则对删除的个训练样本建立判别准则再用所建立的准则对删除的样品进行判别。对训练样本中每个样品都做如上分析,样品进行判别。对训练样本中每个样品都做如上分析,以其误判的比例作为误判率,具体步骤如下:以其误判的比例作为误判率,具体步骤如下:从总体为从总体为G1的训练样本开始,剔除其中一个样品,剩余的训练样本开始,剔除其中一个样品,剩余的的m1个样品与个样品与G2中的全部样品建立判别函数;中的全部样品建立判别函数;用建立的判别函数对剔除的样品进行判别;用建立的判别函数对剔除的样品进行判别;重复步骤重复步骤,直到,
21、直到G1中的全部样品依次被删除,又中的全部样品依次被删除,又进行判别,其误判的样品个数记为进行判别,其误判的样品个数记为m12第40页,此课件共88页哦于是交叉误判率估计为:于是交叉误判率估计为:在两个总体协方差矩阵等时在两个总体协方差矩阵等时,利用利用MATLAB编程计算交叉误判率,作为作业编程计算交叉误判率,作为作业.对对G2的样品重复步骤的样品重复步骤,直到直到G2中的全部样品中的全部样品依次被删除又进行判别,其误判的样品个数记为依次被删除又进行判别,其误判的样品个数记为n21第41页,此课件共88页哦1.3.多个总体的距离判别多个总体的距离判别设有设有k个总体,个总体,G1,G2,Gk
22、,若判别某个体,若判别某个体y属于哪个总属于哪个总体,则有如下方法:体,则有如下方法:若存在某个正整数若存在某个正整数k0,使得使得mahal(y,Gk0)=min(y,Gi),(i=1,2,k)则判别则判别y属于第属于第k0个个体个个体.第42页,此课件共88页哦1.4.距离判别的距离判别的Matlab编程实现编程实现两个总体协方差矩阵相等时的判别步骤两个总体协方差矩阵相等时的判别步骤:计算计算A、B两类的均值向量与协方差阵两类的均值向量与协方差阵;ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)计算总体的协方差矩阵计算总体的协方差矩阵S=(length(A
23、(:,1)-1)*S1+(length(B(:,1)-1)*S2/(length(A(:,1)+(length(B(:,1)-2)其中其中length(A(:,1),length(B(:,1)分别为两个样本的容量分别为两个样本的容量(即矩阵即矩阵A,B的行数的行数).计算未知样本计算未知样本x到到A,B两类马氏距离之差两类马氏距离之差d=(x-ma)*inv(S)*(x-ma)-(x-mb)*inv(S)*(x-mb)若若d0,则,则x属于属于B类类第43页,此课件共88页哦距离判别的距离判别的CLASSIFY命令实现:命令实现:第44页,此课件共88页哦第45页,此课件共88页哦第46页,此
24、课件共88页哦第47页,此课件共88页哦2 贝叶斯贝叶斯(Bayes)判别判别2.1 Bayes判别的思想判别的思想2.2.贝叶斯判别的准则贝叶斯判别的准则2.3.两个正态总体的两个正态总体的Bayes判别判别1.后验概率最小原则后验概率最小原则2.平均误判概率最小原则平均误判概率最小原则3.平均损失最小原则平均损失最小原则2.4.多个正态总体的多个正态总体的Bayes判别判别第48页,此课件共88页哦 距离判别只要求知道总体的数字特征,不涉及总体距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就用样本的均值的分布函数,当参数和协方差未知时,就用样本的均值和协方差
25、矩阵来估计。距离判别方法简单实用,但没有和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即考虑到每个总体出现的机会大小,即先验概率先验概率,没有考,没有考虑到虑到错判的损失错判的损失。贝叶斯判别法正是为了解决这两个问题贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。提出的判别分析方法。2.1 Bayes判别的思想判别的思想第49页,此课件共88页哦 一一个个好好的的判判别别方方法法,既既要要考考虑虑到到各各个个总总体体出出现现的的先先验验概概率率,又要考虑到错判造成的损失,又要考虑到错判造成的损失,Bayes判别就具有这些优点判别就具有这些优点.贝叶斯公式是
26、一个我们熟知的公式贝叶斯公式是一个我们熟知的公式 2.2.贝叶斯判别有以下准则:贝叶斯判别有以下准则:1.后验概率最大原则后验概率最大原则第50页,此课件共88页哦 设设有有总总体体 ,具具有有概概率率密密度度函函 数数 并并且且根根据据以以往往的的统统计计分分析析,知知道道 出出现现的的概概率率为为 。即即当当样样本本 发发生生时时,求求他他属属于于某某类类的的概概率率。由由贝叶斯公式计算后验概率,有:贝叶斯公式计算后验概率,有:则则 判给判给 。判别规则:若判别规则:若第51页,此课件共88页哦 设设有有总总体体 ,具具有有概概率率密密度度函函数数 并并且且根根据据以以往往的的统统计计分分
27、析析知知道道 出现的概率为出现的概率为 ,且且又又D1,D2,Dk是是R(p)的一个分划的一个分划,判别法判别法则则:当样品当样品X落入落入Di时时,则判则判 关键的问题是寻找关键的问题是寻找D1,D2,Dk分划,这个分分划,这个分划应该使平均错判率最小。划应该使平均错判率最小。2.2.2.2.平均误判最小原则平均误判最小原则平均误判最小原则平均误判最小原则第52页,此课件共88页哦3.3.平均错判损失最小平均错判损失最小 用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。C(j/i)表示相应错判所造成的损失。表示相应错判所造成的损失。则平均错判损失为:则平均错判损失为:使使EC
28、M最小的分划,最小的分划,是是Bayes判别分析的解。判别分析的解。第53页,此课件共88页哦2.3 两个总体的两个总体的Bayes判别判别1.一般讨论一般讨论考虑两个考虑两个p元总体元总体G1,G2分别具有概率密度函数分别具有概率密度函数f1(x),f2(x),设出现的先验概率为:,设出现的先验概率为:,且,且一个划分一个划分R=(R1,R2)相当于一个判别准则,在判别准则相当于一个判别准则,在判别准则R下将来自下将来自G1的样品误判为的样品误判为G2的概率是的概率是第54页,此课件共88页哦而将来自而将来自G2的样品误判为的样品误判为G1的概率是的概率是平均误判率为平均误判率为 平均误判损
29、失平均误判损失其中其中c(2|1)是将是将G1的样品误判为的样品误判为G2的损失的损失c(1|2)是将来自是将来自G2的样品误判为的样品误判为G1的损失的损失第55页,此课件共88页哦我们首先考虑我们首先考虑c(2|1)=c(1|2)的情况,并且总假定的情况,并且总假定c(1|1)=c(2|2)=0 对于一个对于一个p元样本元样本 根据根据Bayes公式,可以得到该样品属于公式,可以得到该样品属于G1,G2的后验的后验概率分别为概率分别为第56页,此课件共88页哦当当c(2|1)=c(1|2)时,两总体时,两总体Bayes判别的一个最判别的一个最优划分是优划分是于是得到两个总体的于是得到两个总
30、体的Bayes判别法则为:判别法则为:第57页,此课件共88页哦定理定理1.若若c(2|1)=c(1|2)=c,则存在最优划分则存在最优划分使得平均误判概率使得平均误判概率 达到最小达到最小 证明证明:第58页,此课件共88页哦显然,若取显然,若取则可以使得则可以使得P*达到最小,这时达到最小,这时第59页,此课件共88页哦推论:若推论:若c(2|1)=c(1|2)=c,则存在最优划分则存在最优划分使得平均误判损失达到最小使得平均误判损失达到最小.由于由于c(2|1)=c(1|2)=c,于是平均误判损失为:,于是平均误判损失为:cp*,因此若存在最优划分,因此若存在最优划分R,使得,使得cp*
31、达到最达到最小等价于使得小等价于使得p*达到最小达到最小.第60页,此课件共88页哦当当c(2|1)与与c(1|2)不相等时,关于先验概率不相等时,关于先验概率p1,p2,误判造成的平均损失为,误判造成的平均损失为第61页,此课件共88页哦于是,当于是,当L取得最小值时有最优划分为:取得最小值时有最优划分为:显然,当显然,当c(1|2)=c(2|1),上式即为上式即为 2.两个正态总体的两个正态总体的Bayes判别判别在在c(1|2)=c(2|1)的条件下,我们首先考虑:的条件下,我们首先考虑:(1)两个总体协方差矩阵相等的情形)两个总体协方差矩阵相等的情形第62页,此课件共88页哦(1)两个
32、总体协方差矩阵相等的情形)两个总体协方差矩阵相等的情形设总体设总体G1,G2的协方差矩阵相等且为的协方差矩阵相等且为,概率密度,概率密度函数为:函数为:上式两边取自然对数得上式两边取自然对数得这时这时第63页,此课件共88页哦令令于是于是第64页,此课件共88页哦于是判别准则简化为:于是判别准则简化为:在在MATLAB中计算中计算wj(x)的公式为:的公式为:其中其中第65页,此课件共88页哦下面,我们推导关于后验概率最大的另外一种数学下面,我们推导关于后验概率最大的另外一种数学表达式表达式由于由于 代入上式得代入上式得注意到对数恒等式注意到对数恒等式第66页,此课件共88页哦分子可化为:分子
33、可化为:令令于是后验概率可表示为于是后验概率可表示为P(G1|x)d22(x)第67页,此课件共88页哦注意到注意到 是是x到到Gj的马氏距离平方,由的马氏距离平方,由MATLAB软件软件P(G1|x)d22(x)等价于等价于 mahal(x,G1)-mahal(x,G2)2log(p1/p2)显然,当显然,当p1=p2时,时,bayes判别就是距离判别判别就是距离判别距离判别与距离判别与bayes判别的比较:判别的比较:距离判别与总体的分布无关,信息少,简单距离判别与总体的分布无关,信息少,简单bayes判别比距离判别多了先验概率信息,如果总判别比距离判别多了先验概率信息,如果总体不服从多元
34、正态分布,上述推导无效!体不服从多元正态分布,上述推导无效!第68页,此课件共88页哦(2)两个总体协方差矩阵不相等的情形)两个总体协方差矩阵不相等的情形设总体的协方差矩阵不相等分别为设总体的协方差矩阵不相等分别为1,2概率密概率密度函数为:度函数为:上式两边取自然对数得上式两边取自然对数得这时这时第69页,此课件共88页哦于是,判别函数为:于是,判别函数为:判别准则为:判别准则为:若若d(x)则判别则判别x属于第一类;属于第一类;若若d(x)0 则判别则判别x属于第二类;属于第二类;第70页,此课件共88页哦2.4 多个总体的多个总体的Bayes判别判别设有设有k个总体个总体G1,G2,Gk
35、的概率密度为的概率密度为fj(x)各各总体出现的先验概率为总体出现的先验概率为 pj=P(Gj),j=1,2,k,满足满足一个判别准则就是空间一个判别准则就是空间Rp的一个不相重叠的划分的一个不相重叠的划分R1,R2,Rk,满足满足记记R=(R1,R2,Rk),则则R代表一个判别准则代表一个判别准则第71页,此课件共88页哦 在判别准则在判别准则R=(R1,R2,Rk)下,将来自下,将来自Gi的样的样品误判为品误判为Gj的概率为的概率为 设来自设来自Gi的样品误判为的样品误判为Gj的损失记为的损失记为c(j|i),于是得到损失矩阵于是得到损失矩阵于是来自于是来自Gi的样品误判为来自其他总体的概
36、率的样品误判为来自其他总体的概率第72页,此课件共88页哦 当当Gj出现的概率为出现的概率为pj,j=1,2,k时,误判的时,误判的平均概率是平均概率是 于是来自于是来自Gi的样品误判为来自其他总体的的样品误判为来自其他总体的损失为损失为来自来自Gi的样品误判为来自其他总体的平均损失为的样品误判为来自其他总体的平均损失为第73页,此课件共88页哦在多个总体的判别中,仍然是考虑平均损失最在多个总体的判别中,仍然是考虑平均损失最小,即后验概率最大作为判别准则小,即后验概率最大作为判别准则.第74页,此课件共88页哦5 5 判别分析概说判别分析概说 判别分析方法最初应用于考古学判别分析方法最初应用于
37、考古学,例如要根据挖掘出例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等来的人头盖骨的各种指标来判别其性别年龄等.近年来近年来,在生物学分类在生物学分类,医疗诊断医疗诊断,地质找矿地质找矿,石油钻探石油钻探,天气预报天气预报等许多领域等许多领域,判别分析方法已经成为一种有效的统计推断方判别分析方法已经成为一种有效的统计推断方法法.假定需要作出判别分析的对象分成假定需要作出判别分析的对象分成 r 类类,记作记作A1,A2,Ar,每一类由每一类由m个指标的若干个标本确定个指标的若干个标本确定,即即A1,A2,Ar为已为已知的分类知的分类.现在问待判断的对象现在问待判断的对象x=(x1,x2
38、,xm)T是属于是属于A1,A2,Ar中的哪一类?这就构成了判别分析问题的基本内容中的哪一类?这就构成了判别分析问题的基本内容.第75页,此课件共88页哦判别分析判别分析:判别分析是用于判别个体所属群体的一种统计方法,判别分析是用于判别个体所属群体的一种统计方法,判别分析的特点是根据已掌握的、历史上每个类别的若判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该
39、只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析是一种应用性很强的统计样本点所属的类别。判别分析是一种应用性很强的统计数据分析方法。数据分析方法。第76页,此课件共88页哦判别分析的原理判别分析的原理:为了能识别待判断的对象为了能识别待判断的对象x=(x1,x2,xm)T是属于已知是属于已知类类A1,A2,Ar中的哪一类?中的哪一类?事先必须要有一个一般规则事先必须要有一个一般规则,一旦知道了一旦知道了x的值的值,便能根便能根据这个规则立即作出判断据这个规则立即作出判断,称这样的一个规则为称这样的一个规则为判别规则判别规则.判别规则往往通过的某个函数来表达判别规则往往
40、通过的某个函数来表达,我们把它称为我们把它称为判别判别函数函数,记作记作W(i;x).一旦知道了一旦知道了判别函数并确定了判别函数并确定了判别规则,最好将已知类别判别规则,最好将已知类别的对象代入检验,这一过程称为的对象代入检验,这一过程称为回代检验回代检验,以便检验你的,以便检验你的判判别函数和别函数和判别规则是否正确判别规则是否正确.第77页,此课件共88页哦判别分析的主要方法判别分析的主要方法:判别分析的主要方法有距离判别方法、费希尔判别分析的主要方法有距离判别方法、费希尔(Fisher)判别方法、贝叶斯判别方法、贝叶斯(Bayes)判别方法判别方法.距离判别方法距离判别方法:判别函数判
41、别函数W(i;x)=d(x,Ai),其中其中d(x,Ai)为为待判别对象待判别对象x到第到第i类类Ai的距离的距离.判别规则为若判别规则为若W(k;x)=minW(i;x)|i=1,2,r,则则xAk.贝叶斯贝叶斯(Bayes)判别方法:判别方法:判别函数判别函数W(i;x)=pi i(x),其中其中pi为待判别对象为待判别对象xAi的概率的概率,如果没有任何这种如果没有任何这种附加的先验信息附加的先验信息,通常取通常取pi=1/r.i(x)为为已知类别已知类别Ai的分布密的分布密度度判别规则为若判别规则为若W(k;x)=maxW(i;x)|i=1,2,r,则则xAk.第78页,此课件共88页
42、哦 Fisher准则分类的模型准则分类的模型:费歇(费歇(FisherFisher)判别法)判别法是一种线性判别的方法。它的工是一种线性判别的方法。它的工作思路是对原数据系统进行坐标变换,寻求能将总体尽可能作思路是对原数据系统进行坐标变换,寻求能将总体尽可能分开的方向。具体的作法是先引入一个与样本同维的待定向分开的方向。具体的作法是先引入一个与样本同维的待定向量量u u,再将,再将y y取为取为x x坐标的线性组合坐标的线性组合 。而。而u u的的选取,要选取,要使同一类别产生的使同一类别产生的y y尽量聚拢,不同类别产生的尽量聚拢,不同类别产生的y y尽量拉开。尽量拉开。这样,我们便可将样品
43、这样,我们便可将样品x x到某一类到某一类G G的距离定义为的距离定义为 与与 之间的欧氏距离:之间的欧氏距离:其中其中c c为为G G的几何中心的几何中心FisherFisher分类的判据为:分类的判据为:1 1若若 ,则判定义为,则判定义为A A类;类;2 2若若 ,则判定又为,则判定又为B B类;类;3 3若若 ,则判定又为不可判类。,则判定又为不可判类。第79页,此课件共88页哦判别效果检验判别效果检验:判别效果检验的好坏与判别效果检验的好坏与A1,A2,Ar分类的合理性有关分类的合理性有关,左左图说明马氏距离判别法和费歇尔判别法是失效的图说明马氏距离判别法和费歇尔判别法是失效的,若将
44、其重新若将其重新分类如右图分类如右图,那么判别的效果将会好一些那么判别的效果将会好一些.因此因此,需要对分类需要对分类的合理性进行假设检验的合理性进行假设检验.第80页,此课件共88页哦 建模实例建模实例:两种蠓两种蠓Af和和Apf已由生物学家已由生物学家W.L.Grogna和和W.W.Wirth于于1981年根据它们的触角年根据它们的触角长和翼长加以区分长和翼长加以区分,右下右下图给出了图给出了9只只Af和和6只只Apf蠓的触蠓的触角长和翼长数据角长和翼长数据,其中其中“”表示表示Apf,“”表示表示Af.根据触角长和翼长根据触角长和翼长来识别一个标本是来识别一个标本是Af还是还是Apf是重
45、要是重要的的.第81页,此课件共88页哦 给给定定一一只只Af族族或或Apf族族的的蠓蠓,如如何何正正确确地地区区分分它它属属于于哪哪一族?一族?将将你你的的方方法法用用于于触触角角长长和和翼翼长长分分别别为为 (1.24,1.80),(1.28,1.84),(1.40,2.04)三个标本三个标本.设设Af是是传传粉粉益益虫虫,Apf是是某某种种疾疾病病的的载载体体,是是否否应应修修改改你你的分类方法?若需修改的分类方法?若需修改,为什么?为什么?假设假设 两种群两种群Af和和Apf的触角长和翼长的期望值、标准差、的触角长和翼长的期望值、标准差、相关系数与由数据给出的样本的统计量一致相关系数与
46、由数据给出的样本的统计量一致.两种群两种群Af和和Apf的触角长和翼长服从二元正态分布的触角长和翼长服从二元正态分布.两种群两种群Af与与Apf的数量之比为一个确定的值的数量之比为一个确定的值.所给的样本数据是无误差的所给的样本数据是无误差的.第82页,此课件共88页哦样本数据样本数据 族族 1 2 1 2 先验概率先验概率Af1.4131.8040.09900.13000.5939/15=0.6Apf1.2271.9270.06280.08820.6536/15=0.4模型建立与求解(从略)模型建立与求解(从略)第83页,此课件共88页哦第84页,此课件共88页哦距离判别的距离判别的CLASSIFY命令实现:命令实现:第85页,此课件共88页哦第86页,此课件共88页哦第87页,此课件共88页哦第88页,此课件共88页哦