《判别分析及MATLAB实现课件.ppt》由会员分享,可在线阅读,更多相关《判别分析及MATLAB实现课件.ppt(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、判别分析判别分析(discriminant analysis)1 距离判别距离判别2 Bayes判别判别3 Fisher判别判别4 判别分析的判别分析的MATLAB实现实现5 判别分析判别分析 概说概说统计方法(判别分析)统计方法(判别分析):判别分析在已知研究对象分成若干类型,并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。距离判别法首先根据已知分类的数据,分别计算各类的重心,计算新个体到每类的距离,确定最短的距离(欧氏距离、马氏距离)Fisher判别法利用已知类别个体的指标构造判别式(同类差别较小、不同类差别较大),按照判别式的
2、值判断新个体的类别Bayes判别法计算新给样品属于各总体的条件概率,比较概率的大小,然后将新样品判归为来自概率最大的总体 判别分析:判别分析是利用原有的分类信息,得到体现这种分类的函数关系式(称之为判别函数,一般是与分类相关的若干个指标的线性关系式),然后利用该函数去判断未知样品属于哪一类。对于给定的数据,用classify函数进行线性判别分析,用mahal函数计算马氏距离。1 距离判别距离判别1.1 判别分析的基本思想及意义判别分析的基本思想及意义我们首先给出常见的距离我们首先给出常见的距离:1.欧氏距离:欧氏距离:设有设有n维向量维向量x=(x1,x2,xn),y=(y1,y2,yn),则
3、,则称称为为n维向量维向量x,y之间的欧氏距离之间的欧氏距离 在在 MATLAB 中,计算欧氏距离有多种方法中,计算欧氏距离有多种方法(1)sqrt(sum(x-y).2)设设x,y是同维是同维行向量行向量(2)sqrt(dot(x-y,x-y)(3)sqrt(x-y)*(x-y)(4)dist(x,y)例例1.设设x,y是同维是同维列向量列向量,上述公式是否成立?,上述公式是否成立?若不成立如何修改?若不成立如何修改?解:解:前两个正确,后两个错误,修改如下:前两个正确,后两个错误,修改如下:sqrt(x-y)*(x-y),dist(x,y)2.绝对距离:绝对距离:在在 MATLAB 中,计
4、算绝对距离方法如下中,计算绝对距离方法如下(1)sum(abs(x-y)%行向量、列向量均可行向量、列向量均可(2)mandist(x,y)%行向量行向量为为n维向量维向量x,y之间的绝对距离之间的绝对距离.设有设有n维向量维向量x(x1,x2,xn),y=(y1,y2,yn),则称,则称例例2.若若x为为n维行向量,维行向量,y为为n维列向量如何维列向量如何用用MATLAB计算计算x,y的绝对距离?的绝对距离?3.闵可夫斯基距离闵可夫斯基距离:设有设有n维向量维向量x=(x1,x2,xn),y=(y1,y2,yn),则称,则称为为n维向量维向量x,y之间的闵可夫斯基距离之间的闵可夫斯基距离.
5、显然,当显然,当r=2和和1时闵可夫斯基距离分别时闵可夫斯基距离分别为欧氏距离和绝对距离为欧氏距离和绝对距离.在在Matlab中如何计算?中如何计算?4.马氏距离马氏距离:马氏距离是由印度统计学家马哈:马氏距离是由印度统计学家马哈拉诺比斯拉诺比斯(PC Mahalanobis)提出的,由于马氏提出的,由于马氏距离具有统计意义,在距离判别分析时经常应距离具有统计意义,在距离判别分析时经常应用马氏距离用马氏距离.(1)同一总体的两个向量之间的马氏距离同一总体的两个向量之间的马氏距离设有设有n维向量维向量x=(x1,x2,xn),y=(y1,y2,yn),则称,则称为为n维向量维向量x,y之间的马氏
6、距离之间的马氏距离.其中其中 为总体协方差矩阵为总体协方差矩阵.显然,当显然,当 为单位矩为单位矩阵时马氏距离就是欧氏距离阵时马氏距离就是欧氏距离.(2)一个向量到一个总体的马氏距离一个向量到一个总体的马氏距离设设x是取自均值向量为是取自均值向量为,协方差矩阵为,协方差矩阵为 的总体的总体G的一个的一个行向量行向量,则称,则称为为n维向量维向量x与总体与总体G的马氏距离的马氏距离.MATLAB中有一个命令:中有一个命令:mahal计算马氏距离平方计算马氏距离平方Generate some correlated bivariate data in X and compare the Mahala
7、nobis and squared Euclidean distances of observations in Y:X=mvnrnd(0;0,1.9;.9 1,100);Y=1 1;1-1;-1 1;-1-1;d1=mahal(Y,X)%Mahalanobisd1=1.3592 21.1013 23.8086 1.4727d2=sum(Y-repmat(mean(X),4,1).2,2)%Squared Euclideand2=1.9310 1.8821 2.1228 2.0739(3)两个总体之间的马氏距离两个总体之间的马氏距离设有两个总体设有两个总体G1,G2,两个总体的均值向量分,两个
8、总体的均值向量分别为别为 ,协方差矩阵相等,皆为,协方差矩阵相等,皆为,则两个则两个总体之间的马氏距离为总体之间的马氏距离为通常,通常,在判别分析时不采用欧氏距离的原因在在判别分析时不采用欧氏距离的原因在于,该距离与量纲有关于,该距离与量纲有关.马氏距离有如下的特点:马氏距离有如下的特点:1、马氏距离不受计量单位的影响马氏距离不受计量单位的影响;2、马氏距离是标准化后的变量的欧氏距离、马氏距离是标准化后的变量的欧氏距离证明:证明:1.2 两个总体的距离判别两个总体的距离判别由于马氏距离与总体的协方差矩阵有关,所以由于马氏距离与总体的协方差矩阵有关,所以利用马氏距离进行判别分析需要分别考虑两个利
9、用马氏距离进行判别分析需要分别考虑两个总体的协方差矩阵是否相等总体的协方差矩阵是否相等.1.两个总体协方差矩阵相等的情况两个总体协方差矩阵相等的情况 线性判别函数线性判别函数()设有两个总体设有两个总体G1,G2,的均值分别为,的均值分别为协方差矩阵相等为协方差矩阵相等为考虑样品考虑样品x到两个总体的到两个总体的马氏距离平方差:马氏距离平方差:距离判距离判别别法法:设设有两个有两个协协方差相同的方差相同的总总体体 ,且且对于一个新的样品,要判定它来自哪一个总体,对于一个新的样品,要判定它来自哪一个总体,有一个很直观的方法:有一个很直观的方法:计算计算:若若 其中其中于是距离判于是距离判别准则为
10、别准则为 线性判别函数线性判别函数()注意到实数的转置等于实数自身,故有注意到实数的转置等于实数自身,故有令 注意到注意到可得可得 记记于是距离判别准则简化为:于是距离判别准则简化为:在实际问题中,由于总体的均值、协方差矩在实际问题中,由于总体的均值、协方差矩阵通常是未知的,数据资料来自两个总体的训练阵通常是未知的,数据资料来自两个总体的训练样本,于是用样本的均值、样本的协方差矩阵代样本,于是用样本的均值、样本的协方差矩阵代替总体的均值与协方差替总体的均值与协方差.注意:若注意:若S1,S2分别为两个样本的协方差矩阵,分别为两个样本的协方差矩阵,则在则在 时,总体的协方差矩阵估计量时,总体的协
11、方差矩阵估计量1.两个总体协方差矩阵相等两个总体协方差矩阵相等由于实际问题中只能得到两个样本的协方由于实际问题中只能得到两个样本的协方差矩阵差矩阵S1,S2,因此当两个总体协方差矩阵因此当两个总体协方差矩阵相等时如何确定总体的协方差矩阵相等时如何确定总体的协方差矩阵S?其中其中n1,n2分别为两个样本的容量分别为两个样本的容量.判别步骤:判别步骤:1.计算计算A、B两类的均值向量与协方差阵两类的均值向量与协方差阵;ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)2.计算总体的协方差矩阵计算总体的协方差矩阵其中其中n1,n2分别为分别为两个样本的容量两个样本的容
12、量.3.计算未知样本计算未知样本x到到A,B两类马氏平方距离之差两类马氏平方距离之差 d=(x-ma)*S-1*(x-ma)-(x-mb)*S-1*(x-mb)4.若若d0,则则x属于属于B类类上述公式可以化简为:上述公式可以化简为:W(x)=(ma-mb)*S-1*(x-(ma+mb)/2)若若W(x)0,x属于属于G1;若若W(x)列数列数按照如下的判别准则:按照如下的判别准则:我们可以建立我们可以建立MATLAB的判别法如下:的判别法如下:均未知时的判别法则均未知时的判别法则 记记 则判别函数:则判别函数:两样本的协方差阵相同两样本的协方差阵相同抽取抽取n1和和n2个子样个子样:当当时时
13、,判断判断 当当时时,判断判断 例例 对于下雨天和非雨天两类天气情况收集如下数据对于下雨天和非雨天两类天气情况收集如下数据 雨雨 天天 非非 雨雨 天天 湿度差湿度差 温度温度 湿度差湿度差 温度温度-1.9 3.2 0.2 6.2-6.9 10.4 -0.1 7.55.2 2.0 0.4 14.67.3 0.0 2.1 0.86.8 12.7 -4.6 4.30.9 -15.4 -1.7 10.9-12.5 -2.5 -2.6 13.11.5 1.3 2.6 12.83.8 6.8 -2.8 10.0不难算出:不难算出:在此很难假定在此很难假定,但仍然可以定义其马氏距离但仍然可以定义其马氏距
14、离 如果要问当如果要问当 时是雨天还是非雨天时是雨天还是非雨天,可解得如下可解得如下 因为因为X与与G1距离小,因此判定距离小,因此判定 雨天雨天 相关相关MATLAB命令命令 该例该例MATLAB 程序实现程序实现运行结果运行结果 例例1.现测得现测得6只只Apf和和9只只Af蠓虫的触长蠓虫的触长,翅长数据翅长数据Apf:(1.14,1.78),(1.18,1.96),(1.20,1.86),(1.26,2.00),(1.28,2.00),(1.30,1.96)Af:(1.24,1.72),(1.36,1.74),(1.38,1.64),(1.38,1.82),(1.38,1.90),(1.
15、40,1.70),(1.48,1.82),(1.54,1.82),(1.56,2.08)若若两总体协方差矩阵不等,试判别以下的三个蠓两总体协方差矩阵不等,试判别以下的三个蠓虫属于哪一类?虫属于哪一类?(1.24,1.8),(1.28,1.84),(,(1.4,2.04)解:解:Apf=1.14,1.78;1.18,1.96;1.20,1.86;1.26,2.00;1.28,2.00;1.30,1.96;Af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90;1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;x=1.
16、24,1.8;1.28,1.84;1.4,2.04;d=mahal(x,Apf)-mahal(x,Af)若若d0,则,则x属于属于Af;若若d0,则,则x属于属于Apf.Ans:d=1.7611 3.8812 3.6468故三个蠓虫均属故三个蠓虫均属Af.从例从例1,我们发现对于两个总体的协方差矩阵是否,我们发现对于两个总体的协方差矩阵是否相等,得到的结论可能不同,因此在解决实际问题时,相等,得到的结论可能不同,因此在解决实际问题时,首先要判别两个总体的协方差矩阵是否相等?首先要判别两个总体的协方差矩阵是否相等?检验检验统计量:统计量:对给定的对给定的 ,查卡方分布表得到临界值查卡方分布表得到
17、临界值 若若Qi ,则接受则接受H0,否则拒绝,否则拒绝H0对于例对于例1 1,应用检验程序如下,应用检验程序如下(=0.05=0.05):n1=6;n2=9;p=2;s=(5*s1+8*s2)/13;Q01=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1),Q02=(n2-1)*(log(det(s)-log(det(s2)-p+trace(inv(s)*s2),P=1-chi2cdf(Q01,Q02,3)对对 ,查自由度为查自由度为3的卡方分布的卡方分布,得到临界得到临界值为:值为:7.815,由于由于 Q017.815,Q020n1=n1
18、+1;else n1=n1;endend%计算计算Apf 误判为误判为Af 的个数的个数n1for j=1:9,n2(j)=(b(j,:)-m1)*inv(s)*(b(j,:)-m1)-(b(j,:)-m2)*inv(s)*(b(j,:)-m2);n2=0;if n20n2=n2+1;else n2=n2;endendwp=n1+n2/m+n%回代误判率回代误判率%计算计算Af 误判为误判为Apf 的个数的个数n2由于由于wp=0,故回代误判率故回代误判率=0(2)交叉误判率估计)交叉误判率估计 交叉误判率估计是每次剔除一个样品,利用其余交叉误判率估计是每次剔除一个样品,利用其余的的m+n1个
19、训练样本建立判别准则再用所建立的个训练样本建立判别准则再用所建立的准则对删除的样品进行判别。对训练样本中每个样准则对删除的样品进行判别。对训练样本中每个样品都做如上分析,以其误判的比例作为误判率,具品都做如上分析,以其误判的比例作为误判率,具体步骤如下:体步骤如下:从总体为从总体为G1的训练样本开始,剔除其中一个样品,的训练样本开始,剔除其中一个样品,剩余的剩余的m1个样品与个样品与G2中的全部样品建立判别函数;中的全部样品建立判别函数;用建立的判别函数对剔除的样品进行判别;用建立的判别函数对剔除的样品进行判别;重复步骤重复步骤,直到,直到G1中的全部样品依次被删除,中的全部样品依次被删除,又
20、进行判别,其误判的样品个数记为又进行判别,其误判的样品个数记为m12于是交叉误判率估计为:于是交叉误判率估计为:在两个总体协方差矩阵等时在两个总体协方差矩阵等时,利用利用MATLAB编程计算交叉误判率,作为作业编程计算交叉误判率,作为作业.对对G2的样品重复步骤的样品重复步骤,直到直到G2中的全部中的全部样品依次被删除又进行判别,其误判的样品个数记为样品依次被删除又进行判别,其误判的样品个数记为n211.3.多个总体的距离判别多个总体的距离判别设有设有k个总体,个总体,G1,G2,Gk,若判别某个体,若判别某个体y属于哪属于哪个总体,则有如下方法:个总体,则有如下方法:若存在某个正整数若存在某
21、个正整数k0,使得使得mahal(y,Gk0)=min(y,Gi),(i=1,2,k)则判别则判别y属于第属于第k0个个体个个体.1.4.距离判别的距离判别的Matlab编程实现编程实现两个总体协方差矩阵相等时的判别步骤两个总体协方差矩阵相等时的判别步骤:计算计算A、B两类的均值向量与协方差阵两类的均值向量与协方差阵;ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)计算总体的协方差矩阵计算总体的协方差矩阵S=(length(A(:,1)-1)*S1+(length(B(:,1)-1)*S2/(length(A(:,1)+(length(B(:,1)-2)其中其
22、中length(A(:,1),length(B(:,1)分别为两个样本的分别为两个样本的容量容量(即矩阵即矩阵A,B的行数的行数).计算未知样本计算未知样本x到到A,B两类马氏距离之差两类马氏距离之差d=(x-ma)*inv(S)*(x-ma)-(x-mb)*inv(S)*(x-mb)若若d0,则,则x属于属于B类类距离判别的距离判别的CLASSIFY命令实现:命令实现:2 贝叶斯贝叶斯(Bayes)判别判别2.1 Bayes判别的思想判别的思想2.2.贝叶斯判别的准则贝叶斯判别的准则2.3.两个正态总体的两个正态总体的Bayes判别判别1.后验概率最小原则后验概率最小原则2.平均误判概率最小
23、原则平均误判概率最小原则3.平均损失最小原则平均损失最小原则2.4.多个正态总体的多个正态总体的Bayes判别判别 距离判别只要求知道总体的数字特征,不涉距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就及总体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计。距离判别方用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会法简单实用,但没有考虑到每个总体出现的机会大小,即大小,即先验概率先验概率,没有考虑到,没有考虑到错判的损失错判的损失。贝贝叶斯判别法正是为了解决这两个问题提出的判别叶斯判别法正是为了解决这两个问题
24、提出的判别分析方法。分析方法。2.1 Bayes判别的思想判别的思想 一一个个好好的的判判别别方方法法,既既要要考考虑虑到到各各个个总总体体出出现现的的先先验验概概率率,又又要要考考虑虑到到错错判判造造成成的的损损失失,Bayes判判别别就就具有这些优点具有这些优点.贝叶斯公式是一个我们熟知的公式贝叶斯公式是一个我们熟知的公式 2.2.贝叶斯判别有以下准则:贝叶斯判别有以下准则:1.后验概率最大原则后验概率最大原则 设设有有总总体体 ,具具有有概概率率密密度度函函 数数 并并且且根根据据以以往往的的统统计计分分析析,知知道道 出出现现的的概概率率为为 。即即当当样样本本 发发生生时时,求求他他
25、属属于于某某类的概率。由贝叶斯公式计算后验概率,有:类的概率。由贝叶斯公式计算后验概率,有:则则 判给判给 。判别规则:若判别规则:若 设设有有总总体体 ,具具有有概概率率密密度度函函数数 并并且且根根据据以以往往的的统统计计分分析知道析知道 出现的概率为出现的概率为 ,且且又又D1,D2,Dk是是R(p)的一个分划的一个分划,判别法判别法则则:当样品当样品X落入落入Di时时,则判则判 关键的问题是寻找关键的问题是寻找D1,D2,Dk分划,这分划,这个分划应该使平均错判率最小。个分划应该使平均错判率最小。2.2.2.2.平均误判最小原则平均误判最小原则平均误判最小原则平均误判最小原则3.3.平
26、均错判损失最小平均错判损失最小 用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。C(j/i)表示相应错判所造成的损失。表示相应错判所造成的损失。则平均错判损失为:则平均错判损失为:使使ECM最小的分划,最小的分划,是是Bayes判别分析的解。判别分析的解。2.3 两个总体的两个总体的Bayes判别判别1.一般讨论一般讨论考虑两个考虑两个p元总体元总体G1,G2分别具有概率密度函数分别具有概率密度函数f1(x),f2(x),设出现的先验概率为:,设出现的先验概率为:,且,且一个划分一个划分R=(R1,R2)相当于一个判别准则,在判相当于一个判别准则,在判别准则别准则R下将来自下将
27、来自G1的样品误判为的样品误判为G2的概率是的概率是而将来自而将来自G2的样品误判为的样品误判为G1的概率是的概率是平均误判率为平均误判率为 平均误判损失平均误判损失其中其中c(2|1)是将是将G1的样品误判为的样品误判为G2的损失的损失c(1|2)是将来自是将来自G2的样品误判为的样品误判为G1的损失的损失我们首先考虑我们首先考虑c(2|1)=c(1|2)的情况,并且总假的情况,并且总假定定c(1|1)=c(2|2)=0 对于一个对于一个p元样本元样本 根据根据Bayes公式,可以得到该样品属于公式,可以得到该样品属于G1,G2的后验概率分别为的后验概率分别为当当c(2|1)=c(1|2)时
28、,两总体时,两总体Bayes判别的一个判别的一个最优划分是最优划分是于是得到两个总体的于是得到两个总体的Bayes判别法则为:判别法则为:定理定理1.若若c(2|1)=c(1|2)=c,则存在最优划分则存在最优划分使得平均误判概率使得平均误判概率 达到最小达到最小 证明证明:显然,若取显然,若取则可以使得则可以使得P*达到最小,这时达到最小,这时推论:若推论:若c(2|1)=c(1|2)=c,则存在最优划分则存在最优划分使得平均误判损失达到最小使得平均误判损失达到最小.由于由于c(2|1)=c(1|2)=c,于是平均误判损失为:,于是平均误判损失为:cp*,因此若存在最优划分,因此若存在最优划
29、分R,使得,使得cp*达到最达到最小等价于使得小等价于使得p*达到最小达到最小.当当c(2|1)与与c(1|2)不相等时,关于先验概率不相等时,关于先验概率p1,p2,误判造成的平均损失为,误判造成的平均损失为于是,当于是,当L取得最小值时有最优划分为:取得最小值时有最优划分为:显然,当显然,当c(1|2)=c(2|1),上式即为上式即为 2.两个正态总体的两个正态总体的Bayes判别判别在在c(1|2)=c(2|1)的条件下,我们首先考虑:的条件下,我们首先考虑:(1)两个总体协方差矩阵相等的情形)两个总体协方差矩阵相等的情形(1)两个总体协方差矩阵相等的情形)两个总体协方差矩阵相等的情形设
30、总体设总体G1,G2的协方差矩阵相等且为的协方差矩阵相等且为,概率,概率密度函数为:密度函数为:上式两边取自然对数得上式两边取自然对数得这时这时令令于是于是于是判别准则简化为:于是判别准则简化为:在在MATLAB中计算中计算wj(x)的公式为:的公式为:其中其中下面,我们推导关于后验概率最大的另外一下面,我们推导关于后验概率最大的另外一种数学表达式种数学表达式由于由于 代入上式得代入上式得注意到对数恒等式注意到对数恒等式分子可化为:分子可化为:令令于是后验概率可表示为于是后验概率可表示为P(G1|x)d22(x)注意到注意到 是是x到到Gj的马氏距离平方,由的马氏距离平方,由MATLAB软件软
31、件P(G1|x)d22(x)等价于等价于 mahal(x,G1)-mahal(x,G2)2log(p1/p2)显然,当显然,当p1=p2时,时,bayes判别就是距离判别判别就是距离判别距离判别与距离判别与bayes判别的比较:判别的比较:距离判别与总体的分布无关,信息少,简单距离判别与总体的分布无关,信息少,简单bayes判别比距离判别多了先验概率信息,如果判别比距离判别多了先验概率信息,如果总体不服从多元正态分布,上述推导无效!总体不服从多元正态分布,上述推导无效!(2)两个总体协方差矩阵不相等的情形)两个总体协方差矩阵不相等的情形设总体的协方差矩阵不相等分别为设总体的协方差矩阵不相等分别
32、为1,2概率密概率密度函数为:度函数为:上式两边取自然对数得上式两边取自然对数得这时这时于是,判别函数为:于是,判别函数为:判别准则为:判别准则为:若若d(x)则判别则判别x属于第一类;属于第一类;若若d(x)0 则判别则判别x属于第二类;属于第二类;2.4 多个总体的多个总体的Bayes判别判别设有设有k个总体个总体G1,G2,Gk的概率密度为的概率密度为fj(x)各总体出现的先验概率为各总体出现的先验概率为 pj=P(Gj),j=1,2,k,满足满足一个判别准则就是空间一个判别准则就是空间Rp的一个不相重叠的划分的一个不相重叠的划分R1,R2,Rk,满足满足记记R=(R1,R2,Rk),则
33、则R代表一个判别准则代表一个判别准则 在判别准则在判别准则R=(R1,R2,Rk)下,将来自下,将来自Gi的样品误判为的样品误判为Gj的概率为的概率为 设来自设来自Gi的样品误判为的样品误判为Gj的损失记为的损失记为c(j|i),于是得到损失矩阵于是得到损失矩阵于是来自于是来自Gi的样品误判为来自其他总体的概率的样品误判为来自其他总体的概率 当当Gj出现的概率为出现的概率为pj,j=1,2,k时,误判时,误判的平均概率是的平均概率是 于是来自于是来自Gi的样品误判为来自其他总体的的样品误判为来自其他总体的损失为损失为来自来自Gi的样品误判为来自其他总体的平均损失为的样品误判为来自其他总体的平均
34、损失为在多个总体的判别中,仍然是考虑平均损失在多个总体的判别中,仍然是考虑平均损失最小,即后验概率最大作为判别准则最小,即后验概率最大作为判别准则.5 5 判别分析概说判别分析概说 判别分析方法最初应用于考古学判别分析方法最初应用于考古学,例如要根据挖掘例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等出来的人头盖骨的各种指标来判别其性别年龄等.近年近年来来,在生物学分类在生物学分类,医疗诊断医疗诊断,地质找矿地质找矿,石油钻探石油钻探,天气预报等许多领域天气预报等许多领域,判别分析方法已经成为一种有效判别分析方法已经成为一种有效的统计推断方法的统计推断方法.假定需要作出判别分析的对象分
35、成假定需要作出判别分析的对象分成 r 类类,记作记作A1,A2,Ar,每一类由每一类由m个指标的若干个标本确定个指标的若干个标本确定,即即A1,A2,Ar为已知的分类为已知的分类.现在问待判断的对象现在问待判断的对象x=(x1,x2,xm)T是属于是属于A1,A2,Ar中的哪一类?这就构成了判别分析问题的基本中的哪一类?这就构成了判别分析问题的基本内容内容.判别分析判别分析:判别分析是用于判别个体所属群体的一种统计方判别分析是用于判别个体所属群体的一种统计方法,判别分析的特点是根据已掌握的、历史上每个法,判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类类别的
36、若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分判别准则,就能判别该样本点所属的类别。判别分析是一种应用性很强的统计数据分析方法。析是一种应用性很强的统计数据分析方法。判别分析的原理判别分析的原理:为了能识别待判断的对象为了能识别待判断的对象x=(x1,x2,xm)T是属于已是属于已知类知类A1,A2,Ar中的哪一类?中的哪一类?事先必须要有一个一般规则事先必须要有一个一般规则,一旦知道
37、了一旦知道了x的值的值,便能便能根据这个规则立即作出判断根据这个规则立即作出判断,称这样的一个规则为称这样的一个规则为判别规判别规则则.判别规则往往通过的某个函数来表达判别规则往往通过的某个函数来表达,我们把它称我们把它称为为判别函数判别函数,记作记作W(i;x).一旦知道了一旦知道了判别函数并确定了判别函数并确定了判别规则,最好将已判别规则,最好将已知类别的对象代入检验,这一过程称为知类别的对象代入检验,这一过程称为回代检验回代检验,以便,以便检验你的检验你的判别函数和判别函数和判别规则是否正确判别规则是否正确.判别分析的主要方法判别分析的主要方法:判别分析的主要方法有距离判别方法、费希尔判
38、别分析的主要方法有距离判别方法、费希尔(Fisher)判别方法、贝叶斯判别方法、贝叶斯(Bayes)判别方法判别方法.距离判别方法距离判别方法:判别函数判别函数W(i;x)=d(x,Ai),其中其中d(x,Ai)为为待判别对象待判别对象x到第到第i类类Ai的距离的距离.判别规则为若判别规则为若W(k;x)=minW(i;x)|i=1,2,r,则则xAk.贝叶斯贝叶斯(Bayes)判别方法:判别方法:判别函数判别函数W(i;x)=pi i(x),其中其中pi为待判别对象为待判别对象xAi的概率的概率,如果没有任如果没有任何这种附加的先验信息何这种附加的先验信息,通常取通常取pi=1/r.i(x)
39、为为已知类已知类别别Ai的分布密度的分布密度判别规则为若判别规则为若W(k;x)=maxW(i;x)|i=1,2,r,则则xAk.Fisher准则分类的模型准则分类的模型:费歇(费歇(FisherFisher)判别法)判别法是一种线性判别的方法。它的工是一种线性判别的方法。它的工作思路是对原数据系统进行坐标变换,寻求能将总体尽可能作思路是对原数据系统进行坐标变换,寻求能将总体尽可能分开的方向。具体的作法是先引入一个与样本同维的待定向分开的方向。具体的作法是先引入一个与样本同维的待定向量量u u,再将,再将y y取为取为x x坐标的线性组合坐标的线性组合 。而。而u u的的选取,要选取,要使同一
40、类别产生的使同一类别产生的y y尽量聚拢,不同类别产生的尽量聚拢,不同类别产生的y y尽量拉开。尽量拉开。这样,我们便可将样品这样,我们便可将样品x x到某一类到某一类G G的距离定义为的距离定义为 与与 之间的欧氏距离:之间的欧氏距离:其中其中c c为为G G的几何中心的几何中心FisherFisher分类的判据为:分类的判据为:1 1若若 ,则判定义为,则判定义为A A类;类;2 2若若 ,则判定又为,则判定又为B B类;类;3 3若若 ,则判定又为不可判类。,则判定又为不可判类。判别效果检验判别效果检验:判别效果检验的好坏与判别效果检验的好坏与A1,A2,Ar分类的合理性有分类的合理性有
41、关关,左图说明马氏距离判别法和费歇尔判别法是失效的左图说明马氏距离判别法和费歇尔判别法是失效的,若将其重新分类如右图若将其重新分类如右图,那么判别的效果将会好一些那么判别的效果将会好一些.因此因此,需要对分类的合理性进行假设检验需要对分类的合理性进行假设检验.建模实例建模实例:两种蠓两种蠓Af和和Apf已由生物学已由生物学家家W.L.Grogna和和W.W.Wirth于于1981年根据它们年根据它们的触角长和翼长的触角长和翼长加以区分加以区分,右下右下图给出了图给出了9只只Af和和6只只Apf蠓的触蠓的触角长和翼长数据角长和翼长数据,其中其中“”表示表示Apf,“”表示表示Af.根据触角长和翼
42、根据触角长和翼长来识别一个标长来识别一个标本是本是Af还是还是Apf是重要的是重要的.给给定定一一只只Af族族或或Apf族族的的蠓蠓,如如何何正正确确地地区区分分它它属属于哪一族?于哪一族?将将你你的的方方法法用用于于触触角角长长和和翼翼长长分分别别为为 (1.24,1.80),(1.28,1.84),(1.40,2.04)三个标本三个标本.设设Af是是传传粉粉益益虫虫,Apf是是某某种种疾疾病病的的载载体体,是是否否应应修改你的分类方法?若需修改修改你的分类方法?若需修改,为什么?为什么?假设假设 两种群两种群Af和和Apf的触角长和翼长的期望值、标准的触角长和翼长的期望值、标准差、相关系数与由数据给出的样本的统计量一致差、相关系数与由数据给出的样本的统计量一致.两种群两种群Af和和Apf的触角长和翼长服从二元正态分的触角长和翼长服从二元正态分布布.两种群两种群Af与与Apf的数量之比为一个确定的值的数量之比为一个确定的值.所给的样本数据是无误差的所给的样本数据是无误差的.样本数据样本数据 族族 1 2 1 2 先验概率先验概率Af1.4131.8040.09900.13000.5939/15=0.6Apf1.2271.9270.06280.08820.6536/15=0.4模型建立与求解(从略)模型建立与求解(从略)距离判别的距离判别的CLASSIFY命令实现:命令实现: