《第四章判别分析精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章判别分析精选文档.ppt(76页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章判别分析第四章判别分析本讲稿第一页,共七十六页 一、判别分析的基本概念一、判别分析的基本概念判别分析问题的描述:判别分析问题的描述:已知若干组分类数据已知若干组分类数据现有一新样本,要求判定新样本数据属于已知分类中的哪一现有一新样本,要求判定新样本数据属于已知分类中的哪一类类判别分析的关键:判别分析的关键:判别函数:由描述各类的数值指标构成的分类规则,明判别函数:由描述各类的数值指标构成的分类规则,明确已知各类应如何区别确已知各类应如何区别例:肝炎病人的诊断例:肝炎病人的诊断两总体判别:肝炎病人和正常人两总体判别:肝炎病人和正常人判别依据:一些化验指标,形成判别公式判别依据:一些化验指标
2、,形成判别公式-判别函数判别函数本讲稿第二页,共七十六页Simple,Two-Group DAMean of group 1 from data you haveMean of group 2 from data you haveUnknown observationx如何判别:如何判别:x与哪类距离近,与哪类距离近,就归属于哪类:就归属于哪类:若若dx1dx2,则则x属于第属于第2类类判别函数:判别函数:f=dx1-dx20,x2,0,x1判别规则判别规则中国属于发展中国家还是发达国家?本讲稿第三页,共七十六页Pattern Recognition Problem本讲稿第四页,共七十六页判别
3、分析与方差分析、聚类分析判别分析与方差分析、聚类分析本讲稿第五页,共七十六页聚类分析与判别分析间的联系 先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别(identification)本讲稿第六页,共七十六页聚类分析的数据格式k本讲稿第七页,共七十六页判别分析的数据格式本讲稿第八页,共七十六页判别分析的方法与数学描述判别分析的方法与数学描述数据描述数据描述对于对于m类总体类总体G1,G2,Gm,其分布函,其分布函数分别为数分别为f1(y),f2(y),fm(y),对于一个给,对于一个给定样品定样品y,我们要判断出这个样本来自哪
4、个总,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找体。判别分析的主要问题就是如何寻找最佳最佳的的判别函数和建立判别规则。判别函数和建立判别规则。误判问题误判问题肝功指标高就一定是肝炎病人吗?肝功指标高就一定是肝炎病人吗?本讲稿第九页,共七十六页误判率误判率Misclassification(1-D case)两总体单指标的判别分析,假设正态分布,等方差判别规则转氨酶肝炎患肝炎患者者非患者非患者非典?非典??本讲稿第十页,共七十六页Best-In What Sense?Minimizes probability of misclassificationMaximizes po
5、sterior probability of correct classificationMany othersFor example minimizes the cost of misclassification具体问题具体分析具体问题具体分析疾病的诊断疾病的诊断市场分析市场分析Lots of perspectives suggest this basic rule as best本讲稿第十一页,共七十六页影响误判率的因素影响误判率的因素当分布中心过于接近,误判率很高三总体单指标组均值差异组均值差异本讲稿第十二页,共七十六页Three groups-Two features本讲稿第十三页,共
6、七十六页二、两总体判别分析二、两总体判别分析基本思想:样品和哪个总体距离最近,就判断它属于基本思想:样品和哪个总体距离最近,就判断它属于那个总体。那个总体。设:两个总体设:两个总体G1和和G2,x是一个是一个p维样本,维样本,x到总体到总体G1和和G2的的马氏距离马氏距离分别记为分别记为d2(x,G1)和和d2(x,G2),判别规则:若判别规则:若d2(x,G1)d2(x,G2),认为认为x属于属于G2。或判别函数:或判别函数:W(x)=d2(x,G2)-d2(x,G1)0,x G10,x G2 当当W(x)0本讲稿第十八页,共七十六页01G1G2考察考察p=1的情况的情况设设G1N(1,2)
7、和和G2N(2,2),判别函数为:,判别函数为:x=0.5误判率P(2/1)=0.3085误判率P(1/2)=?本讲稿第十九页,共七十六页12时,非线性判别函数时,非线性判别函数判别函数判别函数W(x)为为x的二次函数的二次函数本讲稿第二十页,共七十六页直观判断直观判断x0属于哪属于哪一类?一类?G1:N(80,0.25)G2:N(75,4)7580 x0=78 已知已知G1是设备是设备A生产的产品,生产的产品,G2是设备是设备B生产的产品。生产的产品。A设备设备质量高,其产品平均耐磨度质量高,其产品平均耐磨度 1=80,方差,方差 12=0.25,B设备质量设备质量较差,其产品平均耐磨度较差
8、,其产品平均耐磨度 2=75,方差,方差 22=4。现有一产品。现有一产品X0,其耐磨度,其耐磨度x0=78,试判断该产品是哪台设备生产的。,试判断该产品是哪台设备生产的。考察考察p=1的情况的情况直观上看,x0距1较近,但是考虑到相对分散度,判别准则x1x2本讲稿第二十一页,共七十六页2.Fisher 判别法判别法基本思想:寻找原变量基本思想:寻找原变量x的一个线性组合,使的一个线性组合,使得各组在此方向上投影的差异最大化,再选择得各组在此方向上投影的差异最大化,再选择合适的判别规则对样品进行分类判别。合适的判别规则对样品进行分类判别。本讲稿第二十二页,共七十六页Fishers approa
9、chFind a linear combination of variables x that would produce“maximally different”discriminant scores across group本讲稿第二十三页,共七十六页数学模型数学模型设:线性组合的系数向量为设:线性组合的系数向量为a,考虑线性考虑线性组合:组合:z=xaz:x在在a方向的投影方向的投影通过寻找合适的通过寻找合适的a,使投影到此方向的组,使投影到此方向的组间变异大,组内变异比较小,即使组间间变异大,组内变异比较小,即使组间变异变异/组内变异(离差平方和)取最大值。组内变异(离差平方和)取最大
10、值。本讲稿第二十四页,共七十六页两总体两总体Fisher判别函数判别函数设:两协差阵相等的总体设:两协差阵相等的总体G1:n1个样本,个样本,G2:n2,1,2和和 分别表示两总体均值和总均值分别表示两总体均值和总均值线性组合的系数向量为线性组合的系数向量为a,考虑线性组合:考虑线性组合:z=xa投影后的组内变异:组内离差平方和为投影后的组内变异:组内离差平方和为本讲稿第二十五页,共七十六页投影后的组间变异:组间离差平方和为投影后的组间变异:组间离差平方和为本讲稿第二十六页,共七十六页以上证明,当以上证明,当a-1(2-1)时满足我们时满足我们的要求,即:判别投影方向的要求,即:判别投影方向在
11、两类均值在两类均值点的连线上点的连线上。通常我们将。通常我们将a标准化。标准化。判别函数为:判别函数为:z=x-1(2-1)判别规则:判别规则:zc时,时,xG2;zc时,时,xG1,本讲稿第二十七页,共七十六页Linear Discriminatorscritical value投影方向判别函数判别得分c2c1,xG1c30.43buyer本讲稿第三十二页,共七十六页SPSS输出输出结果结果判别规则:zc=(1.018-0.0922)/2=0.4629buyer判别函数:判别函数:本讲稿第三十三页,共七十六页判别变量和标准化判别函判别变量和标准化判别函数的相关系数数的相关系数购买艺术书越多的
12、顾客越可能购买,越近期的顾客越可能购买本讲稿第三十四页,共七十六页判别得分的分布判别得分的分布Non-buyersbuyersz=0z=0本讲稿第三十五页,共七十六页回判结果回判结果误判率误判率25%发出263封订购信,约18.3%会订购本讲稿第三十六页,共七十六页协方差阵相等的检验协方差阵相等的检验-Boxs testH0:1=2=m协方差不等时的判别:非线性判别函数协方差不等时的判别:非线性判别函数如果仍用线性判别,误判率增大如果仍用线性判别,误判率增大组内协方差相等时G1G2G2本讲稿第三十七页,共七十六页Books by mail协方差相等算法的误判率协方差不等算法的误判率发出263封
13、订购信,约18.3%会订购发出197封订购信,约20.3%会订购本讲稿第三十八页,共七十六页类中心显著差异的检验类中心显著差异的检验Wilkss test为什么要检验?为什么要检验?类中心距离太近时,误判率高。类中心距离太近时,误判率高。Books by mailn 如何检验 H0:1=2本讲稿第三十九页,共七十六页3.Bayesian approach前面两种方法中都没有考虑各类中样本前面两种方法中都没有考虑各类中样本数的差异数的差异没有考虑误判带来的不对称经济损失没有考虑误判带来的不对称经济损失当各类样本数不同当各类样本数不同/误判损失不对称时,误判损失不对称时,是否会影响判别函数的选取或
14、判别规则是否会影响判别函数的选取或判别规则?本讲稿第四十页,共七十六页Incorporating Prior Probs考虑先验概率R1的误判率高于R2考虑到各类样本容量不同对误判率的影响,判别规则应作适当调整考虑到各类样本容量不同对误判率的影响,判别规则应作适当调整本讲稿第四十一页,共七十六页3.Bayesian approach贝叶斯的统计思想:假定对研究的对象已有贝叶斯的统计思想:假定对研究的对象已有一定的认识(常用先验概率反映这种认识),一定的认识(常用先验概率反映这种认识),然后抽取一个样本,用样本来修正已有的认然后抽取一个样本,用样本来修正已有的认识。识。本讲稿第四十二页,共七十六
15、页影响分类的因素影响分类的因素先验概率先验概率误判损失误判损失cost of misclassification:x被判为属于被判为属于G2,而它实际属于,而它实际属于G1,则称发生了误判,则称发生了误判 误判可能会带来经济损失误判可能会带来经济损失 当误判损失不对称时(比如当误判损失不对称时(比如G1样本误判为样本误判为G2的成本是的成本是G2样本误判为样本误判为G1的成本的的成本的10倍时),我们通常会改变判别准则倍时),我们通常会改变判别准则(使之偏向误判成本低的一方),宁可将(使之偏向误判成本低的一方),宁可将G2误判给误判给G1,也,也不愿相反。不愿相反。本讲稿第四十三页,共七十六页
16、3.Bayesian approach基本思路:误判期望损失最小化设有m个总体G1,Gm,其概率密度函数分别为fi(x),i=1,2m。来自总体Gi的样品x被错判为总体Gj所产生的损失为C(j/i),那么,对于判别规则R产生的误判概率记为P(j/i,R),有:如果已知x来自总体Gi的先验概率为qi(i=1,2,m),则在规则R下,误判期望损失为:本讲稿第四十四页,共七十六页贝叶斯定理贝叶斯定理若总体若总体G1,Gm的先验概率为的先验概率为qi,且相应的密,且相应的密度函数为度函数为fi(x),损失是,损失是C(j/i)时,则划分时,则划分R的的贝叶斯解为:贝叶斯解为:当抽取了一个未知总体的样品
17、值x(p维向量),要判断它属于哪个总体,只要先计算出个按先验分布加权的误判平均损失hj(x),然后比较这m个平均损失的大小,取其中最小的,则判定x来自该总体本讲稿第四十五页,共七十六页两总体判别两总体判别设有设有2个总体,其先验概率分别为个总体,其先验概率分别为q1,q2,满足:,满足:qi0,qi=1,误判成本分别为,误判成本分别为C(1/2),C(2/1),h1(x)=q2f2(x)C(1/2),h2(x)=q1f1(x)C(2/1),R1=x|q2f2(x)C(1/2)q1f1(x)C(2/1)本讲稿第四十六页,共七十六页两总体判别两总体判别其中:z-Fisher判别函数得分,c-两个类
18、中心连线的中点(Fisher判别准则)当先验概率和误判损失各类都相等时,即为当先验概率和误判损失各类都相等时,即为Fisher判别。先验概率判别。先验概率/误判误判损失不对称时,相当于对原判别值做一个修正损失不对称时,相当于对原判别值做一个修正如果如果f f1 1(x)(x)与与f f2 2(x)(x)分别为分别为N Np p(1 1,),)和和N Np p(2 2,),),则,则本讲稿第四十七页,共七十六页练习题练习题考虑下列判别分析问题:随机抽取考虑下列判别分析问题:随机抽取60个个样本,相关统计资料如下:样本,相关统计资料如下:一个新的样本为一个新的样本为x=(0.0,0.5)x=(0.
19、0,0.5),问,问x x属于(属于(1 1)类还是)类还是(2 2)类。)类。本讲稿第四十八页,共七十六页Books by mail1000个样本顾客中,个样本顾客中,buyer只有只有83人,其人,其他他917名都是名都是non-buyer,先验概率相差很先验概率相差很大。做先验概率修正后,分类结果:大。做先验概率修正后,分类结果:修正后(修正后(Bayers法)法)发出197封订购信,约20.3%会订购发出44封订购信,约43.2%会订购修正前修正前本讲稿第四十九页,共七十六页误判损失误判损失修正修正此例为典型非对称误判损失:非买者误判为买者,损失较小(邮资费、资料费、人工费),设为1元
20、;买者误判为非买者损失较大,为一本书的净利润,设为6元发出160封订购信,约21.3%会订购:准确率下降!净利润=634-1126=78净利润=611-110=56注意:误判损失修正需注意:误判损失修正需用用syntaxsyntax语句编程,人语句编程,人工输入先验概率工输入先验概率(0.648)0.648)仅先验概率修正本讲稿第五十页,共七十六页3 Groups in 2 Dimensions三、多总体判别分析本讲稿第五十一页,共七十六页Partitioning 2-D Space本讲稿第五十二页,共七十六页Alternate View本讲稿第五十三页,共七十六页Likelihood Vie
21、w本讲稿第五十四页,共七十六页Non-Linear Discriminators两个判别变量、三类本讲稿第五十五页,共七十六页四、SPSS的Discriminant过程 Discriminant过程的大部分功能都可以通过对话框来指定,还有一些功能可以在Syntax页中给予补充或修改。例如,指指定定各各类类的的先先验验概概率率;显示旋转方式和结构矩阵;限制提取的判别函数的数目;读取一个相关矩阵;分析后把相关矩阵写入文件;指定对参与分析的观测量进行回代分类,对没有参与分析的观测量进行预测分类等。本讲稿第五十六页,共七十六页SPSSSPSS的判别分析方法的判别分析方法 为研究舒张期血压和血浆胆固醇对
22、冠心病的作用,某医院测定了50-59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。本讲稿第五十七页,共七十六页判别分析判别分析数据结构数据结构设一分组变量表示分组类别本讲稿第五十八页,共七十六页判别分析过程判别分析过程 AnalyzeClassify Discriminant.,弹出Discriminant Analysis对话框。定义分组变量取值范围SPSS提供6种方法进行判别函数分析:强迫变量进入法及其他5种逐步进入法强迫进入法:已选变量全部进入模型逐步进入法选择满足指定条件的样本进行分析本讲稿第五十九页,共七十六页定
23、义分组变量取值范围定义分组变量取值范围分组变量最大值分组变量最小值本讲稿第六十页,共七十六页逐步进入方法选择对话框逐步进入方法选择对话框method“组间最小F比率”值最大的变量具有最小总体Wilks 值的变量进入模型具有最小未被解释的组间方差的变量具有近邻组间最大马式距离的变量具有最大Raos V增量的变量显示每步每个变量的统计量显示两两类间的F统计量逐步判别停止判据根据F值:Fentry值保留,F0的为冠心的为冠心病人,判别分病人,判别分0的为正常人。的为正常人。本讲稿第六十六页,共七十六页本讲稿第六十七页,共七十六页例:例:mba-car-preferrence前一章前一章MBA汽车偏好
24、例汽车偏好例先用快速聚类将偏好数据分为先用快速聚类将偏好数据分为3类类再用判别分析建立判别函数再用判别分析建立判别函数首先进行方差检验,以确定判别方法再进行相应的判别分析,给出误判率本讲稿第六十八页,共七十六页协方差相等假设下的判别结果协方差相等假设下的判别结果本讲稿第六十九页,共七十六页Territorial Plot本讲稿第七十页,共七十六页Territorial PlotDraw in perpendicular bisectors本讲稿第七十一页,共七十六页Territorial PlotThis is“closest mean”classification.本讲稿第七十二页,共七十六
25、页用方差不等方法的用方差不等方法的判别结果判别结果Territorial Plot显示的分界为非线性本讲稿第七十三页,共七十六页将数据快速聚为将数据快速聚为5类后类后判别分析判别分析方差相等方差相等方差不等方差不等本讲稿第七十四页,共七十六页本章小结本章小结判别分析:已知判别分析:已知m类总体,对于一个给定样品类总体,对于一个给定样品y,判断来自哪个总体。判断来自哪个总体。主要问题:寻找主要问题:寻找最佳最佳的判别函数和建立判别规则的判别函数和建立判别规则马氏等距离法马氏等距离法样本点到哪个类中心的马氏距离最近就归属于哪一类样本点到哪个类中心的马氏距离最近就归属于哪一类Fisher方法方法以类中心连线为投影方向(类间距离最大)建立判别函数以类中心连线为投影方向(类间距离最大)建立判别函数Bayesian方法方法先验概率和不对称误判成本修正先验概率和不对称误判成本修正本讲稿第七十五页,共七十六页本章小结本章小结-续续判别分析之检验判别分析之检验类协方差相等的检验:类协方差相等的检验:Boxs test类方差相等:判别函数为线性函数,类分界线为直线类方差不等:非线性函数,类分界线为曲线类均值相等的检验:类均值相等的检验:Wilkss test判别函数个数:分类数判别函数个数:分类数-1本讲稿第七十六页,共七十六页