补充:判别分析《应用多元分析》第三版ppt(第五章)课件.ppt

上传人:飞****2 文档编号:28416465 上传时间:2022-07-28 格式:PPT 页数:70 大小:925.50KB
返回 下载 相关 举报
补充:判别分析《应用多元分析》第三版ppt(第五章)课件.ppt_第1页
第1页 / 共70页
补充:判别分析《应用多元分析》第三版ppt(第五章)课件.ppt_第2页
第2页 / 共70页
点击查看更多>>
资源描述

《补充:判别分析《应用多元分析》第三版ppt(第五章)课件.ppt》由会员分享,可在线阅读,更多相关《补充:判别分析《应用多元分析》第三版ppt(第五章)课件.ppt(70页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第五章 判别分析v5.1 引言v5.2 距离判别v5.3 贝叶斯判别v5.4 费希尔判别我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物5.1 引言v判别分析的例子:1.有偿付力与无偿付力的财产责任保险公司。 测量变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签定的保费金额。2.非溃疡胃病组(胃功能紊乱者)与控制组(“正常”者)。测量变量:焦虑、依赖性、罪

2、恶感、完美主义的量度3.两种野草。 测量变量:萼片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径。4.新产品的速购者与迟购者。 测量变量:教育,收入,家庭大小,过去更换品牌的次数。5.良好信用与不良信用风险。 测量变量:收入,年龄,信用卡数目,家庭规模。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v判别分析要解决的问题是,在已知历史上用某些方法已把研究对象分成若干组的情况下,来判定新的观测样品应归属的组别。v每一组(亦称类或总体)中所有样品的p维指标值 构成了该组的一个p元总体分布,我们试图主要从各组

3、的总体分布或其分布特征出发来判断新样品x是来自哪一组的。v本章介绍三种常用的判别分析方法:距离判别、贝叶斯(Bayes)判别和费希尔(Fisher)判别。 12,px xxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物5.2 距离判别v一、两组距离判别v二、多组距离判别我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物一、两组距离判别v设组1和2的均值分别为1和2,协差阵分别为1和2(1,20) ,x是一个新样品(p维

4、),现欲判断它来自哪一组。v1. 1=2=时的判别v2. 12时的判别我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物1. 1=2=时的判别v判别规则:v令 ,其中 , ,则上述判别规则可简化为v称W(x)为两组距离判别的(线性)判别函数,称a为判别系数。2211222212,ddddxxxxxx若若 Wxax1212112a 12,0,0WWxxxx若若我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物误判概率v误判概率

5、v设1Np(1,), 2Np(2,),则其中 是两组之间的马氏距离。v可见,两个正态组越是分开(即越大),两个误判概率就越小,此时的判别效果也就越佳。当两个正态组很接近时,两个误判概率都将很大,这时作判别分析就没有什么实际意义了。 122|10|1|20|PP WPP Wxxxx2|11|22PP11212我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物组之间是否已过于接近的界定v我们可对假设H0:1 =2,H1:12进行检验,若检验接受原假设H0 ,则说明两组均值之间无显著差异,此时作判别分析一般会是徒劳

6、的;若检验拒绝 H0 ,则两组均值之间虽然存在显著差异,但这种差异对进行有效的判别分析未必足够大(即此时作判别分析未必有实际意义),故此时还应看误判概率是否超过了一个合理的水平。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v例5.2.1 设p=1,1和2的分布分别为N(1,2)和N(2,2),1,2,2均已知,12,则判别系数a=(12)/ 20,判别函数:判别规则:误判概率:误判概率图示: W xa x12,xxxx若若122|11|222PP我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样

7、一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物抽取样本估计有关未知参数v设 是来自组1的样本, 是来自组2的样本,n1+n22p,则1和2的一个无偏估计分别为的一个联合无偏估计为其中111121,nxxx221222,nxxx121122111211nnjjjjnnxxxx和121212pnnSAA1,1,2iniijiijijiAxxxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v估计的判别函数为这里 。其判别规则为v若1和2都为正态组,则两个误判概率P(2|1)和P

8、(1|2)可估计为其中。该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。 Wxaxx112121,2pxxxaSxx 12,0,0WWxxxx若若2|11|22PP11212pxxSxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物误判概率的非参数估计v若两组不能假定为正态组,则P(2|1) 和 P(1|2) 可以用样本中样品的误判比例来估计,通常有如下三种非参数估计方法:v(1)令n(2|1)为样本中来自1而误判为2的个数,n(1|2)为样本中来自2而误判为1的个数,则P(2|1) 和P(1

9、|2) 可估计为该方法简单、直观,且易于计算。但遗憾的是,它给出的估计值通常偏低,除非n1和n2都非常大。122|11|22|1,1|2nnPPnn我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物出现这种乐观估计的原因是,被用来构造判别函数的样本数据又被用于对这个函数进行评估,评估的结果自然就倾向有利于所构造的判别函数。事实上,在误判概率的估计中,构造判别函数中使用过的样本数据在对该函数作出评估时已不能很好地代表总体了。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感

10、到愉快,证实我的猜测没有错:表里边有一个活的生物v(2)将整个样本一分为二,一部分作为训练样本,用于构造判别函数,另一部分用作验证样本,用于对判别函数进行评估。误判概率用验证样本的被误判比例来估计,如此得到的估计是无偏的。该方法的两个主要缺陷: (i)需要用大样本;(ii)在构造判别函数时,只用了部分样本数据,损失了过多有价值的信息。与使用所有的样本数据构造判别函数相比,该方法将使真实的误判概率上升。该缺陷随样本容量的增大而逐渐减弱,当样本容量相当大时此缺陷基本可忽略。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一

11、个活的生物v(3)称为交叉验证法或刀切法。该方法既避免了样本数据在构造判别函数的同时又被用来对该判别函数进行评价,造成不合理的信息重复使用,又几乎避免了构造判别函数时样本信息的损失。从组1中取出x1j,用该组的其余n11个观测值和组2的n2个观测值构造判别函数,然后对x1j进行判别,j=1,2, ,n1。同样,从组2中取出x2j,用这一组的其余n21个观测值和组1的n1个观测值构造判别函数,再对x2j作出判别,j=1,2, ,n2。令n*(2|1)为样本中来自1而误判为2的个数,n*(1|2)为样本中来自2而误判为1的个数,则两个误判概率P(2|1)和P(1|2)的估计量为它们都是接近无偏的估

12、计量。*122|11|22|1,1|2nnPPnn我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物2. 12时的判别v判别规则v也可采用另一种形式:选择判别函数为 它是x的二次函数,相应的判别规则为 221211111222,Wddxxxxxxx 12,0,0WWxxxx若若2211222212,ddddxxxxxx若若我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v例5.2.2 在例5.2.1中,设1和2这两个组的方

13、差不相同,分别为 ,这时当1x0),2(0), ,k(0),x到总体i的平方马氏距离为判别规则为v若1=2= =k=,则上述判别规则可作进一步简化。 d2(x,i)=(xi)1(xi)=x1x2i1x+i1i =x1x2(Iix+ci)其中 ,判别规则简化为21,1,2,iiiidikxxx221,min,llii kdd xxx若111,1,2,2iiiiicik I 我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物这里Iix+ci为线性判别函数。v当组数k=2时,可将上式写成此式等价于书中的(5.2.3

14、)式。v实践中1,2, ,k和1,2, ,k一般都是未知的,它们的值可由相应的样本估计值代替。设 是从组i中抽取的一个样本,则i可估计为(i=1,2, ,k)。1,maxllliii kcc xI xI x若1112221122,ccccxI xI xxI xI x若若12,iiiinxxx111iniijjnxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物1=2= =k=的情形v的联合无偏估计为其中n=n1+n2+ +nk, 为第i组的样本协方差矩阵。v实际应用中使用的判别规则是其中 。111kpii

15、innkSS11()()1iniijiijijinSxxxx1,maxllliii kcc xI xI x若111,1,2,2ipiiipicik ISxx Sx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物1,2, ,k不全相等的情形vi可估计为Si(i=1,2, ,k)。v实际应用中使用的判别规则是其中221,min,llii kdd xxx若21,1,2,iiiidikxxxSxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里

16、边有一个活的生物1,2, ,k是否假定为相等v在实际应用中,1,2, ,k不太可能完全相等,我们需要关心的是,1,2, ,k之间是否存在着明显的差异。若没有明显的差异,则通常可以考虑假定1=2= =k=,从而使用与此相应的判别规则。此时的判别函数为线性函数。v如果对是否应该假定1=2= =k=拿不准,则可以同时采用相等和不相等两种情形下的相应判别规则分别进行判别,然后用交叉验证法来比较它们的误判概率,以决定采用何种判别规则进行判别。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物例5.2.3 v对破产的企业

17、收集它们在破产前两年的年度财务数据,同时对财务良好的企业也收集同一时期的数据。数据涉及四个变量:x1=现金流量/总债务,x2=净收入/总资产,x3=流动资产/流动债务,以及x4=流动资产/净销售额。数据列于表5.2.1,组为破产企业,组为非破产企业。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物编号组别x1x2x3x4编号组别x1x2x3x41-0.45-0.411.090.45240.380.113.270.352-0.56-0.311.510.16250.190.052.250.3330.060.02

18、1.010.4260.320.074.240.634-0.07-0.091.450.26270.310.054.450.695-0.1-0.091.560.67280.120.052.520.696-0.14-0.070.710.2829-0.020.022.050.3570.040.011.50.71300.220.082.350.48-0.07-0.061.370.4310.170.071.80.5290.07-0.011.370.34320.150.052.170.5510-0.14-0.141.420.4333-0.1-0.012.50.5811-0.23-0.30.330.18340

19、.14-0.030.460.26120.070.021.310.25350.140.072.610.52130.0102.150.7360.150.062.230.5614-0.28-0.231.190.66370.160.052.310.2150.150.051.880.27380.290.061.840.38160.370.111.990.38390.540.112.330.4817-0.08-0.081.510.4240-0.33-0.093.010.47180.050.031.680.95410.480.091.240.18190.0101.260.6420.560.114.290.4

20、4200.120.111.140.17430.20.081.990.321-0.28-0.271.270.51440.470.142.920.45220.510.12.490.54450.170.042.450.14230.080.022.010.53460.580.045.060.13表5.2.1 破产状况数据我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v使用书中判别规则(5.2.16)进行判别12120.06900.23520.08140.05561.36672.59360.43760.42680.

21、88260.56950.68990.08290.56950.42010.52040.0688200.68990.52043.28610.65560.08290.06880.65560.8916124xxSS,.12920.20421.79830.16090.20420.05700.20600.00441.79830.206025.12260.78320.16090.00440.78320.6331我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物的联合估计为1210.04570.01760.05660.001

22、80.01760.01080.01650.00171(20240.05660.01650.64570.0327440.00180.00170.03270.034767.9692106.23643.855612.2182106.2364262.20583.689921.51373.855ppSSSS)11112263.68991.90202.169312.218221.51372.169332.56324.0355.29518.38710.0201.6163.30612.1949.949ppIS xIS x,我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感

23、到愉快,证实我的猜测没有错:表里边有一个活的生物于是对某个未判企业x=(0.16, 0.10, 1.45, 0.51),计算得按判别规则(5.2.16),该企业被判为破产企业。11111222114.382,6.75422ppcc x S xx S x1112342212344.03518.3871.61612.1944.3825.29510.0203.3069.9496.754cxxxxcxxxx I xI x11225.373,3.268ccI xI x表5.2.3 使用(5.2.7)式的判别情况判别为真实组183124我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世

24、界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v在表5.2.3中,估计的误判概率为v使用(5.2.8)式的交叉验证法,判别情况列于表5.2.4。v在表5.2.4中,估计的误判概率为122|11|2312|10.143,1|20.042125nnPPnn表5.2.4 使用(5.2.8)式的判别情况判别为真实组183223322|10.143,1|20.082125PP我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v如果使用判别规则(5.2.15)进行判别,则由(5.2.7)式估算出的误判

25、概率为v由(5.2.8)式估算出的误判概率为v评注 例5.2.3中,在过去两年至今后两年企业所处的经济大环境保持稳定的前提下,可将企业的当今值x=(x1,x2,x3,x4)代入例中样本所构造的判别函数来判别该企业两年后是否会破产。212|10.095,1| 20.042125PP412|10.190,1| 20.042125PP我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物5.3 贝叶斯判别v一、最大后验概率准则v二、最小平均误判代价准则我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的

26、世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物距离判别不合适的一个例子v1(校研究生组):N1=2000, 1=5002(校本科生组):N2=8000, 2=400研究生组中x500的有1000人,本科生组中 x500的有2000人。某学生的x=500,试判别该生归属哪一组。v该例如采用距离判别法则显然不妥,应考虑利用如下的先验概率: 12200080000.2,0.81000010000pp我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物一、最大后验概率准则v 设有k个组1, 2,

27、, k,且组i的概率密度为fi (x) ,样品x来自组i的先验概率为pi ,i=1,2, ,k,满足p1+p2 + +pk =1 。则x属于i的后验概率为v最大后验概率准则是采用如下的判别规则: 1|,1,2,iiikiiip fPikp fxxx1,|max|llii kPP xxx若我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v例5.3.1 设有1、2和3三个组,欲判别某样品x0属于何组,已知p1=0.05,p2=0.65,p3=0.30,f1(x0)=0.10, f2(x0)=0.63,f3(x0

28、)=2.4。现计算x0属于各组的后验概率如下: 所以应将x0判为组3。1 101030122020301330303010.05 0.10|0.05 0.100.65 0.630.30 2.40.0050.0041.13450.65 0.63|0.3611.13450.30 2.4|0.6351.1345iiiiiiiiip fPp fp fPp fp fPp fxxxxxxxxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物皆为正态组的情形v设iNp(i,i),i0, i=1,2, ,k。这时,组i的概

29、率密度为fi(x)=(2)p/2|i|1/2exp0.5d2(x,i)其中d2(x,i)=(xi)i 1 (xi)是x到i的平方马氏距离。v以下各情形下后验概率的具体计算公式。当p1=p2= =pk=1/k,1=2= =k=时,2211exp,2|1exp,2iikiidPdxxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物当p1=p2= =pk=1/k,而1,2, ,k不全相等时,当1=2= =k=,而p1,p2, ,pk不全相等时,当p1,p2, ,pk不全相等,1,2, ,k也不全相等时,2211

30、exp,ln2|1exp,ln2iiikiiidPdxxx2211exp,2ln2|1exp,2ln2iiikiiidpPdpxxx2211exp,ln2ln2|1exp,ln2ln2iiiikiiiidpPdpxxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v上述各情形的后验概率可统一表达为其中D2(x,i)=d2(x,i)+gi+hi2211exp,2|,1,2,1exp,2iikiiDPikDxxx12121212ln,02ln,101,2,ikikikikgpp pphpppkik 若不全相等

31、,若, 若不全相等,若我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v称D2(x, i)为x到i的广义平方距离。在正态性假定下,上述判别规则也可等价地表达为v当1=2= =k=时,上述后验概率公式可简化为其中Ii=1i,ci=0.5i1i, i=1,2, ,k。此时,判别规则等价于v如果我们对x来自哪一组的先验信息一无所知,则一般可取p1=p2= =pk=1/k。这时,判别规则简化为(5.2.13)式。221,min,llii kDD xxx, 若 ()()1expln|,1,2,explniiiikii

32、iicpPikcp I xxI x1,lnmaxlnllliiii kcpcp xI xI x若我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v实际应用中,以上各式中的i和i(i=1,2, ,k)一般都是未知的,需用相应的样本估计值代替。v例5.3.2 在例5.2.3中,已知破产企业所占的比例约为10%,即可取p1=0.1,p2=0.9,假定两组均为正态,且1=2=,则未判企业x=(0.16, 0.10, 1.45, 0.51)的后验概率为由于P(1|x)0, i=1,2。v当1=2=时,(5.3.13)

33、式可具体写成其中a=1(12), 。在p1=p2,c(1|2)=c(2|1)的条件下上式将退化为(5.2.3)式。2112211|2ln2|11|2ln2|1cpcpcpcpxaxxax, 若, 若1212我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v当12时,(5.3.13)式可写为其中d2(x,i)=(xi)i1(xi), i=1,2。在|1|=|2|,p1=p2,c(1|2)=c(2|1)的条件下上式将化为(5.2.10)式。1/222121121/2211/222122121/2212|1()2

34、ln1| 22|1()2ln1| 2cpddcpcpddcpxxxxxx, 若, ), 若, ),我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物2.多组的情形v设 fi(x)为组i的概率密度函数,i=1,2, ,k。令pi组i的先验概率,i=1,2, ,k。c(l|i)将来自i的x判为l的代价, l,i=1,2, ,k,对l=i,c(i|i)=0。Rl所有判为l的x的集合,l=1,2, ,k。因而对l,i=1,2, ,k,将来自i的样品x判为l的条件概率为 |dlliiRP l iPRfxxxx我吓了一跳

35、,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物平均误判代价 11111111|,|kkililkkliiilkkkkiililil iECME c l ic l i PRc l i PRPc l i P l i ppc l i P l i xxxxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v使ECM达到最小的判别规则是v假定所有的误判代价都是相同的,不失一般性,可令c(l|i)=1, li, l,i=1,2, ,k,则此

36、时为所有误判概率之和,称之为总的误判概率。故此时的最小平均误判代价准则也可称为最小总误判概率准则,并且上式可简化为显然,它与(5.3.2)式是等价的。故最小总误判概率准则与最大后验概率准则是彼此等价的,或者说,最大后验概率准则等价于所有误判代价相同时的最小平均误判代价准则。 111,|min|kkljjjji kjjj lj ip fc ljp fc i j xxx若111|1|kkkiiilil iECMpP l ip P i i 1,maxllliii kp fp f xxx若我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错

37、:表里边有一个活的生物v注 令B=误判,Ai=样品来自i,i=1,2, ,k 则利用全概率公式得总的误判概率为此外,总的正确判别概率为 111|kkkiiiiill iP BP A P B ApP l i 111111|11|kkiill ikkiiiiP BP BpP l ipP i ip P i i 我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v例5.3.4 在例5.3.1中,假定误判代价矩阵为现采用最小ECM准则进行判别。l=1:p2f2(x0)c(1|2)+p3f3(x0)c(1|3) =0.6

38、50.6320+0.302.460=51.39l=2:p1f1(x0)c(2|1)+p3f3(x0)c(2|3) =0.050.1010+0.302.450=36.05l=3:p1f1(x0)c(3|1)+p2f2(x0)c(3|2) =0.050.10200+0.650.63100=41.95由于l=2时为最小值,故将x0判为2。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物5.4 费希尔判别v费希尔判别(或称典型判别)的基本思想是投影(或降维):用p 维向量 的少数几个线性组合(称为判别式或典型变量)

39、 (一般r明显小于p)来代替原始的p 个变量x1,x2, ,xp ,以达到降维的目的,并根据这r 个判别式y1,y2, ,yr对样品的归属作出判别。成功的降维将使判别更为方便和有效,且可对前两个或前三个判别式作图,从直观的几何图形上区别各组。12,px xxx1122,rryyya xa xa x我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物一个说明性的二维例子我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v费希尔判

40、别需假定1=2= =k=。设来自组i的p维观测值为xij,j=1,2, ,ni,i=1,2, ,k,记式中则B是组间平方和及交叉乘积和,E是组内平方和及交叉乘积和,Sp是的联合无偏估计。111111ikiiiinkkiiijiijiiijpnnnkBxxxxESxxxxSE11111,inkkiijiiijiiinnnnnxxxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v设E1B的全部非零特征值依次为12 s0,其中的非零特征值个数smin(k1,p)相应的特征向量依次记为t1,t2, ,ts(标准

41、化为tiSpti=1, i=1,2, ,s),称y1=t1x为第一判别式,y2=t2x为第二判别式。一般地,称yi=tix为第i判别式,i=1,2, ,s。v由smin(k1,p)知,组数k=2时只有一个判别式,k=3时最多只有两个判别式,判别式的个数不可能超过原始变量的个数p。v特征值i表明了第i判别式yi对区分各组的贡献大小,yi的贡献率为1siii我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物而前r(s)个判别式y1,y2, ,yr的累计贡献率为它表明了y1,y2, ,yr的判别能力。v在实际应用中

42、,如果前r个判别式的累计贡献率已达到了一个较高的比例(如75%95%),则可采用这r个判别式做判别。v判别规则为其中 ,i=1,2, ,k 。该判别规则也可表达为11rsiiii22111minrrljljjiji kjjyyyy x, 若11inijjiiijjiynt xxx,=22111minrrljljii kjj xtxxtxx, 若我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v如果只使用一个判别式进行判别(即r=1),则以上判别规则可简化为式中y和 (i=1,2, ,k)分别是前面判别规则中

43、的y1和 (i=1,2, ,k)。v有时我们也使用中心化的费希尔判别式,即式中为k个组的总均值。仍使用同上的判别规则进行判别。v对于两组的判别,费希尔判别等价于协方差矩阵相等的距离判别,也等价于协方差矩阵相等且先验概率和误判代价也均相同的贝叶斯判别。1minllii kyyyy x, 若iy1 iy,1,2,iiyistxx111inkijijnxx=我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物例5.4.2 v费希尔于1936年发表的鸢尾花(Iris)数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:

44、刚毛鸢尾花(第组)、变色鸢尾花(第组)和弗吉尼亚鸢尾花(第组)各抽取一个容量为50的样本,测量其花萼长(x1)、花萼宽(x2)、花瓣长(x3)、花瓣宽(x4),单位为mm,数据列于表5.4.1。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物编号组别x1x2x3x4编号组别x1x2x3x4150331427658275119264285622775729421336528461578723058164673156247954341545632851158052411516463414381713059217

45、6931512382643155188622245158360304818959324818846329561810463610285492433106656304515141552340136758274110142663044146850341641436828481469463214214454341727060294515145513715471572635101465235152725744154147582851247350361421486730501774773061231496333602575633456241505337152表5.4.1 鸢尾花数据我吓了一跳,蝎子是多么

46、丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v本题中,n1=n2=n3=50,n=n1+n2+n3=150。经计算1233150.0659.3665.8834.2827.7029.74,14.6242.6055.522.4613.2620.2658.43330.573137.58011.993iiinnxxxxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物316321.2131995.26716524.8407127.9331995.

47、2671134.4935723.9602293.26716524.8405723.96043710.28018677.4007127.9332293.26718677.4008041.333iiiinBxxxx3113895.6201363.0002462.460564.5001363.0001696.200812.080480.8402462.460812.0802722.260627.180564.500480.840627.180615.660inijiijiijExxxx我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:

48、表里边有一个活的生物E1B的正特征值个数smin(k1,p)=min(2,4)=2,可求得两个正特征值1=32.192, 2=0.285相应的标准化特征向量13.0581.0818.1123.4595.5622.17814.9656.3088.0772.94321.5129.14210.4973.42027.54911.846E B120.0830.0020.1530.2160.2200.0930.2810.284tt,我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物所以,中心化的费希尔判别式为判别式的组均

49、值为对于任一样品x,可按下式进行判别:1112342212340.08358.4330.15330.5730.22037.5800.28111.9930.00258.4330.21630.5730.09337.5800.28411.993yxxxxyxxxx txxtxx1121311222327.6081.8255.7830.2150.7280.513yyyyyy ,22221311minljljjijijjyyyy x, 若我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v由于n1,n2,n3都很大,因

50、此用(5.2.7)式估计误判概率的效果还是不错的,判别情况列于表5.4.2。所以这些误判概率是比较低的。判别为真实组500004820149表5.4.2 判别情况2|103|1021|203|20.045011|302|30.0250PPPPPP,我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物v我们可以将样本中150个样品的判别式得分(y1,y2)作一散点图,下图是SAS9.1的输出结果。图中,Can1,Can2分别是指y1,y2。组、组和组的点分别用“1”、“2”和“3”标出,有7个点隐藏在图中,因与图

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁