判别分析.doc-淘文阁

资源描述

《判别分析.doc》由会员分享，可在线阅读，更多相关《判别分析.doc（10页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数学建模概率部分1判别分析判别分析第一节第一节判别分析概述判别分析概述1、判别分析的基本思想、判别分析的基本思想判别分析应用十分广泛。例如，在工业生产中，要根据某种产品的一些非破坏测试性测试指标判别产品的质量等级；在经济分析中，根据人均国民收入、人均农业产值、人均消费水平等指标判断一个国家的经济发展程度；在考古研究中，根据挖掘的古人头盖骨的容量、周长等判断此人的性别；在地质勘探中，根据某地的地质结构、化探和物探等各项指标来判断该地的矿化类型；在医学诊断中，医生要根据某病人的化验结果和病情征兆判断别人患哪一种疾病等等。可见，判别分析是一种十分使用的统计分析方法。那么判别分析的基本思想是什么呢？

2、用统计的语言来描述就是已知有 g 个总体，每个总体可认为是属于的指标取值的全体，它们的123,gG G GGiGiG12(,)TipXXXX分布函数均为 p 维的函数（贝叶斯方法用到分布），对于任一给定的新样品12( ),( ),( )gF x F xF x关于指标 X 的观测值，我们要判断该样品应属于这 g 个总体中的哪一个。12( ,)Tpxx xx在实际应用中，通常由取自各总体的关于指标 X 的样本为该总体的代表，该样本称为训练样本，判别分析即用训练样本中各总体的信息以构造一定的准则来决定新样本的归属问题判别分析即用训练样本中各总体的信息以构造一定的准则来决定新样本的归属问题。训练样本

3、往往是历史上对某现象长期观察或者使用昂贵的试验手段的得到的，因此对当前的新样品，我们自然希望将指标中的信息同各总体训练样本中的信息进行比较，以便在一定程度上判定新样品的所属类型。2、多元正态分布的参数估计、多元正态分布的参数估计在工程实际中，大部分数据都属于正态分布或近似正态分布，即使不是正态分布，也可以根据中心极限定理转换成正态分布，所以正态分布的参数求解是必须的。多元正态分布不再象一元正态分布表达方式那么简单，它的主要参数是均值向量和协方差矩阵（教材概率与数理统计有介绍），即为，往往参数都是未知的往往参数都是未知的，( , )N12(,),cov(,)pijp pXX 而这两个参数又是计

4、算不可缺少的，为了解决这个问题，有必要引入下面相关内容：设随机向量 X 服从 p 维正态分布，为来自 X 的样本（np），n 为( , )pN12(,)nXXX样本个数，在此每个都为 p 维列随机向量，令iX11ni iXXn数学建模概率部分21()()n T kk iSXXXX称为样本均值向量，S 为样本离差矩阵。若令为样品的观察值，则 S 的观察值为XixiX。1()()n T kk ksxxxx定理：若为来自总体 X 的样本，则12(,)nXXX( , )pXN:（1）和分别是的最大似然估计量，即。而和的最大似然估计值分别XS n,SXn 为与11ni ixxn 11()()n T k

5、k ksxxxxnn（2）和分别是的最小方差无偏估计，而和分别是的最小方差无偏估计X1S n,x1s n,值。注：注：若 X 不为正态总体，则结论可能变得弱些，但是近似计算也是可以应用的。例：假定青黄麻植株的重量与干黄麻植株的重量服从二元正态分布，即1X2X12(,)( , )XXN:今测试了 10 株黄麻，数据如表，试估计均值向量和协方差阵的最小方差无偏估计值。序号123456789101x683645567623432134542x543234121110124128131141125111解: 126854154311110xXx 1010101111111111122222222()(

6、)TT kkkkT kk kkkkkkkxxxxxxxxSXXXXxxxxxxxx=1010 2 111122 111010 2 221122 11()()()()()()kkk kkkkk kkxxxxxxxxxxxx 数学建模概率部分3第二节第二节距离判别距离判别判别分析的基本思路就是想办法建立一定的判别准则，按照准则判断样品的归属。而建立准则的方法有很多中，比如 fisher 准则，贝叶斯准则，距离判别准则等，这里距离判别比较简单实用，所以以下主要以此准则展开方法介绍。1、距离的简介、距离的简介我们比较熟悉的就是欧式距离，即在几何空间中以几何长度定义的距离：2222 1122pp( ,

7、 )()()()() ()Tdx yxyxyxyxyxy欧式距离在判别过程中主要有两个弊端：一是没有考虑总体分布的分散程度，如果总体分布比较分散，在判断时就会出现归属不清的现象；二是欧式距离大小与度量单位有关，这就给判别带来很大麻烦，如果两个总体单位不同，稍不注意就会造成判断错误。为了克服这样的缺点，下面介绍判别分析中主要的距离度量方法马氏距离马氏距离。定义：定义：设 x,y 是来自总体均值向量为，协方差矩阵为的总体两个样品，则 x,y 两点之间的马氏距离定义为：；21( , )()()Tdx yxyxy定义定义 x 与总体与总体 G 的马氏距离为的马氏距离为：。（为逆矩阵）21( ,)()

8、()Tdx Gxx1这样要得到马氏距离，只需要将以上公式开方即可。注：可以证明注：可以证明马氏距离与欧式距离有类似性质：非负性、自反性（d(x,y)=d(y,x)）和三角不等式，这样就便于理解了。2、两总体的距离判别、两总体的距离判别判别准则：112221, ( ,)( ,), ( ,)( ,)xG d x Gd x GxG d x Gd x G 下面分别就两总体的协方差矩阵相等和不相等两种情况进一步讨论该判别准则。（1）设12 可以证明：，其中221 2112( ,)( ,)2( )2()()Tdx Gdx GW xx121()2则以上的判别准则可以改为：12,( )0,( )0xG W x

9、xG W x 数学建模概率部分4进一步，令，则可表为，分析不难发现 W(x)是 x 的线1 12()TT( )W x( )()TW xx性函数，即我们常用的是线性判别常用的是线性判别，同时也有非线性判别。但实际问题中，通常是未知的，我们所具有的资料只是来自两个 p 维总体的样本样本12, 观测值，称为训练样本观测值，称为训练样本。设为来自的容量为的训练样本（都为 p 维向量）； 1(1)(1) 1,nxx1G1n(1) ix为总体的训练样本，容量为，这时，可以通过训练样本估计的值（实 2(2)(2) 1,nxx2G2n12, 际上对于实际问题总体的信息很少能够获得，都是近似计算的）。111

10、2(1)(1)(2)(2) 12 1112(1)(1)(1)(1) 1 1(2)(2)(2)(2) 2 112 121211,()()()()1()21()2nnii iin T ii in T ii ixxxxnnSxxxxSxxxxSSnn 这时，判别函数的估计为：1 12( )()()TW xx则两个总体的距离判别准则为：12,( )0 ,( )0xG W xxG W x（2）设12 两总体协方差不相等时，判别函数就不再是线性的了，不过这并不影响计算，如下：( )W x2211 21222111( )( ,)( ,)()()()()TTW xdx Gdx Gxxxx再利用准则判别：12,

11、( )0,( )0xG W xxG W x 为 x 的二次函数。( )W x实际计算使用估计值11 222111( )()()()()TTW xxxxx例：例：某种职业的适应性资料是进行了两个指标的测验得到的，设“适应该职业”为总体，1G“不适应该职业”为总体，且两总体分别服从和，其中均未知。但根2G1(, )N2(, )N12, 数学建模概率部分5据过去资料估计出。今对某一新人，想知道他是否适合这个职业，122411,6214 先对他进行测验，得成绩，试计算 x 到各总体的马氏距离，并回答此人是否适合这个职3 5x 业？解：属于，应用判别函数12 1 12( )()()TW xx待入数据得，

12、当时，计算12( )424W xxx 3 5x 12( )42412 10420W xxx 根据准则，可知此人人适合这个职业。12,( )0 ,( )0xG W xxG W x3、判别准则的评价、判别准则的评价统计分析方法得出的结论都不可能是完全正确的，那么也就意味着不同的判别方法应该有着自身的优良性的评价，距离判别法也不例外。这里，我们介绍一种方法来给出判别准则好坏的评价量-回判率。设为来自的容量为的训练样本；为总体的训练样本，容量为 1(1)(1) 1,nxx1G1n 2(2)(2) 1,nxx2G，以全体训练样本作为新样本，共+个，逐个代入建立的判别准则中判别其归属，这个2n1n2n过程

13、称为回判，显然训练样本的归属是确定的，如果经过回判发现有错误的归属，统计总数记为，则回判率为，回判率越小，说明判别方法越可靠。panN12panNnn第三节第三节多总体的距离判别多总体的距离判别多总体的距离判别其实就是在两总体的基础上，进行多次计算，找出最近距离的总体，记为归属，这里不再详细介绍，过程见 matlab 实现。应用 matlab 可以方便的实现距离判别,下面是函数说明：(1)musig:(1)musig: 根据样本输入值X，估计均值mu和最小方差无偏估计sigma=S/n-1的函数调用格式： mu,sigma,S=musig(X)数学建模概率部分6111212122212()

14、pp ijn pnnnpxxx xxxXxxxx 输入参数是一个矩阵，第一列是第一个坐标；第二列是第二个坐标；第一个输出参数是样本均值第二个输出参数是样本协方差矩阵第三个输出参数是S值例如：chengxu12(2)sigxd(2)sigxd 计算当方差矩阵相等时，总体协方差矩阵和逆矩阵调用格式： sig,sig_1=sigxd(G1,G2,G3,.) 输入参数可以有多个输出参数可选如果没有输出参数，则显示协方差矩阵的估计如果有第一个输出参数sig，则返回协方差矩阵的估计如果有第二输出参数sig_1，则返回协方差矩阵的逆矩阵 = (5)maju(5)maju 计算多个总体中，任

15、两个总体的马氏距离矩阵 D=maju(G1,G2,G3,.) 如果输入参数是多个总体，则输出的是一个矩阵 D(k1,k2)表示第k1个总体与第k2个总体的距离如果输入参数是两个，则输出两个总体的马氏距离 = (6)mju(6)mju 计算点到总体的马氏距离平方调用格式： D=mju(X,G) 第一个输入参数X是一个矩阵，每行是一个观察值第二个输入参数是一个总体矩阵输出参数D是一个列向量，每个元素是X的第k组到G的距离 = *(7)jlxd*(7)jlxd（协方差相等时的判别函数）（协方差相等时的判别函数）判别当各样本协方差矩阵相等时待判样本所属的总体调用格式： jg,W=jlxd(

16、X,G1,G2,.) 输出参数可选如果没有输出参数，则显示所给X属于哪个总体如果有第一个输出参数，则返回所给X属于哪个总体如果有第二输出参数，则是距离矩阵W数学建模概率部分7W(a,b)=d(a)-d(b),如果W(a,b)0表示到a的距离大，到b的距离小，应属于b = *(10)jlbd*(10)jlbd（协方差不等式时的判别函数）（协方差不等式时的判别函数）（也可以计算回判率）（也可以计算回判率）判别各样本协方差矩阵不等时,所给待判样本所属的总体调用格式： jg,w=jlbd(X,G1,G2,.) 第一个输入参数是需要求距离的观察值，为一个矩阵，每一行是一组观察值输入参数第二

17、、三、为矩阵，为各组总体的观察值如果没有输出参数，则显示所给X属于哪个总体如果有第一个输出参数，则返回所给X属于哪个总体如果有第二输出参数，则是距离矩阵W W的第一列表示X到G1的距离；W的第二列表示X到G2的距离； =练习题练习题1、设为两个二维总体，从中分别抽取容量为 3 的训练样本如下：12,G G1x2x1x2x376924571G472G48求：（1）求两总体的样本均值向量，和样本协方差矩阵；(1)x(2)x12,S S（2）假定两总体协方差相等，用联合估计；12,S S（3）建立距离判别法的准则；（4）设有一样品利用（3）中判别准则判断它属于那一个总体。012( ,)(2,7

18、)TTxx xChengxu152、为研究心肌梗的危险因素，考察两组人群，第一组 G1 是心肌梗塞组，第二组 G2 是正常组，考察两个血液指标：X1：总胆固醇；X2：高密度脂蛋白胆固醇。两组人群各取 23 名，测得指标和的取值如表所示，现有 5 个新样本，判别他们分别属于哪一组？数学建模概率部分8G1：心肌梗塞组G2：正常组待判样品x1 x2x1 x2x1 x2245 38236 40238 38233 31240 35235 40204 38200 43297 38200 43166 33144 28233 42143 24228 34264 41240 33180 27236 38168

19、36174 28215 38268 28174 47 106 52 173 53 178 43 198 53 180 48 134 36 204 63 168 52 180 59 177 75 172 51 166 40 210 42 166 33 223 73 136 67 156 45 201 45 134 60 195 51 262 62 183 44213 22285 39193 42200 58171 523、编号组别x1 x2 x3 x4 x5 x6 x7数学建模概率部分91234567891111111116.6 39 1.0 6.0 6 0.12 20 6.6 39 1.0 6

20、.0 12 0.12 20 6.1 47 1.0 6.0 6 0.08 12 6.1 47 1.0 6.0 12 0.08 12 8.4 32 2.0 7.5 19 0.35 75 7.2 6 1.0 7.0 28 0.30 30 8.4 113 3.5 6.0 18 0.15 75 7.5 52 1.0 6.0 12 0.16 40 7.5 52 3.5 7.5 6 0.16 40 8.3 113 0.0 7.5 35 0.12 180 7.8 172 1.0 3.5 14 0.21 45 7.8 172 1.5 3.0 15 0.21 45 101112131415161718192021

21、2223242526272829303132333435222222222222222222222222228.4 32 1.0 5.0 4 0.35 758.4 32 2.0 9.0 10 0.35 758.4 32 2.5 4.0 10 0.35 756.3 11 4.5 7.5 3 0.20 157.0 8 4.5 4.5 9 0.25 307.0 8 6.0 7.5 4 0.25 307.0 8 1.5 6.0 1 0.25 308.3 161 1.5 4.0 4 0.08 708.3 161 0.5 2.5 1 0.08 707.2 6 3.5 4.0 12 0.30 307.2 6

22、 1.0 3.0 3 0.30 307.2 6 1.0 6.0 5 0.30 305.5 6 2.5 3.0 7 0.18 188.4 113 3.5 4.5 6 0.15 758.4 113 3.5 4.5 8 0.15 757.5 52 1.0 6.0 6 0.16 407.5 52 1.0 7.5 8 0.16 408.3 97 0.0 6.0 5 0.15 1808.3 97 2.5 6.0 5 0.15 1808.3 89 0.0 6.0 10 0.16 1808.3 56 1.5 6.0 13 0.25 1807.8 172 1.0 3.5 6 0.21 457.8 283 1.0 4.5 6 0.18 45在研究地震预报中，遇到砂基液化的问题，选择了有关的七个因素：震级：震中距离（km）；：水深（m）：土深（m）：贯入值；1x2x3x4x5x数学建模概率部分10：最大地面加速度（g）；：地震持续时间（s）；6x7x今从已液化和未液化的地层中分别抽取 12 个和 23 个样品，其数据见上表，其中 1 组是已经液化的，2 组是没有液化的，试根据此表数据建立判别砂基是否液化的准则，以备对样品判别，并对准则的优良性做出评价。

展开阅读全文