《应用多元统计分析课后答案.pdf》由会员分享,可在线阅读,更多相关《应用多元统计分析课后答案.pdf(68页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X=(X X 2,X,)的联合分布密度函数是一个P维的函数,而边际分布讨论是X=(X”X2,X/,)的子向量的概率分布,其概率密度函数的维数小于P。2.2 设二维随机向量(X1 X2)服从二元正态分布,写出其联合分布。解:设(X|X 2)的均值向量为p=(4 4),协方差矩阵为。一、12吃,则其联合分布密度函数为2.3 已知随机向量(X1 X2)的联合密度函数为f(xt,x2)2 Kd C)(X1 )+(Z?Q)(X c)2(X|6/)(%2 c)(b-a)2(d-c)2其中 c x2 d
2、 -a)(x2-c)-2(x(-a)(x2-c)S a)2(d 4 2+1-。2 (2 4),一2(七 一&网小L-(b-a)d-c)2 2(d-c)(x(1)X 2 (b 。)厂2(玉a)厂(b-aY(d-c)2 c+(b-a)2(d c)2所以由于X|服从均匀分布,则均值为d-c10 b -ab +a.(b-aV,方差为-21 21同理,由于X?服从均匀分布fx 2)=d-0玉 ,引,则均值为5其它2方差为(d-c f力专为-1 2(2)解:随机变量X1和X 2的协方差和相关系数;c ov(xpx2)a+bx.-1 2d +c 2 (J-c)(X -a)+(b-a)(x2-c)-2(玉-a
3、)(x2-?)2(b-a)d-c)2-dxdx2 c-d)b -a)36c ov(x.,x?)1p=-!-J =一cr a.3X x2(3)解:判断X1和X?是否相互独立。X1和X 2由于/(花,)。人(王)几(工2),所以不独立。2.4设X=(X X 2,X)服从正态分布,已知其协方差矩阵 为对角阵,证明其分量是相互独立的随机变量。解:因为X=(X,X2,X J的密度函数为|2 8G又由于E(10-.21E-11则/(芭,丫1-2行11-1/2ex p =/(x)./(七),=i 0,2 万 2 c r(.则其分量是相互独立。2.5由 于 多 元 正 态 分 布 的 数 学 期 望 向 量
4、和 均 方 差 矩 阵 的 极 大 似 然 分 别 为G=X=Z X:n=it =(X,-X)(X,-X)7ni=l /35650.00A12.3317325.00152.50、注:利用7201588000.0038900.0083722500.00-736800.0038900.0013.06716710.00-35.8083722500.0016710.0036573750.00-199875.00-736800.00-35.800-199875.0016695.10_ 1X 网=X1”,S=X 3 1 J:)X其 中4 =o-110在 SPSS中求样本均值向量的操作步骤如下:1,选择菜单
5、项 Analyze-*Descriptive Statistics-*Descriptives,|J JF Descriptives 对话框。将待估计的四个变量移入右边的Variables列表框中,如图2.1。图 2.1 Descriptives 对话框2.单击Options按钮,打开Options子对话框。在对话框中选择M ean复选框,即计算样本均值向量,如图2.2所示。单 击 Continue按钮返回主对话框。图2.2 Options子对话框3.单 击OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如 表2.1,即样本均值向量为(353333,12.3333,17.1667,1.
6、5250E2)。描述统计里N均值X 1x2x3x4有效的N(列表状态)6666635650.000012.333317325.0000152.5000表 2.1 样本均值向量在 SPSS中计算样本协差阵的步骤如下:1.选择菜单项 Analyze-*Correlate-Bivariate,打开Bivariate Correlations对话框。将三个变量移入右边的Variables列表框中,如图2.3。图 2.3 Bivariate Correlations 对话框2.单 击 Options按钮,打 开 Options子对话框。选择Cross-product deviations and cov
7、ariances复选框,即计算样本离差阵和样本协差阵,如图2.4。单击Continue按钮,返回主对话框。图2.4 Options子对话框3.单 击 O K 按钮,执行操作。则在结果输出窗口中给出 相 关 分 析 表,见 表2.2 o表 中 Covariance给出样本协差阵。(另外,PearsonCorrelation为皮尔逊相关系数矩阵,Sum of Squares and Cross-products为样本离差阵。)X 1x2x3x4xl Pearson1.758,975”-402显著性.081.001.430平方与义租的和1.008E9194500.0004.186E8-3684000
8、.000协方差2.016E838900.0008.372E7-736800.000N6666x2 Pearson相关性.7581.764-.077显著性(双忸).081.077885平方与叉税的和194500 00065.33383550000-179 000协方差3890000013.06716710 000-35800N6666x3 Pearson相关性.975.7641-.256显着性(殁博).001.077.625平方与叉税的和4.186E883550.0001.829E8-999375.000协方差8.372E716710.0003.657E7-199875.000N6666x4 P
9、earson 101-.402-.077-.2561显着性(双斜).430.885.625平方与叉税的和-3684000.000-179.000-999375.00083475500协用!736800.000-35.800-199875.00016695100N66662.6 渐近无偏性、有效性和一致性;2.7 设总体服从正态分布,X 叫”),有样本X3X 2,.,X“。由于*是相互独立的正态分布随机向量之和,所以又也服从正态分布。又E(又)=E i=n-D(又)=D 格 X,1n/=1 /=1所以又 N p 3,E)。2.8 方法1:=一汽(Xj 又)(X;又yn-,=i _ _=Zxx-双
10、n-1,=i-1E(E)=-n-蛉xx-欢)/=11n-if E(X.X;)-E(双)f=l171-1-(A 2 -1)E =E on-A”扑方法 2:S=f(Xj-*)(Xj-*)/=1=%-(又R X,-N(又NJi=l=X(X,.-H)(X,.-1!)-2(X,.-M)(X-My+n(X-|i)(XM-刘)i=I/=1=(X,.-M)(X,.-JI),-2/7(X-|i)(X -f l)+n(X -|i)(X 河/=1=之 区5)(x,r)(又 一 g)(x-/=i=-E E(X,叩)(Xg y-n E t X-n X X 一 p)=E。-M,=i )故一 色 为2的无偏估计。n -12
11、.9.设X(1),X,.,X(“)是从多元正态分布X NJN,E)抽出的一个简单随机样本,试求S的分布。证明:设*、*.*r=*=(为)为一正交矩阵,即r r =i。1 1 1令Z=(Z|z2 zn)=(x.x2-xjr,由于X(i =1,2,3,4,)独立同正态分布,月T为正交矩阵所以2 =亿|Z2Z)独 立 同 正 态 分 布。且有E(Z)=E(x,)(a=1,2,3,-1)j=ij=7 n=&1小=oI=IV M Z )=(xj)7=l=力的*,)=虎寸=工J=1 J=1所以Z|Z2 Z,“独立同N(0,E)分布。又因为 s =(X)-x)(xy-xyi=l X j X -双j=l因为忒
12、=z“z:八 yJn i=JnX又因为 X j X:=(Xi x2 x),2月1X”X、/、x;=(%X2 Xn)T:2&N、=(Z.Z2-zn)Z2所以原式 X/X:-Z,Z:=Z“Z;j=l j=l=z1z;+z2z;+.+zz;,-znz;n-故5=工 2/,,山于Z”Z2,Z“_|独立同正态分布N/O.E),所以j=ln-1S=Z Z 叫,(I Z)j=l2.10.设乂,(、)是来自纥(禺,二)的简单随机样本,=1 2 3 l,攵,(l)已知m =2 =.=%=4 且工1 =2 =-=工人=Z,求 JI和 E的估计。(2)已知A=%=,=Z =工求%,,%和 E的估计。1k%解:(。&
13、=大=-Z x:,+%+%.4=1 i=l八 火(x:)(x:可 _ a=l i=l_n+%+%(2)In L(内,%,E)=l n (2 m H%x p:乞 (步-K)E”(X;认)a=i=1n1 A nIn L(p,E)=-pn l n(2 )-In 一0工2国 -):-儿)LL 2 a=l i=la In L(n,L)比=-F+;t(x D(x:/J)2=0 /a=/=1ai n Z4i,E)R .一广 一=Z1(X小)=0(j =1,2,肉i=i解之,得第三章3.1试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。其基本思想和步骤均可归纳为:答:第一,提出待检验的假设比和H
14、1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决 策(拒绝或接受)。1 _(s2=y(x,.-x)2作为的估计量)一 1仁均值向量的检验:统计量 拒绝域在单一变量中当我已知z=(。)G 1 z l zal2a当4未知0两个正态总体”0:出=%,个正态总体”0:%协差阵2 1已知年=(又 。注 九 米 _。)%2(p)T2 /协差阵未知-(-一-1-)-一-+-1T2-F口(/p,n-p)、-n-p-T 2 F口(-D p (D p (T?=(一 1)册(
15、又 一 y s-V c x-%月)多个正态总体 o:=2=d有共同已知协差阵7,2=2w1(-_-),E_I(-_-)/窗 必n+m有共同未知协差阵F=-T F(p,n+m-p-1)r R(+机-2)p(其中 T2=(“+L2)-(X-Y)S-.E H L(X-Y)V n+m+协差阵不等-mF=上 止2s、%F(p,p)F 2p协差阵不等w mF=(二 P)一 元 F(p,n p)FFap协差阵的检验检验2=单因素方差F=S S A(D IL F FSSE/(n-k)a多因素方差|E|E|A=T h|A +E|A(P,i J)“:=2=exp g s网”)%E:=、,Ip 2=exp|-rS*
16、j|s*|n,2Q检验 Xi =L2=A H。:盘=%h.=国统计量.=,2立 闻 卷/印2点俨21=1/=!3.2试述多元统计中霍特林T*分布和威尔克斯A分布分别与一元统计中t分布和F分布的关系。答:(1)霍特林1名分布是t分布对于多元变量的推广。r =X 丁=n(X-0(尸(I -)而若设X N卬,E),S 匕(2E)且X与 SS相互独立,n p,则称统计量T;=0(一|05-(%一闻的分布为非中心霍特林/分布。若 X N0(O,E),S%,(,)且 X 与 S 相 互 独 立,令 T?=nXS-X,则一 P +1 72 乙,IX-T F(p,n-p+i)onp(2)威尔克斯A 分布在实际
17、应用中经常把A 统计量化为统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。A与尸统计量的关系P九2F统计量及分别任意任意1-p+1 1-A(p,n),l),八 F(p,%p +1)P任意任意2n-p 1 ,A(p,I,2)-r-Q(2p,2()P j A(p,I,2)I任意任意/1 AU,%)rz 、P(2,Jn2 A。/,%)2任意任意I-1 1-J A R,4,4)八、;-F(2”2,2(|1)2,A(2,|,2)3.3 试述威尔克斯统计量在多元方差分析中的重要意义。答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。Ho:内=%=.,=即 H-至少存在i#/使
18、内H%用似然比原则构成的检验统计量为八一回一旦lTl|A+E|A(p,n-k,kV)给定检验水平 a,查 WUk s 分布表,确定临界值,然后作出统计判断。第四章4.1 简述欧几里得距离与马氏距离的区别和联系。答:设P维欧几里得空间”中的两点x=(x;.x;,“&)和Y=(YVY2。则欧几里得距离为 匕 区-川 尸。欧几里得距离的局限有在多元数据分析中,其度量不合理。会受到实际问题中量纲的影响。设 X,Y 是来自均值向量为L ,协方差为上的总体G中 的 p 维样本。则马氏距离为D(X,Y)=C C-Y)/o 当工7 =即单位阵时,D(X)Y)=(X-1O,C X-外=工2&-YL/即欧几里得距
19、离。因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。4.2 试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设 R I,R 2,,R k是 p 维空间 R p 的 k 个子集,如果它们互不相交,且它们的和集为R P,则称R“为%的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间R p构造一个“划分”,这 个“划分”就构成了一个判别规则。4.3 简述距离判别法的基本思想和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别
20、问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。两个总体的距离判别问题设有协方差矩阵2 相等的两个总体G和 a其均值分别是/和 2,对于一个新的样品X,要判断它来自哪个总体。计算新样品才到两个总体的马氏距离gQX,G)和G(尤&),则-X E G,D(X,G )(X,G2).X e G;,加(X,G J (X,G2,具体分析,D2(X,Gt)-D X,G2)=(X-F1,)X-(X-冉)-(X-m)匚(X _ 3)=XT-IX-2X2一U+西匚出 一(X lX-2XT-1I12+田匚 画)=2X2”-冉)+吟 口 -哈=2 X I仙-内)+(冉+%)1(内
21、心2)-2(X-A T仙)I z )=-2(X R)a=-2a(X-)记W(X)=a(X-m 则判别规则为X g.,W(X)a Ox e G:,w(x)2(X,G“)=(X fa)T(X -|ia)=XT-,X-2li;L-|X+M;L-|ga=X X-X-2(I;X +C)取 C=一;心 勿,a =l,2,收。可以取线性判别函数为M(X)=I:X+Q,a=,2,-,k相应的判别规则为X e G j若 叱(X)=max(I:X+Ca)ak4.4简述贝叶斯判别法的基本思想和方法。基本思想:设k个总体,G*,其各自的分布密度函数力(x),%(x),,九(x),假设k个总体各自出现的概率分别为名,%
22、,/,20,=1。设将本来属于G,总体的样品f=1错判到总体G,时造成的损失为C(j/),i,j=1,2,,女。设女个总体G,G2,G.相应的p维样本空间为R =(&,R2,,R”在规则R下,将属于G,的样品错判为G,的概率为产(j l i,R)=(x)dx i,j=1,2,k i f j则这种判别规则卜样品错判后所造成的平均损失为r(i R)=%C(j I i)P(j i,R)i =1,2,-Jj=l则用规则R来进行判别所造成的总平均损失为g(R)-g(R*)=/=l J=1g(H)=Zq/(,R)/=1i=l j=l贝叶斯判别法则,就 是 要 选 择 种 划 分,/,使总平均损失g(K)达
23、到极小。k k基本方法:g(R)=、,5C(,l i)P(j l i,R)/=1 j=Z=1 j=l J=1 j,(X%C 5(x)dx令 Zq,C(jli)/(x)=%(x),则 g(R)=Z 1%(x)dx若有另一划分K*=(R:,&,g(R*)=次1%(x)dxjT j则在两种划分下的总平均损失之差为CRZ(X)-勺(x)dx因为在凡上用(x)Wj(x)对一切/成立,故上式小于或等于零,是贝叶斯判别的解。从而得到的划分&=(&出,&)为K+W)=喇网 2./4.5 简述费希尔判别法的基本思想和方法。答:基本思想:从左个总体中抽取具有0个指标的样品观测数据,借助方差分析的思想构造一个线性判
24、别函数U(X)=uXi+u2X2+-+ul)Xp=uX系数u=(小,%,”p)可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的个指标值代入线性判别函数式中求出。(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答:费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。当k=2时,若&=%=工则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。当当=工二时,费希尔判别用局+%作为共同协差
25、阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。(4)距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是X GX,W(X)21ndX e G?,W(X)lnd距离判别的判别规则是 X e G j,W(X)Qx e G j,w(x)o二者的区别在于阈值点。当%=&,C(H 2)=C(2I 1)时,d=l,皿 =0。二者完全相同。4.7 设 有 两 个 二 元 总 体 G?和,从 中 分 别 抽 取 样 本 计 算 得 到母烈 假设均 试用距离判别法建立判别函数和判别规则。样品X=(6,0)应属于哪个总体?解:网 第 -,得-,仲 普(二)Wp=a*Cx-P)=U-P J/&-=(6
26、 0-(4.0.5)=(Z.a,5)T=J 7.6 -Z.1J狗671-乙1 5,8(l*i-的)=亿与-2,1/2 24,45.8 f3/397J.X e G j 即样品X 属于总体G&4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这卜种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。销售情况产品序号销售价格口味评分信任度评分12.258畅销22.56733.03943.28652.876平销63.58774.89881.734滞销92.242102.743根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。现有一新品牌的饮料在
27、该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。解:增 加group变量,令畅销、平销、滞销分别为groupl、2、3;销售价格为X1,口味评分为X 2,信任度评分为X3,用spss解题的步骤如下:1.在SPSS窗口中选择AnalyzefClassifyf Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将 汽、X2、X3变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。2.点 击Define Range按钮,定义分组变量
28、的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。如图4.1图4.1判别分析主界面3.单击Statistics.按钮,指定输出的描述统计量和判别函数系数。选 中FunctionCoefficients栏中的Fishers:给 出Bayes判别函数的系数。(注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fishers,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)如图4.2。单击Continue按钮,返回主界面。图4.2 statistics子
29、对话框4.单 击Classify.按钮,弹 出classification子 对 话 框,选 中D is p l a y选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图4.3。图 4.3 c l a s s if ic a t io n 对话框5 .返回判别分析主界面,单击OK按钮,运行判别分析过程。1)根据判别分析的结果建立B a y e s判别函数:B a y e s判别函数的系数见表4.1。表中每一列表示样本判入相应类的B a y e s判别函数系数。由此可建立判别函数如下:G r o u p l:Y 1=-8 1.8 4 3 -1
30、 1.6 8 9 X 1 +1 2.2 9 7 X 2 +1 6.7 6 1 X 3G r o u p 2:Y 2=-9 4.5 3 6-1 0.7 0 7 X 1 +1 3.3 6 1 X 2 +1 7.0 8 6 X 3G r o u p 3:K 3 =-1 7.4 4 9-2.1 9 4 X 1+4.9 6 0 X 2+6.4 4 7 X 3将各样品的自变量值代入上述三个B a y e s判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。Classification Function Coefficientsgroup123x1-11.689-10.
31、707-2.194x212.29713.3614.960 x316.76117.0866.447(Constant)-81.843-94.536-17.449Fishers linear discriminant functions表4.1 B a y e s判别函数系数根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为7 5%。在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为6 6.7%。3种滞销饮料均正确判定。整体的正确率为8 0.0%。Classification Results
32、3groupPredicted Group MembershipTotal123OriginalCount 13104_21203a.80.0%of original grouped cases correctly classified.30033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0表4.2错判矩阵2)该新饮料的X I=3.0,X 2=8,X3=5,将这3个自变量代入上一小题得到的Bayes判别函数,丫2的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification子对话框中同时要求输
33、出casewise results,运行判别过程,得到相同的结果。4.9银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(X Q、受教育程度(X?)、现在所从事工作的年数(x3)、未变更住址的年数(X4)、收 入(X5)、负债收入比例(X6)、信用卡债务(X,)、其它债务(X Q等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据,根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则。某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。
34、目前信用好坏客户序号X,X,X,XsX,4123172316.600.341.71已履行还2341173598.001.812.913422723414.600.94.94贷责任43911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行还7291131427.401.461.6583221167523.307.769.72贷责任928223236.400.191.2910261432710.502.47.36解:令已履行还贷责任为group。,未履行还贷责任为groupl。令(53,1,9,18,50,11.20,2.0
35、2,3.58)客户序号为U,group未知。用spss解题步骤如下:1.在SPSS窗口中选择AnalyzefClassifyf Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X 1-X 6变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。2.点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为0到1,所以在最小值和最大值中分别输入0和1。单击Continue按钮,返回主界面。3.单 击 Statistics.按钮,指定输出的描述统计量和判别函数
36、系数。选 中 FunctionCoefficients 栏中的 Fishers 和 Unstandardized 单击 Continue 按钮,返回主界面。4.单 击 Classify.按钮,定义判别分组参数和选择输出结果。选 择 Display栏中的Casewise results,以输出一个判别结果表。其余的均保留系统默认选项。单击Continue 按钮。5.返回判别分析主界面,单击0 K 按钮,运行判别分析过程。1)用费希尔判别法建立判别函数和判别规则:未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。具体见表4.3。C
37、anonical Discriminant Function CoefTicietrtsUnstandardized coefficientsFunction1X 1x2x3x4x5x6x7x8(Constant)-.0326.687.173-.357.024.710.792-2.383-10.794表 4.3 未标准化的典型判别函数系数由此表可知,Fisher判别函数为:y=-10.794-0.32X1+6.687X2+0.173X3+0.357X4+0.024X5+0.710X6+0.792X7-2.383X8用 丫计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类
38、,如若与group。的重心距离较近则属于group。,反之亦然。各类重心在空间中的坐标位置如表4.4所示。Functions at Group CentroidsFunctiongrouD10-2.43712.437Unstandardized canonical discriminant functions evaluated at group means表 4.4 各类重心处的费希尔判别函数值用 bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。如表4.5所示,group栏中的每一列表示样品判入相应列
39、的Bayes判别函数系数。由此可得,各类的Bayes判别函数如下:G0=-118.693+0.340X 1 +94.070X 2+1.033X3-4.943X 4+2.969X5+13.723X 6-1 0.994X 7-37.504X 8G1=-171.296+0.184X1+126.660X2+1.874X3-6.681X4+3.086X5+17.182X6-7.133X7-49.116X8Classification Function Coefficientsgroup01X 1.340.184x294.070126.660 x31.0331.874x4-4.943-6.681X52.9
40、693.086x613.72317.182x7-10.994-7.133x8-37.504-49.116(Constant)-118.693-171.296Fishers linear discriminant functions表4.5 Bayes判别函数系数将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。2)在判别结果的Casewise Stastics表中容易查到该客户属于group。,信用好。4.1 0从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白(X J、蓝色
41、反应(X J、尿叫味乙酸(Xj和中性硫化物(Xj,数据见下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。类别 病人序号 X,X,X,X411胃痈患者胃炎患者萎缩性弘67502060253OO10O10125oO7O11X731311O7561120101272071040278141412626非胃炎患者5181511221234511111O576115224117651O56519435O3O1187O11127解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为groupl、group2、group3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判
42、别法与bayes判别完全一致。用spss的解题步骤如下:1.在SPSS窗口中选择AnalyzeClassifyf Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X i、X 2、X 3 4 4变量选入自变量中,并选择Enterindependents together单选按钮,即使用所有自变量进行判别分析。2.点击Define R a nge按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击C ontinue按钮,返回主界面。3.单击S ta tistic s.按钮,指定输出的描述统计量和
43、判别函数系数。选 中F unc tion C oeffic ients栏中的F isher s:给 出B a yes判别函数的系数。4.单击C la ssify.“按钮,弹出c la ssific a tion子对话框,选 中Displa y选项栏中的S umm a r y ta b le复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。5.返回判别分析主界面,单击0 K按钮,运行判别分析过程。根据判别分析的结果建立B a yes判别函数:B a yes判别函数的系数见表4.6。表中每一列表示样本判入相应类的B a yes判别函数系数。由此可建立判别函数如下:G roupl:F
44、l=-79.212+0.164X 1+0.7 5 3 X 2 +0.7 7 8 X 3 +0.0 7 3 X 4G roup2:K 2 =-4 6.7 2 1+0.1 3 0 X 1+0.5 9 5 X 2 +0.3 1 7 X 3 +0.0 1 2 X 4G roup3:V3=-49.598+0.130X 1+0.637X 2+0.10 0 X 3-0.0 5 9 X 4将各样品的自变量值代入上述三个B a yes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。Classification Function Coefficientsgroup123X
45、1.164,130,130 x2.753.595.637x3.778.317.100 x4.073.012-.059(Constant)-79.212-46.721-49.598Fishers linear discriminant functions表4.6 B a yes判别函数系数根据此判别函数对样本进行回判,结果如表4.7。从中可以看出在5个胃癌患者中,有4个被正确地判定,有1个被错误地判定为非胃炎患者,正确率为8 0%。在5个萎缩性胃炎患者中,有4个被正确判定,有1个被错误地判定为非胃炎患者,正确率为8 0%。在5个非胃炎患者中,有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。整
46、体的正确率为80.0%。Classification Results1 3grouoPredicted Group MembershipTotal123Original Count140152041530145%180.0.020.0100.02,080.020.0100.03,020.080.0100.0a.80.0%of original grouped cases correctly classified.表4.7错判矩阵第五章5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得P项 指 标(变量)的数据,已知每个
47、样本属于k个 类 别(或总体)中的某一类,通过找出 个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。5.2 试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。5.3 对样品和变量进行聚类分析时,所构造的统计量分别是什么?
48、简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为P(一)闵可夫斯基距离:k=lq取不同值,分为(1)绝对距离(夕=1)p%(D =E|XLX/k=(2)欧氏距离(4=2)4式2)=应及-X/严k=(3)切比雪夫距离(4=8)J.(oo)=max X ik _ x ikJ k 区+)nn 0 凡 0%,%Dp2 q(5)类平均法D2pq4=0 总平丁7%(6)可变类平均法n吭=(1一仍(;琦,+;此)+0干 四其中B是可变的且p i(7)可变法D:=(工+/)+j 其中P是可
49、变的且P 1(8)离差平方和法R=-(X-y(x)/=1哈=臂=(4-JI=Sr f-%D:=仁 区a+山小4方kr,kp,kq,pqnr+nk%+%+%通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中
50、,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。5.5 试述K 均值法与系统聚类法的异同。答:相同:K 均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而 K 一均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K 均值法确定类数的参考。5.6 试 述 K 均值法与系统聚类有何区别?试述有序聚类法的基本思想。答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类