《《多元统计分析》课后习题参考答案.docx》由会员分享,可在线阅读,更多相关《《多元统计分析》课后习题参考答案.docx(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元统计分析参考答案1.11.1第1章多元分布解:所求的概率密度分别为:fxM = J6dy = 6(x-x2),0 x 1,fy(y) = C 6dx = 6(y/y-y)t0y 1.1.2解:随机变量X, Y的联合概率密度为:3 0%yvi0, otherwise/y(y) = fo f(x,y)dx = J:占dx = -ln(l - y),0 y 1.1.3解:对/(%y)进行分解得f()= 7=2715025/1 _ pz=y/2nl-p2ax2(l-p2)(义小)2,(只一2)22P 率 +上铲2q(X-1)(,-2) 2。-2)2(y-2)2。1。2 al 1 -1 Q2 蟾2n
2、a2则可得:狼)=之而内吐康 由X,Y的对称性得:(y-“2)z(y-M2)2e 2O2=- e 2a2V2n72fxM =fxM =l )2e 2ai综上,x N(%,d); y n(2,域).1.4解:X,Y的协方差为:e(x-hi)(y-2)=(% - Mi)O - %)f(x,y)dxdy=2啊;、八“以edy J:* - 】)(y - %)e-不周外?看dx令z = (詈-2P等),E(X - nJ 一2)=(:J J一02tz + pOi(j2t2) edtdz/8HLt2 +8 z2t2e-dt e-dz +J-8驾亘e#dzHdzp CT 0*2 则有(1)n(G),(+1 ?
3、 ;)再由定理 2. 3 知,Y|X,ZN(“y|xz,%x,z),其中Pykx,z)= 1 + (-2 1)C(z)-(o) = 1 + 2(Z-X),Y|(X.Z) = 2-(-2 1)C(,)=:.(2)由可知()N(_0),(i/),因此(;)=(;)=1+(3)KM:分(3)因Y|ZN(l+Z,l),则Y|U = Y|(l + Z)N(l + Z,l),即EY|U = 1+Z。所以, EY|U = 2 = 2.2. 10 解:根据定理2.3可知(1)、(2)不可能成立,因为条件期望和条件方差公式中不含二次项。但(3)、(4)的情况可能成因为条件期望是作为条件变量的线性函数,而条件方差
4、是个 常数。2. 11 解:(1)将儿的线性函数既因作为X?的最优线性近似。由定理2.4知,乂3因收看尤+9第,即收区=.Xi +简单相关系数度量了一个随机变量与另一个随机变易之间的线性关系强弱,而多重相 关系数度量了一个随机变量与一组随机变量之间的线性关系强弱。记X =(X,X2)的多重相关系数为P3.12 =(但2丫 =(2 -4)墨 ;)U)=仁=0.5199. 内3 /6L37J(2)由题可知ZN(-1,24), ZzN(5,8)且(2)N(5r),(根据定理 2.4,由Z3I(Z1,Z2),N(110)可得2. 12 解:由定理2. 4可得 (An(43黝ZS。),则0N僧).(北
5、豺X与丫的协方差为。XY = PxyJ质的=12。因此,随机向量(X,匕Z)T的联合分布为 1、/4128N 10 , 12 144 60 L 5 / 860 30/固定Z时,X与丫之间的偏相关系数为_ Pxy 一 PxzOyzpm V(i-p)(i-p?z5xy _ 0xzyz7xxOyy JoxxOyy 吃12 8,6054144V41443024I/ 4-30/V144-30jx -0.5976使用Y和Z的线性函数Nxiyz作为X的最优线性近似,为以% =以 + (12 8)(* go) (z-Iz)8微工到113=一1 一+ /J O 5可以使用多重相关系数来评估该线性近似的好坏:-
6、5及丫 + 18以2PXYZ /J 0XX(25yy + 324Tzz 180(Tyz)-60 + 144-74(3600 4- 9720 - 10800)X 0.8367这说明x与(y,z)T间有强线性相依性,所以使用y和Z的线性函数以叫作为X的近似是 合理的“2.13 解:(1)使用X1,X4的线性函数 2114作为乂2的最优线性近似:2| 2 + (% %)(;: I:)/:) = 2 + (1吗心为(I)吗心为(I)7 1=/产(2)同理,使用(X】,X3,X。的线性函数%1134作为X2的最优线性近似:2|134=2 + (021 内3 04)61a33 /4 1 ( X3 -3 )
7、。43 tT44/X4 -林 Ja33 /4 1 ( X3 -3 )。43 tT44/X4 -林 J= 2 + (11 /143 142 D示卜嵯2460 / X4 - 4/。4142553153=296 + 296%1 +1483 + 296/4,上述结果说明人在基于,X4来近似修时不重要,而使用(Xi,X3,X。的线性函数近似X? 时,4进入了近似公式。在多元分析中,这种依赖关系很常见。2. 14证明: 设XNp(,),/(p x q),c E脓q,ran/c(4) = q W P。由X的概率密度函数可知,fx1(x) = |2咽嗔xp一处一 )勺-1(% - ).考虑如下线性变换,Z =
8、 (/)x + O=0X + e 此时,rankCD) = rank(/,q) = p, Z的概率密度函数为 fz(z) = (02)2 同嗔 xp; I)T(z - e) -川 TL2)T(z1 1=2nTfTlD2exp-z - + e)T(raDT)-1z - g + e).注意到上式为p维正态分布Np(2) +的概率密度函数。所以有, Z Npg + e;DEDT)N乩二) + e,(白工(.)N俨”C ( /卬H矶-q 因此,根据定理2.1, y = 4 + c的分布为Nq(4 + c,/EHT)。2. 15 证明nS = XTHX-Wp,n - 1),其中九满足元“xn = 4 一
9、易知tr(九)=仁加=?二九 一 1。由冗冗=(/n- nlUDC/n- n-1lnlD =九, 可知冗为幕等矩阵,因此亢的特征值(i= 1,2,n)为0或1。所以,rank(九)=之1% = tr(7f) = n-lo可知,咒的谱分解为亢=。-1丁冗=小rT(/n-n-1iniDr = /n_1rTr-n-1rTini?;r = /n_1-1口1nl- = On-WL记9 =7 = (石)一一一 二(坨),其中匕为元第i个特征向量,为为久的第j歹lj。上式说明71汽=On-l,即对i =- l;j = 1,p,有E(w) = E(y/) = yE(3)= 0,Cov(yu,%k) = Cov
10、(y巧,=仇打力=咏,Cov(w,%k) = Cov(YtXj.YnX = ffjkYYh = 0.即y每个元素的期望为0, y各行不相关且每行的协方差矩阵E相同。根据定理2.2, y 仍服从多元正态分布。因此,ns = xthx = xTrrTx = yTyf其中,y的n-l个行向量均服从多元正态分布Np(O,)。所以,nS%(九一1)。2. 16证明:推论2. 1:当Xi与X2独立时,显然可以得到“2 = 0。当 = 0时,E =生12。由定理2。1知, X2.1=J2-0=X2,且X2与Xi独立。推论2. 2:设Z = (*)X =(O 由推论2.1即可得到结论。第3章基于因子的数据矩阵
11、降维技术3. 1证明:记出为中心化后第i个特征对应的向量。由已知 Z = 1TX,UUT = lnVar(Z) = -ZTZ = (UTX)T(UTX) = -XTUUTX = -XTX = Var(X)n nnn证毕。3.2 解:由P个独立同分布随机变量知,其协差阵为 =。2/,d为p个随机变量的公共方 差。则有= = cr2,T1= = 1,册+%+4p P_ .1+&+4 _ 70),则有CovCcXpXz) = cE =CovCcXpXz) = cE =CP则有X=四”易得CE的特征根为人,2 = Re? + 1 土 V(c2-l)2 + 4c2p2),由入可得所以第一个主成分的方向为
12、3x1+X2。易知 cp当c增大时,入1变大,因此X改变单位后的cX在第一主成分中的权重增大。综上,改变变量单位对主成分分析结果有较大影响。如果各变量数量级差异较大,建议 采用标准化的主成分分析方法。4. 6 解:/ 1011易知电)=(12)=49=(3)=双2)=3丫28)=2(?-JL/U1 -1 0 21-V21FO 21_V21_V22 O o 1 l_Ae1-V21FO 21_V21_V22 O o 1 l_Ae/ 10因此,P = Corr(X)=7!1易证得PYi = 2yi,Py2 = 2y2。易知P(Yi +Y2) = 2(丫+丫2),且Yi,丫2的线性组合均为P的 特征向
13、量。所以有特征根入1 =入2 = 2,另外两个特征根为(),因为rank(P) = 2。易知前两个标准化主成分为Yi = 2在(J + U2), Y2 = 2迷电- U2),它们是和”的 和与差。4. 7 解:假设方丰0(i = 1,2,3),对X进行标准化得到随机向量Z = diag(a2ay)2(X - EX) = diag(a2an)2(U EU)aT,其协方差矩阵为Var(Z) = diag(q2 而)Wqt(x) Qg(q2 而)5 =diag(Q2 诏)% 而叫由砌3 而鼠=(舒)=(sn(atay) 1%叼1%=12,37=123易见,rank(Var(Z) = l, Var(Z
14、)只有一个非零特征根。因此,只有一个主成分,且该主成分能够解释Z 100%的变异。易得主成分为X =-=sign(al)Zl + sign + sign(a3)Z3Mil + a2 + klU.=宏sig九4- sign(a2)a2U + sign(a3)a3UV3第5章因子分析5. 1证明略。6. 2 略。7. 3 解:在二维空间中,旋转可以用一个单一的角e定义。把笛卡尔坐标的列向量关于原点逆时 针旋转。的矩阵是:M=(;鬻 需)在三维空间中,旋转矩阵有一个等于单位1的实特征值。旋转矩阵指定关于对应的特征 向量的旋转(欧拉旋转定理)。如果旋转角是。,则旋转矩阵的另外两个(更数)特征值是 ex
15、p(iJ)和exp(-/)。从而得出3维旋转的迹数等1 + 2cosB,这可用来快速的计算任何3 维旋转的旋转角。在三维中,旋转可以通过单一的旋转角。和所围绕的单位向量方向V = (x,y,z)来定义:0 zB yO M(y,0) = exp z3 0 -xO .-yQ xO 0 .1.4 解:由R解得的特征值和特征向量分别为:入=2.354对应的特征向量为% = (- 0.6436239,-0.5766348, - 0.5032303)%A2 = 0.616 对应的特征向量为 % = (-0.1110798,-0.58018,0.8068782/;府=0.03 对应的特征向量为的 = (0.
16、7572381, -0.5752248, -0.3093652/则当取因子个数为1时,此时方差贡献率为78. 45453%,因子正交模型为:X =+ .1.5 略。5. 6 略。5.7解:为了便于研究,将原始变量标准化,记为X,则因子分析模型可简写为:X = QF + U此时,矩阵。中的元素包/称为因子载荷。因子载荷qij的统计意义为:/ mmCovXi,与)=Cou ( W %力 +,韦)=W 为C(Fi,与)+ C。或,,Fj)=qijV=1/ )=i即饰是为与与的协方差。由于左与弓.都是均值为0,方差为1的变最,同时是与巴的相 关系数。在实际问题分析中,幻的绝对值越大,表明Xi与巴的相依
17、程度越大,或公共因子可对于 X,的载荷量越大。第6章聚类分析1 解:计算欧氏距离、绝对值距离、切比雪夫距离的R程序如下: xl=c (5, 7, 3, 6, 6)x2=c(7, 1,2,5, 6)X=cbind(xl, x2)dist(X, upper二TRUE)dist(X, method=minkowski, p=2)dist (X, method=,manhattanz,)dist (X, melhod=minkowski,p=l)dist(X, method二maximum)6. 2 解:(Djaccard度量下的矩阵/131I 173D =3171/(2)Tanimoto度量下的矩阵
18、3D =131/(3)Single Matching度量下的矩阵(1112D =16. 3 解:在聚类分析中,接近程度测最工具的选择和子类构建算法的选择是两个基本步骤。 接近程度的测量工具是用测量个体之间的相似程度。个体越接近,相似程度越 高。基于对个体之间接近程度的测量,我们把个体划分为若干子类别,使得类内差 异小,类间差异大。6. 4 解:R相关语句:iris. hc u2.1.6 解:f(Xl|X2)=/(x2) = f(xlfx2)dx1 = Jo-(*+)皿=卜-今41-(为-+生)/(Xi,x2) 8e 2X2 417=e 2必上奇 2s/。2)X2 oxltx2 0由定理1.1知
19、,用关于X2的函数给出X的最好估计为:E(X1|X2)=I Xif(x1x2)dx1 = 2x2, 0则近似误差u的方差为:Vaj(U) = VarX1 E(x1|x2) = EVar(x1x2) + VarE(x1|x2) + 4Var(X2) = 96 8 后.1.7 解:由二维标准正态分布的性质知,其边缘分布为标准正态分布,即UN(O,1);VN(O,1), 则其边际分布(U),(V)。,中t(u)中t(p)C(Xi,2)=。中(U),(HV)=中 p中 T(U),中 T(V) =fP1,x2)dx2dx1J-8J-8由于U,y是随机变量,可以保证上述的逆运算是唯一的,因此C是唯一的,符
20、合Sklar 定理。1.8 解:由已知y = (l,l)g;)金力X,其中A=(l,l)Var(Y) = Var(AX) = AVarA1 = (1,1) (J ;) (;) = 3.1.9 证明略。1. 10 略。聚类id-一-花 彩色晦尼花 维尼亚喏花花3003C图6.基于类平均法的聚类结果与真实结果对比表6. 5 解:聚类分析的基本思想是研究的样品或指标之间存着程度不同的相似性,于是根据一批 样品的多个观测指标,具体找出一些能够度显样品或指标之间的相似程度的统计最,以这 些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此 之间相似程度较大的样品又聚合为另外一类
21、,直到把所有的样品聚合完毕,形成一个有小 到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有样品间的亲疏关系 表示出来。功能是把相似的研究对象归类。6.6 解:系统聚类算法的原理:系统聚类是将每个样品分成若干类的方法,其基本思想是先将 各个样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一 类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至 所有的样品合为一类为止。系统聚类的凝结算法步骤如下:(1)将每个个体记为一类,形成n个类;(2)计算n个样本两两间的距离矩阵D;(3)合并两个距离最近的类;(4)重新计算距离矩阵D;(5)重复步
22、骤(3)、(4),直到所有个体聚为一类;(6)画聚类图(7)确定类的个数,得出分类结果。第7章判别分析7.1 证明:(1) LjM = |2成向一如一巧”7一%)。要使LjM最大,即x分类到go 1,2,3-,/),等价于使(% 一 %)/TQ -%)0 G 1,2,3,/)最小,即使X与勺之间的平方距离最小。(2)在J=2的情况下,要使X分到”,有(x - i)7T(x - Mi)工(X 2)TT(x - 2)等价于23 - 一】“ + (出一 2尸一1(1 + %)3 o卬2 _ 1)一1 - 5(41 + 2)-。aT(x -)N 0其中a = -1(2=g(i +2)。7.2 略。1.
23、1 3解:已知有J类,且XjExpQ),i = 1,2,/,对于一个新的观测工,计算,(幻=P& = %) = 1 - AieAiX,i = 1,2,/,记4() = maxLj(x),则x e 又。7.4 解:思路同题7. 3,对于一个新的观测(y),计算其联合概率,取使其联合概率最大对 应类别。ML判断法则与贝叶斯判别法则的基本区别是前者没有考虑先验分布,或前者的先 验分布取均匀分布。7.5 略。7. 6证明:在J=2的情况下,Fisher线性判别的判别准则如下:X T必,如果M卜一 g (石+而) 0% T 口2,如果。丁卜一 g(石+石) 0X -* 口2,如果。丁(工-j) 0 其中
24、 = + %),可以看出两者是一致的,证毕。7.7 解:由已知,/;(%) = ($0.2*0.81。-,/2(x) = ()0.3x0.71-x,%=(?)0.52 通过比较/G)的大小,可得到各类的判别准则:Ri = 0,123; & = 4;/?3 = 5,6,7,8,9,10.第8章对应分析8. 1 解:如果X是对角阵,则行元素之和不和列元素之和i = 1,n均等于对角元素如,有X = 4 = 3,应用公式(8.20),可得将第二个式子代入第一个公式,得到4= t.(/c = 1,n)。也就是说,对于每一个k, 第k行的坐标对应于第k列的坐标,如果行和列之间有确定的相关性,那么对应分析
25、能够有 效地发现行列之间的真实结构。8. 2 解:U.S.犯罪数据集由7个变量的5()个测量构成,给出了 1985年美国50个州在7种 犯罪类型(X3到X9)上的犯罪人数。将该数据集读入R中,通过对应分析得到如下结果。从特征值与方差解释百分比表中,可以得知前两个因子总共解释了整体方差的70. 7%, 前三个因子总共解释了整体方差的88. 6%,因此可以考虑保留前3个因子。从行因子绝对贡献表中可知,第9个州(PA (+)和第7个州(NY (+)最大程度上 解释了第一个轴的方差变动,且这两个州都属于东北部地区,因此第一个轴主要由东北部地 区影响。第28个州(GA (十)和第34个州(AR (十)最
26、大程度上解释了第二个轴的方 差变动,且这两个州都属于南部地区,因此第二个釉主要由南部地区影响。第4个州(MA (+)和第28个州(GA (+)最大程度上解释了第三个轴的方差变动,且这两个州分别属 于东北部地区和南部地区,因此第三个轴主要由东北部地区和南部地区综合决定。principal Inertias (eigenvalues):dimvalue%10.0330345020.0130712030.0116861740.0069741050.000297060.00018206 0 9 7 5 36 7 6 3 7 o0 0 8 9 9 05 7 8 9 9 0scree plotTotal:
27、 0.065244 100.0图5: U.S.犯罪数据的特征值及解释的方差百分比从列因子绝对贡献表中可知,第一维的方差变动主要由第六和第七种犯罪类型决定,即 盗窃及汽车偷盗对第一个轴起决定作用。第二维的方差变动主要由第五和第七种犯罪类型决 定,即入室行窃及汽车偷盗对第二个轴起决定作用。第三维的方差变动主要由第三和第四种 犯罪类型决定,即抢劫及袭击对第三个轴起决定作用。从两幅投影图中可以明显看出,犯罪类型和各个州之间具有紧密的联系。具体地说,从 第一维和第二维的投影图中可知,西部地区和谋杀、袭击、强奸和入室行窃这些犯罪有紧密 的联系,可见西部地区是这几种犯罪的常发地区;盗窃和南部地区比较靠近,反
28、映盗窃是南部地区的常发地区;抢劫和东北部地区比较接近,说明抢劫是东北部地区的常发地区。从第 二维和笫三维的投影图中可知,汽车偷盗和东北部地区的距离最近,反映了东北部地区的汽 车偷盗犯罪发生频率较高。因此,这些足以说明四个地区在犯罪方面有显著的差异。给出的三维图直观地反映了各个州及各种犯罪类型在三个维度上的分布情况。结合二维 图和三维图,均说明了第9个州的异常分布,即位于东北部、中大西洋处的PA州是一个异 常点。专门应用于对应分析的R包为ca,关于该包的具体讲解及应用请参考Nenadic,O. & Greenacre, M. (2007)。该习题相应的R程序为1ibrary(ca)1ibrary
29、(rgl)X二read. tableCD:/B10. txt, header=TRUE)result=ca(X, 4:10, nd=3)print(result)summary (result)plot (result)plot3d. ca(result)namemassqh1nrcorCTr1 11 |119835 |26832 12 |109746 |2003 13 |1194317 |404 I4 |2294368 |510695 15 |2579838 |156126 I6 |2098610 )24 557 17 |2883783 |3626731108 |8 |2193918 |20
30、1709259 19 17998133 |112497725610 |10 |219926 )253311 |11 |199303 |233112 |12 |2299226 |2341213 |13 |3240725 |172814 |14 |1699319 |-2618773215 |15 |197645 |-64224216 |16 |1599019 |-2809413517 |17 |2359015 |18118 |18 |1099527 |-4099485019 |19 |1298615 |-2829562920 |20 |157196 |-92325421 |21 |219359 I
31、-1649291722 |22 |253373 |139123 |23 |2793935 |1582892024 |24 |199942 |636325 |25 |89274 I78126 |26 |1577038 |13127 |27 |1894514 I92328 |28 |1483581 I-2461652629 |29 |318879 I16030 |30 |147306 |1377168namemassqh1nrcorCTr1 11 |119835 |26832 12 |109746 |2003 13 |1194317 |404 I4 |2294368 |510695 15 |257
32、9838 |156126 I6 |2098610 )24 557 17 |2883783 |3626731108 |8 |2193918 |201709259 19 17998133 |112497725610 |10 |219926 )253311 |11 |199303 |233112 |12 |2299226 |2341213 |13 |3240725 |172814 |14 |1699319 |-2618773215 |15 |197645 |-64224216 |16 |1599019 |-2809413517 |17 |2359015 |18118 |18 |1099527 |-4
33、099485019 |19 |1298615 |-2829562920 |20 |157196 |-92325421 |21 |219359 I-1649291722 |22 |253373 |139123 |23 |2793935 |1582892024 |24 |199942 |636325 |25 |89274 I78126 |26 |1577038 |13127 |27 |1894514 I92328 |28 |1483581 I-2461652629 |29 |318879 I16030 |30 |147306 |1377168ROWS:工9)569 099567 187 6 49
34、k 1 2 11 1 - 1 - 1 - - - 一 一 _ _4 6 6 4 4 91 6 4 8 3 5 211205701 5 7 15 0 11 12 2 3 1r275380345270098476200360460870 CT1 5 4 6 2 1 2 5 1 2 1 8 6132k-3 cor ctr91 2668174 724 2 6167 279 26252 308 118169 284 61154 741 41-146 109 5167 808129 13 10-31043 2013-172 375 55-110 235 3333 14164 22061630142 475
35、 401010504 99 35851804296 6260328 148 282 14100图13.6:行因子的绝对贡献(第部分)17 21202113221729221 362 11-2-3-2-128 24-9 21 4630 37 55 1991 16 54 0244 5696 17 3411614129993946 5405 68 39 24 63 90 93 92 12 56 08 54 44 57 103213 5412 60 02 01364 02112 2353 30 63 1247 6954 43 205 14 66 202 54 97 4490 32 01 7248 33
36、87 2740 65 67 3512 54 05 6 04 3-1-2-134 0331 3331 2140 1915 428 7-2 -lu42 7118 129133220610756352 0755011334128 131 0o2 0 o243119211-2-1943644143 81 10-153 -267 460 07134316799 054110921255492155223 5121 o018902118332816469670 |5918q-479993&97o765397798999994799777439Ct1072694 34-109-368-32679 147 1
37、41-17 12 13121 100 1324 2 30 3 8113P9O6O669 01098446 c 1 2 1 4 227900837 342 1 339 k 2 1 2 2 1 - 1P4887266 n 1 14 7 0 3i 2 112 2qlt 501398 834752 9451000 914图13. 8:列因子的绝对贡献23456789012345678903333333344444444445Columns: name| murd1 | rapeI robb2 I assaI burg3 I larcauto图 13.9:图13. 11:三维投影图8. 3证明:已知 S = diagfxp) , B = diag(x,;) , 与 = ,=1均 , %.; =。其中。/7券8-1又7的特征值为入,特征向量为丫,则有4一1又5一1丫 = Ay.下证上式中入=1,Y = (1,/)=In。记Ejj =上工4-1%3-1支丁4-1%3-1支丁O 1 -如O1/0 1 -切O 1-X.1O O !/ p p P n 2 : n X X X -1二 2 2 1 1 2 n X X X 1 1 1 1 2 n X X X /1 ) 1/ o O : 1 -1 2 P2 2 : 2 X X X=(y x