《多元方差分析.pdf》由会员分享,可在线阅读,更多相关《多元方差分析.pdf(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一讲 多元方差分析 第一节 简介 目前应试教育如同过街老鼠一样,人人喊打(表面上看是这样),但有些家长、教师、校长却担心素质教育是否会导致学生成绩下降?这就涉及到一个如何对学生成绩(如语文、数学、外语、体育等等)进行综合评价的问题?试想将某校某年级的学生按班级随机分成两组,一组施以素质教育,另一组仍延用传统的应试教育。考查某次摸底考试的两种教育模型学生的成绩。很容易想到的分析方法对两组学生各科成绩进行 t 检验,分别计算出各门课程的 t 值、P 值,然后回答素质教育是否降低学生的语文成绩,是否降低数学成绩,。很可能的一种情况是,某一(几)门课程成绩检验结果 P 值0.05。这样对于素质教育是
2、否降低学生学习成绩难以下一个综合的结论。此时对一个观察单位的观察指标常有多个,且各指标间又往往相互联系、互相影响。虽然学生中偏科的现象并不少见,但多是偏于一类课程,如文科课程对记忆能力要求较高的几门学科,或理科课程对逻辑分析能力要求较高的学科。对于这种类型的资料,可能会有的人将各个反应变量割裂开分别进行统计分析,但这种分析方法有三个缺点:1、检验效率低。可能的一种情况是两组(或多组)观察对象的多个观察指标的联合分布之间有差别,而单独对每个观察指标进行统计学检验却没有统计学意义。当然反过来也有可能。但并不是说研究者可以随意地将 20 个甚至更多个互不相关的观察指标放在一起,考察各组间反应变量的总
3、体联合分布之间有无差别,有可能一个有真正有差别的观察指标其差别可能会被其它许多没有差别的观察指标稀释掉。所以是否考察多个观察指标的联合分布,要看这几个观察指标之间是否存在相关关系。2、犯一类错误的概率增大。假设有 p 个观察指标,对每个指标进行 t 检验(或方差分析),一类错误的概率 设定为 0.05,根据乘法原理,p 个观察指标的 p 次检验结果均正确的概率为(1 0.05)p。当观察指标数为 5 时,则 5 次检验结果均正确的概率为 0.7738,此时犯一类错误的概率为 1-0.7738=0.2262。当观察指标数为 10 时,犯一类错误的概率则增大为 0.4013。当然这种情况可以应用一
4、些方法(如 Bonferroni 法)通过降低 水准予以解决。如观察指标为 5 时,则相应的 水准应该是 0.0102,(1-0.0102)5=0.9500。3、一元分析结果不一致时,难以下一个综合结论。如上面素质教育的例子,就很难说素质教育是否会导致学生学习成绩下降。4、忽略了变量间相关关系。导致只见树木,不见森林。解决方法就是采用本章所介绍的多元方差分析(Multivariate analysis of variance,MANOVA)。多元方差分析中的多元指的是反应变量为多个,平常所说的多元回归对应的是反应变量为一个,而自变量有多个的资料的统计分析。多元方差分析的基本思想与前文述及的一个
5、反量变量的方差分析相似,都是将反应变量的变异进行分解成两部分:一部分为组间变异(组别因素的效应),一部分为组内变异(随机误差)。然后对这两部分变异进行比较,看是否组间变异大于组内变异。从理论上讲组间变异再小也不可能比组内变异小,因为若组别因素效应为 0,则组间变异应该等于组内变异,因此多元方差分析与单个反应变量的方差分析一样,也是双侧检验对应单侧概率。所不同的是,后者是对组间均方与组内均方进行比较,而前者是对组间方差协方差矩阵与组内方差协方差矩阵进行比较。多元方差分析对资料的要求:1、各应变量服从多元正态分布。多元方差分析对于多元正态分布的要求并不高,实际应用中这一条件通常弱化为每一个反应变量
6、服从正态分布即可。若各反应变量服从多元正态分布,则每个反应变量的分布(即该多元正态分布的边际分布,marginal distribution)必然也服从正态分布,而反过来则未必成立。如果有一个反应变量不服从正态分布,则这几个反应变量的联合分布也可能不服从多元正态分布。2、各观察对象之间相互独立。3、各组观察对象反应变量的方差协方差矩阵相等。4、反应变量间的确存在一定的关系,这可以从专业或研究目的的角度予以判断。需要指出的是,多元方差分析对于方差齐性要求较高,分析结果对于方差齐性较为敏感。并且对样本含量也有一定要求,不仅总样本量要较大,各处理中样本数量也应较大,否则检验效能偏低,容易得到阴性结果
7、,犯二类错误概率增大。第二节 多元分析常用统计量 2.1 方差、协方差阵 方差(variance)也称均方差(mean square deviation),反映一个变量在某个特征群体上离散水平。其计算公式为:协方差(covariance),反映两个变量在在某个特征群体上共同离散水平。其计算公式为:将各指标的方差、协方差用矩阵的形式排列,得方差-协方差阵,用字母 V 表示。例 1-1 4 名中学生的身高、体重、胸围资料见表 1-1。表 1-1 4 名中学生的身高、体重胸围测量资料 其协方差矩阵如下:height weight chestc height 88.6891667 107.004166
8、7 62.9083333 weight 107.0041667 151.8958333 87.625000 chestw 62.9083333 87.6250000 51.3833333 no height weight chestw 1 171.0 58.5 81.0 2 175.0 65.0 87.0 3 159.0 38.0 71.0 4 155.3 45.0 74.0 211()()()11nnikiikiikikkiixxxxxxvnn=1()()1nikijkjkijxxxxvn=111213212223313233vvvvvvvvvv=对角线上为各变量的方差。对角线的两恻为两变量
9、的协方差,沿对角线左右对称。2.2 离差阵 将各指标的离均差平方和与离均差积和以矩阵形式进行排列,得离均差平方和与离均差积和以矩阵(sum of squares and cross-products matrix,SSCP),简称离差阵。用字母 SS表示。其计算公式为:其与方差的关系为 SS=(n-1)V,例1-1的离差阵为:height weight chestc height 266.0675000 321.0125000 188.7250000 weight 321.0125000 455.6875000 262.8750000 chestw 188.7250000 262.875000
10、0 154.7500000 对角线上为离均差平方和,以对角线为对称的两侧为离差积和。2.3 相关系数矩阵(correlation coefficients matrix)将各指标的相关系数以矩阵的形式进行排列为相关系数矩阵,用字母R表示。例1-1 的相关系数矩阵为:height weight chestc height 1.00000 0.92192 0.93008 weight 0.92192 1.00000 0.98992 chestc 0.93008 0.98992 1.00000 相关系数以对角线左右对称。2.4 将各指标的均数用以向量的形式排列,称为均向量。排成列的形式称为列向量,如
11、AX,排成行的形式称为行向量,如AX。第三节 成组设计的多元方差分析()()=nkiikiixxss12()()()()=nkjjkiikijxxxxss1111213212223313233ssssssSSssssssssssss=111213212223313233rrrrrrrrr=R73.9875.2679.84A=X()73.9875.2679.84AX=例 1-2 将某校某年级的学生按班级随机分成两组,一组施以素质教育,另一组仍延用传统的应试教育,考核的指标:期中考试的语文、数学、英语成绩问题:素质教育是否降低学生学习成绩?数据见表 1-2。表 1-2 两种教育下的考试成绩 素质教
12、育 应试教育 语文 数学 英语 语文 数学 英语 65 99 78 63 71 67 78 83 85 83 76 86 76 64 71 69 68 80 77 65 87 74 85 87 79 80 84 65 73 82 64 71 83 68 95 76 78 80 77 59 82 74 61 91 75 66 66 67 76 83 74 70 78 87 85 95 66 78 75 85 69 77 74 86 77 69 60 79 63 75 65 67 73 86 79 68 78 70 86 85 74 89 75 72 75 83 80 86 84 75 84 60
13、 77 85 67 88 68 80 65 67 76 78 76 72 77 78 86 89 69 76 78 81 91 93 90 82 69 76 75 82 70 91 90 63 69 77 64 73 75 72 79 87 73 85 72 60 84 81 80 72 84 83 77 66 85 76 78 73 80 73 74 79 74 75 59 93 73 78 75 72 75 89 86 68 83 70 99 100 61 98 81 73 73 59 79 67 89 67 53 80 80 87 74 93 68 74 80 71 63 67 79 9
14、3 68 66 81 70 76 69 63 77 77 68 65 78 77 74 95 78 79 100 72 92 92 62 71 83 83 99 90 76 70 97 64 73 84 80 71 46 77 65 88 69 80 76 64 77 75 68 80 66 93 72 73 74 64 82 68 78 84 78 92 84 69 83 75 67 74 76 66 59 97 85 59 76 81 74 87 80 86 95 72 71 65 72 71 86 72 88 51 72 67 85 92 62 79 70 73 89 77 93 82
15、84 88 85 82 74 85 92 59 73 解析:欲回答两种教育下的的成绩是否不同,不仅要分析各单科成绩,同时要将各科成绩联合起来进行分析,故要使用多元方差分析。1、多元方差分析的假设:H0:各组总体均数向量相等 H1:各组总体均数向量不等或不全相等 素质教育:应试教育:2、基本思想 对方差-协方差(离均差平方和-离均差积和)的分解。成组设计的变异度分解为:总变异矩阵=组间变异矩阵+组内变异矩阵,即 T=H+E,再由变异矩阵构造可以下四个检验统计量:Wilks lambda()=|E|/|H+E|如果 H 相对较大,则|H+E|会相对较大,|E|/|H+E|就会较小,逼近 0,组间变
16、异越大,越有理由拒绝 H0。Pillais trace=trace(H(H+E)-1)H 越大,则 trace(H(H+E)-1就会越大,所以越有理由拒绝 H0。Hotelling-Lawley trace=trace(E-1H)H 越大,则 trace(E-1H)就会越大,所以越有理由拒绝 H0。Roys maximum root:E-1H 最大特征根 H 越大,则 trace(E-1H)就会越大,所以越有理由拒绝 H0。Pillais trace 最为稳健。将这些统计量进行转换得到 F 分布进行统计推断。对于以上 4 种检验统计量,Olson 于 1974 年证明了当模型建立的前提条件不满
17、足时,Pillais trace 最为稳健。3、对本例的变异度分解 a、计算各组内离均差平方和与离均差积和矩阵()73.9875.2679.84AX=()74.6878.2678.28BX=组内变异=各组变异之和=SS素质教育+SS应试教育 总变异:离差阵 T 为:组间变异:离差阵:B=T-W 多元方差分析表 表 1-3 多元方差分析表 变异来源 SSCP 组间 B 1=g-1 组内 W 2=n-g 总 T n-1 构造多元方差分析的的检验统计量之一:Wilks 统计量 由公式可看出其表是组内变异在总变异中的比例。3320.98195.7436.16195.744409.621228.0836
18、.161228.085636.72SS=素质教育3394.88719.8485.48719.845003.62644.6485.48644.643826.08SS=应试教育6715.86915.5849.32915.589413.24583.4449.32583.449462.80WSSSS=+=素质教育应试教育6728.11863.0822.02863.089638.24466.4422.02466.449523.64T=12.2552.5027.3052.50225.00117.0027.30117.0060.84BTW=BWW+=+=11115.8792509 100.96546.090
19、0037 10WWWBT=+,111()m n mnmFFm=1.146882121F=其中 m 为变量个数,n 为总的样本含量。本例 m=3,n=100-3-1=96,P=0.3342,在0.05=的水平上没有理由拒绝0H,故不能认为素质教育和应试教育的学生的成绩不相等。在 SAS 中调用 GLM 过程中的 MANOVA 选项,程序如下:程序 m1_1.sas data a1;input x1-x3 group;cards;65 99 78 1 78 83 85 1 76 64 71 1 77 65 87 1 79 80 84 1 64 71 83 1 78 80 77 1 61 91 75
20、 1 76 83 74 1 85 95 66 1 69 77 74 1 60 79 63 1 73 86 79 1 86 85 74 1 75 83 80 1 84 60 77 1 68 80 65 1 76 72 77 1 69 76 78 1 90 82 69 1 70 91 90 1 64 73 75 1 73 85 72 1 80 72 84 1 85 76 78 1 74 79 74 1 73 78 75 1 86 68 83 1 61 98 81 1 79 67 89 1 80 87 74 1 80 71 63 1 68 66 81 1 63 77 77 1 77 74 95 1
21、72 92 92 1 83 99 90 1 64 73 84 1 77 65 88 1 64 77 75 1 93 72 73 1 68 78 84 1 69 83 75 1 66 59 97 1 81 74 87 1 72 71 65 1 72 88 51 1 92 62 79 1 77 93 82 1 82 74 85 1 63 71 67 0 83 76 86 0 69 68 80 0 74 85 87 0 65 73 82 0 68 95 76 0 59 82 74 0 66 66 67 0 70 78 87 0 78 75 85 0 86 77 69 0 75 65 67 0 68
22、78 70 0 89 75 72 0 86 84 75 0 85 67 88 0 67 76 78 0 78 86 89 0 81 91 93 0 76 75 82 0 63 69 77 0 72 79 87 0 60 84 81 0 83 77 66 0 73 80 73 0 75 59 93 0 72 75 89 0 70 99 100 0 73 73 59 0 67 53 80 0 93 68 74 0 67 79 93 0 70 76 69 0 68 65 78 0 78 79 100 0 62 71 83 0 76 70 97 0 80 71 46 0 69 80 76 0 68 8
23、0 66 0 74 64 82 0 78 92 84 0 67 74 76 0 85 59 76 0 80 86 95 0 72 71 86 0 72 67 85 0 70 73 89 0 84 88 85 0 92 59 73 0;proc discrim pool=test;/*使用discrim进行组间协方差阵的齐性检验*/class group;/*指定分组变量为group*/var x1 x2 x3;/*指定x1 x2 x3 3个变量产生的的协方差阵*/run;proc glm;class group;model x1 x2 x3=group;/*指定模型,建立反应变量和分组变量的方
24、程,将3个反应变量放在放在方程的左边,分组变量放在方程的右边。*/manova H=group/printh printe;/*用manova 进行多元方差分析,H=指定欲检验的效应变量,本例中即为group;/输出group效应的矩阵和误差矩阵,此二选项可要可不要。*/run;以下为主要结果 The GLM Procedure Multivariate Analysis of Variance The GLM Procedure Multivariate Analysis of Variance E=Error SSCP Matrix x1 x2 x3 x1 6715.86 -915.58
25、49.32 x2 -915.58 9413.24 583.44 x3 49.32 583.44 9462.8 以上输出为误差矩阵 The GLM Procedure Multivariate Analysis of Variance H=Type III SSCP Matrix for group x1 x2 x3 x1 12.25 52.5 -27.3 x2 52.5 225 -117 x3 -27.3 -117 60.84 以上输出为组间矩阵 B=T-W MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No
26、 Overall group Effect H=Type III SSCP Matrix for group E=Error SSCP Matrix S=1 M=0.5 N=47 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.96539365 1.15 3 96 0.3342 Pillais Trace 0.03460635 1.15 3 96 0.3342 Hotelling-Lawley Trace 0.03584688 1.15 3 96 0.3342 Roys Greatest Root 0.03584688 1.1
27、5 3 96 0.3342 以上输出为多元方差分析的结果,F=1.15,p=0.3342。结论见前,不在罗嗦。例1-2 三组贫血患者的血红蛋白浓度(%,X2)及红细胞计数(万/mm3,X1)见表 1-3,问三组的贫血程度是否有差异?表 1-4 三组贫血患者的血红蛋白浓度及红细胞计数 A 组 B 组 C 组 X1 X2 X1 X2 X1 X2 3.9 210 4.8 270 4.4 250 4.2 190 4.7 180 3.7 305 3.7 240 5.4 230 2.9 240 4.0 170 4.5 245 4.5 330 4.4 220 4.6 270 3.3 230 5.2 230
28、4.4 220 4.5 195 WSSSS=+素质教育应试教育 解析:综合分析2个指标,两个指标之间存在相关性,分为3个组别,故考虑使用多元方差分析。相应的假设为:0:H三组的总体贫血指标的均向量相等。0:H三组的总体贫血指标的均向量不相等或不全相等。不在进行变异度的分解,直接给出SAS程序。data exp2_3;input x1 x2 group;cards;3.9 210 1 4.8 270 2 4.4 250 3 4.2 190 1 4.7 180 2 3.7 305 3 3.7 240 1 5.4 230 2 2.9 240 3 4.0 170 1 4.5 245 2 4.5 330
29、 3 4.4 220 1 4.6 270 2 3.3 230 3 5.2 230 1 4.4 220 2 4.5 195 3 2.7 160 1 5.9 290 2 3.8 275 3 2.4 260 1 5.5 220 2 3.7 310 3 3.6 240 1 4.3 290 2 5.5 180 1 5.1 310 2 2.9 200 1 3.3 300 1;run;proc discrim pool=test;class group;var x1 x2;run;proc glm;class group;model x1 x2=group;contrast 1 vs 2 group 1-1
30、 0;/*使用contrast语句进行比较两两之间的比较*/contrast 1 vs 3 group 1 0-1;contrast 2 vs 3 group 0-1 1;manova h=group/printh printe;run;2.7 160 5.9 290 3.8 275 2.4 260 5.5 220 3.7 310 3.6 240 4.3 290 5.5 180 5.1 310 2.9 200 3.3 300 以下为主要输出结果 The DISCRIM Procedure Chi-Square DF Pr ChiSq 4.051323 6 0.6697 Since the Ch
31、i-Square value is not significant at the 0.1 level,a pooled covariance matrix will be used in the discriminant function.Reference:Morrison,D.F.(1976)Multivariate Statistical Methods p252.以上为协方差阵齐性的检验结果,p=0.6697,认为各组间总体协方差齐性。The GLM Procedure Multivariate Analysis of Variance E=Error SSCP Matrix x1 x
32、2 x1 14.652666667 -53.58333333 x2 -53.58333333 47426.041667 以上结果为误差矩阵,即组内离差阵。The GLM Procedure Multivariate Analysis of Variance H=Type III SSCP Matrix for group x1 x2 x1 7.926 122.48333333 x2 122.48333333 13753.958333 以上结果为欲检验的效应矩阵,即组间离差阵。MANOVA Test Criteria and F Approximations for the Hypothesis
33、 of No Overall group Effect H=Type III SSCP Matrix for group E=Error SSCP Matrix S=2 M=-0.5 N=12 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.50271608 5.34 4 52 0.0011 Pillais Trace 0.56557583 5.32 4 54 0.0011 Hotelling-Lawley Trace 0.85334850 5.48 4 30.19 0.0019 Roys Greatest Root 0.64
34、162782 8.66 2 27 0.0012 以上结果为多元方差的组间比较的结果,F=5.34,P=0.0011,拒绝H0,接受H1,故认为三组总体的贫血程度不全相等。The GLM Procedure Multivariate Analysis of Variance MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall 1 vs 2 Effect H=Contrast SSCP Matrix for 1 vs 2 E=Error SSCP Matrix S=1 M=0 N=12 Stati
35、stic Value F Value Num DF Den DF Pr F Wilks Lambda 0.61097451 8.28 2 26 0.0017 Pillais Trace 0.38902549 8.28 2 26 0.0017 Hotelling-Lawley Trace 0.63672950 8.28 2 26 0.0017 Roys Greatest Root 0.63672950 8.28 2 26 0.0017 以上输出为第一组和第二组进行比较的多元方差分析结果。红色字体。1 vs 2 effect说明是第一组和第二组的结果。可以看Pillais Trace 的结果,F=
36、8.28,P=0.0017。MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall 1 vs 3 Effect H=Contrast SSCP Matrix for 1 vs 3 E=Error SSCP Matrix S=1 M=0 N=12 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.79503485 3.35 2 26 0.0507 Pillais Trace 0.20496515 3.35 2 26 0.0507 Ho
37、telling-Lawley Trace 0.25780650 3.35 2 26 0.0507 Roys Greatest Root 0.25780650 3.35 2 26 0.0507 由对第1组和第2组的比较的解释知道上面的结果是第几组和第几组之间的比较了吧?自然是 1 组和3组之间的比较了。由Pillais Trace 的结果可知F=3.35,P=0.0507。MANOVA Test Criteria and Exact F Statistics for the Hypothesis of No Overall 2 vs 3 Effect H=Contrast SSCP Matrix
38、 for 2 vs 3 E=Error SSCP Matrix S=1 M=0 N=12 Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.73660978 4.65 2 26 0.0188 Pillais Trace 0.26339022 4.65 2 26 0.0188 otelling-Lawley Trace 0.35757089 4.65 2 26 0.0188 Roys Greatest Root 0.35757089 4.65 2 26 0.0188 以上结果为第2组和第3组的比较结果。F=4.65,P=0.018
39、8。由以上两两比较的统计学结果来看,1和2,2和3之间的差异有统计学意义,尚没有理由认为1和3之间的比较差异有统计学意义。第四节 概念的辩析 1、多元方差分析是将多个有相关关系的反应变量联合起来进行分析,一元方差分析是对一个反应变量进行分析;对于干预因素在这两种分析中都可以有多个。而我们对于多元方差分析仅介绍了单因素设计的资料及其两两比较。2、多元分析是对多个有相互关系的指标联合起来进行综合性的统计学推断,一元分析是分析单个指标在各组之间的差异。在使用时候,要将两者结合起来。也就是说,先做一元分析,再做多元分析,将二者结合起来下专业性结论。3、在多元分析中协方差矩阵相等,指的是协方差矩阵中相对应的元素在各组间是相等的,而不是同一矩阵中的各元素相等。