《两因素等重复试验下的方差分析.doc》由会员分享,可在线阅读,更多相关《两因素等重复试验下的方差分析.doc(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课时授课计划课次序号:15 一、课题:3.2 两因素等重复试验下的方差分析 二、课型:新授课三、目的要求:1.掌握两因素等重复实验下的方差分析理论与方法、模型的建立与显著性检验;2.掌握利用方差分析的SAS过程解决有关实际问题.四、教学重点:方差分析方法的基本理论;利用方差分析的SAS过程解决有关实际应用问题.教学难点:方差分析方法的基本理论;利用方差分析的SAS过程解决有关实际应用问题.五、教学方法及手段:传统教学与上机实验相结合六、参考资料:应用多元统计分析,高惠璇编,北京大学出版社,2005;使用统计方法与SAS系统,高惠璇编,北京大学出版社,2001;多元统计分析(二版),何晓群编,中
2、国人民大学出版社,2008;应用回归分析(二版),何晓群编,中国人民大学出版社,2007;统计建模与R软件,薛毅编著,清华大学出版社,2007.七、作业:3.6 八、授课记录:授课日期班次九、授课效果分析:复习 单因素方差分析1统计模型因变量Y因素,水平,上观测值 , 2显著检验 或 ,拒绝3置信区间 置信度的置信区间, 置信度的置信区间为个的置信度至少的Bonferroni同时置信区间3.2 两因素等重复实验下的方差分析3.2.1 统计模型设影响Y的因素有两个,分别记为A和B,其中A有a个不同水平,B有b个水平在因素A和B的各水平下均做c(c1)次实验,记为水平组合下第k次实验的Y的观测值,
3、则两因素等重复试验下的方差分析数据可表示为表3.7的形式表3.7 两因素等重复方差分析数据 因素B因素A和对于任一水平组合(总体), Y观测值为, 则各样本间是相互独立的样本观察值可看成是来自均值为的总体,即 , 令,为水平组合下Y的随机误差, 则,这样,就是其均值与随机误差迭加而产生的因此,两因素重复试验下方差分析的统计模型: 为便于统计分析,我们需要对水平组合上的样本均值作进一步分解,为此引入如下记号:其中为总平均, ,是因素水平与因素水平在单元上所有观察值的平均,为因素A的水平的效应,为因素B的水平的效应进一步有其中反映了水平组合对Y的效应一般情况, 其差称为与的交互效应因此容易验证:
4、因此两因素等重复下的方差分析模型等价地改写为如下形式:3.2.2交互效应及因素效应的显著性检验一偏差平方和分解下面先对Y的观测的总平方和进行分解:,观测数据的总(偏差)平方和为 其中因素的平方和由于,为的无偏估计,故度量的各水平效应的估计量的变化因素的平方和由于,为的无偏估计,故度量的各水平效应的估计量的变化交互效应的平方和由于,为的无偏估计,故度量和的交互效应的估计量的变化误差平方和度量了来自各总体的观测值与其样本均值的差异,反映了误差的变化 由于且相互独立,可得分别称为的自由度,称为的自由度,为上述四个自由度的和令 因素的均方, 则 因素的均方, 交互效应均方,误差均方, , 为的无偏估计
5、 二假设检验对两因素的情况,方差分析的主要目的除了考察因素A或B的各水平对因变量Y的影响有无显著差异外,还要考虑A和B之间是否存在交互作用,因为交互作用的存在会直接影响到对A和B影响检验结果的解释涉及如下三个检验问题: 不全相等 不全相等 检验问题也可以改写成: 利用上述结果,构造适当的统计量检验上述假设为的无偏估计,如果假设成立,取值接近,如果假设不成立,则有增大的趋势因此,针对检验分别构造统计量,分别有 如果,各检验统计量的值变大,则拒绝原假设各检验的值分别为 其中为统计量观测值给定显著性水平,如(或),则拒绝(或)否则不能拒绝(或)结果如下:表3.8 两因素(ab)等重复数c试验下的方差
6、分析表形式变异来源source离差平方和SS自由度df均方MSF统计量FP值P因素ASSA因素BSSBAB交互效应SSAB误差SSE总和SST= SSA+ SSB+ SSAB +SSE注意:检验步骤:1)先检验,如不拒绝,即交互作用不显著时,再考察和的效应的显著性因为当()全为0时,即与无交互作用,则在的任何水平上 = ,在的各水平上均相等且完全由在水平和的效应之差确定,因此,检验假设的结论真实的反映了仅由的各水平对的影响是否显著2)如拒绝,交互作用显著时,通过估计和比较因素和各水平组合(A,B)上的均值考察因素的联合影响如果和存在交互作用,则不全为0,对于的两个水平和在的第个水平上的两个组合
7、和下均值差为 因此当()不全为0时,除与有关外,还可能与有关,即处在不同水平,有所不同如图3.1所示,假设A与B均有两个水平和 (a) (b) 图3.1 有交互效应时A的各水平均值在B的不同水平上的差异(a) 在下均值差而认为(即与不全为0),差异主要表现在在水平上的差异;(b) 在下均值差与相反,综合有,主要表现在在和水平上的差异相互抵消,使得综合差异为零因此,在有交互效应时,尤其是交互效应显著,而因素与的效应不显著时,检验每个因素显著差异实际意义不大,应慎重此情况下,要进一步考察各因素对的影响的显著性,只能将一个因素的各个水平逐个给定,在给定的水平上考察另一因素的各水平均值之间的差异来了解
8、该因素对的影响例3.5 某高校为了了解数学专业和计算机科学专业的低年级学生、高年级学生及研究生在人文科学知识方面的差异,从不同专业和不同年级的学生中任选四名学生参加有关考试,其成绩如表3.9所示,假设考试成绩服从两因素的方差分析模型,对其作方差分析表 3.9 人文社科知识的考试成绩 级别专业低年级 高年级 研究生数学计算机81 78 79 78 75 80 78 73 82 80 83 8889 82 77 90 79 80 75 78 93 93 86 95解:因变量Y为成绩,有两个因素,记专业因素为,有两个水平(数学),(计算机);学生级别为因素,有三个水平(低年级),(高年级),(研究生
9、)因此,利用SAS系统proc anova过程作方差分析,程序及结果如下:data examp3_5;input majors $ classes $ grade ; /*输入majors课程,年级classes,成绩grade*/cards;a1 b1 81 a1 b1 78 a1 b1 79 a1 b1 78a1 b2 75 a1 b2 80 a1 b2 78 a1 b2 73a1 b3 82 a1 b3 80 a1 b3 85 a1 b3 88a2 b1 89 a2 b1 82 a2 b1 77 a2 b1 90a2 b2 79 a2 b2 80 a2 b2 75 a2 b2 78a2
10、b3 93 a2 b3 93 a2 b3 86 a2 b3 95;run;proc anova data=examp3_5; /* 调用方差分析的anova过程 */class majors classes; /* 因素变量名称为majors专业、classes级别 */model grade=majors classes majors*classes; /* 因变量grade,因素变量专业、级别、因素效应 */run;SAS 系统 11:29 Tuesday, October 21, 2008The ANOVA Procedure Class Level Information 因素 水平
11、因素变量 Class Levels Values 因素变量A majors a=2 a1 a2 因素变量B classes b=3 b1 b2 b3 Number of observations n=abc=24 c=4注:,因素变量为自变量,个数为自由度p-1=ab-1=5先检验,统计量,观测值,检验值 SAS 系统 11:29 Tuesday, October 21, 2008 2 The ANOVA Procedure因变量:成绩 Dependent Variable: grade表 3.10 考试成绩的方差分析结果 Sum of Source DF Squares Mean Squar
12、e F Value Pr F方差来源 自由度 平方和SS 均方 F值 p值Model(模型) p-1=ab-1=5 =637. =127. =9.34 0.0002Error(误差) n-p=ab(c-1)=18 =245. =13.Corrected Total n-1=abc-123 =882. R-Square Coeff Var Root MSE grade Mean =0. 4. 3. =82.25000 Source DF Anova SS Mean Square F Value Pr F方差来源 自由度 平方和SS 均方 F值 p值 专业A majors =1 =150. =15
13、0. =11.00 =0.0038 级别B classes =2 =444. =222. =16.28 F 模型 Model ab-1=8 1268. =158. =3.05 =0.0101 误差 Error ab(c-1)=36 =1872. =52. 总和 Corrected Total abc-1=44 =3140. R-Square Coeff Var Root MSE time Mean 0. 12.91936 7. 55.82222 Source DF Anova SS Mean Square F Value Pr FA修理工repairer =2 =24. =12. = 0.24
14、 =0.7908B系统类型type =2 =28. =14. =0.27 =0.7633交互repairer*type 4 =1215. =303. =5.84 =0.0010由此可见,=0.00100.05 ,接受说明不同的修理工对修理时间的影响不显著;因素B(磁盘系统)=0.76330.05 ,接受说明不同类型的驱动器对修理时间的影响也不显著因此,关于因素A或因素B的效应的检验结果并无多大参考价值为进一步了解交互效应的本质,对每一个组合水平上的观测数据,求得样本均值作为每个组合水平上的总体均值的估计,结果如下: SAS 系统 11:29 Tuesday, October 21, 2008
15、5 The ANOVA Procedure Level of -time- 因素A各水平上的样本均值 repairer N Mean Std Dev a1 15 55. 9. a2 15 55. 8. a3 15 56. 7.因素B各水平上的样本均值 Level of -time- type N Mean Std Dev b1 15 56. 8. b2 15 56. 9. b3 15 54. 7. 表3.13 因素A与B的组合水平上的样本均值 Level of Level of -time- repairer type N Mean Std Dev a1 b1 5 59. 7. a1 b2 5
16、 A1中47.最短 7. a1 b3 5 58. 8. a2 b1 5 A2中48.最短 6. a2 b2 5 61. 7. a2 b3 5 56. 8. a3 b1 5 60. 7. a3 b2 5 60. 6. a3 b3 5 A3中49.最短 4.由结果可见,不同的修理工修理不同的磁盘驱动系统所花费的时间确有较大差异,修理工修理类型的驱动器系统所花平均时间最短(47.8000),修理类型的驱动器系统所花平均时间最短(48.4000),修理类型的驱动器系统所花平均时间最短(49.6000) 图3.2 各水平组合上的样本均值而由于之间的差异不大导致因素A的影响不显著的检验结果;而由于之间的差
17、异不大导致因素B的影响不显著的检验结果;因此交互效应可能会掩盖各因素对因变量Y的某些本质影响3.2.3无交互效应的各因素均值的估计与比较在给定的显著水平下,当假设检验的结论是因素A和B之间的交互效应不显著,并且因素A和B至少有一个对Y有显著影响,可以进一步对影响显著的因素在其各水平下的均值作出估计,并给出其本身及任意两个之差的置信区间一因素A均值的估计和比较1.的无偏估计及区间估计若A对Y的影响显著,对A的任一水平,由,所以的无偏估计为 由于 而为的无偏估计 ,且在方差分析模型下可证, 且与相互独立,从而可得 对给定的显著性水平,由 可得的置信度为的置信区间为,2.A的各水平差的区间估计同理可
18、得的置信度为的置信区间为, 若有m个作同时比较,则它们的置信度不小于的Bonferroni同时置信区间为 二因素B均值的估计和比较如因素B对Y的影响显著,的无偏估计为 的置信度为的置信区间为 的置信度为的置信区间为 的置信度不小于的Bonferroni同时置信区间为 例3.7 (续例3.5)根据表3.9的数据,给出两专业之间学生成绩的均值之差和各级别学生之间成绩的均值之差的置信度不小于95%的Bonferroni同时置信区间解:由例3.5结果可知,专业A与学生级别B之间无显著的交互作用,因素A和B均对成绩影响显著,因此可进一步通过比较A的各水平均值差异了解各专业与各级别社科知识的差异;通过比较
19、B的各水平均值差异了解各级别社科知识的差异data examp3_7;input majors $ classes $ grade ;cards;a1 b1 81 a1 b1 78 a1 b1 79 a1 b1 78a1 b2 75 a1 b2 80 a1 b2 78 a1 b2 73a1 b3 82 a1 b3 80 a1 b3 85 a1 b3 88a2 b1 89 a2 b1 82 a2 b1 77 a2 b1 90a2 b2 79 a2 b2 80 a2 b2 75 a2 b2 78a2 b3 93 a2 b3 93 a2 b3 86 a2 b3 95;run;proc anova d
20、ata=examp3_7;class majors classes; /* 因素变量专业、级别*/model grade=majors classes majors*classes; /* 因变量成绩,因素变量专业、级别主效应及交互效应 */means majors classes; /* 计算专业、级别对应的因变量样本均值和标准差 */means majors classes/bon cldiff alpha=0.05; /* 因素变量专业、级别在不同水平上的均值进行Bonferroni同时两两比较的t检验,显著性水平0.05,输出不同水平上的两两均值差的置信度不小于1-0.05的置信区间*
21、/run;SAS 系统 11:29 Tuesday, October 21, 2008 12 The ANOVA Procedure Class Level Information Class Levels Values 因素A majors a= 2 a1 a2 因素B classes b=3 b1 b2 b3 Number of observations n=abc=24以下为方差分析表,同3.5例表3.10 SAS 系统 11:29 Tuesday, October 21, 2008 13 The ANOVA ProcedureDependent Variable: grade Sum
22、of Source DF Squares Mean Square F Value Pr F Model 5 637. 127. 9.34 0.0002 Error 18 245. 13. Corrected Total 23 882. R-Square Coeff Var Root MSE grade Mean 0. 4. 3. 82.25000 Source DF Anova SS Mean Square F Value Pr F majors 1 150. 150. 11.00 0.0038 classes 2 444. 222. 16.28 .0001 majors*classes 2
23、43. 21. 1.58 0.2340以下对专业因素A、B样本均值和标准差 SAS 系统 11:29 Tuesday, October 21, 2008 14 The ANOVA Procedure Level of -grade- majors N Mean Std Dev 专业因素水平 观测个数 样本均值 样本标准差 a1 12 79. 4. a2 12 84. 7. Level of -grade- classes N Mean Std Dev 级别水平 观测个数 样本均值 样本标准差 b1 8 81. 5. b2 8 77. 2. b3 8 87. 5.以下对专业因素A求均值差的Bon
24、ferroni同时置信区间 SAS 系统 11:29 Tuesday, October 21, 2008 15 The ANOVA Procedure Bonferroni (Dunn) t Tests for gradeNOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than Tukeys for all pairwise comparisons. Alpha 0.05 Error Degrees of Freedom 18 Error Mean Square 13.63889 Critical Value of t 2.10092 m=1 Minimum Significant Difference 3.1676 Comparisons significant at the 0.05 level are indicated by *. Difference Simultaneous majors Between 95% Confidence Comparison Means Limits 样本均值差 的置信区间 a2 - a1 5.000 1.832 8.168 *