《多重均值比较与方差分析前提假设的检验.ppt》由会员分享,可在线阅读,更多相关《多重均值比较与方差分析前提假设的检验.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于多重均值比较与关于多重均值比较与方差分析前提假设的方差分析前提假设的检验检验9/4/20221现在学习的是第1页,共44页9/4/20222失业保险案例:为什么要进行方差分析? 为了减小失业保险支出、促进就业,政府试图为失业者提供再就业奖励:如果失业者可以在限定的时间内重新就业,他将可以获得一定数额的奖金。政策会有效吗? 现在学习的是第2页,共44页9/4/20223试验数据试验数据不同奖金水平失业者的再就业时间(天) 无奖金低奖金中奖金高奖金92869678100108927585939076888877878989797390757183947882828072756878798172
2、现在学习的是第3页,共44页9/4/20224要研究的问题要研究的问题总体1,1(奖金=1)总体2,2 (奖金=2)总体3,3(奖金=3)样本1样本2样本3样本4总体4,4(奖金=4)211, sx222, sx233, sx244, sx01234:?H现在学习的是第4页,共44页9/4/20225各个总体的均值相等吗?各个总体的均值相等吗?Xf(X)1 2 3 4Xf(X)3 1 2 4 现在学习的是第5页,共44页9/4/20226失业保险案例:实验结果失业保险案例:实验结果1=无奖金 2=低奖金 3=中奖金 4=高奖金。根据实验结果,可以认为各总体的平均失业时间相同吗?现在学习的是第6
3、页,共44页9/4/20227研究方法:两样本的研究方法:两样本的t检验?检验?n如果采用如果采用t检验法对多个总体均值进行差异显检验法对多个总体均值进行差异显著性检验著性检验 ,会出现如下问题:,会出现如下问题:n全部检验过程烦琐,做法不经济全部检验过程烦琐,做法不经济 n无统一的总体方差估计无统一的总体方差估计 ,检验的精度降低,检验的精度降低n犯第一类错误的概率增大,检验的可靠性降犯第一类错误的概率增大,检验的可靠性降低低 现在学习的是第7页,共44页9/4/20228思考思考n7岁儿童的平均身高为102,现测得某班12名7岁儿童身高分别为:n97、99、103、100、104、97、1
4、05、110、99、98、103、99n请问该班儿童身高与平均水平是否存在差异?现在学习的是第8页,共44页9/4/20229方差分析可以用来比较多个均值方差分析可以用来比较多个均值n方差分析(方差分析(Analysis of variance,ANOVA)的主要目的是)的主要目的是通过对通过对方差方差的比较来的比较来同时同时检验多个检验多个均值均值之间差异的显著性。之间差异的显著性。n可以看作可以看作t检验的扩展,只比较两个均值时与检验的扩展,只比较两个均值时与t检验等价。检验等价。n20世纪世纪20年代由英国统计学家费喧(年代由英国统计学家费喧(R. A. Fisher)最早提出)最早提出
5、的,开始应用于生物和农业田间试验,以后在许多学科中得到的,开始应用于生物和农业田间试验,以后在许多学科中得到了广泛应用。了广泛应用。现在学习的是第9页,共44页9/4/202210ANOVA (analysis of variance)n由于方差分析法是通过比较有关方差的大小而由于方差分析法是通过比较有关方差的大小而得到结论的,所以在统计中,常常把运用方差得到结论的,所以在统计中,常常把运用方差分析法的活动称为方差分析。分析法的活动称为方差分析。n方差分析的内容很广泛,既涉及到实验设计的方差分析的内容很广泛,既涉及到实验设计的模式,又关乎数据分析模型中因素效应的性质。模式,又关乎数据分析模型中
6、因素效应的性质。本章在完全随机试验设计下,讨论固定效应模本章在完全随机试验设计下,讨论固定效应模型方差分析的基本原理与方法,重点介绍单因型方差分析的基本原理与方法,重点介绍单因素方差分析。素方差分析。 现在学习的是第10页,共44页9/4/202211方差分析中的基本假设方差分析中的基本假设n(1)在各个总体中因变量都服从正态分布;)在各个总体中因变量都服从正态分布;n(2)在各个总体中因变量的方差都相等;)在各个总体中因变量的方差都相等;n(3)各个观测值之间是相互独立的。)各个观测值之间是相互独立的。现在学习的是第11页,共44页9/4/202212n同一试验条件下的数据变异同一试验条件下
7、的数据变异-随机因素影响随机因素影响n不同试验条件下,试验数据变异不同试验条件下,试验数据变异-随机因素随机因素和可能存在的系统性因素即试验因素共同影响和可能存在的系统性因素即试验因素共同影响试验数据变异原因(误差来源)分析试验数据变异原因(误差来源)分析现在学习的是第12页,共44页9/4/202213实验数据误差类型实验数据误差类型n因素的同一水平因素的同一水平( (总体总体) )下,样本各观察值之间的差异下,样本各观察值之间的差异n比如,同一奖金水平下不同不同人的失业时间是不同的比如,同一奖金水平下不同不同人的失业时间是不同的n这种差异可以看成是随机因素影响的结果,称为这种差异可以看成是
8、随机因素影响的结果,称为n系统误差系统误差n因素的不同水平因素的不同水平( (不同总体不同总体) )下,各观察值之间的差异下,各观察值之间的差异n比如,不同奖金水平之间的失业时间之间的差异比如,不同奖金水平之间的失业时间之间的差异n这种差异这种差异可能可能是由于是由于抽样的随机性抽样的随机性所造成的,所造成的,也可能也可能是由于是由于奖金奖金本身本身所造成的,后者所形成的误差是由系统性因素造成的,所造成的,后者所形成的误差是由系统性因素造成的,称为称为现在学习的是第13页,共44页9/4/202214方差分析的实质与分析目的方差分析的实质与分析目的n方差分析的实质:观测值变异原因的数量分析。方
9、差分析的实质:观测值变异原因的数量分析。n方差分析的目的:系统中是否存在显著性影响方差分析的目的:系统中是否存在显著性影响因素因素现在学习的是第14页,共44页9/4/202215 单因素方差分析模型(单因素方差分析模型(1)n单因素方差分析: 模型中有一个自变量(因素)和一个因变量。n在失业保险实验中,假设张三在高奖金组,则张三的失业时间=高奖金组的平均失业时间 + 随机因素带来的影响=总平均失业时间 +高奖金组平均值与总平均值之差 + 随机因素带来的影响ijiijiijX现在学习的是第15页,共44页9/4/202216 单因素方差分析模型(单因素方差分析模型(2)()()()()11,2
10、, , ;1,2, ,0ijiijkiiijxik jnmaeaes=+=2可 加 性 假 定约 束 条 件相 互 独 立 , 且 均 服 从 N 0,独 立 性 、 正 态 性 、 方 差 齐 性 假 定现在学习的是第16页,共44页9/4/202217总变差(离差平方和)的分解总变差(离差平方和)的分解n数据的误差用离差平方和数据的误差用离差平方和(sum of squares)描述。描述。n组内离差平方和组内离差平方和(within groups)n因素的同一水平因素的同一水平(同一个总体同一个总体)下样本数据的变异下样本数据的变异n比如,同一奖金水平下失业时间的差异比如,同一奖金水平下
11、失业时间的差异n组内离差平方和只包含组内离差平方和只包含随机误差随机误差n组间离差平方和组间离差平方和(between groups)n因素的不同水平因素的不同水平(不同总体不同总体)下各样本之间的变异下各样本之间的变异n比如,四个奖金水平之间失业时间的差异比如,四个奖金水平之间失业时间的差异n组间离差平方和既包括组间离差平方和既包括随机误差随机误差,也包括,也包括系统误差系统误差现在学习的是第17页,共44页9/4/202218总变差(离差平方和)分解的图示总变差(离差平方和)分解的图示组间变异总变异组内变异现在学习的是第18页,共44页9/4/202219SSTSSASSE 总变差211(
12、)knijijSSTxx因素A及随机因素导致的变差随机因素导致的变差组间离差平方和组内离差平方和21()kiiSSAnxx211()knijiijSSExx现在学习的是第19页,共44页9/4/202220离差平方和的自由度与均方离差平方和的自由度与均方n三个平方和的自由度分别是三个平方和的自由度分别是nSST 的自由度为的自由度为nk-1,nk为全部观察值的个数为全部观察值的个数nSSA的自由度为的自由度为k-1,其中,其中k为因素水平的个数为因素水平的个数nSSE 的自由度为的自由度为nk-kn各离差平方和的大小与观察值的多少有关,为了消除观察值多少对各离差平方和的大小与观察值的多少有关,
13、为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为方差。离差平方和大小的影响,需要将其平均,这就是均方,也称为方差。n均方的计算方法是用离差平方和除以相应的自由度。均方的计算方法是用离差平方和除以相应的自由度。现在学习的是第20页,共44页9/4/202221组间离差平方和组内离差平方和21()kiiSSAnxx211()knijiijSSExx组间方差1SSAMSAk组内方差SSEMSEnkk受因素A和随机因素的影响只受随机因素的影响现在学习的是第21页,共44页9/4/202222F比值比值n如果因素A的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个
14、方差的比值会接近1n如果不同水平对结果有影响,组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1n当这个比值大到某种程度时,就可以说不同水平之间存在显著差异,或者说因素A对结果有显著影响。组间方差1S S AM S Ak组内方差S S EM S En kkF =现在学习的是第22页,共44页9/4/202223F比的分布比的分布10,10215, 1215, 52122121122/22/12121121)(222)(FFFfF 分布曲线现在学习的是第23页,共44页9/4/202224F分布与拒绝域分布与拒绝域现在学习的是第24页,共44页9/4/202225方差分析的基本思想方差
15、分析的基本思想n将将k k个水平(处理)的观测值作为一个整体看个水平(处理)的观测值作为一个整体看待,利用方差的可分解性,把观测值总变异的待,利用方差的可分解性,把观测值总变异的离差平方和及自由度分解为相应于不同变异来离差平方和及自由度分解为相应于不同变异来源的离差平方和及自由度,进而获得不同变异源的离差平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差来源总体方差估计值;通过计算这些总体方差估计值的适当比值,即估计值的适当比值,即F F比值,并以此比值的比值,并以此比值的大小来判断各样本所属总体平均数是否相等。大小来判断各样本所属总体平均数是否相等。目的是检查所讨论因素
16、是否作为系统性因素来目的是检查所讨论因素是否作为系统性因素来影响试验结果。影响试验结果。现在学习的是第25页,共44页9/4/202226思考题思考题 n有三台机器生产规格相同的铝合金薄板,为检有三台机器生产规格相同的铝合金薄板,为检验三台机器生产薄板的厚度是否相同,随验三台机器生产薄板的厚度是否相同,随 机从机从每台机器生产的薄板中各抽取了每台机器生产的薄板中各抽取了5个样品,测个样品,测得结果如下:得结果如下: 机器机器1:0.236,0.238,0.248,0.245,0.243 机器机器2:0.257,0.253,0.255,0.254,0.261 机器机器3:0.258,0.264,
17、0.259,0.267,0.262 问:三台机器生问:三台机器生产薄板的厚度是否有显著差异?产薄板的厚度是否有显著差异?现在学习的是第26页,共44页9/4/202227思考:有无差异?思考:有无差异?n某化肥生产商需要检验三种新产品的效果,在某化肥生产商需要检验三种新产品的效果,在同一地区选取同一地区选取3块同样大小的农田进行试验,块同样大小的农田进行试验,甲农田中使用甲化肥,在乙农田使用乙化肥,甲农田中使用甲化肥,在乙农田使用乙化肥,在丙地使用丙化肥,得到在丙地使用丙化肥,得到6次试验的结果如表次试验的结果如表2所示,试在所示,试在0.05的显著性水平下分析甲乙丙化的显著性水平下分析甲乙丙
18、化肥的肥效是否存在差异?、肥的肥效是否存在差异?、甲 504649524848、乙 495047474649、丙 515049465050现在学习的是第27页,共44页9/4/202228方差分析检验的步骤方差分析检验的步骤n1.检验数据是否符合方差分析的假设条件。n2.提出零假设和备择假设:n零假设:各总体的均值之间没有显著差异,即n备择假设:至少有两个均值不相等,即012kH :112H :,k不全相等现在学习的是第28页,共44页9/4/202229方差分析的步骤方差分析的步骤n3.根据样本计算F统计量的值。方差分析表变差来源离差平方和SS自由度df均方MSF值组 间SSAk-1MSAM
19、SA/MSE组 内SSEnk-kMSE总变异SSTnk-1现在学习的是第29页,共44页9/4/202230方差分析的步骤方差分析的步骤n4.确定决策规则并根据实际值与临界值的比较,或者p-值与的比较得出检验结论。 在零假设成立时组间方差与组内方差的比值服从服从自由度为(k-1, nk-k) 的 F 分布 临界值拒绝域p-值实际值 F检验的临界值和拒绝域 现在学习的是第30页,共44页9/4/202231失业保险的例子(失业保险的例子(1)n在失业保险实验中,设显著性水平=0.05,试分析奖金水平对失业时间的影响是否显著 。不同奖金水平失业者的再就业时间(天) 无奖金低奖金中奖金高奖金9286
20、9678100108927585939076888877878989797390757183947882828072756878798172现在学习的是第31页,共44页9/4/202232失业保险的例子失业保险的例子(2)n1、根据前面的分析,数据符合方差分析的假设条件。n2、提出零假设和备择假设:nH0:1234,nH1:1、2、3、4 不全相等。 现在学习的是第32页,共44页9/4/202233失业保险的例子失业保险的例子(3)n3、计算F统计量的实际值。手工计算可以按照方差分析表的内容逐步计算。由于计算量大,实际应用中一般要借助于统计软件。下面是Excel计算的方差分析表。变差来源S
21、S自由度MSFp-值F临界值组间624.973208.323.040.04332.90组内2195.333268.60总变差2820.3135现在学习的是第33页,共44页9/4/202234失业保险的例子失业保险的例子(4)n4、样本的F值为3.04。n由于因此我们应拒绝零假设,从而得出奖金水平对再就业时间有显著影响的结论。n类似的,由于 ,可以得出同样的结论。9 . 204. 305. 0FF05. 00433. 0值p2.90.04330.053.04现在学习的是第34页,共44页9/4/202235例例2 热带雨林热带雨林 (1)n各水平下的样本容量不同时单因素方差分析的方法也完全适用
22、,只是公式的形式稍有不同,在使用软件进行分析时几乎看不出这种差别。 一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平=0.05。 现在学习的是第35页,共44页9/4/202236例例2 热带雨林热带雨林 (2)n1、正态性检验:直方图 从未采伐过1年前采伐过8年前采伐过2712182212429152221915192018331819161722201412241412272281
23、71919现在学习的是第36页,共44页9/4/202237例例2 热带雨林热带雨林 (3)n同方差性检验:最大值与最小值之比等于33.19 / 4.81=1.34,明显小于4,因此可以认为是等方差的。 组计数求和平均方差从未采伐过1228523.75 25.66 1年前采伐过1216914.08 24.81 8年前采伐过914215.78 33.19 现在学习的是第37页,共44页9/4/202238例例2 热带雨林热带雨林 (4)n2、提出零假设和备择假设、提出零假设和备择假设n零假设:雨林采伐对林木数量没有显著影响零假设:雨林采伐对林木数量没有显著影响(各组均值相等);(各组均值相等);
24、n备择假设:雨林采伐对是有显著影响(各组备择假设:雨林采伐对是有显著影响(各组均值不全相等)。均值不全相等)。现在学习的是第38页,共44页9/4/202239例例2 热带雨林热带雨林 (5)n3、方差分析表n4、结论。nF值=11.433.32,p-值=0.00020.05,因此检验的结论是采伐对林木数量有显著影响。 变差源SSdfMSFP-valueF crit组间625.162312.5811.430.00023.32组内820.723027.36总计1445.8832现在学习的是第39页,共44页9/4/202240思考:是否意味着每两个处理平均数间的差异都显著或思考:是否意味着每两个
25、处理平均数间的差异都显著或极显著极显著 ?n例:测定东北、内蒙古、例:测定东北、内蒙古、河北、安徽、贵州河北、安徽、贵州5个地个地区黄鼬冬季针毛的长度,区黄鼬冬季针毛的长度,每个地区随机抽取每个地区随机抽取4个样个样本,测定的结果如表,试本,测定的结果如表,试比较各地区黄鼬针毛长度比较各地区黄鼬针毛长度差异显著性。差异显著性。地区东北内蒙古河北安徽贵州合计132.029.225.223.322.3232.827.426.125.122.5331.226.325.825.122.9430.426.726.725.523.7和126.4109.6104.199.091.4530.5平均31.602
26、7.4026.0324.7522.8526.53现在学习的是第40页,共44页9/4/202241 方差分析中的多重比较方差分析中的多重比较n在方差分析中,不拒绝零假设在方差分析中,不拒绝零假设H H0 0,表示拒绝总体均数相等的证,表示拒绝总体均数相等的证据不足据不足,分析终止;当零假设分析终止;当零假设H H0 0被拒绝时,我们可以确定至少被拒绝时,我们可以确定至少有两个总体的均值有显著差异。但要进一步检验哪些均值之间有两个总体的均值有显著差异。但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析。这在方差分有显著差异还需要采用多重比较的方法进行分析。这在方差分析中称为析中
27、称为事后检验事后检验(Post Hoc test)(Post Hoc test)。 n多重比较多重比较是是同时同时对各个总体均值进行的两两比较。方法很多,如对各个总体均值进行的两两比较。方法很多,如FisherFisher最小显著差异(最小显著差异(Least Significant DifferenceLeast Significant Difference,LSDLSD)方法、)方法、TukeyTukey的诚实显著差异(的诚实显著差异(HSDHSD)方法或)方法或BonferroniBonferroni的方法等。这里我们只介绍最小显著差异方法。的方法等。这里我们只介绍最小显著差异方法。现在
28、学习的是第41页,共44页9/4/202242用用LSD法进行多重比较的步骤法进行多重比较的步骤n1、提出假设nH0: i = jnH1: i jn2、计算检验的统计量 n3a、 如果 或 则拒绝H0。 n3b、计算 的置信区间:如果0包含在该置信区间内则不能拒绝H0,否则拒绝H0。11()ijijxxtt nkkMSEnn2/tt2/tt jixx )11()(2/jijinnMSEtxx现在学习的是第42页,共44页9/4/202243实例:失业保险实验实例:失业保险实验n根据第一个总体和第四个总体计算的t统计量n利用统计软件可以计算出t检验的临界值 由于 ,因此我们有证据表明无奖金组与高奖金组的再就业时间有显著差异。其他奖金水平效应之间差异的显著性也可以用类似的方法计算。 90. 2)9191(6 .6811.7744.88t037. 2)32(2/t037. 29 . 22/05. 0tt现在学习的是第43页,共44页9/4/2022感谢大家观看现在学习的是第44页,共44页