《多重均值比较与方差分析前提假设的检验精选PPT.ppt》由会员分享,可在线阅读,更多相关《多重均值比较与方差分析前提假设的检验精选PPT.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于多重均值比较与关于多重均值比较与方差分析前提假设的方差分析前提假设的检验检验02.10.20221第1页,讲稿共44张,创作于星期日02.10.20222失业保险案例:为什么要进行方差分析?为了减小失业保险支出、促进就业,政府试图为失业者提供再就业奖励:如果失业者可以在限定的时间内重新就业,他将可以获得一定数额的奖金。政策会有效吗?第2页,讲稿共44张,创作于星期日02.10.20223试验数据试验数据不同奖金水平失业者的再就业时间(天)无奖金低奖金中奖金高奖金92869678100108927585939076888877878989797390757183947882828072756
2、878798172第3页,讲稿共44张,创作于星期日02.10.20224要研究的问题要研究的问题总体总体1 1,1 1(奖金(奖金=1=1)总体总体2 2,2 2 (奖金(奖金=2=2)总体总体3 3,3 3(奖金(奖金=3=3)样本样本1 1样本样本2 2样本样本3 3样本样本4 4总体总体4 4,4 4(奖金(奖金=4=4)第4页,讲稿共44张,创作于星期日02.10.20225各个总体的均值相等吗?各个总体的均值相等吗?Xf(X)1 2 3 4 Xf(X)3 1 2 4 第5页,讲稿共44张,创作于星期日02.10.20226失业保险案例:实验结果失业保险案例:实验结果1=无奖金无奖金
3、2=低奖金低奖金3=中奖金中奖金4=高奖金。根据实验结果,高奖金。根据实验结果,可以认为各总体的平均失业时间相同吗?可以认为各总体的平均失业时间相同吗?第6页,讲稿共44张,创作于星期日02.10.20227研究方法:两样本的研究方法:两样本的t检验?检验?n如果采用如果采用t检验法对多个总体均值进行差异显著检验法对多个总体均值进行差异显著性检验性检验,会出现如下问题:,会出现如下问题:n全部检验过程烦琐,做法不经济全部检验过程烦琐,做法不经济n无统一的总体方差估计无统一的总体方差估计,检验的精度降低,检验的精度降低n犯第一类错误的概率增大,检验的可靠性降犯第一类错误的概率增大,检验的可靠性降
4、低低第7页,讲稿共44张,创作于星期日02.10.20228思考思考n7岁儿童的平均身高为102,现测得某班12名7岁儿童身高分别为:n97、99、103、100、104、97、105、110、99、98、103、99n请问该班儿童身高与平均水平是否存在差异?第8页,讲稿共44张,创作于星期日02.10.20229方差分析可以用来比较多个均值方差分析可以用来比较多个均值n方差分析(方差分析(Analysisofvariance,ANOVA)的主要目的是通过)的主要目的是通过对对方差方差的比较来的比较来同时同时检验多个检验多个均值均值之间差异的显著性。之间差异的显著性。n可以看作可以看作t检验的
5、扩展,只比较两个均值时与检验的扩展,只比较两个均值时与t检验等价。检验等价。n20世纪世纪20年代由英国统计学家费喧(年代由英国统计学家费喧(R.A.Fisher)最早提)最早提出的,开始应用于生物和农业田间试验,以后在许多学出的,开始应用于生物和农业田间试验,以后在许多学科中得到了广泛应用。科中得到了广泛应用。第9页,讲稿共44张,创作于星期日02.10.202210ANOVA(analysis of variance)n由于方差分析法是通过比较有关方差的大小而由于方差分析法是通过比较有关方差的大小而得到结论的,所以在统计中,常常把运用方差得到结论的,所以在统计中,常常把运用方差分析法的活动
6、称为方差分析。分析法的活动称为方差分析。n方差分析的内容很广泛,既涉及到实验设计的方差分析的内容很广泛,既涉及到实验设计的模式,又关乎数据分析模型中因素效应的性质。模式,又关乎数据分析模型中因素效应的性质。本章在完全随机试验设计下,讨论固定效应模本章在完全随机试验设计下,讨论固定效应模型方差分析的基本原理与方法,重点介绍单因型方差分析的基本原理与方法,重点介绍单因素方差分析。素方差分析。第10页,讲稿共44张,创作于星期日02.10.202211方差分析中的基本假设方差分析中的基本假设n(1)在各个总体中因变量都服从正态分布;)在各个总体中因变量都服从正态分布;n(2)在各个总体中因变量的方差
7、都相等;)在各个总体中因变量的方差都相等;n(3)各个观测值之间是相互独立的。)各个观测值之间是相互独立的。第11页,讲稿共44张,创作于星期日02.10.202212n同一试验条件下的数据变异同一试验条件下的数据变异-随机因素影响随机因素影响n不同试验条件下,试验数据变异不同试验条件下,试验数据变异-随机因素随机因素和可能存在的系统性因素即试验因素共同影响和可能存在的系统性因素即试验因素共同影响试验数据变异原因(误差来源)分析试验数据变异原因(误差来源)分析第12页,讲稿共44张,创作于星期日02.10.202213实验数据误差类型实验数据误差类型n n随机误差随机误差随机误差随机误差n因素
8、的同一水平因素的同一水平(总体总体)下,样本各观察值之间的差异下,样本各观察值之间的差异n比如,同一奖金水平下不同不同人的失业时间是不同的比如,同一奖金水平下不同不同人的失业时间是不同的n这种差异可以看成是随机因素影响的结果,称为这种差异可以看成是随机因素影响的结果,称为随机误差随机误差随机误差随机误差 n系统误差系统误差n因素的不同水平因素的不同水平(不同总体不同总体)下,各观察值之间的差异下,各观察值之间的差异n比如,不同奖金水平之间的失业时间之间的差异比如,不同奖金水平之间的失业时间之间的差异n这种差异这种差异可能可能是由于是由于抽样的随机性抽样的随机性所造成的,所造成的,也可能也可能是
9、由于是由于奖金奖金本身本身所造成的,后者所形成的误差是由系统性因素造成的,称为所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差系统误差系统误差系统误差第13页,讲稿共44张,创作于星期日02.10.202214方差分析的实质与分析目的方差分析的实质与分析目的n方差分析的实质:观测值变异原因的数量分析。方差分析的实质:观测值变异原因的数量分析。n方差分析的目的:系统中是否存在显著性影响方差分析的目的:系统中是否存在显著性影响因素因素第14页,讲稿共44张,创作于星期日02.10.202215单因素方差分析模型(单因素方差分析模型(1)n单因素方差分析单因素方差分析:模型中有一个自变量
10、(因素)和一个因模型中有一个自变量(因素)和一个因变量。变量。n在失业保险实验中,假设张三在高奖金组,则在失业保险实验中,假设张三在高奖金组,则张三的失业时间张三的失业时间=高奖金组的平均失业时间高奖金组的平均失业时间 +随机因素带来的影响随机因素带来的影响=总平均失业时间总平均失业时间 +高奖金组平均值与总平均值之差高奖金组平均值与总平均值之差 +随机因素带来的影响随机因素带来的影响第15页,讲稿共44张,创作于星期日02.10.202216单因素方差分析模型(单因素方差分析模型(2)第16页,讲稿共44张,创作于星期日02.10.202217总变差(离差平方和)的分解总变差(离差平方和)的
11、分解n数据的误差用离差平方和数据的误差用离差平方和(sumofsquares)描述。描述。n组内离差平方和组内离差平方和(withingroups)n因素的同一水平因素的同一水平(同一个总体同一个总体)下样本数据的变异下样本数据的变异n比如,同一奖金水平下失业时间的差异比如,同一奖金水平下失业时间的差异n组内离差平方和只包含组内离差平方和只包含随机误差随机误差n组间离差平方和组间离差平方和(betweengroups)n因素的不同水平因素的不同水平(不同总体不同总体)下各样本之间的变异下各样本之间的变异n比如,四个奖金水平之间失业时间的差异比如,四个奖金水平之间失业时间的差异n组间离差平方和既
12、包括组间离差平方和既包括随机误差随机误差,也包括,也包括系统误差系统误差第17页,讲稿共44张,创作于星期日02.10.202218总变差(离差平方和)分解的图示总变差(离差平方和)分解的图示组间变异组间变异总变异总变异组内变异组内变异第18页,讲稿共44张,创作于星期日02.10.202219SSTSSASSE 总变差因素因素A A及随机因素导致及随机因素导致的变差的变差随机因素导致的变差随机因素导致的变差组间离差平方和组内离差平方和第19页,讲稿共44张,创作于星期日02.10.202220离差平方和的自由度与均方离差平方和的自由度与均方n三个平方和的自由度分别是三个平方和的自由度分别是n
13、SST的自由度为的自由度为nk-1,nk为全部观察值的个数为全部观察值的个数nSSA的自由度为的自由度为k-1,其中,其中k为因素水平的个数为因素水平的个数nSSE的自由度为的自由度为nk-kn各离差平方和的大小与观察值的多少有关,为了消除观察值各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方,多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为方差。也称为方差。n均方的计算方法是用离差平方和除以相应的自由度。均方的计算方法是用离差平方和除以相应的自由度。第20页,讲稿共44张,创作于星期日02.10.202221组间离差平方和组
14、内离差平方和组间方差组间方差组内方差组内方差受因素A和随机因素的影响只受随机因素的影响第21页,讲稿共44张,创作于星期日02.10.202222F比值比值n如果因素如果因素A A的不同水平对结果没有影响,那么在组间方差中只包的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近含有随机误差,两个方差的比值会接近1 1n如果不同水平对结果有影响,组间方差就会大于组内方差,组间如果不同水平对结果有影响,组间方差就会大于组内方差,组间方差与组内方差的比值就会大于方差与组内方差的比值就会大于1 1n当这个比值大到某种程度时,就可以说不同水平之间存在显著差异,或当这个比值大到
15、某种程度时,就可以说不同水平之间存在显著差异,或者说因素者说因素A A对结果有显著影响。对结果有显著影响。组间方差组间方差组内方差组内方差F=第22页,讲稿共44张,创作于星期日02.10.202223F比的分布比的分布F 分布曲线第23页,讲稿共44张,创作于星期日02.10.202224F分布与拒绝域分布与拒绝域如果均值相等,如果均值相等,如果均值相等,F F F=MSAMSAMSA/MSEMSEMSE1 1 1 F F 分布显著水分布显著水分布显著水分布显著水平下的临界点平下的临界点平下的临界点平下的临界点F(k-1,nk-k)0 0拒绝拒绝拒绝拒绝HH0 0不能拒绝不能拒绝不能拒绝不能
16、拒绝H H H H0 0 0 0F F第24页,讲稿共44张,创作于星期日02.10.202225方差分析的基本思想方差分析的基本思想n将将k k个水平(处理)的观测值作为一个整体看个水平(处理)的观测值作为一个整体看待,利用方差的可分解性,把观测值总变异的待,利用方差的可分解性,把观测值总变异的离差平方和及自由度分解为相应于不同变异来离差平方和及自由度分解为相应于不同变异来源的离差平方和及自由度,进而获得不同变异源的离差平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差来源总体方差估计值;通过计算这些总体方差估计值的适当比值,即估计值的适当比值,即F F比值,并以此比值
17、的比值,并以此比值的大小来判断各样本所属总体平均数是否相等。大小来判断各样本所属总体平均数是否相等。目的是检查所讨论因素是否作为系统性因素来目的是检查所讨论因素是否作为系统性因素来影响试验结果。影响试验结果。第25页,讲稿共44张,创作于星期日02.10.202226思考题思考题n有三台机器生产规格相同的铝合金薄板,为检有三台机器生产规格相同的铝合金薄板,为检验三台机器生产薄板的厚度是否相同,随验三台机器生产薄板的厚度是否相同,随机从机从每台机器生产的薄板中各抽取了每台机器生产的薄板中各抽取了5个样品,测个样品,测得结果如下:得结果如下:机器机器1:0.236,0.238,0.248,0.24
18、5,0.243机器机器2:0.257,0.253,0.255,0.254,0.261机器机器3:0.258,0.264,0.259,0.267,0.262问:三台机器生问:三台机器生产薄板的厚度是否有显著差异?产薄板的厚度是否有显著差异?第26页,讲稿共44张,创作于星期日02.10.202227思考:有无差异?思考:有无差异?n某化肥生产商需要检验三种新产品的效果,在某化肥生产商需要检验三种新产品的效果,在同一地区选取同一地区选取3块同样大小的农田进行试验,块同样大小的农田进行试验,甲农田中使用甲化肥,在乙农田使用乙化肥,甲农田中使用甲化肥,在乙农田使用乙化肥,在丙地使用丙化肥,得到在丙地使
19、用丙化肥,得到6次试验的结果如表次试验的结果如表2所示,试在所示,试在0.05的显著性水平下分析甲乙丙化的显著性水平下分析甲乙丙化肥的肥效是否存在差异?、肥的肥效是否存在差异?、甲甲504649524848、乙乙495047474649、丙丙515049465050第27页,讲稿共44张,创作于星期日02.10.202228方差分析检验的步骤方差分析检验的步骤n1.1.检验数据是否符合方差分析的假设条件。检验数据是否符合方差分析的假设条件。n2.2.提出零假设和备择假设:提出零假设和备择假设:n零假设:各总体的均值之间没有显著差异,即零假设:各总体的均值之间没有显著差异,即n备择假设:至少有两
20、个均值不相等,即备择假设:至少有两个均值不相等,即第28页,讲稿共44张,创作于星期日02.10.202229方差分析的步骤方差分析的步骤n3.3.根据样本计算根据样本计算F F统计量的值。统计量的值。方差分析表变差来源离差平方和SS自由度df均方MSF值组 间SSAk-1MSAMSA/MSE组 内SSEnk-kMSE总变异SSTnk-1第29页,讲稿共44张,创作于星期日02.10.202230方差分析的步骤方差分析的步骤n4.4.确定决策规则并根据实际值与临界值的确定决策规则并根据实际值与临界值的比较,或者比较,或者p-p-值与值与的比较得出检验结论。的比较得出检验结论。在零假设成立时组间
21、方差与组内方差的比值服从在零假设成立时组间方差与组内方差的比值服从服从自服从自由度为由度为(k-1,nk-k)的的F 分布分布 临界值拒绝域p-值实际值 F检验的临界值和拒绝域 第30页,讲稿共44张,创作于星期日02.10.202231失业保险的例子(失业保险的例子(1)n在失业保险实验中,在失业保险实验中,设显著性水平设显著性水平=0.05,试分析奖,试分析奖金水平对失业时间金水平对失业时间的影响是否显著的影响是否显著。不同奖金水平失业者的再就业时间(天)无奖金低奖金中奖金高奖金92869678100108927585939076888877878989797390757183947882
22、828072756878798172第31页,讲稿共44张,创作于星期日02.10.202232失业保险的例子失业保险的例子(2)n1、根据前面的分析,数据符合方差分析的假设条件。、根据前面的分析,数据符合方差分析的假设条件。n2、提出零假设和备择假设:、提出零假设和备择假设:nH0:1234,nH1:1、2、3、4 不全相等。不全相等。第32页,讲稿共44张,创作于星期日02.10.202233失业保险的例子失业保险的例子(3)n3、计算、计算F统计量的实际值。统计量的实际值。手工计算可以按照方差分析表的内容逐步计算。由于手工计算可以按照方差分析表的内容逐步计算。由于计算量大,实际应用中一般
23、要借助于统计软件。下面计算量大,实际应用中一般要借助于统计软件。下面是是Excel计算的方差分析表。计算的方差分析表。变差来源SS自由度MSFp-值F临界值组间624.973208.323.040.04332.90组内2195.333268.60总变差2820.3135第33页,讲稿共44张,创作于星期日02.10.202234失业保险的例子失业保险的例子(4)n4、样本的、样本的F值为值为3.04。n由于由于因此我们应拒绝零假设,从而得出奖金水平对再就业时间有因此我们应拒绝零假设,从而得出奖金水平对再就业时间有显著影响的结论。显著影响的结论。n类似的,由于类似的,由于,可以得出同,可以得出同
24、样的结论。样的结论。2.90.04330.053.04第34页,讲稿共44张,创作于星期日02.10.202235例例2热带雨林热带雨林(1)n各水平下的样本容量不同时单因素方差分析的方各水平下的样本容量不同时单因素方差分析的方法也完全适用,只是公式的形式稍有不同,在使法也完全适用,只是公式的形式稍有不同,在使用软件进行分析时几乎看不出这种差别。用软件进行分析时几乎看不出这种差别。一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据
25、数据,采伐对树木数量有显著影响吗?显著性水平=0.05。第35页,讲稿共44张,创作于星期日02.10.202236例例2热带雨林热带雨林(2)n1、正态性检验:直方图、正态性检验:直方图从未采伐过1年前采伐过8年前采伐过271218221242915222191519201833181916172220141224141227228171919第36页,讲稿共44张,创作于星期日02.10.202237例例2热带雨林热带雨林(3)n同方差性检验:最大值与最小值之比等于同方差性检验:最大值与最小值之比等于33.19/4.81=1.34,明显小于,明显小于4,因此可以认为是等方差的。,因此可以认
26、为是等方差的。组计数求和平均方差从未采伐过1228523.75 25.66 1年前采伐过1216914.08 24.81 8年前采伐过914215.78 33.19 第37页,讲稿共44张,创作于星期日02.10.202238例例2热带雨林热带雨林(4)n2、提出零假设和备择假设、提出零假设和备择假设n零假设:雨林采伐对林木数量没有显著影响零假设:雨林采伐对林木数量没有显著影响(各组均值相等);(各组均值相等);n备择假设:雨林采伐对是有显著影响(各组备择假设:雨林采伐对是有显著影响(各组均值不全相等)。均值不全相等)。第38页,讲稿共44张,创作于星期日02.10.202239例例2热带雨林
27、热带雨林(5)n3、方差分析表、方差分析表n4、结论。、结论。nF值值=11.433.32,p-值值=0.00020.05,因此检验的结,因此检验的结论是采伐对林木数量有显著影响。论是采伐对林木数量有显著影响。变差源SSdfMSFP-valueF crit组间625.162312.5811.430.00023.32组内820.723027.36总计1445.8832第39页,讲稿共44张,创作于星期日02.10.202240思考:是否意味着每两个处理平均数间的差异思考:是否意味着每两个处理平均数间的差异都显著或极显著都显著或极显著?n例:测定东北、内蒙古、例:测定东北、内蒙古、河北、安徽、贵州
28、河北、安徽、贵州5个地个地区黄鼬冬季针毛的长度,区黄鼬冬季针毛的长度,每个地区随机抽取每个地区随机抽取4个样个样本,测定的结果如表,本,测定的结果如表,试比较各地区黄鼬针毛试比较各地区黄鼬针毛长度差异显著性。长度差异显著性。地区东北内蒙古河北安徽贵州合计132.029.225.223.322.3232.827.426.125.122.5331.226.325.825.122.9430.426.726.725.523.7和126.4109.6104.199.091.4530.5平均31.6027.4026.0324.7522.8526.53第40页,讲稿共44张,创作于星期日02.10.2022
29、41方差分析中的多重比较方差分析中的多重比较n在方差分析中,不拒绝零假设在方差分析中,不拒绝零假设H H0 0,表示拒绝总体均数相等的,表示拒绝总体均数相等的证据不足证据不足,分析终止;当零假设分析终止;当零假设H H0 0被拒绝时,我们可以确定被拒绝时,我们可以确定至少有两个总体的均值有显著差异。但要进一步检验哪些均至少有两个总体的均值有显著差异。但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析。这值之间有显著差异还需要采用多重比较的方法进行分析。这在方差分析中称为在方差分析中称为事后检验事后检验(Post Hoc test)(Post Hoc test)。n多重比较多重
30、比较是是同时同时对各个总体均值进行的两两比较。方法很对各个总体均值进行的两两比较。方法很多,如多,如FisherFisher最小显著差异(最小显著差异(Least Significant Least Significant DifferenceDifference,LSDLSD)方法、)方法、TukeyTukey的诚实显著差异(的诚实显著差异(HSDHSD)方)方法或法或BonferroniBonferroni的方法等。这里我们只介绍最小显著差异方的方法等。这里我们只介绍最小显著差异方法。法。第41页,讲稿共44张,创作于星期日02.10.202242用用LSD法进行多重比较的步骤法进行多重比
31、较的步骤n1 1、提出假设、提出假设nH0:m mi=m mjnH1:m mi m mjn2 2、计算、计算检验的统计量检验的统计量 n3a3a、如果如果 或或 则拒绝则拒绝H H0 0。n3b3b、计算、计算 的置信区间:的置信区间:如果如果0 0包含在该置信区间内则不能拒绝包含在该置信区间内则不能拒绝H H0 0,否则拒绝,否则拒绝H H0 0。第42页,讲稿共44张,创作于星期日02.10.202243实例:失业保险实验实例:失业保险实验n根据第一个总体和第四个总体计算的根据第一个总体和第四个总体计算的t统计量统计量n利用统计软件可以计算出利用统计软件可以计算出t检验的临界值检验的临界值由于由于,因此我们有证据表明,因此我们有证据表明无奖金组与高奖金组的再就业时间有显著差异。其他奖无奖金组与高奖金组的再就业时间有显著差异。其他奖金水平效应之间差异的显著性也可以用类似的方法计算。金水平效应之间差异的显著性也可以用类似的方法计算。第43页,讲稿共44张,创作于星期日02.10.2022感感谢谢大大家家观观看看第44页,讲稿共44张,创作于星期日