《统计学第七章方差分析幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学第七章方差分析幻灯片.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学第七章方差分析第1页,共46页,编辑于2022年,星期二 方差分析方差分析(Analysis of Variance,ANOVA)是假设检验的一种延续与扩展,它可以解决诸如多个均值是否相等等方面的检验问题,在因素分析中具有一定的优势。例例4:一个儿童食品制造商生产儿童麦片,该制造商认为以下三种因素影响麦片味道:(1)麦片中小麦与玉米的比例;(2)甜味剂类型的选择:糖、蜂蜜等;(3)制作时间的长短。该例中该例中,食品制造商通过生产出不同类型的麦片并邀请儿童进行品尝试验品尝试验,最后发现:(1)麦片成份及甜味剂类型对麦片食味有很大影响;(2)制作时间对麦片食味没有影响。一、一、方差分析的基本
2、问题方差分析的基本问题第2页,共46页,编辑于2022年,星期二 因此,因此,食品制造商可以对麦片成份及甜味剂类食品制造商可以对麦片成份及甜味剂类型给予充分的关注以生产更合儿童口味的麦片,而型给予充分的关注以生产更合儿童口味的麦片,而对制作时间不必太介意对制作时间不必太介意。方差分析可以用来分析不同因素(如上例中小麦与玉米的比例、甜味剂类型、制作时间)对总体特征是否有显著影响。所以叫方差分析,因为虽然我们感兴趣的是均值,但在所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差判断均值之间是否有差异时则需要借助于方差 这个名字也表示:它是通过对数据误差来源的分
3、析这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源析时,需要考察数据误差的来源第3页,共46页,编辑于2022年,星期二 方差分析主要用来对方差分析主要用来对多个总体均值是否相等多个总体均值是否相等作出假作出假设检验设检验。例:例:某饮料制造商生产一种新型饮料,共有四种颜色:(1)橘黄、(2)粉红、(3)绿色、(4)无色。该制造商想知道颜色是否对销售量有显著影响该制造商想知道颜色是否对销售量有显著影响,随机抽取了5家超市前一期的销售量(下表)进行分析。一、方差分析的内容一、方差分析的
4、内容第4页,共46页,编辑于2022年,星期二 下表下表 四种饮料销售量情况四种饮料销售量情况 样本均值 27.32 29.56 26.44 31.46 样本方差 2.67 2.14 3.31 1.66 样本标准差 1.64 1.46 1.82 1.29四种颜色可以看作是四个总体四种颜色可以看作是四个总体第5页,共46页,编辑于2022年,星期二其中,i(I=1,2,3,4)表示所有饮料(无色、粉红、橘黄、绿色)销售量之均值。样本来自于一个相同的总体样本来自于不同的总体 要知道颜色是否对饮料销售有显著影响,就是要知道四种颜色饮料销售量的均值是否有显著差异,即进行下述假设检验:H0:1=2=3=
5、4 H1:四个总体均值不全相等四个总体均值不全相等第6页,共46页,编辑于2022年,星期二 1 1、相关术语、相关术语、相关术语、相关术语 因素因素:是一个独立的变量,是方差分析的研究对象 (上例中的饮料颜色颜色);二、方差分析的假设二、方差分析的假设 单因素方差分析单因素方差分析:只针对一个因素进行分析;多因素方差分析多因素方差分析:同时针对多个因素进行分析。水平水平:因素中的内容 (上例中饮料的四种颜色:无色、粉色、橘黄色、绿色)第7页,共46页,编辑于2022年,星期二2 2、进行方差分析必须满足如、进行方差分析必须满足如、进行方差分析必须满足如、进行方差分析必须满足如下下假设假设假设
6、假设 (1 1)每个总体的相应变量(因素)服从正态分布对对于于因因素素的的每每一一个个水水平平,其其观观察察值值是是来来自自服服从从正正态态分分布布总总体的简单随机样本体的简单随机样本 比如,每种颜色饮料的销售量必需服从正态分布比如,每种颜色饮料的销售量必需服从正态分布(2 2)所有总体相应变量(因素)的方差相等2 对于各组观察数据,是从具有相同方差的总体中抽取的对于各组观察数据,是从具有相同方差的总体中抽取的比如,四种颜色饮料的销售量的方差都相同比如,四种颜色饮料的销售量的方差都相同(3 3)不同观察值(水平)相互独立(每个样本点的取值不影响其他样本点的取值)比如,每个超市的销售量都与其他超
7、市的销售量独立比如,每个超市的销售量都与其他超市的销售量独立第8页,共46页,编辑于2022年,星期二1.在上述假定条件下,判断颜色对销售量是否有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等的问题 2.如果四个总体的均值相等,可以期望四个样本的均值也会很接近四个样本的均值越接近,我们推断四个总体均值相等的证据也就越充分样本均值越不同,我们推断总体均值不同的证据就越充分 第9页,共46页,编辑于2022年,星期二n 如果原假设成立,即H0:1=2=3=4n四种颜色饮料销售的均值都相等n没有系统误差n 这意味着每个样本都来自均值为、差为2的同一正态总体 X X Xf(X)f(X
8、)f(X)1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 第10页,共46页,编辑于2022年,星期二n如果备择假设成立,即H1:i(i=1,2,3,4)不全相等n至少有一个总体的均值是不同的n有系统误差n 这意味着四个样本分别来自均值不同的四个正态总体 X X Xf(X)f(X)f(X)3 3 3 3 1 1 1 1 2 2 2 2 4 4 4 4 第11页,共46页,编辑于2022年,星期二 观察值之间的差异来自两个方面:某因素不同水平的影响(系统性影响)其他随机因素的影响(随机性影响)水平间方差(组间方差)水平内方差(组内方差)三、方差分析的原理三、方差分析的原理 如果原
9、假设成立:如果原假设成立:说明某因素不同水平的影响不显著(无系统性影响),只剩下随机性影响,因此组间方差与组内方差差别不大,它们的比接近于1。如果原假设不成立:如果原假设不成立:说明某因素不同水平的影响显著(存在系统性影响),组间方差与组内方差差别较大,它们的比远超出1。第12页,共46页,编辑于2022年,星期二二、单因素方差分析的步骤二、单因素方差分析的步骤提出假设提出假设构造检验统计量构造检验统计量统计决策统计决策第13页,共46页,编辑于2022年,星期二提出假设1.一般提法H0:1=2=k (因素有k个水平)H1:1,2,k不全相等2.对前面的例子H0:1=2=3=4颜色对销售量没有
10、影响H0:1,2,3,4不全相等颜色对销售量有影响第14页,共46页,编辑于2022年,星期二构造检验的统计量1.为检验H0是否成立,需确定检验的统计量 2.构造统计量需要计算水平的均值全部观察值的总均值离差平方和均方(MS)第15页,共46页,编辑于2022年,星期二构造检验的统计量(计算水平的均值)1.假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数2.计算公式为 式中:式中:n ni i为第为第 i i 个总体的样本观察值个数个总体的样本观察值个数 x xij ij 为第为第 i i 个总体的第个总体的第 j j 个观察值个
11、观察值 第16页,共46页,编辑于2022年,星期二构造检验的统计量(计算全部观察值的总均值)1.全部观察值的总和除以观察值的总个数2.计算公式为 第17页,共46页,编辑于2022年,星期二构造检验的统计量(前例计算结果)表表8-2 四种颜色饮料的销售量及均值四种颜色饮料的销售量及均值超市超市(j)水平水平A(i)无色无色(A1)粉色粉色(A2)橘黄色橘黄色(A3)绿色绿色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合计合计136.6147.8132.2157
12、.3573.9水平均值水平均值观察值个数观察值个数 x1=27.32n1=5x2=29.56n2=5x3=26.44n3=5x4=31.46n4=5总均值总均值x=28.695第18页,共46页,编辑于2022年,星期二构造检验的统计量(计算总离差平方和 SST)1.全部观察值 与总平均值 的离差平方和2.反映全部观察值的离散状况3.其计算公式为 前例的计算结果:前例的计算结果:SST SST=(26.5-28.695)=(26.5-28.695)2 2+(28.7-28.695)+(28.7-28.695)2 2+(32.8-28.695)(32.8-28.695)2 2 =115.9295
13、 =115.9295第19页,共46页,编辑于2022年,星期二构造检验的统计量(计算误差项平方和 SSE)1.每个水平或组的各样本数据与其组平均值的离差平方和2.反映每个样本各观察值的离散状况,又称组内离差平方和3.该平方和反映的是随机误差的大小4.计算公式为 前例的计算结果:前例的计算结果:SSE SSE=39.084=39.084第20页,共46页,编辑于2022年,星期二构造检验的统计量(计算水平项平方和 SSA)1.各组平均值 与总平均值 的离差平方和2.反映各总体的样本均值之间的差异程度,又称组间平方和3.该平方和既包括随机误差,也包括系统误差4.计算公式为 前例的计算结果:前例的
14、计算结果:SSA SSA=76.8455=76.8455第21页,共46页,编辑于2022年,星期二构造检验的统计量(三个平方和的关系)总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和(SSA)之间的关系SST=SSE+SSA第22页,共46页,编辑于2022年,星期二构造检验的统计量(三个平方和的作用)1.SST反映了全部数据总的误差程度;SSE反映了随机误差的大小;SSA反映了随机误差和系统误差的大小2.如果原假设成立,即H1 H2 Hk为真,则表明没有系统误差,组间平方和SSA除以自由度后的均均方方与组内平方和SSE和除以自由度后的均均方方差异就不会太大;如果组组间间
15、均均方方显著地大于组组内内均均方方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差3.判断因素的水平是否对其观察值有影响,实际上就是比较组组间间方差方差与组内方差组内方差之间差异的大小4.为检验这种差异,需要构造一个用于检验的统计量第23页,共46页,编辑于2022年,星期二构造检验的统计量(计算均方 MS)1.各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为均方差2.计算方法是用离差平方和除以相应的自由度3.三个平方和的自由度分别是SST 的自由度为n-1,其中n为全部观察值的个数SSA的自由度为k-1,其中k为因素水
16、平(总体)的个数SSE 的自由度为n-k第24页,共46页,编辑于2022年,星期二构造检验的统计量(计算均方 MS)1.SSA的均方也称组组间间方方差差,记为MSA,计算公式为2.SSESSE的均方也称的均方也称组内方差组内方差,记为MSEMSE,计算公式为,计算公式为第25页,共46页,编辑于2022年,星期二构造检验的统计量(计算检验的统计量 F)1.将MSA和MSE进行对比,即得到所需要的检验统计量F2.当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布,即 第26页,共46页,编辑于2022年,星期二构造检验的统计量(F分布与拒绝域)如果均值相等,如果
17、均值相等,如果均值相等,如果均值相等,如果均值相等,如果均值相等,F FF=MSAMSAMSA/MSEMSEMSE1 1 1 F 分布分布F(k-1,n-k)0 0拒绝拒绝拒绝拒绝HH0 0不能拒绝不能拒绝不能拒绝不能拒绝H H H H0 0 0 0F F第27页,共46页,编辑于2022年,星期二 对原假设:H0:1=2=3=4 及备择假设:H1:四个总体均值不全相等四个总体均值不全相等 计算F值:F=MSA/MSEF=MSA/MSE=25.6152/2.4428=10.486 给出显著性水平:=0.05,查F(r-1,n-r)分布表临界值:3.24 由于计算的F=10.4863.24,拒绝
18、原假设,从而得出:颜色颜色对该公司饮料销售有显著影响。对该公司饮料销售有显著影响。第28页,共46页,编辑于2022年,星期二第29页,共46页,编辑于2022年,星期二三、双因素方差分析1.分析两个因素(因素A和因素B)对试验结果的影响 2.分别对两个因素进行检验,分析是一个因素在起作用,还是两个因素都起作用,还是两个因素都不起作用3.如果A和B对试验结果的影响是相互独立的,分别判断因素A和因素B对试验指标的影响,这时的双因素方差分析称为无交互作用的双因素方差分析4.如果除了A和B对试验结果的单独影响外,因素A和因素B的搭配还会对销售量产生一种新的影响,这时的双因素方差分析称为有交互作用的双
19、因素方差分析 5.对于无交互作用的双因素方差分析,其结果与对每个因素分别进行单因素方差分析的结果相同第30页,共46页,编辑于2022年,星期二双因素方差分析中需假设两个因素不交互作用,即双因素方差分析中需假设两个因素不交互作用,即各自独立地发挥影响作用各自独立地发挥影响作用。(一)数据结构(一)数据结构 双因素方差分析双因素方差分析第31页,共46页,编辑于2022年,星期二双因素方差分析的数据结构 是因素是因素A A的第的第i i个水平下各观察值的平均值个水平下各观察值的平均值 是因素是因素B B的第的第j j个水平下的各观察值的均值个水平下的各观察值的均值 是全部是全部 kr kr 个样
20、本数据的总平均值个样本数据的总平均值第32页,共46页,编辑于2022年,星期二双因素方差分析的步骤第33页,共46页,编辑于2022年,星期二提出假设1.对因素A提出的假设为H0:1=2=i=k (i为第i个水平的均值)H1:i (i=1,2,k)不全相等2.对因素B提出的假设为H0:1=2=j=r (j为第j个水平的均值)H1:j(j=1,2,r)不全相等第34页,共46页,编辑于2022年,星期二构造检验的统计量1.为检验H0是否成立,需确定检验的统计量 2.构造统计量需要计算总离差平方和水平项平方和误差项平方和均方 第35页,共46页,编辑于2022年,星期二构造检验的统计量(计算总离
21、差平方和 SST)1.全部观察值 与总平均值 的离差平方和2.反映全部观察值的离散状况3.计算公式为第36页,共46页,编辑于2022年,星期二构造检验的统计量(计算SSA、SSB和SSE)1.因素A的离差平方和SSA2.2.因素因素B的离差平方和的离差平方和SSB3.3.误差项平方和误差项平方和SSESSE第37页,共46页,编辑于2022年,星期二构造检验的统计量(各平方和的关系)总离差平方和(SST)、水平项离差平方和(SSA和SSB)、误差项离差平方和(SSE)之间的关系SST=SSA+SSB+SSE 第38页,共46页,编辑于2022年,星期二构造检验的统计量(计算均方 MS)1.各
22、离差平方和的大小与观察值的多少有关,为消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为方差2.计算方法是用离差平方和除以相应的自由度3.三个平方和的自由度分别是总离差平方和SST的自由度为 kr-1因素A的离差平方和SSA的自由度为 k-1因素B的离差平方和SSB的自由度为 r-1随机误差平方和SSE的自由度为(k-1)(r-1)第39页,共46页,编辑于2022年,星期二构造检验的统计量(计算均方 MS)1.因素A的均方,记为MSA,计算公式为2.2.因素因素B B的均方,记为的均方,记为MSBMSB ,计算公式为,计算公式为3.3.随机误差项的均方,记为随机误差项的均
23、方,记为MSEMSE ,计算公式为,计算公式为第40页,共46页,编辑于2022年,星期二构造检验的统计量(计算检验的统计量 F)1.为检验因素A的影响是否显著,采用下面的统计量 2.为检验因素为检验因素B的影响是否显著,采用下面的统计量的影响是否显著,采用下面的统计量 第41页,共46页,编辑于2022年,星期二统计决策 将统计量的值F与给定的显著性水平的临界值F进行比较,作出接受或拒绝原假设H0的决策根据给定的显著性水平在F分布表中查找相应的临界值 F 若FA F,则拒绝原假设H0,表明均值之间的差异是显著的,即所检验的因素(A)对观察值有显著影响若FB F,则拒绝原假设H0,表明均值之间
24、有显著差异,即所检验的因素(B)对观察值有显著影响 第42页,共46页,编辑于2022年,星期二双因素方差分析表(基本结构)方差来源方差来源平方和平方和SS自由度自由度df均方均方MSF值值 因素因素A 因素因素B误差误差总和总和SSASSBSSESSTk-1r-1(k-1)(r-1)kr-1MSAMSBMSEFAFB第43页,共46页,编辑于2022年,星期二双因素方差分析 不同品牌的彩电在各地区的销售量数据不同品牌的彩电在各地区的销售量数据 品牌品牌(因素因素A)销售地区销售地区(因素因素B)B1B2B3B4B5A1A2A3A4365345358288 350368323280 34336
25、3353298 340330343260 323333308298【例例例例】有有四四个个品品牌牌的的彩彩电电在在五五个个地地区区销销售售,为为分分析析彩彩电电的的品品牌牌(因因素素A A)和和销销售售地地区区(因因素素B B)对对销销售售量量是是否否有有影影响响,对对每每个个品品牌牌在在各各地地区区的的销销售售量量取取得得以以下下数数据据,见见下下表表。试试分分析析品品牌牌和和销销售售地地区区对对彩彩电电的销售量是否有显著影响?的销售量是否有显著影响?第44页,共46页,编辑于2022年,星期二双因素方差分析(提出假设)1.对因素A提出的假设为H0:1=2=3=4 (品牌对销售量没有影响)H
26、1:i (i=1,2,4)不全相等 (品牌对销售量有影响)2.对因素B提出的假设为H0:1=2=3=4=5 (地区对销售量没有影响)H1:j(j=1,2,5)不全相等 (地区对销售量有影响)第45页,共46页,编辑于2022年,星期二双因素方差分析(Excel 输出的结果)结论:结论:结论:结论:F FA A18.1077718.10777F F 3.49033.4903,拒绝原假设,拒绝原假设H H0 0,说明彩电的品,说明彩电的品牌对销售量有显著影响牌对销售量有显著影响 F FB B2.100846 2.100846 F F 3.25923.2592,接受原假设,接受原假设H H0 0,说明销售地区对,说明销售地区对彩电的销售量没有显著影响彩电的销售量没有显著影响第46页,共46页,编辑于2022年,星期二