《《应用统计学》第八章.pptx》由会员分享,可在线阅读,更多相关《《应用统计学》第八章.pptx(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、应用统计学第八章第八章 方差分析方差分析2 目录页CONTENTS PAGE引导案例 哪种促销方式效果最好?某连锁超市为了研究不同促销手段对商品销售额的影响,选择了某类日常生活用品,在其下属的5个门店分别采用某种促销方式各进行了为期4个月的试验。试验前,该类商品在这5个门店的月销售额基本处于同一水平,试验结果如表8-1所示。3 目录页CONTENTS PAGE 其中,“通常销售”是指不采用任何促销手段,“广告宣传”是指没有价格优惠的单纯广告促销,“买一送一”是指买一件商品送另一件小商品。现该公司管理部门希望了解的是:不同的促销方式是否对该类商品销售额的增长有显著影响?若有显著影响,哪种促销方式
2、效果最好?是否任意两种促销方式的效果之间都存在显著差异?要想解决上述问题,可以借助方差分析及多重比较方法。4 目录页CONTENTS PAGE第一节方差分析概述第二节单因素方差分析第三节双因素方差分析5 目录页CONTENTS PAGE第一节方差分析概述第二节单因素方差分析第三节双因素方差分析6 第八章方差分析第一节 方差分析概述一、方差分析中的相关术语表面上看,方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型因变量的影响,如变量之间有没有关系、关系的强度如何等。方差分析就是通过检验各总体的均值是否相等,来判断分类型自变量对数值型因变量是否有显著影响。为了
3、更好地理解方差分析,先通过一个例子来说明方差分析的有关概念及方差分析所要解决的问题。7 第八章方差分析第一节 方差分析概述8 第八章方差分析第一节 方差分析概述在方差分析中,所要检验的对象称为因素或因子;因素的不同表现称为水平或处理;每个因子水平下得到的样本数据称为观测值。例8-1中,“颜色”是要检验的对象,称为因素或因子;黄色、红色、绿色、白色是“颜色”这一因素的具体表现,称为水平或处理;在每个颜色下得到的样本数据(销售量)称为观测值。由于只涉及一个因素,因此称为单因素方差分析。单因素方差分析中,只涉及两个变量:一个是分类型自变量,一个是数值型因变量。例8-1中,“颜色”是分类型自变量,黄色
4、、红色、绿色、白色是“颜色”这个自变量的具体取值;“销售量”是数值型因变量,不同的销售量就是因变量的取值。9 第八章方差分析第一节 方差分析概述 图形描述(一)怎样判断颜色对运动衫的销售量是否有显著影响?或者说,颜色与运动衫销售量之间是否有显著的关系?我们画出它们的散点图,如图8-1所示,图中的那条折线是由各颜色销售量的均值连接而成的。二、方差分析的基本原理10 第八章方差分析第一节 方差分析概述从图8-1可以看出,不同颜色运动衫的销售量是有差异的,而且即使是同一种颜色,在不同超市的销售量也是有差异的。其中,红色运动衫的销售量最多,绿色运动衫的销售量最少。如果颜色对销售量没有影响,那么各种颜色
5、运动衫的销售量的均值应该是差不多相同的,在散点图上也应该比较接近。但通过散点图,我们还是没有足够的证据去证实各种颜色运动衫的销售量的差异是否达到了统计学上的显著水平,所以我们需要一种更精准的方法去推断,也就是方差分析。11 第八章方差分析第一节 方差分析概述 误差分解(二)方差分析认为观测值之间存在差异,差异产生的来源有两个方面:一个方面是由因素中不同水平造成的,如运动衫的不同颜色带来的不同销售量,我们称之为系统误差;另一个方面是由于抽选样本的随机性而产生的差异,如相同颜色的运动衫在不同商场的销售量也不同,我们称之为随机误差。在计算误差时,我们可以用两个方差来计量,即组间方差和组内方差。组间方
6、差即水平之间的方差,既包括系统误差,又包括随机误差;组内方差即水平内部的方差,仅包括随机误差。如果不同水平对结果没有影响,如运动衫的颜色对销售量不产生影响,那么组间方差就只包括随机误差,而不包括系统误差,它与组内方差应该近似,两个方差的比值会接近1。反之,如果不同水平对结果产生影响,组间方差中就不仅包括系统误差,还包括随机误差。这时,组间方差就比组内方差大,两个方差的比值就会显著地大于1,当这个比值大到某个程度,就可以判断不同水平之间存在着显著的差异。因此,方差分析就是通过不同方差的比较,作出拒绝或不拒绝原假设的判断。12 目录页CONTENTS PAGE第一节方差分析概述第二节单因素方差分析
7、第三节双因素方差分析13 第二节 单因素方差分析第八章方差分析一、数据结构进行单因素方差分析时,需要得到下面的数据结构,如表8-3所示。在单因素方差分析中,用A表示因素,因素的k个水平分别用 表示,每个观测值用 (,)表示,即 表示第 个水平的第 个观测值。其中,从不同水平中所抽取的样本量可以相等,也可以不相等。14 第二节 单因素方差分析第八章方差分析二、分析步骤在方差分析中,尽管不知道 个总体的均值是否相等,但可以用样本数据来检验它们是否相等。原假设描述的是不同类别的观测值的均值是相等的,因此,检验因素的 个水平的均值是否相等,需要针对总体提出以下原假设和备择假设:自变量对因变量没有显著影
8、响 不全相等自变量对因变量有显著影响式中,为第 个总体的均值。如果不拒绝原假设,则没有证据表明自变量对因变量有显著影响。如果拒绝原假设,意味着自变量对因变量有显著影响;此时,只是表明至少有两个总体均值不相等,并不意味着所有的均值都不相等。提出假设(一)15 第二节 单因素方差分析第八章方差分析根据例8-1提出的假设如下:颜色对销售量没有显著影响 不全相等颜色对销售量有显著影响16 第二节 单因素方差分析第八章方差分析假定从第j个总体中抽取一个容量为 的简单随机样本,令 为第j个总体的样本均值,则有:(8-1)式中,为第j个总体的样本量;为第j个总体的第i个观测值。样本均值可以用Excel中的A
9、VERAGE函数计算,将表8-2中的数据输入Excel,如图8-2所示。B8=AVERAGE(B3:B7),可算出。构造检验统计量(二)计算各样本的均值117 第二节 单因素方差分析第八章方差分析总均值是全部观测值的总和除以观测值的总个数。令总均值为 ,则有:(8-2)式中,。总均值也可用Excel中的AVERAGE函数计算,B10=AVERAGE(B3:E7),即 。计算全部观测值的总均值218 第二节 单因素方差分析第八章方差分析为构造检验统计量,在方差分析中,需要计算三个误差平方和,即总平方和、组间平方和与组内平方和。总平方和记为SST,它是全部观测值 与总平均值 的误差平方和,其计算公
10、式为:(8-3)SST可用Excel中的DEVSQ函数实现,B11=DEVSQ(B3:E7),即可算出总平方和为=464.95,它反映了全部25个观测值与总均值之间的差异。组间平方和记为SSA,它是各组平均值 与总均值 的误差平方和,反映各样本均值之间的差异程度,又称为回归平方和。其计算公式为:(8-4)计算各种误差平方和319 第二节 单因素方差分析第八章方差分析SSA也称为自变量效应或因子效应。SSA可以用Excel计算,具体步骤如下:B12=B9*(B8-$B10)2;选中B12,将鼠标放在右下角,出现“+”时,向右拉至E12处;F12=SUM(B12:E12),可算出SSA=218.9
11、5,它反映了自变量(颜色)对因变量(销售量)的影响,包括了系统误差和随机误差。组内平方和记为SSE,它是每个水平或组的各样本数据与其组平均值误差的平方和,反映了每个样本各观测值的离散状况,因此又称为残差平方和。SSE反映了随机误差的大小,其计算公式为:(8-5)20 第二节 单因素方差分析第八章方差分析在图8-2中,先求出每个颜色的销售量与其平均数的误差平方和,然后将四种颜色的误差平方和加总,即为组内平方和。SSE也称为残差效应,可用DEVSQ函数实现,具体步骤如下:B13=DEVSQ(B3:B7)=85.2;选中B13,鼠标放在右下角,出现“+”时,向右拉至E13处;F13=SUM(B13:
12、E13),就求出=246。它反映了除了自变量对因变量的影响之外,其他因素对因变量的总影响。上述三个平方和之间的关系为:(8-6)即总平方和(SST)=组间平方和(SSA)+组内平方和(SSE),从上面的计算结果也可以验证这一点:。可见,SST是全部数据总误差程度的度量,它反映了自变量和残差的共同影响,等于自变量效应加残差效应。21 第二节 单因素方差分析第八章方差分析由于误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以它们所对应的自由度,这一结果称为方差,也称为均方。三个平方和对应的自由度分别为:SST的自由度为 ,其中,n为全部
13、观测值的个数;SSA的自由度为 ,其中,k为因素水平(总体)的个数;SSE的自由度为 。由于要比较的是组间方差和组内方差之间的差异,所以通常只计算SSA和SSE的均方,分别计为MSA和MSE,其计算公式为:(8-7)(8-8)计算统计量422 第二节 单因素方差分析第八章方差分析从表8-2可知,。将上述 MSA和MSE 进行对比,即得到所需要的检验统计量 F。当原假设为真时,二者的比值服从分子自由度为 、分母自由度为 的F分布,即 (8-9)例如,根据图8-2,。综上所述,根据图8-2中的数据构造的检验统计量如图8-3所示。23 第二节 单因素方差分析第八章方差分析24 第二节 单因素方差分析
14、第八章方差分析如果原假设 成立,则表明没有系统误差,组间方差MSA 和组内方差 MSE的比值差异就不会太大;如果组间方差显著大于组内方差,说明各水平(总体)之间的差异不仅仅是随机误差造成的,还有系统误差。可见,判断因素水平是否对其观测值有显著影响,实际上也就是比较组间方差与组内方差之间差异的大小。那么,它们之间的差异大到何种程度,才表明有系统误差存在呢?这就需要用检验统计量进行判断,将统计量的值 F与给定的显著性水平a 的临界值 进行比较 ,从而作出对原假设 的决策。统计决策(三)25 第二节 单因素方差分析第八章方差分析根据给定的显著性水平a 和分子自由度为 、分母自由度为 ,用FINV函数
15、可以求出相应的临界值 。若 ,则拒绝 ,表明 之间的差异是显著的。也就是说,所检验的因素(颜色)对观测值(销售量)有显著影响。若 ,则不拒绝 ,表明 之间的差异不显著。也就是说,所检验的因素(颜色)对观测值(销售量)没有显著影响。根据上面的计算结果 ,用FINV函数求出临界值 。由于 ,则拒绝 ,表明不同颜色的销售量均值是有显著差异的,也就是说,颜色对销售量是有显著影响的。26 第二节 单因素方差分析第八章方差分析三、方差分析表上面介绍了方差分析的计算步骤和过程,为了使计算过程更加清晰,通常将上述过程的内容列在一张表内,这就是方差分析表。其一般形式如表8-4所示。27 第二节 单因素方差分析第
16、八章方差分析四、用Excel工具进行方差分析上述列表进行方差分析的过程对于帮助我们理解方差分析的基本原理是很有帮助的,但实际运用中,我们可以直接利用Excel软件中的数据分析工具实现,操作步骤如下:(1)选择“数据”“数据分析”“方差分析:单因素方差分析”菜单命令,打开“单因素方差分析”对话框,如图8-4所示。28 第二节 单因素方差分析第八章方差分析(2)选定输入区域(图8-2中的输入区域为B3:E7);水平 采用系统默认值0.05(也可根据需要确定);在“输出选项”中选择“新工作表组”单选按钮,然后单击“确定”按钮,系统即输出运行结果,如图8-5所示。29 第二节 单因素方差分析第八章方差
17、分析五、关系强度的测量图8-5的方差分析结果显示,不同颜色的运动衫销售量是有显著差异的,这意味着颜色(自变量)与销售量(因变量)之间的关系是显著的。组间平方和度量了自变量对因变量的影响效应,实际上,只要组间平方和不为零,就表明两个变量之间有关系。当组间平方和比组内平方和大,而且大到一定程度,意味着两个变量之间的关系显著,大得越多,表明它们之间的关系越强;反之,当组间平方和比组内平方和小时,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系越弱。所以,我们可以用组间平方和(SSA)占总平方和(SST)的比例大小来反映变量之间的关系强度,这一比例记为 ,即 (8-10)30 第二节 单
18、因素方差分析第八章方差分析例如,根据图8-5中的结果计算得 这表明,颜色(自变量)对销售量(因变量)的影响效应占总效应的47.091 1%,而残差效应则占了52.908 9%。也就是说,颜色对销售量的差异解释比例达到47.091 1%,而其他因素(残差变量)所解释的比例为52.908 9%。尽管 并不高,但颜色对销售量的影响已经达到了统计上的显著程度。的平方根可以用来测量自变量与因变量之间的关系强度。例如,根据上述结果可计算出 ,这表明颜色与销售量之间有中等以上的相关关系。31 第二节 单因素方差分析第八章方差分析六、方差分析中的多重比较通过对例8-1的分析,可得出以下结论:不同颜色的运动衫销
19、售量的均值不完全相同。但究竟是哪些颜色的销售量均值之间不相等,还需要进行进一步分析,所使用的方法就是多重比较方法,它是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。多重比较方法有许多种,这里介绍由费希尔提出的最小显著差异方法,缩写为LSD。采用该方法进行检验的具体步骤如下:(1)提出假设:,。(2)计算检验统计量:。(3)计算LSD,其公式为:(8-11)32 第二节 单因素方差分析第八章方差分析式中,可以通过TINV函数获得,为其自由度。MSE 为组内方差;和 分别是第 个样本和第 个样本的样本量。(4)根据显著性水平 a作出决策。如果 ,则拒绝 ;如果 ,则不拒绝 。3
20、3 目录页CONTENTS PAGE第一节方差分析概述第二节单因素方差分析第三节双因素方差分析34 第三节 双因素方差分析第八章方差分析一、双因素方差分析的类型在实际问题的研究中,影响因素可能不止一个。例如,分析影响空调销售量的因素时,需要考虑许多因素,包括价格、质量、品牌、销售地区等。当方差分析中涉及两个分类型自变量时,称为双因素方差分析。如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为无交互作用的双因素方差分析或无重复双因素方差分析。如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素
21、方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析。35 第三节 双因素方差分析第八章方差分析二、无交互作用的双因素方差分析 数据结构(一)在无交互作用的双因素方差分析中,由于有两个因素,在获取数据时,需要将一个因素安排在“行”的位置,称为行因素;另一个因素安排在“列”的位置,称为列因素。设行因素有k 个水平:行1,行2,行k;列因素有 r个水平:列1,列2,列r。行因素和列因素的每一个水平都可以搭配成一个样本,观察它们对试验数据的影响,共抽取 个观察数据,其数据结构如表8-5所示。36 第三节 双因素方差分析第八章方差分析37 第三节 双因素方差分析第八章方差分析表8-5中,是行因
22、素的第i个水平下各观察值的平均值,其计算公式为:(=1,2,k)(8-12)是列因素的第j个水平下各观察值的平均值,其计算公式为:(=1,2,r)(8-13)是全部kr个样本数据的总平均值,其计算公式为:(8-14)38 第三节 双因素方差分析第八章方差分析 检验统计量的构造(二)为了使检验统计量的构造过程更加清晰,将其列成方差分析表,其一般形式如表8-6所示。39 第三节 双因素方差分析第八章方差分析SST为总平方和,是全部样本观察值 (=1,2,;=1,2,)与总的样本平均值 的误差平方和,即 (8-15)其中,分解后的等式右边第一项是行因素所产生的误差平方和,记为SSR,即 (8-16)
23、第二项是列因素所产生的误差平方和,记为SSC,即 (8-17)40 第三节 双因素方差分析第八章方差分析第三项是除行因素和列因素之外的剩余因素影响产生的误差平方和,称为随机误差平方和,记为SSE,即 (8-18)上述平方和的关系为:(8-19)在误差平方和的基础上,计算方差。也就是将各平方和除以相应的自由度,即为方差或均方。行因素的方差,记为MSR;列因素的方差,记为MSC;随机误差项的方差,记为 MSE。其计算公式如下:41 第三节 双因素方差分析第八章方差分析其计算公式如下:(8-20)(8-21)(8-22)为检验行因素对因变量的影响是否显著,采用 作为检验统计量,其计算公式如下:(8-
24、23)为检验列因素对因变量的影响是否显著,采用 作为检验统计量,其计算公式如下:(8-24)42 第三节 双因素方差分析第八章方差分析 分析步骤(三)与单因素方差分析类似,双因素方差分析也包括提出假设、构造检验统计量、统计决策等步骤。43 第三节 双因素方差分析第八章方差分析44 第三节 双因素方差分析第八章方差分析45 第三节 双因素方差分析第八章方差分析 关系强度的测量(四)例8-2的方差分析显示,不同供应商生产的轮胎磨损程度之间是有显著差异的,这意味着供应商(行自变量)与磨损程度(因变量)之间的关系是显著的,且不同车速(列自变量)与磨损程度(因变量)之间的关系也是显著的。那么,两个自变量
25、联合起来对因变量的影响强度究竟如何呢?行平方和度量了行自变量(供应商)对因变量(磨损程度)的影响效应;列平方和度量了列自变量(车速)对因变量(磨损程度)的影响效应。我们可以把这两个平方和加在一起来度量两个自变量对因变量的联合效应,联合效应与总平方和的比值定义为 ,其平方根则反映了这两个自变量联合起来与因变量之间的关系强度。即 (8-25)46 第三节 双因素方差分析第八章方差分析例如,根据表8-8,计算得:这表明,供应商和车速合起来共解释了磨损程度差异的97.24%,其他因素(残差变量)只解释了磨损程度差异的2.76%。而 ,表明供应商和车速两个因素合起来与磨损程度之间有很强的关系。47 第三
26、节 双因素方差分析第八章方差分析三、有交互作用的双因素方差分析上面分析的两个因素对因变量的影响是独立的情况,但如果两个因素搭配在一起会对因变量产生一种新的效应,就需要考虑交互作用对因变量的影响,这就是有交互作用的双因素方差分析。从无交互作用的双因素方差分析的数据结构来看,一个行变量和一个列变量交叉作用下只会产生一个样本数据。而有交互作用的双因素方差分析的数据结构中,行因素和列因素的每一个水平都可以搭配成一组样本数据,也就是说,一个行变量和一个列变量交叉作用下会产生多个样本数据,其个数用m表示。有交互作用的方差分析表类似无交互作用的方差分析表,其一般形式如表8-9所示。48 第三节 双因素方差分析第八章方差分析谢谢观看