《(精品)方差分析(第六讲.ppt》由会员分享,可在线阅读,更多相关《(精品)方差分析(第六讲.ppt(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、方差分析方差分析均值差异性的假设检验均值差异性的假设检验l某学校给某学校给4组学生以四种方式辅导自学,一个学期后,学生独立思组学生以四种方式辅导自学,一个学期后,学生独立思考水平的提高数值为下表所示的数据:考水平的提高数值为下表所示的数据:方式方式1方式方式2方式方式3方式方式4374933494248344643454048404938524050374838453651问:问:4种方式对学生独立思考水平的提高是否有显著影响?种方式对学生独立思考水平的提高是否有显著影响?方差分析方差分析l方差分析是检验多个总体均值是否相等的统计方法。它是方差分析是检验多个总体均值是否相等的统计方法。它是通过
2、检验各总体的均值是否相等来判断分类型自变量对数通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。表面上看,方差分析是检验值型因变量是否有显著影响。表面上看,方差分析是检验多个总体的均值是否相同。但本质上,它所研究的是分类多个总体的均值是否相同。但本质上,它所研究的是分类型自变量对数值型因变量的影响。如他们之间有没有关系,型自变量对数值型因变量的影响。如他们之间有没有关系,关系的密切成都如何,等等关系的密切成都如何,等等l之所以叫做方差分析是因为在判断均值之间是否有差异时之所以叫做方差分析是因为在判断均值之间是否有差异时需要借助于方差。需要借助于方差。方差分析中基本概念
3、方差分析中基本概念l因变量因变量:试验的结果:试验的结果l因素(自变量)因素(自变量):也称为自变量或因子,就是指可能:也称为自变量或因子,就是指可能对因变量有影响的分类变量。对因变量有影响的分类变量。l水平水平:因素的不同取值等级(类别)。:因素的不同取值等级(类别)。l总体:因素的每一个水平可以看成是一个总体。总体:因素的每一个水平可以看成是一个总体。l方差分析:当研究分类型自变量对数值型因变量的影方差分析:当研究分类型自变量对数值型因变量的影响时,所用的分析方法。响时,所用的分析方法。l交互作用:如果一个因素的效应在另一因素不同水交互作用:如果一个因素的效应在另一因素不同水平下明显不同,
4、则称为两因素间存在交互作用。平下明显不同,则称为两因素间存在交互作用。l固定因素与随机因素:固定因素与随机因素:l固定因素指的是该因素在样本中所有可能的水平都出现固定因素指的是该因素在样本中所有可能的水平都出现了。了。l随机因素指的该因素所有可能的取值在样本中没有出现随机因素指的该因素所有可能的取值在样本中没有出现或不可能全部出现。或不可能全部出现。方差分析中的基本假定:方差分析中的基本假定:服从方差分析的三个基本的假定:服从方差分析的三个基本的假定:1、每个总体服从正态分布。、每个总体服从正态分布。2、每个总体的方差相同。、每个总体的方差相同。3、观测值是独立的。、观测值是独立的。T检验与方
5、差分析所研究的问题检验与方差分析所研究的问题lT检验:关于单因素双水平的问题检验:关于单因素双水平的问题l单因素方差分析:关于单因素多水平的问题单因素方差分析:关于单因素多水平的问题l多因素方差分析:关于多因素多水平的问题多因素方差分析:关于多因素多水平的问题l协方差分析:关于含不可控因素的问题协方差分析:关于含不可控因素的问题l当方差分析中只涉及一个分类型自变量时,当方差分析中只涉及一个分类型自变量时,称为单因素方差分析。称为单因素方差分析。lOne-way analysis of variance l对应对应spss菜单名称:菜单名称:one way ANOVAl研究对象:一个分类自变量对
6、一个数值型因研究对象:一个分类自变量对一个数值型因变量的影响。变量的影响。一、一、单因素方差分析单因素方差分析 (One-way ANOVA)单因素方差分析的基本思想单因素方差分析的基本思想l单因素方差分析用来研究一个控制变量(分类单因素方差分析用来研究一个控制变量(分类型变量)的不同水平是否对观测变量产生了显型变量)的不同水平是否对观测变量产生了显著影响。著影响。主要解决多于两个总体样本或变量间主要解决多于两个总体样本或变量间均值的比较问题。是一种对多个总体样本的均均值的比较问题。是一种对多个总体样本的均值是否存在显著差异的检验方法。值是否存在显著差异的检验方法。单因素方差分析单因素方差分析
7、主对话框主对话框选入分析的变量即因变量比较分组的变量见图见图 32 多项式比较对话框多项式比较对话框进行均值的多项式进行均值的多项式比较,并在其后的比较,并在其后的参数框中选定阶数参数框中选定阶数 。如一阶:。如一阶:Linear,二阶:二阶:Quadratic,三阶:三阶:Cubic.最高可达五阶最高可达五阶输入多项式各组均值的系数输入多项式各组均值的系数,输入一个系数单击输入一个系数单击Add按钮。系数按钮。系数进入下面方框进入下面方框.依次输入各组均值的系数。依次输入各组均值的系数。如果多项式中只包括第一与第四组的均值的系数如果多项式中只包括第一与第四组的均值的系数,必须把第二、必须把第
8、二、第三个系数输入为第三个系数输入为0。如果只包括第一与第二组的均值如果只包括第一与第二组的均值,则第三、第四个可不输入。则第三、第四个可不输入。可同时建多个多项式,输入一组后按可同时建多个多项式,输入一组后按Next按钮;如果要修改则按钮;如果要修改则按按Previous按钮,修改后按按钮,修改后按Change按钮,删除按按钮,删除按Remove按钮。按钮。显示每组系显示每组系数的总和。数的总和。33 Post Hoc对话框对话框在此对话框中选择进行多重比较的方法在此对话框中选择进行多重比较的方法1.用用t检验完成组间成对均值的比较,对多重比较错误率不检验完成组间成对均值的比较,对多重比较错
9、误率不 进行调整进行调整2.同上,但通过设置每个检验的误差率来控制整个误差率同上,但通过设置每个检验的误差率来控制整个误差率3.用用t检验完成多重配对比较,为多重比较调整显著值,但检验完成多重配对比较,为多重比较调整显著值,但 比比2的界限要小的界限要小4.对所有可能的组合进行同步进入的均值配对比较对所有可能的组合进行同步进入的均值配对比较5.用用F检验进行多重比较检验进行多重比较6.在在Studentized Range分布下进行多重比较分布下进行多重比较7.用用Studentized Range分布进行所有各组均值间的配对比分布进行所有各组均值间的配对比较较8.用用Studentized
10、Range统计量进行所有组间均值的配对比统计量进行所有组间均值的配对比较较,用所有配对比较集合的误差率作为试验误差率用所有配对比较集合的误差率作为试验误差率9.同同8,但但,其临界值是其临界值是TUKEY和和S-N-K的相应值的平均值的相应值的平均值10.进行配对比较时进行配对比较时,使用的逐步顺序与使用的逐步顺序与Student-Newman-Keuls检验的顺序一样检验的顺序一样,但并不是给每个检验设定一个误但并不是给每个检验设定一个误差差 率率,而是给所有检验的误差率设定一个临界值而是给所有检验的误差率设定一个临界值11.用用Studentized最大系数进行比较检验和范围检验最大系数进
11、行比较检验和范围检验12.用用Studentized最大系数进行配对比较检验最大系数进行配对比较检验13.用用Studentized最大系数进行比较检验最大系数进行比较检验,使用贝叶斯逼近使用贝叶斯逼近.14.用用t检验进行配对比较检验进行配对比较.1.用用t检验进行配对比较,检验进行配对比较,2.用用Studentized 最大系数进行配对比较检验最大系数进行配对比较检验3.同上同上,这种方法有时比较自由这种方法有时比较自由4.用用Studentized Range统计量进行配对比较检验统计量进行配对比较检验规定显著性水平规定显著性水平,默认为默认为0.05Options对话框对话框 选择缺
12、失值的处置方式选择缺失值的处置方式:在检验变量中含有缺失值的观测将不被计算在检验变量中含有缺失值的观测将不被计算在任何一个变量中含有缺失值的观测都将不被计算在任何一个变量中含有缺失值的观测都将不被计算规定输出的统计量规定输出的统计量:输出描述统计量输出描述统计量,包括观测量数包括观测量数目目,均值均值,最小值最小值,最大值最大值,标准差标准差,标准误差标准误差,各组中每个因变量的各组中每个因变量的95%的置信区间的置信区间用用Levene检验进行方差一致性检验进行方差一致性检验检验输输出出均均数数分分布布图图例例1l某企业需要一种零件,现有某企业需要一种零件,现有三个不同地区的企业生产的三个不
13、同地区的企业生产的同种零件可供选择,为了比同种零件可供选择,为了比较这三个零件的强度是否相较这三个零件的强度是否相同,每个企业抽出同,每个企业抽出6件产品进件产品进行强度测试。假设每个企业行强度测试。假设每个企业零件的强度值服从正态分布,零件的强度值服从正态分布,试检验这三个地区企业的零试检验这三个地区企业的零件强度是否存在显著差异。件强度是否存在显著差异。地区样本1231116110892981038531001189948310673556107976105116102思考:因变量?因素(自变量)?几个水平(总体)?数据思考:因变量?因素(自变量)?几个水平(总体)?数据文件如何建立?文件
14、如何建立?单因素方差分析的进一步分析单因素方差分析的进一步分析l方差分析中的多重比较检验方差分析中的多重比较检验l方差齐性检验方差齐性检验单因素方差分析的进一步分析单因素方差分析的进一步分析l方差分析中的多重比较检验方差分析中的多重比较检验 如果发现方差分析结论中均值不是全相等的,但究竟哪些如果发现方差分析结论中均值不是全相等的,但究竟哪些均值之间不相等呢?这就需要做进一步的分析,所使用的均值之间不相等呢?这就需要做进一步的分析,所使用的方法就是多重比较方法(方法就是多重比较方法(multiple comparison procedures)l多重比较方法有多种,多重比较方法有多种,LSD、S
15、-N-K/6、Tukeys-b 等。等。单因素方差分析的进一步分析单因素方差分析的进一步分析l方差齐性检验方差齐性检验l方差齐性检验是对控制变量不同水平下各观测变量总体方差方差齐性检验是对控制变量不同水平下各观测变量总体方差是否相等进行分析。是否相等进行分析。l方差齐性检验采用了方差同质性(方差齐性检验采用了方差同质性(homogeneity of varaiance)检验方法,其原假设是:各水平下观测变量总)检验方法,其原假设是:各水平下观测变量总体的方差无显著差异,同两独立样本体的方差无显著差异,同两独立样本T检验中的方差检验。检验中的方差检验。l1.Bartlett检验法检验法l2.Le
16、vene检验法检验法l3.最大方差与最小方差之比最大方差与最小方差之比GeneralLinealmodel=Univariate2.DependentVariable框:选入weight3.FixedFactors框:选入group和food4.Model钮:单击5.Custom单选钮:选中6.Model框:选入group和food7.PostHoc钮:单击8.PostHoctestfor框:选入food9.SNK复选框:选中实例实例1(随机区组设计)(随机区组设计)l对小白鼠喂以对小白鼠喂以A、B、C三种不同的营养素,目三种不同的营养素,目的是了解不同营养素增重的效果。采用随机区的是了解不同
17、营养素增重的效果。采用随机区组设计方法,以窝别作为划分区组的特征,以组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重增长的影响。现将同品系消除遗传因素对体重增长的影响。现将同品系同体重的同体重的24只小白鼠分为只小白鼠分为8个区组,每个区组个区组,每个区组3只小白鼠。三周后体重增量结果只小白鼠。三周后体重增量结果(克克)列于下表,列于下表,问小白鼠经三种不同营养素喂养后所增体重有问小白鼠经三种不同营养素喂养后所增体重有无差别?无差别?结果结果 这是一个分析因素的取这是一个分析因素的取值情况列表值情况列表l这是一个典型的方差分析表,只不过是两因素的而已这是一个典型的方差分析表,只不过是
18、两因素的而已l首先是所用方差分析模型的检验,首先是所用方差分析模型的检验,F值为值为11.517,P小于小于0.05,因此所用的模型有统计学意义,因此所用的模型有统计学意义(差异显著差异显著),可以用它来判,可以用它来判断模型中系数有无统计学意义;断模型中系数有无统计学意义;l第二行是截距,忽略即可;第二行是截距,忽略即可;l第三行是变量第三行是变量GROUP,可见它也有统计学意义;可见它也有统计学意义;l第四行是我们真正要分析的第四行是我们真正要分析的food,非常遗憾,它的非常遗憾,它的P值为值为0.084,没有统计学意义。尽管不太愿意,没有统计学意义。尽管不太愿意,l结论也只能是:尚不能
19、认为三种营养素喂养的小白鼠结论也只能是:尚不能认为三种营养素喂养的小白鼠体重增量有差别体重增量有差别例例l有四个品牌的彩电在有四个品牌的彩电在5个地区销售,为分析彩个地区销售,为分析彩电的品牌和销售地区对销售量是否有影响,对电的品牌和销售地区对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据,如每个品牌在各地区的销售量取得以下数据,如表所示。试分析品牌和销售地区对彩电的销售表所示。试分析品牌和销售地区对彩电的销售量是否有显著影响。量是否有显著影响。地区1地区2地区3地区4地区5品牌1品牌2品牌3品牌43653453582883503683232803433633532983403303
20、43260323333308298变异来源变异来源III型方差型方差SS自由度自由度均方均方MS统计量统计量FP值校正的模型校正的模型2521.2949280.14411.517.000截距截距74359.534174359.5343056.985.000GROUP2376.3767339.48213.956.000FOOD144.917272.4592.979.084误差误差340.5431424.324合计合计77221.37024校正的合计校正的合计2861.83623现在是两两比较的结果,方法为SNK法,由于前面总的比较无差异,所以这里三种食物均在一个亚组内,检验无差异,P值为0.12
21、1实例实例2(析因分析)(析因分析)l治疗缺铁性贫血病人12例,分为4组给予不同治疗,一个月后观察红细胞增加数(百万/mm3);试问甲药、乙药单独使用的效果如何?甲药、乙药同时使用的效果又如何?乙药甲药用不用用210922112010不用130812091107两种药物治疗缺铁性贫血后红细胞增加数l城市道路交通管理部门为研究不同的路段和不同的时间段城市道路交通管理部门为研究不同的路段和不同的时间段对行车时间的影响。让一名警察分别在两个路段和高峰期对行车时间的影响。让一名警察分别在两个路段和高峰期与非高峰期亲自驾车进行试验,通过试验取得共获得与非高峰期亲自驾车进行试验,通过试验取得共获得20个个行车时间(分钟)的数据。如下表所示,试分析路段、时行车时间(分钟)的数据。如下表所示,试分析路段、时段以及路段的交互作用对行车时间的影响。段以及路段的交互作用对行车时间的影响。路段路段1路段路段2高高峰峰期期26242725251920232221非非高高峰峰期期20172221171817131612单位(分钟)单位(分钟)