《语言统计第十章-F分布及其应用ppt课件.ppt》由会员分享,可在线阅读,更多相关《语言统计第十章-F分布及其应用ppt课件.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第十章 F分布及其应用我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物n第一节 F分布n第二节 F分布的应用方差的同质性检验n第三节 F分布的应用方差分析 一、为什么需要方差分析 二、方差分析的条件 三、单因素方差分析与多因素方差分析 四、方差分析的基本原理 五、单因素方差分析 六、双因素方差分析我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第一节 F分布 F分布也是一种抽样分布。 F分布与方差有关。假如我们从一个正
2、态总体中,或者从两个方差相同的正态总休中, 抽取两个样本, 分别记为 和 , 其方差则为和 ,我们再计算出两个样本的方差的比值 。 如果我们重复这一步骤, 抽取多对样本,那么就可以计算出多个F值。这些F值的分布是怎样的呢?其分布为F分布。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 F分布为正偏态分布,它的形状不是固定的,而是随样本的大小而变化。 这里, “样本大小” 仍用 “自由度”(df)的概念来表示。由于计算方差比值时涉及两个样本,所以自由度也涉及两个样本,具体来讲,就是 和 , 即在方差比值中作
3、分子的样本的容量减1和作分母的样本的容量减1, 分别记为 和 。随着样本容量的增大,分布偏态的程度越来越小,越来越接近正态分布。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第二节 F分布的应用方差的同质性检验分布的应用主要有两类:一是检验两个样本所来自的总体的方差是否相等,即检验方差的同质性;二是方差分析。F检验,其过程如下:第一步: 陈述零假设 和备择假设 。在F检验中, 零假设为 ,而备择假设的形式则要视所预测的差异的方向来定:如果是无方向的, 则为 (即双尾检验) ; 如果是有方向的, 则为 或
4、(即单尾检验) 。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 第二步: 设定显著水平 。 第三步:分别计算两个样本的方差 第四步:计算检验统计值,即两样本方差的比值 F ,计算F值时,用较大的方差作分子,用较小的方差作分母,因而F值总是大于1。 第五步:根据自由度 ( ) 以及所设定的显著水平, 从F分布中查出临界值。 第六步:比较检验统计值和临界值。如果检验统计值等于或大于临界值,则推翻零假设,表明总体方差有显著的差异;否则,就接受零假设表明两总体方差之间没有显著的差异 (注意: “没有显著差异”
5、不等于 “没有差异” ) , 就方差而言, 也可以说两样本来自同一个总体。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 第三节 F分布的应用方差分析 方差分析是F分布最重要的用途之一。方差分析比较复杂,常常需要使用专门的电脑统计软件(如SPSS)。这里,我们只简要讨论一下方差分析的基本原理并举例说明最简单的方差分析的方法和应用。 一、为什么需要方差分析? 简单来讲,方差分析是t检验的一种特殊情况。检验仅适用于检验两个样本平均数之间的差异是否显著。运用方差分析,就可以把几个样本平均数同时加以比较,看看它们
6、有没有显著差异。因而方差分析是语言研究中非常常用、非常重要的一个统计分析手段。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 二、 方差分析的条件 方差分析是一个参数检验,必须满足下列条件: (1)样本为独立样本; (2)总体分布为正态; (3)总体方差相等。 其中,第三个条件可以放松一些,因为即使总体方差之间有些差异,如果各组的样本容量大体相同,也不会对方差分析的结果造成大的影响,因为在这种条件下,方差分析对方差同质性的偏离不是很敏感。但是,如果样本容量差别很大,而总体方差又不相同,就要谨慎了。我吓了一
7、跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 三、 单因素方差分析与多因素方差分析 方差分析分单因素方差分析与多因素方差分析。所谓“因素”,简而言之,就是实验研究所涉及的自变量。比如,我们要研究不同的教学方法对学习成绩的影响, 所涉及的自变量就是 “教学方法” ; 再比如, 要研究语言难度与内容熟悉程度对阅读理解的影响, 就要涉及 “语言难度” 和 “内容熟悉程度” 这两个自变量。 从另一个角度看, “因素” 也可以称为 “分组变量”,因为我们以该变量为标准把因变量(我们所收集的数据)分成若干组。我吓了一跳,蝎
8、子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 四、 方差分析的基本原理 方差分析是利用F分布来决定几个平均数之间是否有显著差异。 对于一组数据,该变异是由各 方差代表着数据的变异或离散情况个观测值之间的差异造成的。如果我们的数据是由几组数据组成的,那么数据的总变异就来自两个方面或是由两个变异源造成的:一是各组内部的差异由抽样所带来的观测值之间的差异,我们称之为“组内变异” ; 二是各组平均数之间的差异, 称为 “组间变异” 。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉
9、快,证实我的猜测没有错:表里边有一个活的生物 五、 单因素方差分析 1.总变异的分解 从以上分析可以看出,方差分析的关键是把数据的总变异分解为两个部分:反映各组内观测值离散程度的组内变异和反映各组平均值之间差异大小的组间变异。因此,我们先来看看如何分解总变异。 我们知道, 数据的变异是用方差 (或标准差) 来表示的。 我们知道, 方差的计算公式为我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 我们在分解总变异时,被分解的实质上是 这一部分, 即离均差的平方和。 为了讨论方便,我们先引入几个符号: 表示数据
10、的总变异(即总平方和) 表示组间变异(即组间平方和) 表示组内变异(即组内平方和) 也有人用RSS表示组内变异。RSS为英文residual sum of squares的缩写,意为 “剩余平方和” 。因为总平方和等于组间平方和与组内平方和了。我们只要计算出总平方和与组间平方和,两者相减就可得出组内平方和了。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 2.单因素方差分析的步骤 第一步: 提出零假设 (即各组数值或各样本所来自的总体的平均值之间没有差异,m表示组数或样本数)。 第二步:设定显著水平。 第
11、三步: 计算总平方和 。由于 反映整个数据的离散情况,所以用下面的公式 式中 X 全部数据中的每个观测值 X 所有观测值的总平均数。(10.1)我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 第四步: 计算组间平方和 。由于 反映各组平均数之间的离散情况, 所以用下式(10.3)为了计算方便,一般用下面的公式我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 第五步: 求组内平方和 。由于总平方和是组内和组间平方和之和,
12、 所以计算出 和 之后,两者相减,就可得出 当然, 也可以用公式求出 , 公式为 另一个简单一些的公式是(10.6)(10.7)我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 第六步:在组间和组内平方和的基础上,计算总体的组间和组内方差估计值。 组间均方为 组内均方为 第七步: 计算组间与组内均方之比F(即检验统 计值)我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 第八步: 根据计算F值时的分子 (组间均方) 的自
13、由度 (记为 ) 和分母 (组内均方) 的自由度 (记为 ) 以及所设定的显著水平, 查F分布表, 得临界值。 根据方差分析的原理,当零假设不成立时(即各样本来自平均值不同的总体) , 组间变异就会大于组内变异, 所以我们的预测是有方向性的, 因而方差分析应为单尾检验。 第九步:比较检验统计值和临界值。如果前者等于或大于后者,就说明检验有显著意义, 就可以推翻零假设, 同时接受备择假设; 否则, 就接受零假设。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 第十步:把分析结果用表格(称为方差分析表或来源表
14、)的形式整理出来(计算机统计软件中的方差分析程序一般也输出一个类似的表):如果差异显著, 则在F值的右上角标一“” 号 (显著水平为0.05); 如果差异非常显著,则标一 “”号 (显著水平为0.01)我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 3.单因素方差分析例示 我们现在举例说明单因素方差分析的过程。假如我们要研究一下景记忆 (把生词放在一个有意义的上下文中) 、 语义场记忆 (把生词按照义分类)和孤立记忆三种不同的记忆方法对词汇记忆效果的影响。实中, 我们把被试随机分成三组, 分别用上述三种方
15、法记忆所选取的生词同时设法控制其它变量,经过一段时间之后,对被试进行测验。这里,同的记忆方法为自变量,词汇测试成绩为因变量。按照记忆方法的不同词汇成绩被分成三组,数据如表10.2我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物单因素方差分析的步骤如下:第一步:提出零假设: (即三种记忆方法没有造成词汇测验平均成绩的差异) 。第二步: 设显著水平为0.05。第三步: 计算总平
16、方和 (公式10.2)第四步:计算组间平方和 (公式10.5)我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第五步:计算组内平方和第六步: 计算组间均方 和组内均方 我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第七步:计算组间与组内均方之比F即检验统计值)第八步: 从F分布表中查检验统计值F的临界值:第九步:比较检验统计值和临界值:所以零假设不成立。第十步:编制单因素方差分析表:我吓了一跳,蝎子是多么丑恶和恐怖的东
17、西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 4.平均数差异的多重比较 我们说过,方差分析仅能表明各组数值的平均数之同是否存在显著差异,但是不能检验出具休哪对平均数之间存在差异。因此,当方差分析的结果表明各平均数之间存在显著差异时,还可以对其进行进一步的比较分析。 至于分析的方法,一个选择是t检验;二是作多次 t检验。 最小差异检验法的公式为(10.8)(10.9)我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 六、 双因素方差分析 由于实验设计、实
18、验的实施、数据的统计分析、结果的解释等方面的原因,最常见的实验研究一般只涉及两三个 (至多四个) 自变量, 与之相应, 就有双因素方差分析、 三因素方差分析等。这里,我们仅讨论最简单的、也是最常见的多因素方差分析因素方差分析。 1.因素实验 适用多因素方差分析的最典型的实验是因素实验,它采用的是因素设计。在因素设计中,研究者同时操纵两个以上的自变量,以观察其对因变量可能产生什么影响或作用。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 2.因素与水平 实验研究所涉及的自变量在因素设计和方差分析中称为“因素
19、”(但这与 “因素分析” 中的 “因素” 的概念是不同的) , 每个因素的不同情况为该因素的值, 称为因素 “水平” 。 3.双因素方差分析的条件 双因素方差分析仅是单因素方差分析的扩展,其应用条件是一样的,即: (1)样本为独立样本; (2)总体分布为正态; (3)总体方差相等。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物4.双因素实验的数据结构双因素实验的典型数据结构如图10.1所示:我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:
20、表里边有一个活的生物5.双因素方差分析步骤第一步: 陈述零假设双因素方差分析的零假设就要涉及两个自变量及其交互作用三个方面:(1)因素A各水平平均数相等(或其间没有差异);(2)因素B各水平平均数相等(或其间没有差异);(3)因素A和因素B对因变量没有交互作用。第二步:指出方差分析的规模及数据量(也是为了方便以后的计算):第三步:为了方便以后的计算,把原始数据整理成一个简单的 归纳表, 给出各格的总和、 各格的平均 数、 各列的总和、 各行的总和以及所有数据的总和 (即 )。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里
21、边有一个活的生物 第四步:计算各中介项:(1) (求所有数值的平方和,即把每一个观测值先平方,再累加。在有统计功能的计算器上可以直接得出);(2) (所有数值的总和先平方,再除以所有数值的个数。该项称为 “校正值” , 简称CF)(3) ( 把每一列的总和先平方, 再累加, 最后除以n与q之积);(4) (把每一行的总和先平方, 再累加, 最后除以n与q之积);(5) (把每一格的总和先平方, 再累加, 最后除以每格内观测值的个数) 。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 第五步:计算各平方和及
22、其相应自由度: 总平方和被分解为组间平方和及组内平方和 在单因素方差分析时,两部分: 第六步: 求均方MS我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 第七步: 求F比值 第八步:F检验 设定显著水平,然后根据与各F比值有关的自由 度, 查F分布表, 得临界值, 并与F值加以比较,以确定因素A各水平平均数之间是否有显著差异, 因素B各水平平均数之间是否有显著差异,以及交互作用是否有显著意义。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错
23、:表里边有一个活的生物 第九步:把检验结果整理成方差分析表 6.双因素方差分析例示 我们现在就以一个简单的例子来说明双因素方差 分析的过程。 假如所得到的词汇测试成绩如表10.5所示:我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物则双因素方差分析过程如下:第一步:陈述零假设: (1)各记忆方法的词汇测验平均成绩没有差异; (2)两性别间的词汇测验平均成绩没有差异; (3
24、)记忆方法与性别两因素对词汇测验成绩没有产生交互作用。第二步:方差分析的规模及数据量: , 所以该方差分析为 双因素方差分析我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第三步: 整理数据归纳表:我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第四步:计算各中介项:我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第五步:计算各平方和
25、及其相应自由度:我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第六步: 求均方MS 第七步: 求F比值我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第八步:F检验设显著水平为0.05,则对应于 , 和 的临界值分别为 (单尾检验)第九步:编制方差分析表:我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 7.交互作用 多因素方差分析
26、的一个非常重要的特点是能够检验因素间的交互作用。简单来说,交互作用就是多个因素一起分析时所显现出的差异。这就是说,如果把各个因素单独考虑,这一差异就会被掩盖起来。需要注意的是,人们往往只注意因素主效应,而忽视交互作用的重要性。其实,只要交互作用有显著意义或者很大,不管因素主效有没有显著意义,都可以肯定因素作用的存在。只有当因素主效应没有显著意义,其交互作用也没有显著意义时,才有可能说,有关因素确实没有起到什么作用。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物小 结 两个注意事项: 第一,对于因素实验,每一种情况或实验组合,最好观察的次数是一样的;换句话说,每一组内的被试人数最好相等。从统计分析的角度来说,数据中每个格内的观测值的个数最好相等。 第二, 严格来讲, 以上介绍的方差分析方法 (包括单因素方差分析) 属于所谓的“固定效应模式”,即分析所得出的结论仅适用于各因素所涉及的水平,而不能推广到其它可能的情况。