十三章节检验与方差分析.ppt

上传人:豆**** 文档编号:58162657 上传时间:2022-11-07 格式:PPT 页数:62 大小:1.18MB
返回 下载 相关 举报
十三章节检验与方差分析.ppt_第1页
第1页 / 共62页
十三章节检验与方差分析.ppt_第2页
第2页 / 共62页
点击查看更多>>
资源描述

《十三章节检验与方差分析.ppt》由会员分享,可在线阅读,更多相关《十三章节检验与方差分析.ppt(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、十三章节检验与方差分析 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望第一节第一节 拟合优度检验拟合优度检验 运用运用Z检验、检验、t检验等讨论假设检验的问题,一般要求总体服从检验等讨论假设检验的问题,一般要求总体服从正态分布,或者在大样本条件下可以利用渐近正态分布理论来描述正态分布,或者在大样本条件下可以利用渐近正态分布理论来描述抽样分布。也就是说,我们都要直接或间接地假定对象总体具有已抽样分布。也就是说,我们都要直接或间接地假定对象总体具有已知的分布形式,然后

2、对总体的未知参数进行假设检验。如果不知道知的分布形式,然后对总体的未知参数进行假设检验。如果不知道总体的分布形式,就无法运用总体的分布形式,就无法运用t检验法等对总体参数进行假设检验。检验法等对总体参数进行假设检验。于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样检定总体是否具有正态或其他分布形式?拟合优度检验正是就这一检定总体是否具有正态或其他分布形式?拟合优度检验正是就这一问题而言的检验方法。问题而言的检验方法。n n 第十一章最后一节,我们将累计频数检验用于经验分布与理第十一章最后一节,我们将累计频数检验用于经验分布与理

3、第十一章最后一节,我们将累计频数检验用于经验分布与理第十一章最后一节,我们将累计频数检验用于经验分布与理论分布的比较,实际已经提供了拟合优度检验的一种方法。论分布的比较,实际已经提供了拟合优度检验的一种方法。论分布的比较,实际已经提供了拟合优度检验的一种方法。论分布的比较,实际已经提供了拟合优度检验的一种方法。拟拟拟拟合优度检验与累计频数拟合优度检验相对应,在评估从经验上得合优度检验与累计频数拟合优度检验相对应,在评估从经验上得合优度检验与累计频数拟合优度检验相对应,在评估从经验上得合优度检验与累计频数拟合优度检验相对应,在评估从经验上得到的频数和在一组特定的理论假设下期望得到的频数之间是否存

4、到的频数和在一组特定的理论假设下期望得到的频数之间是否存到的频数和在一组特定的理论假设下期望得到的频数之间是否存到的频数和在一组特定的理论假设下期望得到的频数之间是否存在显著差异时,是一种更普遍的检验方法。在显著差异时,是一种更普遍的检验方法。在显著差异时,是一种更普遍的检验方法。在显著差异时,是一种更普遍的检验方法。n n 现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,据孟德尔

5、提出的分离规律,纯种豌豆杂交后的子二代出现分化,据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,红花植株与白花植株的数目应为红花植株与白花植株的数目应为红花植株与白花植株的数目应为红花植株与白花植株的数目应为3 3 1 1。但由于随机性。但由于随机性。但由于随机性。但由于随机性,观察结果与观察结果与观察结果与观察结果与3 3 1 1理论值总有些差距。因此有必要去考察某一大小的差距是否理论值总有些差距。因此有必要去考察某一大小的差距是否理论值总有些差距。因此有必要去考察某一大小的差距是否理论值总有些差距。因此有必要去考察某一大小的差

6、距是否已构成否定已构成否定已构成否定已构成否定3 3 l l理论的充分根据。这正是我们所讨论的拟合优度理论的充分根据。这正是我们所讨论的拟合优度理论的充分根据。这正是我们所讨论的拟合优度理论的充分根据。这正是我们所讨论的拟合优度检验的问题。解决这类问题的工具,是卡检验的问题。解决这类问题的工具,是卡检验的问题。解决这类问题的工具,是卡检验的问题。解决这类问题的工具,是卡 皮尔逊在皮尔逊在皮尔逊在皮尔逊在19001900年发表年发表年发表年发表的的的的一篇文章中引进的所谓一篇文章中引进的所谓一篇文章中引进的所谓一篇文章中引进的所谓 检验法。检验法。检验法。检验法。1 1问题的导出问题的导出n n

7、 首先把问题表述成一般模式。设一总体包含首先把问题表述成一般模式。设一总体包含c c种可区别的个体。根据某种可区别的个体。根据某种理论或纯粹的假设,第种理论或纯粹的假设,第i i 种个体出现的概率应为某个已知的数种个体出现的概率应为某个已知的数P Pi i (i i1 1,2 2,c c),),有有P Pi i 0 0,1 1。这一组概率。这一组概率(P P1 1 ,P P2 2 ,P Pc c)就构成了我就构成了我们的理论分布。现在在该总体中随机地抽取一个容量为们的理论分布。现在在该总体中随机地抽取一个容量为n n的样本,发现其中的样本,发现其中第第 i i 种个体的数目为种个体的数目为f

8、fi i(i i 1 1,2 2,c c),并有,并有 n n。我们要据此检。我们要据此检验理论分布。验理论分布。n n 用概率论的语言可以这样说,设对象总体中随机变量用概率论的语言可以这样说,设对象总体中随机变量X X有有c c种取值。当种取值。当X X的的取值是取值是x xi i 时,按零假设,其总体分布等于理论分布,即时,按零假设,其总体分布等于理论分布,即P P()()P Pi i (i i1 1,2 2,c c)例如,就孟德尔的例如,就孟德尔的3131理论来说,理论来说,c c 2 2,P(xP(x1 1)3/43/4,P(xP(x2 2)1/41/4。现。现在从该总体中随机地抽取一

9、个容量为在从该总体中随机地抽取一个容量为n n的样本,发现其中的样本,发现其中x xi i(i i1 1,22,c c)出出现的次数为现的次数为f fi i(i i 1 1,2 2,c c),并有,并有 n n。知道了频数也就知道了。知道了频数也就知道了频频率,即:率,即:出出现现的的频频率率为为 ,并有,并有 1 1。现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设。现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设。2 2拟合优度检验拟合优度检验(比率拟合检验比率拟合检验)拟合优度检验如何进行拟合优度检验如何进行?关键是确定合适的检验统计量以及该统计量所服从的概率分布

10、。这里不可避免地要引进某种人为因素,即人们设计出下面这样的综合性可比指标:其中k1,k2,kc 是适当选取的常数。仔细观察不难 发现,L值大,意味着经验分布与理论分布偏离大;L值小,意味着经验分布与理论分布偏离小。当在某个选定的水平上,经验分布显著偏离理论分布,那么对象总体具有某种分布形式的零假设便被否定。结论:结论:n n 用用用用 作为检定作为检定作为检定作为检定HHo o成立的检验统计量,理论证明,当成立的检验统计量,理论证明,当成立的检验统计量,理论证明,当成立的检验统计量,理论证明,当n n足够大足够大足够大足够大 时,该统计量时,该统计量时,该统计量时,该统计量 服从服从服从服从

11、分布,它是一种具有已知的并制成表的概率分布,它是一种具有已知的并制成表的概率分布,它是一种具有已知的并制成表的概率分布,它是一种具有已知的并制成表的概率 分布,因此对给定的显著性水平分布,因此对给定的显著性水平分布,因此对给定的显著性水平分布,因此对给定的显著性水平,可求得临界值,可求得临界值,可求得临界值,可求得临界值 ,与,与,与,与 比比比比 较,进而作出检验结论。较,进而作出检验结论。较,进而作出检验结论。较,进而作出检验结论。n n 显而易见,理论频数显而易见,理论频数显而易见,理论频数显而易见,理论频数 fe fe 与观测频数与观测频数与观测频数与观测频数 fo fo 越接近,越接

12、近,越接近,越接近,统计值越小,统计值越小,统计值越小,统计值越小,经验分布与理论分布拟合程度越好。反之,经验分布与理论分布拟合程度越好。反之,经验分布与理论分布拟合程度越好。反之,经验分布与理论分布拟合程度越好。反之,fe fe 与与与与 fo fo 差距越大,差距越大,差距越大,差距越大,值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此得名。得名。得名。得名。例例 孟德尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后孟

13、德尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后所生的子二代豌豆中,红花对白花之比为所生的子二代豌豆中,红花对白花之比为3 3:1 1。某次种植试验的结果。某次种植试验的结果为;红花豌豆为;红花豌豆176176株,白花豌豆株,白花豌豆4848株。试在株。试在 0 00505的显著性水平上,的显著性水平上,对孟德尔定律作拟合优度检验。(参见下表)对孟德尔定律作拟合优度检验。(参见下表)应用举例应用举例 3 3正态拟合检验正态拟合检验 例例例例 试对下表所给男青年身高分布的数据作正态拟合检验,选取试对下表所给男青年身高分布的数据作正态拟合检验,选取试对下表所给男青年身高分布的数据作正态拟合检验,选

14、取试对下表所给男青年身高分布的数据作正态拟合检验,选取 0 00505。解解解解 检验的另一个重要应用是对交互分类资料的独立性检验,检验的另一个重要应用是对交互分类资料的独立性检验,即列联表检验。在上一章,我们曾多次提到过性别与收入高低有无即列联表检验。在上一章,我们曾多次提到过性别与收入高低有无关联的问题,在实际中类似的问题很多。例如受教育程度与投票行关联的问题,在实际中类似的问题很多。例如受教育程度与投票行为有无关联为有无关联?吸烟与寿命长短有无关联吸烟与寿命长短有无关联?家庭小孩多少与收入多少有家庭小孩多少与收入多少有无关联无关联?受教育时间长短与收入多少有无关联受教育时间长短与收入多少

15、有无关联?血型与某种性格上的血型与某种性格上的差异有无关联差异有无关联?等等,把这类问题上升到一般,就是在列联表的基等等,把这类问题上升到一般,就是在列联表的基础上考察变量础上考察变量X X与与Y Y有无关联。由于列联表一般是按品质标志把两个有无关联。由于列联表一般是按品质标志把两个变量的频数进行交互分类的,所以:变量的频数进行交互分类的,所以:检验法用于对交互分类资料的独立性检验,有其它方法检验法用于对交互分类资料的独立性检验,有其它方法无法比拟的优点;无法比拟的优点;如何求得列联表中的理论频数就成了独立性检验的关键。如何求得列联表中的理论频数就成了独立性检验的关键。第二节第二节 无关联性检

16、验无关联性检验 1 1、独立性、理论频数及自由度、独立性、理论频数及自由度、独立性、理论频数及自由度、独立性、理论频数及自由度应用此式,不必计算理论频数应用此式,不必计算理论频数计算与计算与 这个检验统计量相这个检验统计量相联系的自由度联系的自由度算出算出 统计量之值并定出其自由度后,就可以依前述的方法,在给定了显著统计量之值并定出其自由度后,就可以依前述的方法,在给定了显著性水平之后,来对性水平之后,来对X,Y属性无关联的零假设进行检验了。属性无关联的零假设进行检验了。应用举例应用举例 检验也适用于定类变量和定类变量的相关统计,即可检验也适用于定类变量和定类变量的相关统计,即可以用它检定以用

17、它检定和和系数是否显著。就下表所示资料,试以系数是否显著。就下表所示资料,试以 检验检定性别与收入之间的相关程度是否显著检验检定性别与收入之间的相关程度是否显著(取取0 0001)001)。解解解解 故拒绝故拒绝故拒绝故拒绝HH0 0,即认为总体上性别与收入高低之间不独立,有,即认为总体上性别与收入高低之间不独立,有,即认为总体上性别与收入高低之间不独立,有,即认为总体上性别与收入高低之间不独立,有显著相关关系。显著相关关系。显著相关关系。显著相关关系。例例 在某种流行病流行的时候,共有在某种流行病流行的时候,共有120120个病人进行了治疗,其中个病人进行了治疗,其中4040个个病人按标准剂

18、量服用某种新药,另有病人按标准剂量服用某种新药,另有4040个病人按标准剂量的个病人按标准剂量的2 2倍服用了这种倍服用了这种新药,其余新药,其余4040个病人只按病状治疗个病人只按病状治疗(而不是按病因治疗而不是按病因治疗),治疗结果按迅速痊,治疗结果按迅速痊愈、缓慢痊愈、未痊愈分为三类,最后交叉分类的情况列于下表,试问这愈、缓慢痊愈、未痊愈分为三类,最后交叉分类的情况列于下表,试问这三种疗法之间有没有差别三种疗法之间有没有差别(取取0 005)05)。解解解解 HH0 0:这三种疗法之间没有差别:这三种疗法之间没有差别:这三种疗法之间没有差别:这三种疗法之间没有差别 HH1 1:这三种疗法

19、之间有差别:这三种疗法之间有差别:这三种疗法之间有差别:这三种疗法之间有差别 由于由于由于由于 0 00505;自由度;自由度;自由度;自由度k k(c cl)(l)(r r l)l)22224 4,查查查查 分布表得临界值:分布表得临界值:分布表得临界值:分布表得临界值:在零假设下,计算检验统计量,计算过程参见后表。在零假设下,计算检验统计量,计算过程参见后表。在零假设下,计算检验统计量,计算过程参见后表。在零假设下,计算检验统计量,计算过程参见后表。因此因此因此因此 ,故拒绝零假设,即三种疗法之间有,故拒绝零假设,即三种疗法之间有,故拒绝零假设,即三种疗法之间有,故拒绝零假设,即三种疗法之

20、间有显著差别。显著差别。显著差别。显著差别。第三节第三节 方差分析方差分析 方差分析,是一种很重要的分析方法,它可以检验两个以方差分析,是一种很重要的分析方法,它可以检验两个以上样本均值之差。方差分析是均值差检验的推广,一般用于上样本均值之差。方差分析是均值差检验的推广,一般用于处理自变量是一个(或多个)定类变量和因变量是一个定距处理自变量是一个(或多个)定类变量和因变量是一个定距变量之间的关系。方差分析所包含的假定与均值差检验所包变量之间的关系。方差分析所包含的假定与均值差检验所包含的假定差不多,例如正态分布、独立随机样本、等方差性含的假定差不多,例如正态分布、独立随机样本、等方差性等,但检

21、验本身却很不相同。方差分析直接涉及的是方差而等,但检验本身却很不相同。方差分析直接涉及的是方差而不是均值和标准差。同时,比较也不取两种估计量之差,而不是均值和标准差。同时,比较也不取两种估计量之差,而是取两种估计量的比率。在两种估计量彼此独立的前提下,是取两种估计量的比率。在两种估计量彼此独立的前提下,两种估计量之比率两种估计量之比率F具有已知的抽样分布,因而可进行很简单具有已知的抽样分布,因而可进行很简单的检验。的检验。1总变差及其分解总变差及其分解 总变差总变差总变差总变差:在方差分析中记作在方差分析中记作在方差分析中记作在方差分析中记作SSSST T,它表示,它表示,它表示,它表示 对于

22、总均值对于总均值对于总均值对于总均值 的偏差之的偏差之的偏差之的偏差之平方和平方和平方和平方和。即:即:即:即:SST 式中式中式中式中:n n n ni i是第是第是第是第i i个样本的容量个样本的容量个样本的容量个样本的容量,n n n n 为什么会形成总变差这个散布度呢?为什么会形成总变差这个散布度呢?为什么会形成总变差这个散布度呢?为什么会形成总变差这个散布度呢?一是三个样本可能不同,这使全部数据一是三个样本可能不同,这使全部数据一是三个样本可能不同,这使全部数据一是三个样本可能不同,这使全部数据 有三个有三个有三个有三个“中心中心中心中心”;二是随机抽样误差的影响,使数据在每个中心附

23、近有散布。二是随机抽样误差的影响,使数据在每个中心附近有散布。二是随机抽样误差的影响,使数据在每个中心附近有散布。二是随机抽样误差的影响,使数据在每个中心附近有散布。总变差分解总变差分解总变差分解总变差分解 可以看出,总变差分解成两部分:可以看出,总变差分解成两部分:可以看出,总变差分解成两部分:可以看出,总变差分解成两部分:n n 第一部分是各观测值第一部分是各观测值第一部分是各观测值第一部分是各观测值 对其所属类别均值对其所属类别均值对其所属类别均值对其所属类别均值 的偏差的偏差的偏差的偏差的平方和,称为的平方和,称为的平方和,称为的平方和,称为组内变差组内变差组内变差组内变差(Withi

24、n-groups Sum of(Within-groups Sum of(Within-groups Sum of(Within-groups Sum of Squares)Squares)Squares)Squares),记作,记作,记作,记作SSSSWW。组内变差反映了数据围绕各。组内变差反映了数据围绕各。组内变差反映了数据围绕各。组内变差反映了数据围绕各“中心中心中心中心”的散布程度,即反映了的散布程度,即反映了的散布程度,即反映了的散布程度,即反映了 因随机波动所产生的变异,因随机波动所产生的变异,因随机波动所产生的变异,因随机波动所产生的变异,与自变量因素无关。换言之与自变量因素无关

25、。换言之与自变量因素无关。换言之与自变量因素无关。换言之,SSSSWW是自变量因素所没有解是自变量因素所没有解是自变量因素所没有解是自变量因素所没有解释的释的释的释的 的变异。因此,又称之为的变异。因此,又称之为的变异。因此,又称之为的变异。因此,又称之为残差残差残差残差。n n 第二部分是第二部分是第二部分是第二部分是组间平方和组间平方和组间平方和组间平方和(Between-groups Sum of (Between-groups Sum of (Between-groups Sum of (Between-groups Sum of Squares)Squares)Squares)Squ

26、ares),记作,记作,记作,记作SSSSB B ,它涉及到诸类别均值,它涉及到诸类别均值,它涉及到诸类别均值,它涉及到诸类别均值 对总均值对总均值对总均值对总均值 的偏差,反映了前表中数据的的偏差,反映了前表中数据的的偏差,反映了前表中数据的的偏差,反映了前表中数据的c c c c个个个个“中心中心中心中心”的散布程的散布程的散布程的散布程度。度。度。度。弄清了组间变差和组内变差,检验弄清了组间变差和组内变差,检验弄清了组间变差和组内变差,检验弄清了组间变差和组内变差,检验“A1A2A3”(“A1A2A3”(也也也也就是零假设就是零假设就是零假设就是零假设 1 1 2 2 3)3)的思路也就

27、梳理出来了:关键是比的思路也就梳理出来了:关键是比的思路也就梳理出来了:关键是比的思路也就梳理出来了:关键是比较两种变差是否有显著差异。若第一种变差明显大于第二较两种变差是否有显著差异。若第一种变差明显大于第二较两种变差是否有显著差异。若第一种变差明显大于第二较两种变差是否有显著差异。若第一种变差明显大于第二种变差,则认为家庭因素对孩子图书消费是有影响的;若种变差,则认为家庭因素对孩子图书消费是有影响的;若种变差,则认为家庭因素对孩子图书消费是有影响的;若种变差,则认为家庭因素对孩子图书消费是有影响的;若第一种变差与第二种变差之间无显著区别,则不能认为家第一种变差与第二种变差之间无显著区别,则

28、不能认为家第一种变差与第二种变差之间无显著区别,则不能认为家第一种变差与第二种变差之间无显著区别,则不能认为家庭因素对孩子图书消费有影响。但在统计学上,方差分析庭因素对孩子图书消费有影响。但在统计学上,方差分析庭因素对孩子图书消费有影响。但在统计学上,方差分析庭因素对孩子图书消费有影响。但在统计学上,方差分析不取两者之差而取两者之比来进行这种比较。而且,方差不取两者之差而取两者之比来进行这种比较。而且,方差不取两者之差而取两者之比来进行这种比较。而且,方差不取两者之差而取两者之比来进行这种比较。而且,方差分析不是直接用分析不是直接用分析不是直接用分析不是直接用SSSSB B/SSSSWW作为检

29、验统计量,而是用作为检验统计量,而是用作为检验统计量,而是用作为检验统计量,而是用可以解释可以解释可以解释可以解释的方差的方差的方差的方差/不能解释的方差不能解释的方差不能解释的方差不能解释的方差作为检验统计量,即:作为检验统计量,即:作为检验统计量,即:作为检验统计量,即:2关于自由度关于自由度 组间平方和代表组间平方和代表组间平方和代表组间平方和代表c c个样本均值对总均值的偏差。也就个样本均值对总均值的偏差。也就个样本均值对总均值的偏差。也就个样本均值对总均值的偏差。也就是每个可看作为一个单位,是每个可看作为一个单位,是每个可看作为一个单位,是每个可看作为一个单位,c c个可看作为个可看

30、作为个可看作为个可看作为c c个单位,有个单位,有个单位,有个单位,有c c个个个个自由度,求用去一个自由度。因而,与组间平方和相联系自由度,求用去一个自由度。因而,与组间平方和相联系自由度,求用去一个自由度。因而,与组间平方和相联系自由度,求用去一个自由度。因而,与组间平方和相联系的自由度为的自由度为的自由度为的自由度为c c11。再看组内平方和,计算时每列失去一个。再看组内平方和,计算时每列失去一个。再看组内平方和,计算时每列失去一个。再看组内平方和,计算时每列失去一个自由度。因而,与组内平方和相联系的自由度为自由度。因而,与组内平方和相联系的自由度为自由度。因而,与组内平方和相联系的自由

31、度为自由度。因而,与组内平方和相联系的自由度为n n c c。最。最。最。最后看总平方和,计算总均值时失去一个自由度。因而,与后看总平方和,计算总均值时失去一个自由度。因而,与后看总平方和,计算总均值时失去一个自由度。因而,与后看总平方和,计算总均值时失去一个自由度。因而,与总平方和相联系的自由度为总平方和相联系的自由度为总平方和相联系的自由度为总平方和相联系的自由度为n nll。总的来看有。总的来看有。总的来看有。总的来看有:n nl l(n nc c)+(c c11)总自由度组内自由度总自由度组内自由度总自由度组内自由度总自由度组内自由度+组间自由度组间自由度组间自由度组间自由度 pp 上

32、式是在上式是在在零假设在零假设(H(H0 0:1 1 2 2 c c)之下,检验统计量之下,检验统计量F Fo o的计算公的计算公式。式。pp 理论证明:上式服从分子自由度为理论证明:上式服从分子自由度为k k1 1c c11、分母自由度为、分母自由度为k k2 2(ncnc)的的F F分布。于是,给定显著性水平分布。于是,给定显著性水平,我们就可以很方便地从,我们就可以很方便地从F F分分布表中查到临界值布表中查到临界值F F(c1(c1,nc)nc)。如果出现。如果出现F Fo oF F 的情况,我们将在这的情况,我们将在这个显著性水平上拒绝零假设。在实际运用中,方差分析的结果常用一种个显

33、著性水平上拒绝零假设。在实际运用中,方差分析的结果常用一种称为称为“方差分析表方差分析表”的标准形式的表格表示出来,其基本形式如表后所的标准形式的表格表示出来,其基本形式如表后所示。示。为了简化检验统计量为了简化检验统计量为了简化检验统计量为了简化检验统计量FoFo的计算,有必要将的计算,有必要将的计算,有必要将的计算,有必要将SSSST T、SSSSWW、SSSSB B这三个这三个这三个这三个定义式展开,其方法与分解总变差的方法相同。于是有:定义式展开,其方法与分解总变差的方法相同。于是有:定义式展开,其方法与分解总变差的方法相同。于是有:定义式展开,其方法与分解总变差的方法相同。于是有:3

34、 3关于检验统计量关于检验统计量关于检验统计量关于检验统计量F Fo o的计算的计算的计算的计算 注意,由于总变差等于另两个变差之和,所以三个变差中仅需求出两注意,由于总变差等于另两个变差之和,所以三个变差中仅需求出两个变差。求出组内平方和比求另两个平方和繁琐得多,故通常我们都是从个变差。求出组内平方和比求另两个平方和繁琐得多,故通常我们都是从总平方和减去组间平方和来求组内平方和的。总平方和减去组间平方和来求组内平方和的。例例 试对下表中的资料,计算试对下表中的资料,计算SSSST T 、SSSSWW、SSSSB B ,并检验,并检验 1 1 2 2 3 3的零假设的零假设(取取0 005)0

35、5)。解:解:解:解:据题意,据题意,n n1 1n n2 2n n3 38 8,n n1 1+n+n2 2+n+n3 32424 组内自由度组内自由度ncnc2432432121 组间自由度组间自由度c1c131312 2 分别计算分别计算SSSST T和和SSSSB B ,计算过程参见下表。,计算过程参见下表。由于由于 0 00505,查,查F F分布表得临界值分布表得临界值 :F F(c c11,n n c c)F F 0.05 0.05(2(2,21)21)3 347471 11919 故在故在0.050.05显著性水平上不否定零假设,即没有充分根据提出这三显著性水平上不否定零假设,即

36、没有充分根据提出这三类家庭的孩子在图书消费方面有显著不同。类家庭的孩子在图书消费方面有显著不同。例例 研究某种商品研究某种商品销销量与品牌的关系,得下表量与品牌的关系,得下表资资料,其中料,其中A A1 1,A A2 2,A A3 3表示不同的品牌,数据表示表示不同的品牌,数据表示销销量。量。试试以以显显著性水著性水平平1010判断品牌判断品牌对该对该种商品的种商品的销销量有无影响。量有无影响。解解解解 据据题题意,意,n n1 1n n1 1+n n2 2+n n3 32+4+3 2+4+3 9 9 组组内自由度内自由度n nc c93936 6 组间组间自由度自由度c c1131312 2

37、 分分别计别计算算SSSST T和和SSSSB B,计计算算过过程参程参见见前表前表13.1613.16。于是得于是得MSMSB B 和和 MSMSW W MSMSB BSSSSB B(c c11)6.89/26.89/23.453.45 MSMSW W SSSSW W(n nc c)30/630/65.005.00 再根据再根据(13(1319)19)式求式求检验统计检验统计量量F Fo o F Fo o 0.69 0.69 1 1 故在故在0 01010显显著性水平上不否定零假著性水平上不否定零假设设,即不能判断不同品脾,即不能判断不同品脾对对 该该种商品的种商品的销销量有量有显显著影响。

38、著影响。4相关比率相关比率 当方差分析的当方差分析的检验检验呈呈显显著性后,著性后,进进一步一步讨论讨论两两变变量量间间的相关程度是很自然的相关程度是很自然的。方差分析中相关程度的的。方差分析中相关程度的测测定仍采用定仍采用PREPRE法。当不知因法。当不知因变变量量Y Y 的取的取值值与自与自变变量量X X 的取的取值值A A1 1,A A2 2,A A c c有关有关时时,最好的,最好的预测预测是以是以总总均均值值 作作为为Y Y 的估的估计值计值。此此时时,估,估计计所犯的所犯的错误错误将等于将等于SSSST T E E1 1 1 1SSSST T 当已知因当已知因变变量量Y Y 的取的

39、取值值与自与自变变量量X X 的取的取值值A A1 1,A A2 2,A A c c有关后,自然用各有关后,自然用各样样本的均本的均值值 作作为为各各类别类别的的预测值预测值,此,此时预测时预测所所产产生的生的误误差将等于差将等于SSSSWW E E2 2SSSSW W 所以消减所以消减误误差比例可写成差比例可写成 PRE PRE 正是因正是因为为上式,我上式,我们们把把SSSSB B称称为为已解已解释释的的变变差。差。显显然,已解然,已解释释的的变变差越大,差越大,预测预测Y Y 所减少的所减少的误误差就越多,差就越多,X X与与Y Y 之之间间的关系就越密切。据此,方差分析中把的关系就越密

40、切。据此,方差分析中把已解已解释释的的变变差差对总变对总变差的比差的比值值称称为为相关比率,用符号相关比率,用符号 表示表示 1 1 可用于一个定可用于一个定类变类变量与一个定距量与一个定距变变量的相关程度的量的相关程度的测测定,当然也可以用定,当然也可以用于定序于定序定距定距变变量或定距量或定距定距定距变变量的相关程度的量的相关程度的测测定。定。例例例例 试试试试以表以表以表以表1313131312121212的的的的资资资资料,分析孩子料,分析孩子料,分析孩子料,分析孩子图书图书图书图书消消消消费费费费与家庭与家庭与家庭与家庭类类类类型的关系。型的关系。型的关系。型的关系。解解解解 据前面

41、例据前面例据前面例据前面例题题题题中已中已中已中已计计计计算的算的算的算的结结结结果,已知果,已知果,已知果,已知SSSSB B28282828,SSSST T276276276276,因而有,因而有,因而有,因而有 1 1 1 1 10.1%10.1%10.1%10.1%可可可可见见见见,就表,就表,就表,就表给资给资给资给资料而言,利用家庭料而言,利用家庭料而言,利用家庭料而言,利用家庭类类类类型型型型预测预测预测预测孩子孩子孩子孩子图书图书图书图书消消消消费费费费量,只能削减量,只能削减量,只能削减量,只能削减10.1%10.1%10.1%10.1%的的的的预测误预测误预测误预测误差。差

42、。差。差。小结:n n 相关比率相关比率相关比率相关比率 研究的是定研究的是定研究的是定研究的是定类类类类定距定距定距定距变变变变量之量之量之量之间间间间的相关程度。由于的相关程度。由于的相关程度。由于的相关程度。由于定定定定类变类变类变类变量不具有数量大小的量不具有数量大小的量不具有数量大小的量不具有数量大小的问题问题问题问题,不存在关系是否,不存在关系是否,不存在关系是否,不存在关系是否线线线线性的性的性的性的问题问题问题问题。因此,当因此,当因此,当因此,当 被用于研究定距被用于研究定距被用于研究定距被用于研究定距定距定距定距定距变变变变量之量之量之量之间间间间的关系的关系的关系的关系时

43、时时时,不,不,不,不仅仅仅仅可以可以可以可以作作作作为线为线为线为线性相关的量度,也可以作性相关的量度,也可以作性相关的量度,也可以作性相关的量度,也可以作为为为为非非非非线线线线性相关的量度。性相关的量度。性相关的量度。性相关的量度。这这这这意味着,意味着,意味着,意味着,对线对线对线对线性相关,相关比率性相关,相关比率性相关,相关比率性相关,相关比率 与与与与r r2 2 2 2(积积积积差系数之平方差系数之平方差系数之平方差系数之平方)有相同的有相同的有相同的有相同的PREPREPREPRE性性性性质质质质;但如果但如果但如果但如果对对对对非非非非线线线线性相关,用性相关,用性相关,用

44、性相关,用积积积积差系数差系数差系数差系数r r 来来来来讨论讨论讨论讨论就不行了。就不行了。就不行了。就不行了。n n 对对对对于于于于定定定定距距距距定定定定距距距距变变变变量量量量,曲曲曲曲线线线线相相相相关关关关既既既既然然然然要要要要用用用用R R来来来来测测测测量量量量,那那那那么么么么反反反反过过过过来来来来,同同同同一一一一资资资资料料料料通通通通过过过过相相相相关关关关指指指指数数数数R R与与与与积积积积差差差差系系系系数数数数r r计计计计算算算算的的的的比比比比较较较较,可可可可以以以以判判判判断断断断确确确确定定定定两两两两定定定定距距距距变变变变量量量量的的的的关关

45、关关系系系系是是是是不不不不是是是是直直直直线线线线。如如如如果果果果同同同同时时时时求求求求出出出出r r与与与与R R,r r 等等等等于于于于或或或或略略略略大大大大于于于于R R,可可可可说说说说明明明明两两两两变变变变量量量量关关关关系系系系是是是是直直直直线线线线的的的的,用用用用r r去去去去测测测测量量量量是是是是合合合合适适适适的的的的;如果如果如果如果r rR R,则说则说则说则说明两明两明两明两变变变变量关系可能是曲量关系可能是曲量关系可能是曲量关系可能是曲线线线线的。的。的。的。n n 首先首先 ,MSMSB B和和MSMSW W可以分可以分别别称称为组间为组间方差和方

46、差和组组内方差,其中内方差,其中(在等方在等方差的假差的假设设下下)组组内方差内方差总总是是2 2的无偏估的无偏估计计;而;而组间组间方差,只有当方差,只有当诸总诸总体体(即各即各样样本所代表的子本所代表的子总总体体)均均值实际值实际上相等上相等时时,它才是,它才是2 2的无偏估的无偏估计计。这这就是就是说说,如果零假,如果零假设为设为真,真,MSMSB B和和MSMSW W之之间间将没有太大的差将没有太大的差别别。反之。反之。如果零假如果零假设实际设实际不正确,可以期望不正确,可以期望MSMSB B和和MSMSW W的比的比值值大于大于1 1。如果。如果这这个比个比值值小于小于1 1,则则不

47、从不从F F分布表中分布表中查查找找临临界界值值F F就可以判断零假就可以判断零假设设不能被否定。不能被否定。n n 其次,以上两个例其次,以上两个例题题也可以用均也可以用均值值差差检验检验来来处处理。均理。均值值差差检验检验涉及涉及t t分布,可以做三分布,可以做三组组合的比合的比较较即即A A1 1与与A A2 2,A A2 2与与A A3 3,A A1 1与与A A3 3。与均。与均值值差差检检验验不同,方差分析不同,方差分析仅进仅进行一次行一次检验检验来判定三种来判定三种类别类别的家庭的家庭(或品牌或品牌)在消在消费费(或(或销销售)上彼此是否有售)上彼此是否有显显著性差异。方差分析的

48、著性差异。方差分析的优优点在于,一个点在于,一个检检验验可以代替多个可以代替多个检验检验。如果有四个。如果有四个类别类别,均,均值值差差检验检验需做需做(43)(43)2 26 6次;次;如果有六个如果有六个类别类别,需做,需做(65)(65)2 21515次;如果有十个次;如果有十个类别类别,需做,需做(109)(109)2 24545次。况且,如果做次。况且,如果做1515次均次均值值差差检验检验。其中。其中4 4次次结结果具有果具有显显著性,著性,这时应这时应当下什么当下什么结论结论?可能很可能很难难回答。回答。5关于方差分析的几点讨论关于方差分析的几点讨论n n 第三,方差分析中的自第

49、三,方差分析中的自变变量量X X如果是二分如果是二分变变量,也可以采用均量,也可以采用均值值差差t t检检验验。在。在这这种情况下,种情况下,F F 的分子自由度是的分子自由度是21211 1,分母自由度是,分母自由度是n n22,这这与与均均值值差差检验检验中的中的t t相同。相同。经过计经过计算可知,具有自由度算可知,具有自由度n n22的的t t 2 2值值等于具有等于具有分子自由度分子自由度为为1 1和分母自由度和分母自由度为为n n22的的F F 值值。比。比较较F F 表和表和t t 表也可以核表也可以核实这实这一点。一点。换换言之,言之,t t是是分子自由度分子自由度为为l l的

50、的F F 的平方根。的平方根。这这当然意味着,当然意味着,对对于于样样本而言,此本而言,此时时不不论论采用方差分析或均采用方差分析或均值值差差检验检验,其,其结结果完全相同。果完全相同。n n 第四,本第四,本节节集中集中讨论讨论了自了自变变量量为为一个定一个定类变类变量而因量而因变变量量为为一个定距一个定距变变量的情况。如果量的情况。如果对对因因变变量量Y Y影响的自影响的自变变量由一个量由一个变为变为两个以上,我两个以上,我们们就将面就将面对对多元方差分析了。多元方差分析了。总变总变差分解的思想可以直接推广至多因素差分解的思想可以直接推广至多因素显显著性著性检验检验。例如就两个自例如就两个

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁