《第十章卡方检验精选文档.ppt》由会员分享,可在线阅读,更多相关《第十章卡方检验精选文档.ppt(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十章卡方检验本讲稿第一页,共五十九页 2 2检验(检验(chi-square test)是专门用于)是专门用于计数计数数数据的统计方法。据的统计方法。由于这类数据在整理时,常常以由于这类数据在整理时,常常以列联表列联表(contingency table)或交叉表()或交叉表(cross tabulation)呈现,因此这种分析方法又被称为列联表)呈现,因此这种分析方法又被称为列联表分析或交叉表分析。分析或交叉表分析。本讲稿第二页,共五十九页一.2 2检验及其特点 1 12 2分布分布2 2分布是统计学中应用较多的一种抽样分布。分布是统计学中应用较多的一种抽样分布。2 2值是从同一总体中随机
2、抽取的无限多个容量为值是从同一总体中随机抽取的无限多个容量为 n 的样本数据的平方和或标准分数的平方和,即的样本数据的平方和或标准分数的平方和,即或或此时此时2分布的自由度为分布的自由度为dfn。本讲稿第三页,共五十九页如果正态总体的平均数未知,需要用样本平均如果正态总体的平均数未知,需要用样本平均数作为总体平均数的估计值,这时公式变为:数作为总体平均数的估计值,这时公式变为:此时,此时,2 2分布的自由度为分布的自由度为df n1 1。本讲稿第四页,共五十九页2 2分布曲线相相对对频频数数图图15151 1 几种不同自由度的几种不同自由度的2 2分布曲线(分布曲线(0.050.05)n=1n
3、=4n=10n=202显而易见,显而易见,2 2检验主要应用的是检验主要应用的是右侧概率。右侧概率。本讲稿第五页,共五十九页22 2分布的特点 2 2分布呈分布呈正偏态正偏态,曲线的右侧无限延伸,曲线的右侧无限延伸,但不与基线相交。但不与基线相交。2 2值都是值都是正值正值。2 2分布的分布的和和也是也是2 2分布。分布。2 2分布随分布随自由度自由度的变化而不同。自由度的变化而不同。自由度越小,曲线偏斜度越大;自由度越大,分布形态越小,曲线偏斜度越大;自由度越大,分布形态越趋于对称。越趋于对称。本讲稿第六页,共五十九页32 2检验2 2检检验验用用于于对对点点计计而而来来的的离离散散型型数数
4、据据资资料料进进行行假假设设检检验验,对对总总体体的的分分布布不不做做要要求求,也也不不对对总总体体参参数数进进行行推推论论。2 2检检验验主主要要是是对对总总体体的的数数据据分分布布进进行行假假设设检检验验,因因此此属属于于自自由由分分布布的的非非参参数数检验。检验。本讲稿第七页,共五十九页2 2 2 2检验是对由样本得来的检验是对由样本得来的实际实际频数与频数与理论理论频数的分布是否有显著性差异所进行的检验。频数的分布是否有显著性差异所进行的检验。其计算公式为:其计算公式为:这一公式是根据这一公式是根据18991899年统计学家皮尔逊推导的配年统计学家皮尔逊推导的配合适度的理论公式而来。这
5、是与前述合适度的理论公式而来。这是与前述2 2分布非常近似分布非常近似的次数分布。当的次数分布。当 f e 越大时,其接近的越好。越大时,其接近的越好。(151)本讲稿第八页,共五十九页2 2值的特点2 2值具有可加性;值具有可加性;2 2永远是正值;永远是正值;2 2的大小随实际频数与理论频数差的大的大小随实际频数与理论频数差的大小而变化。两者之差越小,说明样本分布与假设的小而变化。两者之差越小,说明样本分布与假设的理论分布越一致;两者之差越大,说明样本分布与理论分布越一致;两者之差越大,说明样本分布与假设的理论分布越不一致。假设的理论分布越不一致。理理论论频频数数也也称为期望次数称为期望次
6、数。本讲稿第九页,共五十九页二单向表的2检验(配合度检验)把实得的点计数据只按一种分类标准编制成表把实得的点计数据只按一种分类标准编制成表就是单向表。对单向表的数据所进行的就是单向表。对单向表的数据所进行的2 2检验,检验,称为单向表的称为单向表的2 2检验,也称为配合度检验检验,也称为配合度检验(goodness of fit testgoodness of fit test)。)。本讲稿第十页,共五十九页1单向表2 2检验的计算公式单向表中只有一个变量,被按一定标准单向表中只有一个变量,被按一定标准分为分为k 组。单向表组。单向表2 2检验中,检验中,2 2值的计算公值的计算公式可采用,自
7、由度为式可采用,自由度为dfk1 1。本讲稿第十一页,共五十九页2单向表2 2检验中理论频数的计算两种情形各类别理论频数相等各类别理论频数符合一定的比例计算要点将总频数平均分到几个类别将总频数按已知比例分将总频数按已知比例分到几个类别到几个类别本讲稿第十二页,共五十九页32 2检验的计算表15-1 单向表2检验计算表分组分组分组分组分组分组总总 和和2 本讲稿第十三页,共五十九页例1:随机抽取随机抽取6060名学生,询问他们在高中名学生,询问他们在高中是否需要文理分科,赞成分科的是否需要文理分科,赞成分科的3939人,反对分科人,反对分科的的2121人,问他们对分科的意见是否有显著差异?人,问
8、他们对分科的意见是否有显著差异?解:1.提出假设H H0 0:学生对分科的意见没有显著差异:学生对分科的意见没有显著差异H H1 1:学生对分科的意见有显著差异:学生对分科的意见有显著差异 2.选择检验统计量并计算对点计数据进行差异检验对点计数据进行差异检验,可选择可选择2 2检验检验本讲稿第十四页,共五十九页计 算表15-2 学生对分科意见的2检验计算表赞成赞成39309812.7反对反对2130-9812.7总总 和和60605.4 自由度为自由度为:df=k-1=1本讲稿第十五页,共五十九页3.统计决断查查2 2值表,当值表,当 df =1=1 时时计算结果为:计算结果为:2=5.4*3
9、.84 2=5.4 6.63,则 0.05 P 0.01结论:学生对高中文理分科的态度有显著差异。结论:学生对高中文理分科的态度有显著差异。本讲稿第十六页,共五十九页表153 2 2检验统计决断规则2 2与临界值比较与临界值比较 P P值值 显著性显著性 检验结果检验结果 2 2 P P0.050.05不显著不显著保留保留H H0 0,拒绝,拒绝H H1 1 2 2 0.05P0.05P0.010.01显著显著在在0.050.05显著性水显著性水平拒绝平拒绝H H0 0,接受,接受H H1 12 2 P0.01P0.01极其显著极其显著在在0.010.01显著性水显著性水平拒绝平拒绝H H0
10、0,接受,接受H H1 1本讲稿第十七页,共五十九页例2:大学某系大学某系5454位老年教师中,健康状况位老年教师中,健康状况属于好的有属于好的有1515人,中等的有人,中等的有2323人,差的有人,差的有1616人。人。问该校老年教师健康状况好、中、差的人数比问该校老年教师健康状况好、中、差的人数比例是否为例是否为1 1:2 2:1 1?1.1.提出假设提出假设H H0 0:健康状况好、中、差的人数比例是:健康状况好、中、差的人数比例是1 1:2 2:1 1H H1 1:健康状况好、中、差的人数比例不是:健康状况好、中、差的人数比例不是1 1:2 2:1 1本讲稿第十八页,共五十九页2.计
11、算表15-4 老年教师健康状况的2检验计算表好好1513.51.52.250.167中中2327.0-4.016.00.593差差1613.52.56.250.463总总 和和54541.22本讲稿第十九页,共五十九页3.3.结结 论论查查2 2值表,当值表,当 df =k-1=2-1=2 时时计算结果为:计算结果为:2=1.222=1.22 5.99,则,则 P 0.05结论:理论频数与实际频数差异不显著结论:理论频数与实际频数差异不显著,表明该校老年表明该校老年教师健康状况的人数比例是教师健康状况的人数比例是1:2:1。本讲稿第二十页,共五十九页42 2的连续性校正当当dfdf1 1时,其
12、中只要有一个组的时,其中只要有一个组的理论频数理论频数小于小于5 5,就要运用亚茨(,就要运用亚茨(YatesYates)连续性)连续性校正校正法,法,计算公式为:计算公式为:(152)本讲稿第二十一页,共五十九页 之所以要进行连续性校正,是因为由点计之所以要进行连续性校正,是因为由点计数据求得的数据求得的2 2值是间断数列,当值是间断数列,当df1 1,fe5 5时,其间断性尤其明显。而时,其间断性尤其明显。而2 2值表上的理论值表上的理论值是用连续量表表示的,其值是用连续量表表示的,其2 2分布是一条连分布是一条连续的光滑曲线。为了对连续的续的光滑曲线。为了对连续的2 2曲线作较好的曲线作
13、较好的估计,需要在每个小于理论频数的实际频数上估计,需要在每个小于理论频数的实际频数上加加0.5,而在大于理论频数的实际频数上减去,而在大于理论频数的实际频数上减去0.5。本讲稿第二十二页,共五十九页例3:历年优秀学生干部中男女比例为历年优秀学生干部中男女比例为2 2:8 8,今年优秀学生干部中有,今年优秀学生干部中有3 3个男生,个男生,7 7个女生。问个女生。问今年优秀学生干部的性别比例与往年是否有显著今年优秀学生干部的性别比例与往年是否有显著差异?差异?1.1.提出假设提出假设H H0 0:今年优秀学生干部的性别比例与往年没有显著差异:今年优秀学生干部的性别比例与往年没有显著差异H H1
14、 1:今年优秀学生干部的性别比例与往年有显著差异:今年优秀学生干部的性别比例与往年有显著差异本讲稿第二十三页,共五十九页2.计 算表15-5 学生干部性别比例的2检验计算表男男3210.50.250.125女女78-10.50.250.031总和总和10100.156自由度为自由度为:df=k-1=1本讲稿第二十四页,共五十九页3.统计决断查查2 2值表,当值表,当 df =1=1 时时计算结果为:计算结果为:2=0.1562=0.156 3.84,则,则 P 0.05结论:优秀学生干部中的性别比例与往年一样。结论:优秀学生干部中的性别比例与往年一样。思考:为什么只有思考:为什么只有 df=1
15、 时需要校正时需要校正?本讲稿第二十五页,共五十九页三频数分布正态性的2检验实际应用中,常常需要对一组数据的分布实际应用中,常常需要对一组数据的分布是否符合正态的情况进行检验。除了用累积分是否符合正态的情况进行检验。除了用累积分布曲线的形状和皮尔逊的经验公式进行大致判布曲线的形状和皮尔逊的经验公式进行大致判断之外,对实际频数分布与理论频数的分布是断之外,对实际频数分布与理论频数的分布是否一致的否一致的2 2检验是对数据分布形态进行检验的检验是对数据分布形态进行检验的比较精确和可靠的方法。比较精确和可靠的方法。本讲稿第二十六页,共五十九页频数分布正态性检验的基本思路将待检验的一组数据列成次数分布
16、表。将待检验的一组数据列成次数分布表。根据次数分布表的分组界限,计算出该组根据次数分布表的分组界限,计算出该组数据正态分布情况下的理论频数。数据正态分布情况下的理论频数。对实际频数与理论频数是否一致进行对实际频数与理论频数是否一致进行2 2检验。检验。思考:如何计算各组的理论频数?本讲稿第二十七页,共五十九页频数分布正态性检验的计算要点将次数分布表中各分组区间的上、将次数分布表中各分组区间的上、下限转换成标准分数下限转换成标准分数Z Z值;值;根据各组上、下限根据各组上、下限Z Z值查表,寻找值查表,寻找Z Z0 0至各组上、下限至各组上、下限Z Z值之间的面积;值之间的面积;求各组的面积(即
17、概率)。求各组的面积(即概率)。计算中应注意Z值的正、负号。本讲稿第二十八页,共五十九页 将各组的面积与总频数相乘,求出各组的将各组的面积与总频数相乘,求出各组的理论频数。理论频数。计算理论频数时,两端若有任何一组的理论频计算理论频数时,两端若有任何一组的理论频数小于数小于5 5,需要将这组的理论频数与相邻组的理论,需要将这组的理论频数与相邻组的理论频数合并。如果合并后仍然小于频数合并。如果合并后仍然小于5 5,可再合并,直,可再合并,直至大于至大于5 5为止。为止。根据计算出的理论频数与表中的实际频数,根据计算出的理论频数与表中的实际频数,计算各组的计算各组的2 2值,并将各组值,并将各组2
18、 2值相加,得到最终值相加,得到最终的的2 2值。(注意值。(注意:自由度为自由度为 df=k-3 )本讲稿第二十九页,共五十九页练习:某高校按:某高校按 1 1:4 4:7 7:3 3 的比例的比例规定了各级教师岗位职称人数,该校现有各级规定了各级教师岗位职称人数,该校现有各级教师人数为:教授教师人数为:教授 4545人,副教授人,副教授255255人,讲人,讲师师360360人,助教人,助教435435人,问该校现有教师的人,问该校现有教师的人数比例是否符合规定?人数比例是否符合规定?本讲稿第三十页,共五十九页四.双向表的2 2检验把把实实得得的的点点计计数数据据按按两两种种分分类类标标准
19、准编编制制成成的的表表就就是是双双向向表表。对对双双向向表表的的数数据据所所进进行行的的2 2检检验验,叫叫作双向表的作双向表的2 2检验,即双因素的检验,即双因素的2 2检验。检验。假假如如把把双双向向表表中中横横行行所所分分的的组组数数用用r r表表示示,把把纵纵列列所所分分的的组组数数用用c c表表示示,那那么么,双双向向表表的的2 2检检验验也也称为称为rcrc表的表的2 2检验。检验。本讲稿第三十一页,共五十九页 在双向表的在双向表的2 2检验中,如果要判断两种检验中,如果要判断两种分类特征,即两个因素之间是否有依从关系,分类特征,即两个因素之间是否有依从关系,这种这种2 2检验称为
20、检验称为独立性检验。如果是判断几。如果是判断几次重复实验的结果是否相同,这种次重复实验的结果是否相同,这种2 2检验称检验称为为同质性检验。本讲稿第三十二页,共五十九页双向表2检验的计算1理论频数的计算双向表双向表2 2检验中,理论频数的计算公式为检验中,理论频数的计算公式为公式中,公式中,fxi表示横行各组实际频数的总和表示横行各组实际频数的总和 fyi表示纵列各组实际频数的总和表示纵列各组实际频数的总和 N表示样本容量的总和表示样本容量的总和本讲稿第三十三页,共五十九页例例1 1:家庭经济状况属于上、中、下的高三毕业生,对于是否愿家庭经济状况属于上、中、下的高三毕业生,对于是否愿家庭经济状
21、况属于上、中、下的高三毕业生,对于是否愿家庭经济状况属于上、中、下的高三毕业生,对于是否愿意报考师范大学有三种不同的态度(愿意、不愿意、未定),其人数分意报考师范大学有三种不同的态度(愿意、不愿意、未定),其人数分意报考师范大学有三种不同的态度(愿意、不愿意、未定),其人数分意报考师范大学有三种不同的态度(愿意、不愿意、未定),其人数分布如表布如表布如表布如表16-116-1。问学生是否愿意报考师范大学与家庭经济状况是否有关。问学生是否愿意报考师范大学与家庭经济状况是否有关。问学生是否愿意报考师范大学与家庭经济状况是否有关。问学生是否愿意报考师范大学与家庭经济状况是否有关系?系?系?系?表16
22、-1 不同家庭经济状况学生报考师范大学的不同态度家庭家庭经济状况经济状况对于报考师范大学的态度对于报考师范大学的态度总和总和愿意愿意不愿意不愿意未定未定上上中中下下18201827197102011555936总和总和565341150本讲稿第三十四页,共五十九页解题过程解:1.提出假设H H0 0:学生是否愿意报考师范大学与家庭经济状况无关:学生是否愿意报考师范大学与家庭经济状况无关H H1 1:学生是否愿意报考师范大学与家庭经济状况有关:学生是否愿意报考师范大学与家庭经济状况有关 2.选择检验统计量并计算对点计数据进行差异检验对点计数据进行差异检验,可选择可选择2 2检验检验本讲稿第三十五
23、页,共五十九页理论频数计算计算理论频数允许有小数,因为计算理论频数允许有小数,因为2 2分布已被作分布已被作为连续型的分布看待。为连续型的分布看待。表16-2 不同家庭经济状况学生报考师范大学的不同态度家庭家庭经济状况经济状况对于报考师范大学的态度对于报考师范大学的态度总和总和愿意愿意不愿意不愿意未定未定上中下1820182719 710201155=fx159=fx236=fx3总和总和56=fy153=fy241=fy3150=N20.5312.7222.0313.4419.4320.8515.0316.139.84本讲稿第三十六页,共五十九页计 算表16-3 学生报考师范大学的态度与家庭
24、经济状况的2检验计算表愿意愿意-上上1820.53-2.53 6.40090.3118愿意愿意-中中2022.03-2.03 4.12090.1871愿意愿意-下下1813.44 4.5620.79361.5471不愿意不愿意-上上2719.43 7.5757.30492.9493不愿意不愿意-中中1920.85-1.85 3.42250.1641不愿意不愿意-下下712.72-5.7232.71842.5722未定未定-上上1015.03-5.0325.30091.6834未定未定-中中2016.13 3.8714.97690.9285未定未定-下下119.84 1.16 1.34560.1
25、367总总 和和15015010.4802本讲稿第三十七页,共五十九页3.统计决断双向表的自由度双向表的自由度:df=(=(r-1)(-1)(c-1)-1)查查2 2值表,当值表,当 df =(3-1)(3-1)=4=(3-1)(3-1)=4 时时计算结果为:计算结果为:2=10.48*9.49 2=10.48 13.3,则 0.05 P 0.01结论:学生是否愿意报考师范大学与家庭经结论:学生是否愿意报考师范大学与家庭经济状况有显著关系。济状况有显著关系。本讲稿第三十八页,共五十九页双向表的2 2值除用理论频数方法计算外,还可以用下式由实际频数直接求得:公式中,公式中,foi 表示双向表中每
26、格的实际频数表示双向表中每格的实际频数本讲稿第三十九页,共五十九页将例1数据用公式计算=10.48=10.48家庭家庭经济状况经济状况对于报考师范大学的态度对于报考师范大学的态度总和总和愿意愿意不愿意不愿意未定未定上上中中下下18201827197102011555936总和总和565341150表16-1 不同家庭经济状况学生报考师范大学的不同态度本讲稿第四十页,共五十九页 双向表的双向表的独立性2 2检验和检验和同质性2 2检验,只检验,只是检验的是检验的意义不同,而,而方法完全相同。对于同一组数据所进行的对于同一组数据所进行的2 2检验,有时既可以检验,有时既可以理解为独立性理解为独立性
27、2 2检验,又可以理解为同质性检验,检验,又可以理解为同质性检验,两者无根本区别。两者无根本区别。本讲稿第四十一页,共五十九页五、四格表的2检验 如果如果rcrc表的表的2 2检验所作的结论为差异显检验所作的结论为差异显著,这并不意味着各组之间的差异都显著。如著,这并不意味着各组之间的差异都显著。如果需要进一步知道哪些组差异显著,哪些组差果需要进一步知道哪些组差异显著,哪些组差异不显著,还需进行四格表的异不显著,还需进行四格表的2 2检验。检验。本讲稿第四十二页,共五十九页1四格表四格表是只有两行、两列的双向表。也就四格表是只有两行、两列的双向表。也就是有两个变量,每一个变量各被分为两类的双是
28、有两个变量,每一个变量各被分为两类的双向表向表变量变量合计合计变变量量ABA+BCDC+D合计合计A+CB+DN=A+B+C+D本讲稿第四十三页,共五十九页2独立样本四格表2 2检验缩减公式缩减公式本讲稿第四十四页,共五十九页校正公式校正公式当当 df=1=1,样本容量总和,样本容量总和N30或或N50时,应对时,应对2 2 值进行连续性校正。值进行连续性校正。若以求理论频数的方法计算若以求理论频数的方法计算2 2值,由于值,由于df=1=1,那,那么有一组理论频数小于么有一组理论频数小于5 5时,应进行连续性校正。时,应进行连续性校正。本讲稿第四十五页,共五十九页例2:从甲、乙两个学校的平行
29、班中从甲、乙两个学校的平行班中,各随机各随机抽取一组学生,测得他们的语文成绩如表抽取一组学生,测得他们的语文成绩如表16-416-4,问甲、乙两个学校这次语文测验成绩是否相同问甲、乙两个学校这次语文测验成绩是否相同?及格及格不及格不及格甲校甲校24241010乙校乙校15152020表164 两个学校语文测验成绩样本数据本讲稿第四十六页,共五十九页计 算可用四格表缩减公式计算本讲稿第四十七页,共五十九页也可用双向表的公式计算及格及格不及格不及格合计合计甲校甲校24(19.22)10(14.78)34乙校乙校15(19.78)20(15.22)35合计合计393069表165 两个学校语文测验成
30、绩2检验计算表本讲稿第四十八页,共五十九页 由理论频数计算 由实际频数直接计算本讲稿第四十九页,共五十九页例3:高二高二4040个学生数学测验成绩见表个学生数学测验成绩见表16-616-6。问男生和女生的数学成绩有无本质。问男生和女生的数学成绩有无本质差异差异?8080分以上分以上8080分以下分以下男生男生186女生女生106表166 40个学生数学测验成绩本讲稿第五十页,共五十九页 本例中本例中=40,3050,如果对检验结果要求,如果对检验结果要求严格严格,就需要采用校正公式进行连续性校正。,就需要采用校正公式进行连续性校正。本讲稿第五十一页,共五十九页3相关样本四格表的2 2检验相关样
31、本四格表中,相关样本四格表中,和和是实际上是实际上没有发没有发生变化生变化的数据,而的数据,而和和是实际上是实际上发生变化发生变化的的数据。数据。例如例如,100名学生先名学生先后测验两次的结果后测验两次的结果测验1测验2错错对对对对错错本讲稿第五十二页,共五十九页缩减公式缩减公式相关样本四格表相关样本四格表2 2检验的计算中,只需要检验的计算中,只需要用到和。用到和。同样可以用求理论频数的方法计算同样可以用求理论频数的方法计算 2 2值。值。本讲稿第五十三页,共五十九页校正公式校正公式当当 df=1=1 时,两个相关样本数据的四格表时,两个相关样本数据的四格表中,(中,(AD)30或者(或者
32、(AD)50时(根据时(根据对检验结果要求的严格程度决定),应对对检验结果要求的严格程度决定),应对2 值进值进行连续性校正。行连续性校正。应用校正公式计算应用校正公式计算2 2 值时,允许四格中有一格值时,允许四格中有一格的实际频数出现零的情况。的实际频数出现零的情况。本讲稿第五十四页,共五十九页例4:124124个学生进行个学生进行10001000米长跑训练,训练一米长跑训练,训练一个月前后两次测验达标情况见表个月前后两次测验达标情况见表16-7。问一个月的。问一个月的长跑训练是否有显著效果长跑训练是否有显著效果?一个月前一个月前一一个个月月后后达标达标未达标未达标未达标未达标1911达标
33、达标6133表167 124个学生长跑达标成绩本讲稿第五十五页,共五十九页计 算用相关样本四格表公式计算本讲稿第五十六页,共五十九页例5:某班某班2222名学生仰卧起坐成绩,训练前不名学生仰卧起坐成绩,训练前不及格而训练后及格者有及格而训练后及格者有5 5人,训练前及格而训练后人,训练前及格而训练后不及格者有不及格者有3 3人,问训练是否有显著效果人,问训练是否有显著效果?训练前训练前训训练练后后及格及格不及格不及格不及格不及格3 及格及格 5表168 22个学生仰卧起坐成绩本讲稿第五十七页,共五十九页 用连续性校正公式计算本讲稿第五十八页,共五十九页练习一项研究中,调查了不同职业人群的价一项研究中,调查了不同职业人群的价值取向,结果如下表。问人们所从事的职业值取向,结果如下表。问人们所从事的职业是否与他们的价值观有关?是否与他们的价值观有关?价值取向价值取向职业职业制造业制造业服务业服务业物质报酬物质报酬45455656人情关系人情关系35354444本讲稿第五十九页,共五十九页