《第十章卡方检验精选PPT.ppt》由会员分享,可在线阅读,更多相关《第十章卡方检验精选PPT.ppt(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十章卡方检验第1页,此课件共59页哦 2 2检验(检验(chi-square test)是专门用于)是专门用于计数计数数数据的统计方法。据的统计方法。由于这类数据在整理时,常常以由于这类数据在整理时,常常以列联表列联表(contingency table)或交叉表()或交叉表(cross tabulation)呈现,因此这种分析方法又被称)呈现,因此这种分析方法又被称为列联表分析或交叉表分析。为列联表分析或交叉表分析。第2页,此课件共59页哦一.2 2检验及其特点 1 12 2分布分布2 2分布是统计学中应用较多的一种抽样分布。分布是统计学中应用较多的一种抽样分布。2 2值是从同一总体中随机
2、抽取的无限多个容量为值是从同一总体中随机抽取的无限多个容量为 n 的的样本数据的平方和或标准分数的平方和,即样本数据的平方和或标准分数的平方和,即或或此时此时2分布的自由度为分布的自由度为dfn。第3页,此课件共59页哦如果正态总体的平均数未知,需要用样本平均数作如果正态总体的平均数未知,需要用样本平均数作为总体平均数的估计值,这时公式变为:为总体平均数的估计值,这时公式变为:此时,此时,2 2分布的自由度为分布的自由度为df n1 1。第4页,此课件共59页哦2 2分布曲线相相对对频频数数图图15151 1 几种不同自由度的几种不同自由度的2 2分布曲线(分布曲线(0.050.05)n=1n
3、=4n=10n=202显而易见,显而易见,2 2检验主要应用的是检验主要应用的是右侧概率。右侧概率。第5页,此课件共59页哦22 2分布的特点 2 2分布呈分布呈正偏态正偏态,曲线的右侧无限延伸,曲线的右侧无限延伸,但不与基线相交。但不与基线相交。2 2值都是值都是正值正值。2 2分布的分布的和和也是也是2 2分布。分布。2 2分布随分布随自由度自由度的变化而不同。自由度的变化而不同。自由度越小,曲线偏斜度越大;自由度越大,分布形态越越小,曲线偏斜度越大;自由度越大,分布形态越趋于对称。趋于对称。第6页,此课件共59页哦32 2检验2 2检检验验用用于于对对点点计计而而来来的的离离散散型型数数
4、据据资资料料进进行行假假设设检检验验,对对总总体体的的分分布布不不做做要要求求,也也不不对对总总体体参参数数进进行行推推论论。2 2检检验验主主要要是是对对总总体体的的数数据据分分布布进进行行假假设设检检验验,因因此此属属于于自自由由分分布布的非参数检验。的非参数检验。第7页,此课件共59页哦2 2 2 2检验是对由样本得来的检验是对由样本得来的实际实际频数与频数与理论理论频数的分布是否有显著性差异所进行的检验。频数的分布是否有显著性差异所进行的检验。其计算公式为:其计算公式为:这一公式是根据这一公式是根据18991899年统计学家皮尔逊推导的配合年统计学家皮尔逊推导的配合适度的理论公式而来。
5、这是与前述适度的理论公式而来。这是与前述2 2分布非常近似的次分布非常近似的次数分布。当数分布。当 f e 越大时,其接近的越好。越大时,其接近的越好。(151)第8页,此课件共59页哦2 2值的特点2 2值具有可加性;值具有可加性;2 2永远是正值;永远是正值;2 2的大小随实际频数与理论频数差的大的大小随实际频数与理论频数差的大小而变化。两者之差越小,说明样本分布与假设的小而变化。两者之差越小,说明样本分布与假设的理论分布越一致;两者之差越大,说明样本分布与理论分布越一致;两者之差越大,说明样本分布与假设的理论分布越不一致。假设的理论分布越不一致。理理论论频频数数也也称为期望次数称为期望次
6、数。第9页,此课件共59页哦二单向表的2检验(配合度检验)把实得的点计数据只按一种分类标准编制把实得的点计数据只按一种分类标准编制成表就是单向表。对单向表的数据所进行的成表就是单向表。对单向表的数据所进行的2 2检验,称为单向表的检验,称为单向表的2 2检验,也称为配合度检检验,也称为配合度检验(验(goodness of fit testgoodness of fit test)。)。第10页,此课件共59页哦1单向表2 2检验的计算公式单向表中只有一个变量,被按一定标准分单向表中只有一个变量,被按一定标准分为为k 组。单向表组。单向表2 2检验中,检验中,2 2值的计算公值的计算公式可采用
7、,自由度为式可采用,自由度为dfk1 1。第11页,此课件共59页哦2单向表2 2检验中理论频数的计算两种情形各类别理论频数相等各类别理论频数符合一定的比例计算要点将总频数平均分到几个类别将总频数按已知比例分到几个类别第12页,此课件共59页哦32 2检验的计算表15-1 单向表2检验计算表分组分组分组分组分组分组总总 和和2 第13页,此课件共59页哦例1:随机抽取随机抽取6060名学生,询问他们在高中名学生,询问他们在高中是否需要文理分科,赞成分科的是否需要文理分科,赞成分科的3939人,反对分科人,反对分科的的2121人,问他们对分科的意见是否有显著差异?人,问他们对分科的意见是否有显著
8、差异?解:1.提出假设H H0 0:学生对分科的意见没有显著差异:学生对分科的意见没有显著差异H H1 1:学生对分科的意见有显著差异:学生对分科的意见有显著差异 2.选择检验统计量并计算对点计数据进行差异检验对点计数据进行差异检验,可选择可选择2 2检验检验第14页,此课件共59页哦计 算表15-2 学生对分科意见的2检验计算表赞成赞成39309812.7反对反对2130-9812.7总总 和和60605.4 自由度为自由度为:df=k-1=1第15页,此课件共59页哦3.统计决断查查2 2值表,当值表,当 df =1=1 时时计算结果为:计算结果为:2=5.4*3.84 2=5.4 6.6
9、3,则 0.05 P 0.01结论:学生对高中文理分科的态度有显著差异。结论:学生对高中文理分科的态度有显著差异。第16页,此课件共59页哦表153 2 2检验统计决断规则2 2与临界值比较与临界值比较 P P值值 显著性显著性 检验结果检验结果 2 2 P P0.050.05不显著不显著保留保留H H0 0,拒绝,拒绝H H1 1 2 2 0.05P0.05P0.010.01显著显著在在0.050.05显著性水平显著性水平拒绝拒绝H H0 0,接受,接受H H1 12 2 P0.01P0.01极其显著极其显著在在0.010.01显著性水平显著性水平拒绝拒绝H H0 0,接受,接受H H1 1
10、第17页,此课件共59页哦例2:大学某系大学某系5454位老年教师中,健康状位老年教师中,健康状况属于好的有况属于好的有1515人,中等的有人,中等的有2323人,差的有人,差的有1616人。问该校老年教师健康状况好、中、差的人数比人。问该校老年教师健康状况好、中、差的人数比例是否为例是否为1 1:2 2:1 1?1.1.提出假设提出假设H H0 0:健康状况好、中、差的人数比例是:健康状况好、中、差的人数比例是1 1:2 2:1 1H H1 1:健康状况好、中、差的人数比例不是:健康状况好、中、差的人数比例不是1 1:2 2:1 1第18页,此课件共59页哦2.计 算表15-4 老年教师健康
11、状况的2检验计算表好好1513.51.52.250.167中中2327.0-4.016.00.593差差1613.52.56.250.463总总 和和54541.22第19页,此课件共59页哦3.3.结结 论论查查2 2值表,当值表,当 df =k-1=2-1=2 时时计算结果为:计算结果为:2=1.222=1.22 5.99,则,则 P 0.05结论:理论频数与实际频数差异不显著结论:理论频数与实际频数差异不显著,表明该校老年表明该校老年教师健康状况的人数比例是教师健康状况的人数比例是1:2:1。第20页,此课件共59页哦42 2的连续性校正当当dfdf1 1时,其中只要有一个组的时,其中只
12、要有一个组的理论频理论频数数小于小于5 5,就要运用亚茨(,就要运用亚茨(YatesYates)连续性)连续性校正校正法,计算公式为:法,计算公式为:(152)第21页,此课件共59页哦 之所以要进行连续性校正,是因为由点计之所以要进行连续性校正,是因为由点计数据求得的数据求得的2 2值是间断数列,当值是间断数列,当df1 1,fe5 5时,其间断性尤其明显。而时,其间断性尤其明显。而2 2值表上的理论值值表上的理论值是用连续量表表示的,其是用连续量表表示的,其2 2分布是一条连续的光分布是一条连续的光滑曲线。为了对连续的滑曲线。为了对连续的2 2曲线作较好的估计,曲线作较好的估计,需要在每个
13、小于理论频数的实际频数上加需要在每个小于理论频数的实际频数上加0.5,而在大于理论频数的实际频数上减去而在大于理论频数的实际频数上减去0.5。第22页,此课件共59页哦例3:历年优秀学生干部中男女比例为历年优秀学生干部中男女比例为2 2:8 8,今年优秀学生干部中有,今年优秀学生干部中有3 3个男生,个男生,7 7个女生。问个女生。问今年优秀学生干部的性别比例与往年是否有显著今年优秀学生干部的性别比例与往年是否有显著差异?差异?1.1.提出假设提出假设H H0 0:今年优秀学生干部的性别比例与往年没有显著差异:今年优秀学生干部的性别比例与往年没有显著差异H H1 1:今年优秀学生干部的性别比例
14、与往年有显著差异:今年优秀学生干部的性别比例与往年有显著差异第23页,此课件共59页哦2.计 算表15-5 学生干部性别比例的2检验计算表男男3210.50.250.125女女78-10.50.250.031总和总和10100.156自由度为自由度为:df=k-1=1第24页,此课件共59页哦3.统计决断查查2 2值表,当值表,当 df =1=1 时时计算结果为:计算结果为:2=0.1562=0.156 3.84,则,则 P 0.05结论:优秀学生干部中的性别比例与往年一样。结论:优秀学生干部中的性别比例与往年一样。思考:为什么只有思考:为什么只有 df=1 时需要校正时需要校正?第25页,此
15、课件共59页哦三频数分布正态性的2检验实际应用中,常常需要对一组数据的分布实际应用中,常常需要对一组数据的分布是否符合正态的情况进行检验。除了用累积分是否符合正态的情况进行检验。除了用累积分布曲线的形状和皮尔逊的经验公式进行大致判布曲线的形状和皮尔逊的经验公式进行大致判断之外,对实际频数分布与理论频数的分布是断之外,对实际频数分布与理论频数的分布是否一致的否一致的2 2检验是对数据分布形态进行检验的比检验是对数据分布形态进行检验的比较精确和可靠的方法。较精确和可靠的方法。第26页,此课件共59页哦频数分布正态性检验的基本思路将待检验的一组数据列成次数分布表。将待检验的一组数据列成次数分布表。根
16、据次数分布表的分组界限,计算出该组根据次数分布表的分组界限,计算出该组数据正态分布情况下的理论频数。数据正态分布情况下的理论频数。对实际频数与理论频数是否一致进行对实际频数与理论频数是否一致进行2 2检检验。验。思考:如何计算各组的理论频数?第27页,此课件共59页哦频数分布正态性检验的计算要点将次数分布表中各分组区间的上、下将次数分布表中各分组区间的上、下限转换成标准分数限转换成标准分数Z Z值;值;根据各组上、下限根据各组上、下限Z Z值查表,寻找值查表,寻找Z Z0 0至各组上、下限至各组上、下限Z Z值之间的面积;值之间的面积;求各组的面积(即概率)。求各组的面积(即概率)。计算中应注
17、意Z值的正、负号。第28页,此课件共59页哦 将各组的面积与总频数相乘,求出各组的将各组的面积与总频数相乘,求出各组的理论频数。理论频数。计算理论频数时,两端若有任何一组的理论频计算理论频数时,两端若有任何一组的理论频数小于数小于5 5,需要将这组的理论频数与相邻组的理论,需要将这组的理论频数与相邻组的理论频数合并。如果合并后仍然小于频数合并。如果合并后仍然小于5 5,可再合并,直,可再合并,直至大于至大于5 5为止。为止。根据计算出的理论频数与表中的实际频数,根据计算出的理论频数与表中的实际频数,计算各组的计算各组的2 2值,并将各组值,并将各组2 2值相加,得到最终值相加,得到最终的的2
18、2值。(注意值。(注意:自由度为自由度为 df=k-3 )第29页,此课件共59页哦练习:某高校按:某高校按 1 1:4 4:7 7:3 3 的比例的比例规定了各级教师岗位职称人数,该校现有各级规定了各级教师岗位职称人数,该校现有各级教师人数为:教授教师人数为:教授 4545人,副教授人,副教授255255人,讲人,讲师师360360人,助教人,助教435435人,问该校现有教师的人人,问该校现有教师的人数比例是否符合规定?数比例是否符合规定?第30页,此课件共59页哦四.双向表的2 2检验把把实实得得的的点点计计数数据据按按两两种种分分类类标标准准编编制制成成的的表表就就是是双双向向表表。对
19、对双双向向表表的的数数据据所所进进行行的的2 2检检验验,叫叫作双向表的作双向表的2 2检验,即双因素的检验,即双因素的2 2检验。检验。假假如如把把双双向向表表中中横横行行所所分分的的组组数数用用r r表表示示,把把纵纵列列所所分分的的组组数数用用c c表表示示,那那么么,双双向向表表的的2 2检检验验也也称称为为rcrc表的表的2 2检验。检验。第31页,此课件共59页哦 在双向表的在双向表的2 2检验中,如果要判断两种检验中,如果要判断两种分类特征,即两个因素之间是否有依从关系,分类特征,即两个因素之间是否有依从关系,这种这种2 2检验称为检验称为独立性检验。如果是判断几。如果是判断几次
20、重复实验的结果是否相同,这种次重复实验的结果是否相同,这种2 2检验检验称为称为同质性检验。第32页,此课件共59页哦双向表2检验的计算1理论频数的计算双向表双向表2 2检验中,理论频数的计算公式为检验中,理论频数的计算公式为公式中,公式中,fxi表示横行各组实际频数的总和表示横行各组实际频数的总和 fyi表示纵列各组实际频数的总和表示纵列各组实际频数的总和 N表示样本容量的总和表示样本容量的总和第33页,此课件共59页哦例例1 1:家庭经济状况属于上、中、下的高三毕业生,对于家庭经济状况属于上、中、下的高三毕业生,对于家庭经济状况属于上、中、下的高三毕业生,对于家庭经济状况属于上、中、下的高
21、三毕业生,对于是否愿意报考师范大学有三种不同的态度(愿意、不愿意、未定)是否愿意报考师范大学有三种不同的态度(愿意、不愿意、未定)是否愿意报考师范大学有三种不同的态度(愿意、不愿意、未定)是否愿意报考师范大学有三种不同的态度(愿意、不愿意、未定),其人数分布如表,其人数分布如表,其人数分布如表,其人数分布如表16-116-1。问学生是否愿意报考师范大学与家庭经济状。问学生是否愿意报考师范大学与家庭经济状。问学生是否愿意报考师范大学与家庭经济状。问学生是否愿意报考师范大学与家庭经济状况是否有关系?况是否有关系?况是否有关系?况是否有关系?表16-1 不同家庭经济状况学生报考师范大学的不同态度家庭
22、家庭经济状况经济状况对于报考师范大学的态度对于报考师范大学的态度总和总和愿意愿意不愿意不愿意未定未定上上中中下下18201827197102011555936总和总和565341150第34页,此课件共59页哦解题过程解:1.提出假设H H0 0:学生是否愿意报考师范大学与家庭经济状况无关:学生是否愿意报考师范大学与家庭经济状况无关H H1 1:学生是否愿意报考师范大学与家庭经济状况有关:学生是否愿意报考师范大学与家庭经济状况有关 2.选择检验统计量并计算对点计数据进行差异检验对点计数据进行差异检验,可选择可选择2 2检验检验第35页,此课件共59页哦理论频数计算计算理论频数允许有小数,因为计
23、算理论频数允许有小数,因为2 2分布已被作为分布已被作为连续型的分布看待。连续型的分布看待。表16-2 不同家庭经济状况学生报考师范大学的不同态度家庭家庭经济状况经济状况对于报考师范大学的态度对于报考师范大学的态度总和总和愿意愿意不愿意不愿意未定未定上中下1820182719 710201155=fx159=fx236=fx3总和总和56=fy153=fy241=fy3150=N20.5312.7222.0313.4419.4320.8515.0316.139.84第36页,此课件共59页哦计 算表16-3 学生报考师范大学的态度与家庭经济状况的2检验计算表愿意愿意-上上1820.53-2.5
24、3 6.40090.3118愿意愿意-中中2022.03-2.03 4.12090.1871愿意愿意-下下1813.44 4.5620.79361.5471不愿意不愿意-上上2719.43 7.5757.30492.9493不愿意不愿意-中中1920.85-1.85 3.42250.1641不愿意不愿意-下下712.72-5.7232.71842.5722未定未定-上上1015.03-5.0325.30091.6834未定未定-中中2016.13 3.8714.97690.9285未定未定-下下119.84 1.16 1.34560.1367总总 和和15015010.4802第37页,此课件
25、共59页哦3.统计决断双向表的自由度双向表的自由度:df=(=(r-1)(-1)(c-1)-1)查查2 2值表,当值表,当 df =(3-1)(3-1)=4=(3-1)(3-1)=4 时时计算结果为:计算结果为:2=10.48*9.49 2=10.48 13.3,则 0.05 P 0.01结论:学生是否愿意报考师范大学与家庭经结论:学生是否愿意报考师范大学与家庭经济状况有显著关系。济状况有显著关系。第38页,此课件共59页哦双向表的2 2值除用理论频数方法计算外,还可以用下式由实际频数直接求得:公式中,公式中,foi 表示双向表中每格的实际频数表示双向表中每格的实际频数第39页,此课件共59页
26、哦将例1数据用公式计算=10.48=10.48家庭家庭经济状况经济状况对于报考师范大学的态度对于报考师范大学的态度总和总和愿意愿意不愿意不愿意未定未定上上中中下下18201827197102011555936总和总和565341150表16-1 不同家庭经济状况学生报考师范大学的不同态度第40页,此课件共59页哦 双向表的双向表的独立性2 2检验和检验和同质性2 2检验,检验,只是检验的只是检验的意义不同,而,而方法完全相同。对于同一组数据所进行的对于同一组数据所进行的2 2检验,有时既检验,有时既可以理解为独立性可以理解为独立性2 2检验,又可以理解为同质性检验,又可以理解为同质性检验,两者
27、无根本区别。检验,两者无根本区别。第41页,此课件共59页哦五、四格表的2检验 如果如果rcrc表的表的2 2检验所作的结论为差异检验所作的结论为差异显著,这并不意味着各组之间的差异都显著。显著,这并不意味着各组之间的差异都显著。如果需要进一步知道哪些组差异显著,哪些如果需要进一步知道哪些组差异显著,哪些组差异不显著,还需进行四格表的组差异不显著,还需进行四格表的2 2检验。检验。第42页,此课件共59页哦1四格表四格表是只有两行、两列的双向表。四格表是只有两行、两列的双向表。也就是有两个变量,每一个变量各被分为也就是有两个变量,每一个变量各被分为两类的双向表两类的双向表变量变量合计合计变变量
28、量ABA+BCDC+D合计合计A+CB+DN=A+B+C+D第43页,此课件共59页哦2独立样本四格表2检验缩减公式缩减公式第44页,此课件共59页哦校正公式校正公式当当 df=1=1,样本容量总和,样本容量总和N30或或N50时,时,应对应对2 2 值进行连续性校正。值进行连续性校正。若以求理论频数的方法计算若以求理论频数的方法计算2 2值,由于值,由于df=1=1,那么有,那么有一组理论频数小于一组理论频数小于5 5时,应进行连续性校正。时,应进行连续性校正。第45页,此课件共59页哦例2:从甲、乙两个学校的平行班中从甲、乙两个学校的平行班中,各随机各随机抽取一组学生,测得他们的语文成绩如
29、表抽取一组学生,测得他们的语文成绩如表16-416-4,问甲、乙两个学校这次语文测验成绩是否相,问甲、乙两个学校这次语文测验成绩是否相同?同?及格及格不及格不及格甲校甲校24241010乙校乙校15152020表164 两个学校语文测验成绩样本数据第46页,此课件共59页哦计 算可用四格表缩减公式计算第47页,此课件共59页哦也可用双向表的公式计算及格及格不及格不及格合计合计甲校甲校24(19.22)10(14.78)34乙校乙校15(19.78)20(15.22)35合计合计393069表165 两个学校语文测验成绩2检验计算表第48页,此课件共59页哦 由理论频数计算 由实际频数直接计算第
30、49页,此课件共59页哦例3:高二高二4040个学生数学测验成绩见表个学生数学测验成绩见表16-616-6。问男生和女生的数学成绩有无本质差。问男生和女生的数学成绩有无本质差异异?8080分以上分以上8080分以下分以下男生男生186女生女生106表166 40个学生数学测验成绩第50页,此课件共59页哦 本例中本例中=40,3050,如果对检验结果要求,如果对检验结果要求严格严格,就需要采用校正公式进行连续性校正。,就需要采用校正公式进行连续性校正。第51页,此课件共59页哦3相关样本四格表的2检验相关样本四格表中,相关样本四格表中,和和是实际上是实际上没有发没有发生变化生变化的数据,而的数
31、据,而和和是实际上是实际上发生变化发生变化的的数据。数据。例如例如,100名学生先名学生先后测验两次的结果后测验两次的结果测验1测验2错错对对对对错错第52页,此课件共59页哦缩减公式缩减公式相关样本四格表相关样本四格表2 2检验的计算中,只需检验的计算中,只需要用到和。要用到和。同样可以用求理论频数的方法计算同样可以用求理论频数的方法计算 2 2值。值。第53页,此课件共59页哦校正公式校正公式当当 df=1=1 时,两个相关样本数据的四格表时,两个相关样本数据的四格表中,(中,(AD)30或者(或者(AD)50时(根据时(根据对检验结果要求的严格程度决定),应对对检验结果要求的严格程度决定
32、),应对2 值进值进行连续性校正。行连续性校正。应用校正公式计算应用校正公式计算2 2 值时,允许四格中有一格的实值时,允许四格中有一格的实际频数出现零的情况。际频数出现零的情况。第54页,此课件共59页哦例4:124124个学生进行个学生进行10001000米长跑训练,训练米长跑训练,训练一个月前后两次测验达标情况见表一个月前后两次测验达标情况见表16-7。问一个。问一个月的长跑训练是否有显著效果月的长跑训练是否有显著效果?一个月前一个月前一一个个月月后后达标达标未达标未达标未达标未达标1911达标达标6133表167 124个学生长跑达标成绩第55页,此课件共59页哦计 算用相关样本四格表
33、公式计算第56页,此课件共59页哦例5:某班某班2222名学生仰卧起坐成绩,训练前名学生仰卧起坐成绩,训练前不及格而训练后及格者有不及格而训练后及格者有5 5人,训练前及格而训练人,训练前及格而训练后不及格者有后不及格者有3 3人,问训练是否有显著效果人,问训练是否有显著效果?训练前训练前训训练练后后及格及格不及格不及格不及格不及格3 及格及格 5表168 22个学生仰卧起坐成绩第57页,此课件共59页哦 用连续性校正公式计算第58页,此课件共59页哦练习一项研究中,调查了不同职业人群的价值一项研究中,调查了不同职业人群的价值取向,结果如下表。问人们所从事的职业是否取向,结果如下表。问人们所从事的职业是否与他们的价值观有关?与他们的价值观有关?价值取向价值取向职业职业制造业制造业服务业服务业物质报酬物质报酬45455656人情关系人情关系35354444第59页,此课件共59页哦