《第八章-卡方检验与交互分析.docx》由会员分享,可在线阅读,更多相关《第八章-卡方检验与交互分析.docx(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除第八章 卡方检验与交互分析交互分析是社会调查研究中常用方法之一,用于研究两个定类变量的关系。交互分析中用于检验两个变量是否相关的方法叫做卡方检验,也叫独立性检验。卡方检验是建立在观测频次和期望频次之差基础上的一种检验。一、卡方检验的原理例:一项调查得到890个样本的与收入和所处地区的数据,希望分析收入和地区的关系。表1东部城市中西北部城市总频次个人月收入Y0-1000元1461723181000-1500元661001661500-2000元51861372000元以上166103269总频次429461890相对频次0.4820.5181.00
2、要检验的H0:收入和地区之间没有相关性,即每一地区的收入分布模式应该是相同的,收入的高低不应随着地区的不同而有所差异。也就是说,如果东部城市的四个收入类别各自比重和中西北部城市的四个收入类别各自比重一致,那么,收入和地区之间是相互独立的。如果这个890人的样本能够反应总体的独立性特征,那么就应该能够观测到两个地区具有相同的收入分布模式,称为期望模式,样本的期望观测频次如下:表2东部城市中西北部城市总频次个人月收入Y0-1000元153.3164.73181000-1500元80861661500-2000元66711372000元以上129.7139.3269总频次429461890相对频次0
3、.4820.5181.00接下来,计算观测频次f0与期望频次fe之间的偏差(f0-fe),如果这些偏差比较小,则有利于证明原假设即总体的独立性。反之,则可能推翻原假设。但偏差之和为0,所以对偏差进行平方。但是,为了说明每一个偏差的相对重要性,每一偏差平方和都需要和本组中的期望频次相比较,计算相对(f0-fe)2/fe。然后,将所有组的贡献相加,从而得到度量全部偏差的一个量,叫做卡方2=(fo-fe)2fe,服从自由度为(c-1)(r-1)的卡方分布。如用c和r分别表示表中的列数和行数,自由度为(c-1)(r-1)。f0 fe146172661005186166103153.3164.78086
4、6671129.7139.3(f0-fe)-7.37.3-1414-151536.3-36.3(f0-fe)2/fe0.350.322.452.283.413.1710.169.46计算出卡方值后,可根据已知的显著性水平和自由度查卡方分布表,找出临界值,与之作对比。反过来,也可以计算出概值,再根据我们所希望的显著性水平做比较。该例题中计算出2为31.6,查表发现对应自由度为3的那一行的所有临界值都小于2,因此,概值小于0.001。由于概值如此小,检验水平可以是1%甚至更小,所以一定可以拒绝原假设。也就是说,在总人口中,收入与地区有显著的相关性,二者并不独立。练习题:在电视的收视率调查中,得到性
5、别与收视习惯的联列表如下,试分析性别和收视习惯的关系。男女总频次几乎天天看382462偶尔看31738总频次6931100相对频率0.690.311.00解:原假设为“性别和收视习惯相互独立”,如果原假设成立,那么两列期望凭此应通过0.69和0.31分别乘以最后一列总频次而得到。382431742.819.226.211.8(f0-fe)-4.84.84.8-4.8(f0-fe)2/fe0.541.200.881.95卡方值=4.57。自由度为(2-1)(2-1)=1。卡方值大于0.052=3.84,所以概值小于0.05。可以认为在5%的显著性水平下拒绝原假设,认为性别与收视习惯并不是相互独立
6、的。二、卡方检验的局限性和补救办法 1、卡方值随分类的不同而不同交互分析将数据按类别整理,分类的不同可改变卡方值,甚至导致相反结果。在例题中,收入如果分成高、中、低三类,结果必然不同。因此,在分类时最好有理论(统计上的)依据。如果没有,则需要有统计上的依据,例如利用中位数,将数据平分两类。2、样本量不能太小,也不宜过大样本量应大于30或50,一般调查中都会超过50。样本量太大,检验结果也可能会失去意义。因为卡方值受样本量影响很大,样本量越大,越容易得到拒绝原假设的结果。比如将样本量增大10倍,各种对应关系不变,则卡方值也会增大10倍。原来的不拒绝结果可能就会变成拒绝原假设的结果。为了解决这一问
7、题,要采用补救办法,常用的是联列系数C,可以消除样本量的影响,解释变量间真正关系的密切程度。C= ,虽然卡方值不同,但C值相同。因此,当卡方检验显著单样本量有很大时,最好参照C值的大小,如果C值也比较大,才可以拒绝原假设。遗憾的是,对于C值的显著程度没有可行的统计检验方法,有些学者认为C值至少要超过0.16,最好达到0.25,才可以考虑两个变量相关。同时,C值还受到连列表规模影响。对于2*2的表,C值不会超过0.707,但对于4*6的表,C值上限可达到0.877。所以,也有学者建议将C值与其理论上限值作比较,如果接近上限,关系显著。但后一种方法过于严格,对很多大样本调查,C值都很难达到显著程度。因此,在统计分析时,应根据问题性质灵活掌握,对于那些要求精密的自然科学来说,概值界定为0.001,而对于一般的社会调查来说,概值小于0.05或小于0.1就可以认为达到了显著相关了。【精品文档】第 3 页