《第九章 列联分析(精品).ppt》由会员分享,可在线阅读,更多相关《第九章 列联分析(精品).ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第九章第九章 列列 联联 分分 析析授课教师:杨卫华授课教师:杨卫华 博士博士重点掌握的内容重点掌握的内容n列联分析卡方检验思路列联分析卡方检验思路nF F系数、列联系数、系数、列联系数、V系数系数nSPSS的列联分析卡方检验的列联分析卡方检验第一节第一节列联分析的卡方检验列联分析的卡方检验列联分析列联分析n分析两个分类变量之间两个分类变量之间或者一个分类变量一个分类变量与顺序变量之间与顺序变量之间是否存在关联,关联的紧密程度如何。n对这类问题的处理称为独立性检验(Test of Independence)n通过交叉列联表和c2检验进行列联分析。列联分析的思路列联分析的思路一种原料来自三个不同
2、的地区,原料质量被分一种原料来自三个不同的地区,原料质量被分一种原料来自三个不同的地区,原料质量被分一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取成三个不同等级。从这批原料中随机抽取成三个不同等级。从这批原料中随机抽取成三个不同等级。从这批原料中随机抽取500500件件件件进行检验,结果如表所示。检验各个地区和原进行检验,结果如表所示。检验各个地区和原进行检验,结果如表所示。检验各个地区和原进行检验,结果如表所示。检验各个地区和原料质量之间是否存在依赖关系?料质量之间是否存在依赖关系?料质量之间是否存在依赖关系?料质量之间是否存在依赖关系?H0:地区和原料等级之间
3、是独立的(不存在依赖关系):地区和原料等级之间是独立的(不存在依赖关系)H1:地区和原料等级之间不独立:地区和原料等级之间不独立 (存在依赖关系)(存在依赖关系)第一步:提出假设第一步:提出假设假定交叉列联表中行变量行变量和列列变量变量相互独立第二步:计算检验统计量第二步:计算检验统计量行变量列变量观察频数记作fijoRTiCTjn交叉列联表的边缘分布交叉列联表的边缘分布列列列列变变变变量量量量边缘分布一一一一级级级级二二二二级级级级三三三三级级级级行行行行变变变变量量量量甲地区甲地区甲地区甲地区140/500乙地区乙地区乙地区乙地区171/500丙地区丙地区丙地区丙地区189/500边缘分布
4、162/500 188/500 150/500CTj/nRTi/n若原假设H0是正确的令:A=样本来自甲地区 B=样本属于一级原料单元格的期望频率?单元格的期望频率?单元格的期望频率?单元格的期望频率?P(第一单元格)=P(AB)=P(A)P(B)=140/500162/500=0.09072某单元格某单元格某单元格某单元格ij ij的期望频率的期望频率的期望频率的期望频率RTRTi i/n CT/n CTj j/n/n某单元格某单元格某单元格某单元格ij ij的期望频数的期望频数的期望频数的期望频数记作记作记作记作f fij ije eRTRTi i/n/n CTCTj j/nn/nn第三步
5、:计算卡方统计量第三步:计算卡方统计量r为列联表的行数C为列联表的列数当行变量与列变量相互独立时,每个单元格的观察频数与期望频数相差较小。c2也较小。但单元格的观察频数与期望频数相差较大,c2也较大。表明行变量与列变量有关系。c2大到何种程度才算较大第四步:假设检验第四步:假设检验c c c c2 2 2 2服从自由度为(行数服从自由度为(行数服从自由度为(行数服从自由度为(行数-1-1)(列数(列数(列数(列数-1-1)的卡方分布的卡方分布的卡方分布的卡方分布c2c2(r-1)(c-1)如果如果如果如果c c c c2 2 2 2c c c c2 2 2 2a a a a(r-1)(c-1)
6、(r-1)(c-1)(r-1)(c-1)(r-1)(c-1)或者或者或者或者P P P Pa a a a拒绝原假设,行变量与列变量有关联拒绝原假设,行变量与列变量有关联拒绝原假设,行变量与列变量有关联拒绝原假设,行变量与列变量有关联 卡方统计量的自由度卡方统计量的自由度列列列列变变变变量量量量合计C1C1C2C2C3C3行行行行变变变变量量量量R1R1自由自由限定RT1R2R2自由自由限定RT2R3R3限定限定限定RT3合计CT1CT2CT333列联表卡方统计量自由度为(3-1)(3-1)交叉列联表卡方检验说明交叉列联表卡方检验说明n列联表不应有期望频数小于1的单元格,或不应有大量期望频数小于
7、5的单元格;n列联表中有20%以上的单元格中的期望频数小于5,不宜使用卡方检验;(此时卡方统计量会偏大,易于拒绝原假设,可采用似然率卡方统计量T修正)第二节第二节列联分析的相关程度测量列联分析的相关程度测量列联分析中测度关联的系数列联分析中测度关联的系数f系数,适用于22列联表列联系数,Cramers V系数,适用于大于22的列联表F F相关系数相关系数n描述22列联表数据相关程度n 表明变量X与Y完全相关n 表明变量X,Y之间相互独立nF系数越接近于1,表明变量X与Y越相关,F系数越接近于0,表明变量X与Y越不相关22列联表注:a,b,c,d均为条件频数。当变量X,Y 相互独立,不存在相关关
8、系时,频数间应有下面的关系ad=bc差值ad-bc的大小可以反映变量之间相关程度的强弱。n在在2*2列联表中,每个单元频数的期望值列联表中,每个单元频数的期望值 列联系数列联系数(Coefficient of Contingency)n又称列联相关系数,简称C系数,主要用于大于22的列联表;n当列联表中的两个变量相互独立时,系数C=0,但不可能大于1。nC系数可能的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大。行列数相同的列联表才可以比较列联系数大小行列数相同的列联表才可以比较列联系数大小行列数相同的列联表才可以比较列联系数大小行列数相同的列联表才可以比较列联系数大小Cramers
9、 V系数n简称V系数,主要用于大于22的列联表;n当两个变量相互独立时,V=0;当两个变量完全相关时,V=1。n如果列联表中有一维为2,即min(R-1),(C-1)=1,则V值就等于f值。第三节第三节SPSS完成列联表的卡方检验完成列联表的卡方检验汇总数据汇总数据按照按照“原料数原料数”加加权权输出观察频数输出观察频数输出观察频数输出观察频数输出期望频数输出期望频数输出期望频数输出期望频数卡方统计量卡方统计量卡方统计量卡方统计量列联系数列联系数列联系数列联系数f f f f系数,系数,系数,系数,V V系数系数系数系数Pearson卡方统计量:19.822似然比卡方统计量:20.732大于c0.052(4)=9.488卡方统计量的sig值为0.001,小于a=0.05,拒绝原假设,认为原料等级和地区有关联。f系数为0.199(不适用于本例),列联系数为0.195,Cramers V系数为0.141,与1差距较大,说明即便原料等级与地区存在关联,但是两者之间的关联程度并不高。