《列联表的独立性检验课件.ppt》由会员分享,可在线阅读,更多相关《列联表的独立性检验课件.ppt(36页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2.5 列联表的独立性检验列联表的独立性检验1rjijinn12r12,(,),(,).,( ,.sijijA BArA AABsB BBnA Bn设为两个定性变量, 有 个不同水平有 个不同水平观测 次 各水平组合)出现频数为1siijjnn11=rsijijnnn一、二维 列联表rs列表如下:令: 吸烟与肺癌列联表吸烟与肺癌列联表患肺癌患肺癌不患肺癌不患肺癌总计总计吸烟吸烟606032329292不吸烟不吸烟3 311111414总计总计63634343106106为了调查吸烟是否对肺癌有影响,对为了调查吸烟是否对肺癌有影响,对6363位位肺癌患者及肺癌患者及4343位非患者位非患者( (
2、对照组)调查了对照组)调查了其中的吸烟人数其中的吸烟人数. .2 22 2列列联表联表二、二维 列联表的独立性检验rs1,1,2,siijjir1,1,2, .rjijijs12r12,.( ,.sijijijA BAA AABB BBA BA B设为随机变量, 取值取值为取值)的概率为,为的边缘分布列表如下:111.rsijij,1,2,1,2,.ijijA Bir js 若独立0,HA B原假设 :独立1,HA B备则假设 :不相互独立( ,).ijijA Bnnn的观测值为对应的列联表(观测次数,为观测频数,理论频数0H 成立,0ijijHnnn 如果成立, 较大时,理论频数与相应的观测
3、频数相差均不应很大。,1,2, ,1,2,.ijijir js 即为成立, ),.ijiji j即为至少 (使1,2, ,1,2, .ijijnnir js 即成立,对检验基本思想:2211-Qrsij(观测频数 理论频数)理论频数2 Q. c拒绝域形式0.HQ2 如果成立,的值应较小 称为称为Pearson 2统计量统计量 ,.jiijnnnn因为2221111Qijijrsrsijijijijijijn nnnnn nnn nnn nn检验统计量检验统计量211-rsijijijijn nn ()0211.HQr - ) s-2如果成立,渐近服从自由度为(()的分布ijn0.Hijijnn
4、成立例1 随机抽取某校男生35名,女生31,进行体育达标考核,结果如下表 问体育达标水平是否与性别有关?体育达标考核情况表体育达标考核情况表达达 标标 未未 达达 标标 合合 计计 男男 1515 2020 3535 女女 1313 1818 3131合合 计计 2828 3838 66660H :体育达标水平与性别无关1H:体育达标水平与性别有关(1 1)建立假设)建立假设2211Qijijrsijijn nnnn nn其结论为:体育达标水平与性别无关.因此在0.05显著性水平下,接受原假设.22222(15 14.85)(2020.15)(13 13.15)(18 17.85)14.852
5、0.1513.1517.850.006QR函数函数chisq.test ( ) xchisq.test(x, correct=F)R R程序如下程序如下输出结果为输出结果为 Pearsons Chi-squared testdata: x X-squared = 0.0057, df = 1, p-value = 0.9397因此在0.05显著性水平下,接受原假设.92页例页例2.14自己看自己看2.5.2 Fisher精确检验不满足时, 用Pearson近似效果很差, 一般采用Fisher精确检验.在使用Pearson 独立性检验时, 要注意格子2的期望频数小于5的格子数不超过总格子数的20
6、%,且没有一个格子的期望频数小于1Fisher精确检验对于单元频数小的表格特别适用四表格的Fisher精确检验频数四表格BBAA11n12n22n21n合计1+n2+n+1n+2n+n对应的概率四表格1BBAA11p12p22p21p合计1+p2+p+1p+2p假设边缘频数1212nnnn,固定1121nn,分别服从二项分布1+12+2()()B npB np,和,1= (|),pP B A其中,表示有属性A的个体中有属性B的条件概率2(|)pP B A表示没有属性A的个体中有属性B的条件概率12=,pp如果则属性A和属性B相互独立即有属性A的个体中有属性B的个体的频率与没有属性A的个体中有属
7、性B的个体的频率应该没有显著的差异.112112+nnnn即有12,pp如果表示有属性A的个体中有属性B的比例高12,pp如果表示有属性A的个体中有属性B的比例低112112+nnnn即112112+nnnn即四表格的检验问题, 即属性A和B的独立性检验问题有012112(1):=,:HppHpp012112(2):=,:HppHpp012112(3):=,:HppHppFisherFisher精确检验的统计量精确检验的统计量假设边缘频数1212nnnn,都固定ijNij是第 行 列格子的频数统计量ijN 服从超几何分布1212(=)iiinnnnijijnnC CP NnC121211122
8、122!nnnnn nnnn11N若选为统计量,11121211111(=)nnnnnnC CP NnC121211122122!nnnnn nnnn事实上, 确定了, 其它三个值也就确定了11n1212=3nnnn5,3,5,则 有下面四种取值ijn2 3 3 2 4 1 5 02 3 3 2 4 1 5 03 0 2 1 1 2 0 33 0 2 1 1 2 0 3利用公式可以计算出 取2, 3, 4, 5的概率11n11(=2)P N3!5!3!5!=0.17857148!2!3!3!0!在独立的原假设下, 取这些值的概率是不同的, 但各种取值都不会是小概率事件,11N11N过大或过小都
9、可能拒绝原假设拒绝域形式为111111NcNcFisher精确检验的计算比较复杂, 所以一般用于n比较小的四表格.例:为了解某种新药的疗效是否提高, 将42位病人随机分组注射两种药物, 试验结果如下表所示药物有效无效合计新8210旧141832合计222042R R程序如下程序如下新药疗效没有提高0H :新药疗效有提高1H: xfisher.test(x, alternative = greater)输出结果输出结果为为Fishers Exact Test for Count Data data: x p-value = 0.04849p-value = 0.04849 alternative
10、 hypothesis: true odds ratio is greater than 1 95 percent confidence interval: 1.010589 Inf sample estimates: odds ratioodds ratio 4.950963拒绝原假设,认为备则假设成立.优势比优势比优势比:优势比:属性A时,有属性B与没有属性B的优势.称条件概率(|)P B A与(|)P B A之比为当个体有1111112121(|)=.(|)pppP B ApP B App2122(|)=(|)pP B ApP B A类似地,为当个体没有属性A时, 有属性B与没有属性B的
11、优势,称这两个优势的比为优势比11221221p pORp p下列结论成立:如果在有属性A的个体中有B的比例高, 则优比OR1;如果在有属性A的个体中有B的比例低,则优比OR1如果属性A和属性B相互独立, 则优比OR=1.优势比大于1与新药较旧药疗效有提高等价.三、三维 列联表rs t 1212r1212, ,( ,1,2,1,2,1,2.sstijkijkA B CBB BB AA AABB BB CC CCA B Cir jskt设为随机变量, 取值为取值取值为取值为取值,)的概率为,( , ,).ijkijkA B Cnnn的观测值为对应的列联表(观测次数,为观测频数,理论频数关于某项政
12、策调查所得结果关于某项政策调查所得结果 观点:赞成观点:不赞成 低收入中等收入高收入低收入中等收入高收入男201055810女25157279大致可以看出女性赞成的多,低收入赞成的多大致可以看出女性赞成的多,低收入赞成的多.,.ABC设 表示性别,取值 男 , 女表示收入取值 低 中等高表示态度取值 赞成 , 不赞成三维 列联表2 3 2 观点赞成低收入中等收入高收入男202015女25157观点不赞成低收入中等收入高收入男5810女279性别男低收入中等收入高收入赞成201015不赞成5810性别女低收入中等收入高收入赞成25157不赞成279部分表即为固定其中一个变量在某一水平上,其余两个
13、变量构成的二维列联表.部分表C固定取值 赞成C固定 取值 不赞成A固定 取值 男A固定 取值 女低收入中等收入高收入男252825女272216 (.将某个变量在它各个水平上上的部分表结合对应的频数相加),所得到的另外两变量的二维列联表边缘表,.A B关于的边缘表低收入中等收入高收入赞成201015不赞成5810,.B C关于的边缘表部分表是固定一个变量在其不同一水平上的二维列联表.边缘表是忽略一个变量形成另外两个变量的二维列联表.四各种独立性及关系, ,.A B C(1)相互独立, ,1,2,1,2,1,2,.ijkijkA B Cir js kt 相互独立,.A BC(2)联合独立于,1,
14、2,1,2,1,2,.ijkijkA BCir js kt 联合独立于,.A CBB CA类似可定义联合独立于 及联合独立于(3),.CkAB在第 水平上和 条件独立|,|ijkij kijkkP AA BBCC|2,=,1,2,1,2,.i kjkij kikj kkCkABir js 在第 水平上和 条件独立(4),.CAB给定 时和 条件独立,.CAB在 的每一水平上和 均是条件独立|=,1,2,1,2,1,2,.ij kikj kir js kt ,1,2,1,2,1,2,.i kjkijkkir js kt 或(5).AB和 是边缘独立的.ABAB和 的边缘表中, 和 是相互独立的=
15、,1,2,1,2,.ijijir js 几种独立性的关系, ,.A B C(1)相互独立任意两个联合独立于 第三个变量(2) ,.CABA CBABC给定时, 和 条件独立联合独立于给定时, 和 条件独立ABACBCB和 是边缘独立的,(3) 和 联合独立于和 是边缘独立的,.五 各种独立性的检验方法. 1 检验函数.ijkijkijknmn为观测频数,为理论频数的估计22111-Qrstijkijkijkijknmm()021.HQfrst2 如果成立,渐近服从自由度为-需要独立估计的概率数目 的分布01:, ,:, ,HA B CHA B C(1)相互独立,不相互独立1111,2),(1,
16、2,),(1,2,).1ijrstkijkijkirjskt 需估计(因为1112frstr - ) (s-trstrst ()+( -1),ijkijk 用计算1111,1rstijkijk因为01:,:,.HA BCHA BC(2)联合独立与 ,不联合独立与1,2,1,2,),(1,2,).ijkir jskt需估计(11(1)(1)frstrs-ttrs ()+( -1),ijkijk用计算(-1)+( -1).rst需估计的参数数目为. 2 计算.ijkijkijkijkijknmnmn理 论 频 数的 估 计用 观 测 频 数,即,ijkijkijkijknnnnnn其它的类似可得:
17、六. 检验顺序, ),), ).A CBAC BA BCAB CB CABC A否则 检验三种联合独立形式联合独立于 记为(联合独立于 记为(联合独立于 即记为(若某两种联合独立成立三种形式的条件独立成立.,),),).CABAC BCABCAB ACBACBA BC给定 时和 条件独立记(给定 时和 条件独立记(给定 时和 条件独立记(, , ,)A B CA B C检验相互独立记为(其它的独立形式均成立., ,A B C检验是否相互独立?其它的独立形式均成立检验三种联合独立中,某两种联合独立是否成立?三种形式的条件独立成立.检验三种形式的条件独立是否成立?是是否否收入的收入的“低低”、“中
18、中”、“高高”用代码用代码1 1、2 2、3 3代表;代表;性别的性别的“女女”、“男男”用代码用代码0 0、1 1代表;代表;观点观点“赞成赞成”和和“不赞成不赞成”用用1 1、0 0代表。代表。有些计算机数据对于这些代码的形式不限(可以有些计算机数据对于这些代码的形式不限(可以是数字,也可以是字符串)。是数字,也可以是字符串)。 七七. .在在SPSSSPSS数据表中的形式数据表中的形式表是二维的,用变量和样本值表示表是二维的,用变量和样本值表示先将定性变量数量化:先将定性变量数量化:A * B * C CrosstabulationCount27221665251815585240311
19、2301ATotalC1123BTotalChi-Square Tests.111a2.946.1112.946.0001.983123Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid CasesC1ValuedfAsymp. Sig.(2-sided)0 cells (.0%) have expected count less than 5. The minimumexpected count is 14.62.a. A * C * B CrosstabulationCount22527520257
20、4552715228101815254097161051519123101ATotal01ATotal01ATotalB12301CTotalChi-Square Tests1.767b1.184.8511.3561.8081.179.241.1791.7331.18852.673c1.412.2421.622.6731.412.517.311.6571.41840.354d1.552.0511.821.3551.551.716.411.3431.55831Pearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact
21、 TestLinear-by-LinearAssociationN of Valid CasesPearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesPearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesB123ValuedfAsymp.
22、Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)Computed only for a 2x2 tablea. 2 cells (50.0%) have expected count less than 5. The minimum expected count is 3.37.b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 6.75.c. 0 cells (.0%) have expected count less than 5. The minimum expected count is 5.81.d. 小小 结结 1. 1. 非参数检验在假设检验中不对参数作明非参数检验在假设检验中不对参数作明确的推断,也不涉及样本取自何种分布的总体。确的推断,也不涉及样本取自何种分布的总体。它的适用范围较广。常用的非参方法较为简便。它的适用范围较广。常用的非参方法较为简便。易于理解掌握。当资料适用参数检验方法时,易于理解掌握。当资料适用参数检验方法时,用非参常会损失部分信息,降低检验效能。用非参常会损失部分信息,降低检验效能。