《卡方检验(正式)说课材料.ppt》由会员分享,可在线阅读,更多相关《卡方检验(正式)说课材料.ppt(86页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、华中科技大学公卫学院流行病与卫生统计系122检验检验(jinyn)(jinyn)Chi-squared testChi-squared test第第7章章蒋红卫蒋红卫Email:JHWCCC21CN.COM第一页,共86页。2讲课讲课(jing k)内容:内容:1.概述概述基本思想基本思想2.22表卡方检验表卡方检验3.配对四格表卡方检验配对四格表卡方检验4.Fisher确切确切(quqi)概率检验概率检验5.RC表卡方检验表卡方检验6.多个样本率的多重比较多个样本率的多重比较7.有序分组资料的线性趋势检验有序分组资料的线性趋势检验 第二页,共86页。3概念概念(ginin)回顾回顾p在总体率
2、为在总体率为的二项分布总体中做的二项分布总体中做n1和和n2抽抽样样,样本率样本率p1和和p2与与的差别的差别(chbi),称为率抽称为率抽样误差。样误差。p在总体率为在总体率为1和和2的不同总体中抽样,得的不同总体中抽样,得p1和和p2,在,在n5,可通过率的,可通过率的u检验推断是否检验推断是否1=2。p二项分布的两个样本率的检验同样可用二项分布的两个样本率的检验同样可用2检检验。验。第三页,共86页。4 目的:目的:推断两个总体率或构成比之间有无差别推断两个总体率或构成比之间有无差别(chbi)(chbi)多个总体率或构成比之间有无差别多个总体率或构成比之间有无差别(chbi)(chbi
3、)多个样本率的多重比较多个样本率的多重比较 两个分类变量之间有无关联性两个分类变量之间有无关联性 频数分布拟合优度的检验。频数分布拟合优度的检验。检验统计量:检验统计量:22 应用:计数资料应用:计数资料第四页,共86页。5基本概念基本概念例例1 某院比较异梨醇(试验组)和氢氯塞嗪(对某院比较异梨醇(试验组)和氢氯塞嗪(对照组)降低颅内压的疗效,将照组)降低颅内压的疗效,将200名患者随机分为名患者随机分为(fn wi)两组,试验组两组,试验组104例中有效的例中有效的99例例,对照组对照组96例中有效的例中有效的78例例,问两种药物对降低颅内压疗效问两种药物对降低颅内压疗效有无差别?有无差别
4、?第五页,共86页。6表表 200名颅内高压患者名颅内高压患者(hunzh)治疗情况治疗情况编号编号年龄年龄性别性别治疗组治疗组 舒张压舒张压体温体温疗效疗效137男A11.2737.5有效245女B12.5337.0有效343男A10.9336.5有效459女B14.6737.8无效20054男B16.8037.6无效如何整理此类资料如何整理此类资料(zlio)?如何分析此类资料如何分析此类资料(zlio)?第六页,共86页。7四格表(四格表(fourfold table)资料的基本)资料的基本(jbn)形形式式 实际频数实际频数(actual frequency)是指各分是指各分类类(fn
5、 li)实际发生或未发生计数值,实际发生或未发生计数值,记为记为A。a=99b=5104c=75d=219617426200单元格单元格第七页,共86页。8理论频数理论频数(theoretical frequency)是指是指按某按某H0假设假设(jish)计算各分类理论上计算各分类理论上的发生或未发生计数值,记为的发生或未发生计数值,记为T。式中,TRC 为第R 行C 列的理论频数 nR 为相应(xingyng)的行合计 nC 为相应(xingyng)的列合计疗法疗法有效人数有效人数无效人数无效人数合计合计有效率有效率试验组试验组99(99(90.4890.48)5(5(13.5213.52
6、)10410495.295.2对照组对照组75(75(83.5283.52)21(21(12.4812.48)969678.178.1合计合计174174262620020087.087.0第八页,共86页。9p残差残差p设设A代表某个类别的观察频数,代表某个类别的观察频数,T代表基代表基于于H0计算出的期望频数,计算出的期望频数,A与与T之差之差(A-T)被称为残差被称为残差p残差可以表示某一个类别观察值和理论残差可以表示某一个类别观察值和理论值的偏离程度,但残差有正有负,相加后值的偏离程度,但残差有正有负,相加后会彼此抵消,总和仍然为会彼此抵消,总和仍然为0。为此可以将。为此可以将残差平方
7、后求和,以表示样本总的偏离无残差平方后求和,以表示样本总的偏离无效假设的程度效假设的程度p类似于方差类似于方差(fn ch)的计算思想,的计算思想,第九页,共86页。10Pearson 2检验的基本检验的基本(jbn)公式公式p残差大小是一个相对的概念残差大小是一个相对的概念(ginin),相对于期望频数为,相对于期望频数为10时,时,20的残差非常大;可相的残差非常大;可相对于期望频数为对于期望频数为1000时时20就很就很小了。因此又将残差平方除以小了。因此又将残差平方除以期望频数再求和,以标准化观期望频数再求和,以标准化观察频数与期望频数的差别。察频数与期望频数的差别。p卡方统计量,卡方
8、统计量,1900年由英国年由英国统计学家统计学家K.Pearson首次提出。首次提出。Karl Pearson(1857 1936)第十页,共86页。11p从卡方的计算公式可见从卡方的计算公式可见(kjin),当观察频,当观察频数与期望频数完全一致时,卡方值为数与期望频数完全一致时,卡方值为0;p观察频数与期望频数越接近,两者之间的观察频数与期望频数越接近,两者之间的差异越小,卡方值越小;差异越小,卡方值越小;p反之,观察频数与期望频数差别越大,两反之,观察频数与期望频数差别越大,两者之间的差异越大,卡方值越大。者之间的差异越大,卡方值越大。p当然,卡方值的大小也和自由度有关当然,卡方值的大小
9、也和自由度有关p检验的自由度取决于可以自由取值的格子检验的自由度取决于可以自由取值的格子数目,而不是样本含量数目,而不是样本含量n。p理论上,在理论上,在n40时下式值与时下式值与2分布近似,分布近似,在理论数在理论数5,近似程度较好。,近似程度较好。第十一页,共86页。12l连续型分布:正态分布(连续型分布:正态分布(Normal distribution),),学生氏学生氏t分布分布(Students t-distribution),F分布分布(F distribution)l另一个同样重要另一个同样重要(zhngyo)的分布的分布2卡方分布卡方分布(Chi-squared distrib
10、ution)。l此分布在此分布在1875年,首先由年,首先由F.Helmet所提出,而且所提出,而且是由正态分布演变而来的,即标准正态分布是由正态分布演变而来的,即标准正态分布Z值值之平方而得之平方而得2分布分布(fnb)第十二页,共86页。13设设Xi为来自为来自(li z)正态总体的连续性变量。正态总体的连续性变量。称为称为(chn wi)自由度自由度df=n的卡方值。的卡方值。显然,卡方分布显然,卡方分布(fnb)具有可加性。具有可加性。第十三页,共86页。143.847.8112.59P P0.050.05的临界值的临界值2分布分布(fnb)的概率密度函数曲线的概率密度函数曲线第十四页
11、,共86页。15当当=1时时,第十五页,共86页。16第二节第二节2222表卡方检验表卡方检验(jinyn)(jinyn)第十六页,共86页。17两组样本率比较的设计分类:两组样本率比较的设计分类:1.两组两组(独立独立)样本率的比较样本率的比较 组间数据是相互独立组间数据是相互独立,非配对设计。非配对设计。22表卡方检验表卡方检验2.配对设计两组样本率的比较配对设计两组样本率的比较 组间数据是相关组间数据是相关(xinggun)的,配对设计。的,配对设计。配对四格表卡方检验配对四格表卡方检验第十七页,共86页。18两组(不配对)样本两组(不配对)样本(yngbn)率的率的比较比较1)四格)四
12、格(s)表形式表形式2)四格)四格(s)表不配对资料检验的专用公式表不配对资料检验的专用公式二者结果二者结果(ji gu)等价等价各组样各组样本例数本例数是固定是固定的的组别组别阳性数阳性数阴性数阴性数合计合计率率%甲组甲组a ab ba+b=na+b=n1 1a/na/n1 1乙组乙组c cd dc+d=nc+d=n2 2c/nc/n2 2合计合计a+ca+cb+db+dN N(a+c)/N(a+c)/N第十八页,共86页。19例例1(续)(续)第十九页,共86页。20H0:1=2 即即试试验验(shyn)组组与与对对照照组组降降低低颅颅内压的总体有效率相等内压的总体有效率相等H1:12=0
13、.05。以以=1查查附附表表8的的2界界值值表表得得P 40,此时有,此时有 1 T 5时,需计算时,需计算Yates连连续续(linx)性校正性校正 2值值T 1,或,或n40时,应改用时,应改用Fisher确切概率法直确切概率法直接计算概率接计算概率第二十三页,共86页。24(1)校正公式的条件:校正公式的条件:1T5,同时同时N40,用校正公式计算用校正公式计算(j sun)(2)连续校正连续校正(continuity correction)公式:公式:(3)当当T1,或或N0.05。按按=0.05检检验验水水准准,不不拒拒绝绝H0,无无统统计计学学意意义义(yy),尚尚不不能能认认为为
14、两两种种药药物物治治疗疗脑脑血血管管疾疾病病的有效率不等。的有效率不等。第二十七页,共86页。28卡方检验的连续性校正卡方检验的连续性校正(jiozhng)问题问题正方观点:正方观点:卡方统计量抽样分布的连续性和平滑性得到卡方统计量抽样分布的连续性和平滑性得到改善,可以降低改善,可以降低I I类错误的概率;类错误的概率;校正结果更接近于校正结果更接近于FisherFisher确切概率法;确切概率法;校正是有条件校正是有条件(tiojin)(tiojin)的。的。反方观点:反方观点:经连续性校正后,经连续性校正后,P P值有过分保守之嫌;值有过分保守之嫌;连续性校正卡方检验的连续性校正卡方检验的
15、P P值与值与FisherFisher确切概率确切概率法的法的P P值没有可比性,这是因为值没有可比性,这是因为FisherFisher确切确切概率法建立在四格表双边固定的假定下,而概率法建立在四格表双边固定的假定下,而实际资料则是单边固定的四格表。实际资料则是单边固定的四格表。第二十八页,共86页。29就应用而言,无论是否经过连续性校正,就应用而言,无论是否经过连续性校正,若两种检验的结果一致,无须在此问题若两种检验的结果一致,无须在此问题上纠缠。但是,当两种检验结果相互矛上纠缠。但是,当两种检验结果相互矛盾时,如例盾时,如例2,就需要,就需要(xyo)谨慎解释谨慎解释结果了。结果了。为客观
16、起见,建议将两种结论同时报告为客观起见,建议将两种结论同时报告出来,以便他人判断。当然,如果两种出来,以便他人判断。当然,如果两种结论一致,如均为有或无统计学意义,结论一致,如均为有或无统计学意义,则只报道非连续性检验的结果即可。则只报道非连续性检验的结果即可。第二十九页,共86页。30第二节第二节 配对配对(pi du)设计两个样本率的设计两个样本率的2检验检验(McNemer检验检验)配对设计:通常配对设计:通常(tngchng)(tngchng)为同源配对。为同源配对。对同一观察对象分别用两种方法处理,观对同一观察对象分别用两种方法处理,观察其阳性与阴性结果。察其阳性与阴性结果。基本用途
17、:常用于比较两种检验方法或两基本用途:常用于比较两种检验方法或两种培养基的阳性率是否有差别。种培养基的阳性率是否有差别。数据形式:配对四格表形式。数据形式:配对四格表形式。第三十页,共86页。31例例3 3 某实验室采用两种方法对某实验室采用两种方法对5858名可疑红斑名可疑红斑狼疮患者的血清抗体进行测定,问:两方法测狼疮患者的血清抗体进行测定,问:两方法测定结果阳性定结果阳性(yngxng)(yngxng)检出率是否有差别?检出率是否有差别?测定结果为:阳性测定结果为:阳性(yngxng)(yngxng)、阴性(共、阴性(共116116标本,标本,5858对)对)方法(方法(X X)乳胶凝集
18、法乳胶凝集法 免疫荧光法免疫荧光法 对子例数对子例数 11 11 33 33 2 2 12 12结结果果(ji(ji gugu)第三十一页,共86页。32 上述配对设计实验中,就每个对子上述配对设计实验中,就每个对子(du zi)(du zi)而言,两种处理的结果不外乎有四种可能而言,两种处理的结果不外乎有四种可能:两种检测方法皆为阳性数两种检测方法皆为阳性数(a)(a);两种检测方法皆为阴性两种检测方法皆为阴性(ynxng)(ynxng)数数(d)(d);免疫荧光法为阳性,乳胶凝集法为免疫荧光法为阳性,乳胶凝集法为 阴性阴性(ynxng)(ynxng)数数(b)(b);乳胶凝集法为阳性,免疫
19、荧光法为乳胶凝集法为阳性,免疫荧光法为 阴性阴性(ynxng)(ynxng)数数(c)(c)。其中,其中,a,d a,d 为两法观察结果为两法观察结果(ji gu)(ji gu)一致的两种情一致的两种情况,况,b,c b,c为两法观察结果为两法观察结果(ji gu)(ji gu)不一致的两种情不一致的两种情况。况。第三十二页,共86页。33 表 两种方法的检测(jin c)结果 第三十三页,共86页。34方法方法(fngf)原理原理按照配对设计的思路进行分析,则首先应当按照配对设计的思路进行分析,则首先应当求出各对的差值,然后求出各对的差值,然后(rnhu)(rnhu)考察样本中考察样本中差值
20、的分布是否按照差值的分布是否按照H0H0假设的情况对称分布。假设的情况对称分布。按此分析思路,最终可整理出如前所列的配按此分析思路,最终可整理出如前所列的配对四格表。对四格表。主对角线上两种检验方法的结论相同,对问主对角线上两种检验方法的结论相同,对问题的解答不会有任何贡献题的解答不会有任何贡献斜对角线上两种检验方法的结论不相同,显斜对角线上两种检验方法的结论不相同,显示了检验方法间的差异示了检验方法间的差异第三十四页,共86页。35配对配对(pi du)2检验统计量为检验统计量为第三十五页,共86页。36H0:b=c=(12+2)/2=7(两法总体阳性率相等两法总体阳性率相等)H1:b c
21、(两方法总体阳性率不等)(两方法总体阳性率不等)=0.05本例本例b+c=12+2=1440,用校正公式,用校正公式本例本例2=5.793.84,P0.05。在。在=0.05水准,水准,拒绝拒绝H0,接受,接受H1,有统计学意义。认为两,有统计学意义。认为两方法的检测率不同方法的检测率不同(b tn),乳胶凝集法的,乳胶凝集法的阳性检测率阳性检测率22.41%低于免疫检测率低于免疫检测率39.66%。第三十六页,共86页。37注意事项注意事项McNemarMcNemar检验只会利用非主对角线单元格上检验只会利用非主对角线单元格上的信息,即它只关心两者不一致的评价情况,的信息,即它只关心两者不一
22、致的评价情况,用于比较两个评价者间存在怎样的倾向。因此,用于比较两个评价者间存在怎样的倾向。因此,对于一致性较好的大样本数据对于一致性较好的大样本数据(shj)(shj),McNemarMcNemar检验可能会失去实用价值。检验可能会失去实用价值。例如对例如对1 1万个案例进行一致性评价,万个案例进行一致性评价,99959995个都个都是完全一致的,在主对角线上,另有是完全一致的,在主对角线上,另有5 5个分布个分布在左下的三角区,显然,此时一致性相当的好。在左下的三角区,显然,此时一致性相当的好。但如果使用但如果使用McNemarMcNemar检验,此时反而会得出检验,此时反而会得出两种评价
23、有差异的结论来。两种评价有差异的结论来。第三十七页,共86页。10538第三节第三节 四格四格(s)表资料的表资料的Fisher确切概率法确切概率法 第三十八页,共86页。10539条件:条件:理论依据:超几何分布理论依据:超几何分布(fnb)(非(非2检验检验 的范畴)的范畴)第三十九页,共86页。10540例例4 4 某医师为研究乙肝免疫球蛋白预防胎儿某医师为研究乙肝免疫球蛋白预防胎儿宫内感染宫内感染HBVHBV的效果的效果(xiogu)(xiogu),将,将3333例例HBsAgHBsAg阳性孕妇随机分为预防注射组和非预防阳性孕妇随机分为预防注射组和非预防组,结果见表组,结果见表7-47
24、-4。问两组新生儿的。问两组新生儿的HBVHBV总体总体感染率有无差别?感染率有无差别?第四十页,共86页。10541表表7-4 两组新生儿两组新生儿HBV感染率的比较感染率的比较(bjio)第四十一页,共86页。42基本基本(jbn)思想思想 在四格表周边在四格表周边(zhu bin)(zhu bin)合计数固定不变合计数固定不变的条件下,计算表内的条件下,计算表内4 4个实际频数变动时的各个实际频数变动时的各种组合之概率种组合之概率PiPi;再按检验假设用单侧或双;再按检验假设用单侧或双侧的累计概率侧的累计概率P P,依据所取的检验水准,依据所取的检验水准 做出做出推断。推断。第四十二页,
25、共86页。43 1各各组组合合概概率率Pi的的计计算算 在在四四格格表表周周边边合合计计数数不不变变的的条条件件下下,表表内内4个个实实际际频频数数 a,b,c,d 变变动动(bindng)的的组组合合数数共共有有“周周边边合合计计中中最最小小数数+1”个个。如如例例7-4,表表内内4个个实实际际频频数数变变动动(bindng)的的组合数共有组合数共有9+1=10个,依次为:个,依次为:第四十三页,共86页。44各组合的概率各组合的概率PiPi服从服从(fcng)(fcng)超几何分布,其和超几何分布,其和为为1 1。计算公式为计算公式为第四十四页,共86页。45 2累计概率累计概率(gil)
26、的计算的计算(单、双侧检单、双侧检验不同验不同)第四十五页,共86页。46第四十六页,共86页。47第四十七页,共86页。48检验检验(jinyn)步骤步骤第四十八页,共86页。49第四十九页,共86页。50表表5 例例4的的 Fisher确切确切(quqi)概率法计算表概率法计算表 第五十页,共86页。51例例5 5 某某单单位位研研究究胆胆囊囊腺腺癌癌、腺腺瘤瘤的的P53P53基基因因表表达达,对对同同期期手手术术切切除除的的胆胆囊囊腺腺癌癌、腺腺瘤瘤标标本本(biobn)(biobn)各各1010份份,用用免免疫疫组组化化法法检检测测P53P53基基因因,资资料料见见表表7-67-6。问
27、问胆胆囊囊腺腺癌癌和和胆胆囊腺瘤的囊腺瘤的P53P53基因表达阳性率有无差别?基因表达阳性率有无差别?第五十一页,共86页。52表表6 胆囊腺癌与胆囊腺瘤胆囊腺癌与胆囊腺瘤P53基因表达基因表达(biod)阳性率的比较阳性率的比较 第五十二页,共86页。53 本例本例 a+b+c+d=10 a+b+c+d=10,由表,由表7-77-7可看出,四格可看出,四格(s)(s)表内表内各种组合以各种组合以i=4i=4和和i=5i=5的组合为中心呈对称分布。的组合为中心呈对称分布。表表表表7 7 例例例例5 5的的的的FisherFisher确切确切确切确切(quqi)(quqi)概率法计算表概率法计算
28、表概率法计算表概率法计算表 *为现有(xin yu)样本第五十三页,共86页。54(1 1)计算现有样本)计算现有样本(yngbn)(yngbn)的的D*D*和和P*P*及各组合下四格表及各组合下四格表的的DiDi。本例本例D*=50D*=50,P*=0.02708978P*=0.02708978。(2 2)计算满足)计算满足Di50Di50条件的各组合下四格表的概率条件的各组合下四格表的概率PiPi。(3 3)计算同时满足)计算同时满足Di50Di50和和PiP*PiP*条件的四格表的累条件的四格表的累 计概率。本例为计概率。本例为P7P7和和P8P8,(4 4)计算双侧累计概率)计算双侧累
29、计概率P P。P P0.050.05,按,按=0.05=0.05检验水准不拒绝检验水准不拒绝H0H0,尚不能,尚不能认为胆囊腺癌与胆囊腺瘤的认为胆囊腺癌与胆囊腺瘤的P53P53基因表达阳性率不等。基因表达阳性率不等。第五十四页,共86页。55第五十五页,共86页。56一点一点(y din)补充补充确切概率法的原理具有通用性,对于四格表以确切概率法的原理具有通用性,对于四格表以外的情况外的情况(qngkung)(qngkung)也适用,如行乘列表、也适用,如行乘列表、配对、配伍表格均可配对、配伍表格均可对于较大的行乘列表,确切概率法的计算量将对于较大的行乘列表,确切概率法的计算量将很大,有可能超
30、出硬件系统可以支持的范围很大,有可能超出硬件系统可以支持的范围此时可以采用计算统计学中的其他统计计算技此时可以采用计算统计学中的其他统计计算技术加以解决,如术加以解决,如BootstrapBootstrap方法等方法等第五十六页,共86页。57第四节第四节 行行列表列表(li bio)的的2检验检验当比较组行或列分类数当比较组行或列分类数2 2,称为行,称为行列表,即列表,即RCRC表。表。研究者感兴趣的问题有研究者感兴趣的问题有:(2:(2检验检验(jinyn)(jinyn)的目的)的目的)1.1.多组多组(独立样本独立样本)样本率差别有无统计意义样本率差别有无统计意义?2.2.两组两组(独
31、立样本独立样本)构成比构成比(分布分布)有无统计意义有无统计意义?3.3.两个分类变量分布是否独立两个分类变量分布是否独立(有关联有关联)?)?第五十七页,共86页。58自由度自由度=(行数(行数-1)(列数(列数-1)等价等价(dngji)检验检验(jinyn)统计量统计量第五十八页,共86页。59疗法疗法有效有效无效无效合计合计有效率有效率%物理组物理组199199(186.2186.2)7 720620696.696.6药物组药物组164164181818218290.190.1外用组外用组118118262614414481.981.9合计合计481481515153253290.49
32、0.4 例6 某医师研究物理疗法、药物治疗和外用膏药(go yao)三种疗法治疗周围性面神经麻痹的疗效,资料见下表。问三种疗法的有效率有无差别?表7-8 三种疗法有效率的比较第五十九页,共86页。60H0H0:1=1=2=2=3=90.43=90.4(三组(三组(sn z)(sn z)总体有总体有效率相等)效率相等)H1H1:三组:三组(sn z)(sn z)总体率不等或不全等总体率不等或不全等=0.05=0.05结论结论:在在=0.05=0.05水准水准(shuzhn)(shuzhn),拒绝,拒绝H0H0,P P0.01,0.01,认为三组疗法有效率不等或不全等。认为三组疗法有效率不等或不全
33、等。注意注意:此结果不能得到各两两组比较的结论。此结果不能得到各两两组比较的结论。第六十页,共86页。61二、两组和多组构成二、两组和多组构成(guchng)(guchng)比的比比的比较较例例7 7 某某医医师师(ysh)(ysh)在在研研究究血血管管紧紧张张素素I I转转化化酶酶(ACE)(ACE)基基因因I/DI/D多多态态(分分3 3型型)与与2 2型型糖糖尿尿病病肾肾病病(DN)(DN)的的关关系系时时,将将249249例例2 2型型糖糖尿尿病病患患者者按按有有无无糖糖尿尿病病肾肾病病分分为为两两组组,资资料料见见表表7-97-9。问问两两组组2 2型型糖糖尿尿病病患患者者的的ACE
34、ACE基基因因型型总总体体分分布布有有无无差别?差别?糖尿病糖尿病ACEACE基因型基因型合计合计DDDDIDIDI II I有肾病有肾病42(37.8)42(37.8)48(43.3)48(43.3)21(18.9)21(18.9)111111无肾病无肾病30(21.7)30(21.7)75(52.2)75(52.2)36(26.1)36(26.1)138138合计合计72(28.9)72(28.9)120(48.2)120(48.2)57(22.9)57(22.9)249249表表9 9 两组两组型糖尿病患者型糖尿病患者ACEACE基因分布基因分布(fnb)(fnb)比较比较第六十一页,共
35、86页。62第六十二页,共86页。63三、双向无序三、双向无序(w x)(w x)分类资料的关联性检分类资料的关联性检验验 RC RC表中两个分类变量皆为无序分类变量的行表中两个分类变量皆为无序分类变量的行列表资料,又称为双向无序列表资料,又称为双向无序RCRC表资料。表资料。目的:检验两事物分类目的:检验两事物分类(行分类和列分类行分类和列分类)是否独立是否独立,从从而说明而说明(shumng)(shumng)两事物分类是否有关系。两事物分类是否有关系。需要注意的是需要注意的是:双向无序分类资料为两个或多个样本,做差别检验双向无序分类资料为两个或多个样本,做差别检验(例(例7 7););若为
36、单样本,做关联性检验。若为单样本,做关联性检验。第六十三页,共86页。64统计分析统计分析:1.回答两事物回答两事物(shw)的分类是否独立的分类是否独立(有关有关系系)Pearson 2检验检验2.如有关如有关,关系密切程度如何关系密切程度如何,度量指标度量指标:列联系数列联系数(Contingency coefficient)列联系数列联系数C取值范围在取值范围在01之间。愈接近于之间。愈接近于0,关系愈不密切;愈接近于,关系愈不密切;愈接近于1,关系愈密切。,关系愈密切。第六十四页,共86页。65两分类变量两分类变量(binling)独立与有关独立与有关两事物独立的假定两事物独立的假定:
37、行或列各分类的构成比相同行或列各分类的构成比相同,或在或在 A A事物不同水事物不同水平下平下,B,B事物不同分类的作用事物不同分类的作用(zuyng)(zuyng)(构成构成)相等相等.高血压高血压(B)(B)RHRH血型血型(A)(A)RHRH血型血型(A)(A)+-+-有有50(50)50(50)50(50)50(50)0(50)0(50)100(50)100(50)无无50(50)50(50)50(50)50(50)100(50)100(50)0(50)0(50)合计合计100100100100100100100100第六十五页,共86页。66例例 8 8 测得某地测得某地580158
38、01人的人的ABOABO血型和血型和MNMN血型结血型结果如表果如表7-107-10,问两种血型系统之间是否,问两种血型系统之间是否(sh fu)(sh fu)有关联?有关联?表表10 10 某地某地(mu d)5801(mu d)5801人的人的血型血型 第六十六页,共86页。67 H0:两种血型:两种血型(xuxng)系统分类无关联系统分类无关联(即行或列构成比相等)(即行或列构成比相等)H1:两种血型:两种血型(xuxng)系统分类有关联系统分类有关联(即行或列构成比不等)(即行或列构成比不等)=0.05结论结论:两种血型系统分类有关联。列联系两种血型系统分类有关联。列联系(linx)数
39、为数为0.1883。两种血型系统间虽然。两种血型系统间虽然有关联性,但关系不太密切。有关联性,但关系不太密切。第六十七页,共86页。68第五节第五节 多组样本多组样本(yngbn)率的两两比较率的两两比较的的2 分割分割当比较组当比较组k3k3时,时,22值有统计意义,可分解多值有统计意义,可分解多个四格表了解各样本率两两间的差别。个四格表了解各样本率两两间的差别。要进一步推断哪两两总体率有差别,若直接用要进一步推断哪两两总体率有差别,若直接用四格表资料的四格表资料的 检验进行多重比较,将会加大犯检验进行多重比较,将会加大犯类错误的概率类错误的概率(gil)(gil)。多重比较的方法:多重比较
40、的方法:22分割法;分割法;ScheffeScheffe可信区间法;可信区间法;SNKSNK法。法。第六十八页,共86页。692 分割法基本分割法基本(jbn)思想思想检验检验(jinyn)(jinyn)水准水准年龄组年龄组 治愈治愈 好转好转 无效无效组组1 1组组2 2组组k k年龄组年龄组 治愈治愈 好转好转 无效无效组组1 1组组2 2年龄组年龄组 治愈治愈 好转好转 无效无效组组1 1组组3 3年龄组年龄组 治愈治愈 好转好转 无效无效组组1 1组组k k其目的是保证检验假设中其目的是保证检验假设中I I型错误型错误 的概率不变。的概率不变。因分析目的不同,主要因分析目的不同,主要(
41、zhyo)(zhyo)有两类多重比较形有两类多重比较形式:式:多个实验组间的两两比较多个实验组间的两两比较实验组与同一个对照组的比较实验组与同一个对照组的比较检验水准检验水准第六十九页,共86页。70多个多个(du)实验组间的两两比较实验组间的两两比较分析目的为分析目的为k k个实验组间,任意两个率均进个实验组间,任意两个率均进行比较时,须进行行比较时,须进行k(k-1)/2k(k-1)/2次独立的四格表次独立的四格表 检验,再加上总的行检验,再加上总的行列表资料的列表资料的 检验,共检验,共 k(k-1)/2+1k(k-1)/2+1次检验假设次检验假设(jish)(jish)。故检验水准故检
42、验水准用下式估计用下式估计第七十页,共86页。71实验组与同一个对照组的比较实验组与同一个对照组的比较(bjio)分析目的为各实验组与同一个对照组的比较,分析目的为各实验组与同一个对照组的比较,而各实验组间不须而各实验组间不须(b x)(b x)比较。比较。检验水准检验水准用下式估计用下式估计第七十一页,共86页。722P2P2P6.240.012507.480.006258.210.004176.960.008337.880.005008.490.003587.240.007148.050.004558.730.00313表表7-11 =1时的时的2界值表界值表(供多个(供多个(du)样本率
43、间的多重比用)样本率间的多重比用)第七十二页,共86页。73 例例9 9 对例对例6 6的资料进行两两比较,以推断是的资料进行两两比较,以推断是否任两种疗法治疗否任两种疗法治疗(zhlio)(zhlio)周围性面神经麻痹的周围性面神经麻痹的有效率均有差别?有效率均有差别?1=21=2,即任意两对比组的总体有效率相等即任意两对比组的总体有效率相等1212,即任意两对比组的总体有效率不等,即任意两对比组的总体有效率不等 =0.05 =0.05 本例为本例为3 3个实验组间的两两比较个实验组间的两两比较 第七十三页,共86页。74表表 三种三种(sn zhn)疗法有效率的两两比较疗法有效率的两两比较
44、 拒绝拒绝(jju)H0(jju)H0,接收,接收H1H1拒绝拒绝(jju)H0(jju)H0,接收,接收H1H1不拒绝不拒绝(jju)H0(jju)H0第七十四页,共86页。75 例例10 10 对例对例6 6资料的药物治疗组为对照组,资料的药物治疗组为对照组,物理疗法组与外用物理疗法组与外用(wi yn)(wi yn)膏药组为试验组,膏药组为试验组,试分析两试验组与对照组的总体有效率有无差试分析两试验组与对照组的总体有效率有无差别?别?T=C T=C,即各试验组与对照组的总体有效即各试验组与对照组的总体有效率相等率相等 TC TC,即各试验组与对照组的总体有效,即各试验组与对照组的总体有效
45、率不等率不等 =0.05 =0.05 本例为各实验组与同一对照组的比较本例为各实验组与同一对照组的比较第七十五页,共86页。76 物理疗法组与药物物理疗法组与药物(yow)(yow)治疗组比较:治疗组比较:2=6.76,P0.0125 2=6.76,P0.01252=4.59,P0.0125,按按=0.0125=0.0125检验水准检验水准,物理疗法组与药物物理疗法组与药物(yow)(yow)治疗组拒绝治疗组拒绝H0,H0,接受接受H1H1,可认为物理疗,可认为物理疗法组与药物法组与药物(yow)(yow)治疗组的总体有效率有差别;治疗组的总体有效率有差别;外用膏药组与药物外用膏药组与药物(y
46、ow)(yow)治疗组不拒绝治疗组不拒绝H0H0,尚不能认为两总体有效率有差别。,尚不能认为两总体有效率有差别。结合例结合例7 7资料,物理疗法的有效率高于药物资料,物理疗法的有效率高于药物(yow)(yow)治疗。治疗。第七十六页,共86页。77小小 结结基本基本(jbn)公公式式不配对不配对(pi du)四格表四格表和校正公式和校正公式配对配对(pi du)四格四格表公式表公式一一 .公式公式第七十七页,共86页。78二二.2常解决常解决(jiju)的问题的问题p目的目的:比较组间率和构比较组间率和构成比的差别成比的差别p 设计设计:抽自抽自2 2个或多个或多个独立样本个独立样本p目的目的
47、:两个变量间有无两个变量间有无关系或关联关系或关联p 设计设计:2:2个变量来自同个变量来自同一对象或同一总体一对象或同一总体(zngt).(zngt).相关的设计相关的设计A A组组a a b bn1n1B B组组c c d dn2n2n n BAabcdn第七十八页,共86页。79三三.适用适用(shyng)条件条件1.1.四格表资料四格表资料22检验检验(1 1)n40n40且且T5 T5 用用Pearson 2Pearson 2检验检验(2 2)n40n40且且1T51T5连续性校正连续性校正22检验检验(3 3)n40n40或或T1 T1 用用FisherFisher确切概率法确切概
48、率法2.2.配对配对(pi du)(pi du)四格表资料四格表资料22检验检验(1 1)b+c40 b+c40 用用Mcnemar 2Mcnemar 2检验检验(2 2)n40 n40 连续性校正连续性校正Mcnemar 2Mcnemar 2检验检验或精确概率法或精确概率法第七十九页,共86页。80四、四、RC表数据表数据(shj)的注意事项的注意事项1行列表中的各格行列表中的各格T1,并且,并且1T5的格的格子数不宜超过子数不宜超过1/5格子总数,否则可能产生格子总数,否则可能产生偏性。处理方法有三种:偏性。处理方法有三种:首选方法:增大样本含量,增大理论频数。首选方法:增大样本含量,增大
49、理论频数。但是某些研究无法做到。但是某些研究无法做到。根据专业知识,删去或合并根据专业知识,删去或合并(hbng)理论频理论频数太小的行或列。(会损失信息及损害样本数太小的行或列。(会损失信息及损害样本的随机性,且不能随意合并的随机性,且不能随意合并(hbng)行或列。行或列。如,不同年龄组可以合并如,不同年龄组可以合并(hbng),但不同,但不同血型就不能合并血型就不能合并(hbng)。)。)Fisher确切概率法。确切概率法。第八十页,共86页。81第八十一页,共86页。82第八十二页,共86页。83一点一点(y din)补充补充第八十三页,共86页。84情形情形分组分组变量变量指标指标变
50、量变量研究目的研究目的分析方法分析方法双向无序双向无序无序无序无序无序多个样本率(或构多个样本率(或构成比)的比较成比)的比较行列表资料的行列表资料的2检验检验双向无序双向无序无序无序无序无序两个分类变量之间两个分类变量之间有无关联性以及关有无关联性以及关系的密切程度系的密切程度行列表资料的行列表资料的2检验检验Pearson列联列联系数系数单向有序单向有序有序有序无序无序不同分组各种疾病不同分组各种疾病的构成情况的构成情况行列表资料的行列表资料的2检验检验单向有序单向有序无序无序有序有序比较不同疗法的疗比较不同疗法的疗效效非参数检验非参数检验第八十四页,共86页。85情形情形分组分组变量变量