《第七章、卡方检验优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第七章、卡方检验优秀PPT.ppt(74页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、医学统计学医学统计学 福医卫生统计系福医卫生统计系福医卫生统计系福医卫生统计系 林征林征林征林征 2013.112013.11 第七章第七章.卡方检验卡方检验 Chapter VII.Chi-square Test1第七章提纲第七章提纲卡方分布的基本学问卡方分布的基本学问一般四格表资料卡方检验一般四格表资料卡方检验配对四格表资料卡方检验配对四格表资料卡方检验行行*列表资料卡方检验列表资料卡方检验多个样本率间的多重比较多个样本率间的多重比较有序分组资料的线性趋势检验有序分组资料的线性趋势检验2第一节第一节.卡方分布卡方分布*设随机变量设随机变量u1,u2,uk,相互独立,且都听从标准正态,相互独
2、立,且都听从标准正态分布分布N(0,1)。那么,我们将。那么,我们将k个独立标准正态变量的平方个独立标准正态变量的平方和称为卡方变量,它满足自由度为和称为卡方变量,它满足自由度为的卡方分布,记为:的卡方分布,记为:卡方分布卡方分布*假如随机变量假如随机变量X满足以下概率密度函数,满足以下概率密度函数,则称其满足自由度为则称其满足自由度为的卡方分布的卡方分布卡方分布图形卡方分布图形*卡方分布图形卡方分布图形*卡方分布的卡方分布的特征特征*卡方分布的曲线下面积定义卡方分布的曲线下面积定义当当 确定后,卡方分布曲线下右侧尾部的确定后,卡方分布曲线下右侧尾部的面积为面积为a时,横轴上相应的卡方值,记为
3、时,横轴上相应的卡方值,记为c2a,n,如下图,如下图;实际应用时,可依据实际应用时,可依据 由附由附表表8查得查得假如假如c2 c2a,n,曲线下面积小于,曲线下面积小于a;反之则;反之则大于大于a 2(,)卡方分布卡方分布*1875年,年,F.Helmet得出:来自正态总体的样本方得出:来自正态总体的样本方差的分布听从卡方分布:差的分布听从卡方分布:因此卡方分布可用于总体方差的区间估计:因此卡方分布可用于总体方差的区间估计:卡方分布也可用于样本方差与总体方差比较的假卡方分布也可用于样本方差与总体方差比较的假设检验设检验S2与与2比较的假设检验比较的假设检验*从一正态总体中抽样,样本方差从一
4、正态总体中抽样,样本方差s2并不总等于总并不总等于总体方差体方差2,二者间存在抽样误差;这种抽样误差,二者间存在抽样误差;这种抽样误差存在统计规律存在统计规律依据样本方差的分布规律有:依据样本方差的分布规律有:H0:H0:样原来源的总体方差为样原来源的总体方差为样原来源的总体方差为样原来源的总体方差为0202Pearson卡方检验卡方检验1900年年K.Pearson又从检验分布的拟合优度又从检验分布的拟合优度(goodness of fit)中也发觉了卡方分布可用于检验中也发觉了卡方分布可用于检验资料的实际频数和理论频数是否相符等问题:资料的实际频数和理论频数是否相符等问题:Karl.Pea
5、rsonCarl Pearson or Karl Pearson(1857-1936)Journal BiometrikaPearson product-moment correlation coefficient、Linear regression、Pearsons chi-square test12 Goodness of fit test*YY RR YY RR yy rryy rr减数分裂后的配子减数分裂后的配子减数分裂后的配子减数分裂后的配子Y RY Ry ry r F1F1P P杂交,等位基因分别杂交,等位基因分别杂交,等位基因分别杂交,等位基因分别Y Yy y R Rr rY Y
6、y y R Rr rGoodness of fit test*Y Y y y R R r rY Y y y R R r r 两种基因独立分配两种基因独立分配两种基因独立分配两种基因独立分配YRYR yRyR YrYr yryr F1F1配子配子配子配子Goodness of fit test*YRYR yRyR YrYr yryr F2 F2YRYR yRyR yryr YrYr yyyyRRRR yyyyR Rr r yyyyR Rr r YYRR YYRR Y Yy yRRRR Y Yy yR Rr r YYR YYRr r Y Yy yRRRR Y Yy yR Rr r YYR YYRr
7、 r Y Yy yR Rr r Y Yy yR Rr r yyrryyrr Y Yyrryrr Y Yyrryrr YY YYrrrr :=9:3:3:1=9:3:3:1Goodness of fit test*在两对遗传因子的试验中,在两对遗传因子的试验中,F2的四种表型见下表,问该结的四种表型见下表,问该结果能否满足果能否满足Mendel关于关于F2的的9:3:3:1规律?规律?假设满足上述规律,则不难求出假设满足上述规律,则不难求出2500株植物中各种表型的株植物中各种表型的理论频数理论频数T表型表型表型表型Y-R-Y-R-Y-rrY-rryyR-yyR-yyrryyrr合计合计合计合计
8、观察频数观察频数观察频数观察频数126012606256256106105 525002500理论频数理论频数理论频数理论频数1406.251406.25468.75468.75468.75468.75156.25156.2525002500Goodness of fit test*将实际频数将实际频数A与对应的理论频数与对应的理论频数T代入公式得:代入公式得:表型表型表型表型Y-R-Y-R-Y-rrY-rryyR-yyR-yyrryyrr合计合计合计合计观察频数观察频数观察频数观察频数126012606256256106105 525002500理论频数理论频数理论频数理论频数1406.25
9、1406.25468.75468.75468.75468.75156.25156.2525002500Goodness of fit test*本例中有四个实际频数,其中受到总频数为本例中有四个实际频数,其中受到总频数为2500的限制,因此能够自由取值的仅有的限制,因此能够自由取值的仅有4-1=3个,所以个,所以自由度自由度=3查表得查表得20.05,3=7.81,故在,故在=0.05的水准上拒绝的水准上拒绝H0,接受,接受H1;认为该批植物的两种遗传因子不;认为该批植物的两种遗传因子不满足满足9:3:3:1的遗传定律;可能出现连锁遗传的遗传定律;可能出现连锁遗传Goodness of fit
10、 test在课文在课文P96、P126中,具体阐述了如何运用卡方中,具体阐述了如何运用卡方检验推断某现象的频数分布是否满足特定的概率检验推断某现象的频数分布是否满足特定的概率分布分布例如资料是否满足正态分布、二项分布、例如资料是否满足正态分布、二项分布、Poisson等医学探讨中常见的概率分布等医学探讨中常见的概率分布Goodness of fit test阳性例数阳性例数阳性例数阳性例数x x出现户数出现户数出现户数出现户数A A理论概率理论概率理论概率理论概率P(X)P(X)理论户数理论户数理论户数理论户数T=P(x)82T=P(x)820 026260.132650.1326510.87
11、7410.87741 110100.382350.3823531.352531.35252 228280.367350.3673530.122930.12293 318180.117650.117659.64729.6472合计合计合计合计82821.00001.000082.000082.0000其次节其次节.一般四格表的卡方检验一般四格表的卡方检验一般四格表的一般四格表的2检验可用于:检验可用于:两个样本率间的比较两个样本率间的比较两个二分类变量间关联度分析两个二分类变量间关联度分析*21卡方检验的基本思想卡方检验的基本思想某中药在变更剂型前治疗某中药在变更剂型前治疗152例,治愈例,治愈
12、129例;变更剂例;变更剂型后又视察型后又视察130例,治愈例,治愈101例,变更剂型前后的疗效例,变更剂型前后的疗效是否不同?是否不同?组别组别疗效疗效合计合计(有效率有效率)治愈治愈未愈未愈旧剂型旧剂型12923152(84.9%)新剂型新剂型10129130(77.7%)合计合计2305228222一般四格表的卡方检验一般四格表的卡方检验在表格中有两组,每组的结果为二分类结果在表格中有两组,每组的结果为二分类结果(22),这样的表格称为四格表,其通用格式表),这样的表格称为四格表,其通用格式表达如下:达如下:23卡方检验的基本思想卡方检验的基本思想从表中可见两剂型的治愈率不相同,那么这从
13、表中可见两剂型的治愈率不相同,那么这种差别原委是由于抽样误差还是由于不同剂种差别原委是由于抽样误差还是由于不同剂型疗效的确有差别?型疗效的确有差别?不妨假设两剂型的疗效是相同的,那么此时不妨假设两剂型的疗效是相同的,那么此时两种剂型的疗效之差仅仅来源于抽样误差两种剂型的疗效之差仅仅来源于抽样误差24卡方检验的基本思想卡方检验的基本思想既然假设两剂型的总体疗效相同,可以考虑将既然假设两剂型的总体疗效相同,可以考虑将两组样本资料合并,计算一个两组样本资料合并,计算一个“合计率合计率”,作,作为总体率的估计为总体率的估计两剂型的合计治愈率两剂型的合计治愈率Pc=230/282=81.56%在此合计治
14、愈率的状况下,治疗在此合计治愈率的状况下,治疗152例患者应当例患者应当有有Pc152=124.0例治愈,例治愈,(1-Pc)152=28.0例未例未愈;同理假如治疗愈;同理假如治疗130例患者,应当有例患者,应当有106.1例例有效,有效,23.9例无效例无效将上述数据称为疗效的理论数,据此可推算其将上述数据称为疗效的理论数,据此可推算其余数据的理论频数余数据的理论频数25一般四格表卡方检验一般四格表卡方检验26卡方检验的基本思想卡方检验的基本思想组别组别疗效疗效合计合计治愈治愈(理论治愈理论治愈)未愈未愈(理论未愈理论未愈)旧剂型旧剂型129(124.0)23(28.0)152新剂型新剂型
15、101(106.1)29(23.9)130合计合计2305228227卡方检验的基本思想卡方检验的基本思想从表中可见,疗效的理论数(依据假设两总体从表中可见,疗效的理论数(依据假设两总体疗效相同得到)与实际人数存在差别疗效相同得到)与实际人数存在差别假如我们的假设成立的话,这种差别属于抽样假如我们的假设成立的话,这种差别属于抽样误差,应当不会很大;反之,假如这种差别很误差,应当不会很大;反之,假如这种差别很悬殊,则因该怀疑原假设不成立悬殊,则因该怀疑原假设不成立如何评价如何评价“悬殊悬殊”与与“不悬殊不悬殊”?28卡方检验的基本思想卡方检验的基本思想卡方检验基本公式:卡方检验基本公式:理论数与
16、实际数间的差距可为正亦可为负,因此须要理论数与实际数间的差距可为正亦可为负,因此须要对二者之差取平方,而后再累加对二者之差取平方,而后再累加如前所述,比较两组数据变异程度,干脆比较标准差如前所述,比较两组数据变异程度,干脆比较标准差是不合理的,因为两组数据的均数可能差距甚大或单是不合理的,因为两组数据的均数可能差距甚大或单位不同位不同例如:例如:A=303,T=300,A-T=3;A=33,T=30,A-T=3;因此仅有;因此仅有(A-T)2尚不足以说明二者间不吻合的尚不足以说明二者间不吻合的程度,须要对程度,须要对A与与T间的差距作间的差距作“标准化标准化”或或“相对相对化化”29卡方检验的
17、基本思想卡方检验的基本思想如何对如何对A与与T间的差距作间的差距作“相对化相对化”或或“标准化标准化”?最直观的方法就是将离差的平方除于一个频数最直观的方法就是将离差的平方除于一个频数实际频数实际频数A或理论频数或理论频数T最终将其除于最终将其除于T可有以下几点说明:可有以下几点说明:为了避为了避开开A=0时除式没有意义的状况,时除式没有意义的状况,实际频数实际频数A即使在样本含量相同的状况下,仍将随不同抽即使在样本含量相同的状况下,仍将随不同抽样变更;而样变更;而T无此问题,比无此问题,比A稳定,用其作为分稳定,用其作为分母更稳健也更具代表性母更稳健也更具代表性30卡方检验的基本思想卡方检验
18、的基本思想此外,卡方计算公式中每项均非负,因此卡方此外,卡方计算公式中每项均非负,因此卡方值的大小不仅取决于值的大小不仅取决于A与与T间的相对差距,还取间的相对差距,还取决于累加项数的多少决于累加项数的多少因此需对累加项数作调整,引入因此需对累加项数作调整,引入“自由度自由度”的的概念概念在列联表资料中(四格表也是一种列联表),在列联表资料中(四格表也是一种列联表),自由度可以简洁地表达为自由度可以简洁地表达为(行数行数-1)(列数列数-1),即,即(R-1)(C-1);其含义为列联表中除行、列合计值;其含义为列联表中除行、列合计值外可以自由取值的格子个数(或总自由度外可以自由取值的格子个数(
19、或总自由度-行合行合计自由度计自由度-列合计自由度)列合计自由度)31卡方检验的基本思想卡方检验的基本思想假如假设成立,实际数与理论数的差距应当较假如假设成立,实际数与理论数的差距应当较小,依据上式计算的卡方值因该接近小,依据上式计算的卡方值因该接近0,假如卡,假如卡方值远离方值远离0则应当拒绝原假设则应当拒绝原假设卡方值满足卡方分布,求得相应卡方值的曲线卡方值满足卡方分布,求得相应卡方值的曲线下面积就可以得到下面积就可以得到P值,进而作结论值,进而作结论可见卡方检验的基本原理就是分析实际频数与可见卡方检验的基本原理就是分析实际频数与依据假设构建的理论频数间的吻合程度(拟合依据假设构建的理论频
20、数间的吻合程度(拟合度)度)32一般四格表卡方检验一般四格表卡方检验H0:两总体率相同:两总体率相同 H1:两总体率不同:两总体率不同=0.05 2=(A-T)2/T计算卡方值为计算卡方值为2.428自由度自由度v=(R-1)(C-1)=1,即四个格子中可自由取即四个格子中可自由取值的个数;本例中,由于行列的合计值固定,值的个数;本例中,由于行列的合计值固定,所以四个格子中只有一个可自由取值,故所以四个格子中只有一个可自由取值,故v=1查表得:查表得:2 20.05,10.05,1=3.84,所以,所以P0.05,在,在=0.05的水准上不拒绝的水准上不拒绝H0,尚不认为两种剂,尚不认为两种剂
21、型的治愈率不同型的治愈率不同33关于四格表卡方检验的一些说明关于四格表卡方检验的一些说明如前所述,卡方分布是连续的;然而如前所述,卡方分布是连续的;然而理论数的取值却是不连续的;因此本理论数的取值却是不连续的;因此本章节的公式章节的公式7-1是对卡方的近似公式,是对卡方的近似公式,其运用效能受到理论数大小的制约其运用效能受到理论数大小的制约34Yates correction for continuity 由离散型资料按卡方检验公式式算得的卡方值均有由离散型资料按卡方检验公式式算得的卡方值均有偏大的趋势(使得我们偏向于拒绝原假设),尤其偏大的趋势(使得我们偏向于拒绝原假设),尤其是当自由度是当
22、自由度=1 而且理论数较小时,偏差较大而且理论数较小时,偏差较大Frank Yates(1934)提出对四格表卡方值进行连续)提出对四格表卡方值进行连续性矫正性矫正矫正后的卡方值记为矫正后的卡方值记为 2c35四格表卡方检验的理论数要求四格表卡方检验的理论数要求当理论频数当理论频数T有有T5,而且,而且n40时,卡方公时,卡方公式不须要校正,干脆运用式不须要校正,干脆运用当理论频数当理论频数T有有1T5,而且,而且n40时,须时,须要校正,或者用精确概率法计算概率值要校正,或者用精确概率法计算概率值当理论频数当理论频数T有有T1,或者,或者n40时,只可时,只可用精确概率法计算概率值用精确概率
23、法计算概率值36四格表卡方检验专用公式四格表卡方检验专用公式原始卡方公式须要计算理论数,略显麻烦原始卡方公式须要计算理论数,略显麻烦在四格表资料中,可以运用专用公式,省略计算理在四格表资料中,可以运用专用公式,省略计算理论数的过程论数的过程专用公式如下:专用公式如下:37四格表卡方检验专用公式校正四格表卡方检验专用公式校正若有若有1T5,而且,而且n40时,该专用公式同样须时,该专用公式同样须要校正要校正38四格表卡方检验的校正四格表卡方检验的校正将病情相像的淋巴系统肿瘤患者随机分成两组,分别作将病情相像的淋巴系统肿瘤患者随机分成两组,分别作单纯化疗与复合化疗,缓解状况见下表,问两疗法的缓单纯
24、化疗与复合化疗,缓解状况见下表,问两疗法的缓解状况是否不同?解状况是否不同?化疗化疗方法方法缓解情况缓解情况合计合计缓解缓解(理论缓解理论缓解)未缓解未缓解(理论未缓解理论未缓解)单纯化疗单纯化疗2(4.8)10(7.2)12复合化疗复合化疗14(11.2)14(16.8)28合计合计16244039四格表卡方检验的校正四格表卡方检验的校正在上表中最小的理论数应当是在上表中最小的理论数应当是“单纯化疗单纯化疗”“缓解缓解”所对应,因为它所对应的行、列合计值最小;所对应,因为它所对应的行、列合计值最小;2所所对应的理论数为对应的理论数为4.8,小于,小于5,而且例数不小于,而且例数不小于40,所
25、以本题应当作校正所以本题应当作校正校正后卡方值为校正后卡方值为2.624(未校正时为(未校正时为3.889),故尚不),故尚不认为两方案缓解状况不同认为两方案缓解状况不同40第三节第三节.配对四格表卡方检验配对四格表卡方检验什么是配对设计?什么是配对设计?常见配对设计的状况是那些?常见配对设计的状况是那些?41常见的配对四格表资料常见的配对四格表资料同一批样品用两种不同的方法处理,处理同一批样品用两种不同的方法处理,处理的结果为二分类资料的结果为二分类资料 视察对象依据配对条件配成对子,同一对视察对象依据配对条件配成对子,同一对子中的不同个体分别接受不同的处理,处子中的不同个体分别接受不同的处
26、理,处理的结果为二分类资料理的结果为二分类资料42配对四格表资料配对四格表资料例例7-3:某试验室分别用乳胶凝集法和免疫荧光法:某试验室分别用乳胶凝集法和免疫荧光法对对58名可疑系统红斑狼疮患者血清中抗核抗体进名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见下表,问两种方法的检测结果有行测定,结果见下表,问两种方法的检测结果有无差别:无差别:43 乳胶法乳胶法 免疫法免疫法 份数份数 11 2 12 33配对四格表资料配对四格表资料在本例题中每份标本被一分为二(两份标本实质上在本例题中每份标本被一分为二(两份标本实质上是一样的),同时接受两种方法检测;这样抗核抗是一样的),同时接受两种方法
27、检测;这样抗核抗体检出状况差别完全取决于不同的方法,而与受检体检出状况差别完全取决于不同的方法,而与受检者的基本状况无关者的基本状况无关所以本例为配对设计,目的是通过样本资料推断两所以本例为配对设计,目的是通过样本资料推断两方法的总体阳性概率是否有差别方法的总体阳性概率是否有差别44配对四格表资料配对四格表资料我们将上述表格稍作变更,得到如下四格表:我们将上述表格稍作变更,得到如下四格表:该四格表与前面所介绍的一般四个表有所不同;一般四该四格表与前面所介绍的一般四个表有所不同;一般四格表的格表的“行行”为分组因素,为分组因素,“列列”为分组的结局,而在为分组的结局,而在配对四个表中,配对四个表
28、中,“行行”中既包含分组因素,同时也有该中既包含分组因素,同时也有该因素的结局,因素的结局,“列列”也同样,所以这种四格表称为配对也同样,所以这种四格表称为配对四格表四格表 免疫法免疫法 乳胶法乳胶法 合合 计计 11 12 23 2 33 35 合合 计计 13 45 5845配对四格表资料的一般形式配对四格表资料的一般形式对含量为对含量为n的一份随机样本同时依据两个二的一份随机样本同时依据两个二项分类属性,进行交叉分类形成的四格表项分类属性,进行交叉分类形成的四格表属性属性A分类分类 属性属性B分类分类 合合 计计 阳阳 性性 阴阴 性性 阳阳 性性 a c a+c 阴阴 性性 b d b
29、+d 合合 计计 a+b c+d n46成组与配对四格表资料的比较成组与配对四格表资料的比较47配对四格表资料卡方检验原理配对四格表资料卡方检验原理在配对设计的四格表中,假如要了解不同的在配对设计的四格表中,假如要了解不同的处理方案的结局是否有别(例如两种检测方处理方案的结局是否有别(例如两种检测方法的阳性率是否有别)并不须要用到全部四法的阳性率是否有别)并不须要用到全部四格中的数据格中的数据免疫法中的阳性率为免疫法中的阳性率为(11+12)/58;乳胶法中的;乳胶法中的阳性率为阳性率为(11+2)/58;可见两者都阴性的;可见两者都阴性的33份份标本对二者阳性率的差别没有影响,而且二标本对二
30、者阳性率的差别没有影响,而且二者都阳性的者都阳性的11份标本也对结果没有影响(两份标本也对结果没有影响(两种方法结果一样的对二者的率差没有影响),种方法结果一样的对二者的率差没有影响),导致两者阳性率的差别主要来源于培育结果导致两者阳性率的差别主要来源于培育结果不一样的不一样的14份样本份样本(122)48配对四格表资料卡方检验原理配对四格表资料卡方检验原理假设假设122的主要缘由是抽样误差导致,那么两的主要缘由是抽样误差导致,那么两方法的总体阳性率就是一样的方法的总体阳性率就是一样的所以其假设主要针对所以其假设主要针对12与与2,即,即H0为为B=C,两,两种方法的抗核抗体阳性检出率相等种方
31、法的抗核抗体阳性检出率相等假如假如H0成立,则二者检测结果不一样的两个格成立,则二者检测结果不一样的两个格子理论数都应当是子理论数都应当是(b+c)/2所以卡方检验的公式变为:所以卡方检验的公式变为:49配对四格表资料卡方检验原理配对四格表资料卡方检验原理将数据代入上述公式中,因为将数据代入上述公式中,因为12+2小于小于40,故须要校正,校正卡方值,故须要校正,校正卡方值为为5.79因为因为5.793.84,故,故P0.05,在,在a0.05的水准上拒绝的水准上拒绝H0,认为两法的,认为两法的阳性检出率不同阳性检出率不同50McNemar法的留意事项法的留意事项本法一般用于样本含量不太大的资
32、料。因为本法一般用于样本含量不太大的资料。因为它仅考虑了两法结果不一样的两种状况它仅考虑了两法结果不一样的两种状况(b,c),而未考虑样本含量,而未考虑样本含量n和两法结果一样的两种和两法结果一样的两种状况状况(a,d)。所以,当。所以,当n很大且很大且a与与d的数值很的数值很大(即两法的一样率较高),大(即两法的一样率较高),b与与c的数值相的数值相对较小时,即便是检验结果有统计学意义,对较小时,即便是检验结果有统计学意义,其实际意义往往也不大其实际意义往往也不大51第四节第四节.行行列表卡方检验列表卡方检验假如有超过假如有超过2组,每组的结局超过组,每组的结局超过2种分类,种分类,就构成了
33、就构成了RC列联表;四格表是最简洁的列列联表;四格表是最简洁的列联表联表完全随机设计的列联表资料的卡方检验原理完全随机设计的列联表资料的卡方检验原理与四格表的相同,只不过组数或结局增多了与四格表的相同,只不过组数或结局增多了而已而已52列联表卡方检验列联表卡方检验例例7-6:某医师探讨物理疗法、药物治疗和外用膏药三:某医师探讨物理疗法、药物治疗和外用膏药三种疗法治疗四周性面神经麻痹的疗效,资料见下表。问种疗法治疗四周性面神经麻痹的疗效,资料见下表。问三种疗法的有效率有无差别?三种疗法的有效率有无差别?53完全随机设计的列联表卡方检验完全随机设计的列联表卡方检验其检验思想同四格表卡方检验:先假设
34、三种其检验思想同四格表卡方检验:先假设三种疗法的总体疗效相同,将三组的治疗状况合疗法的总体疗效相同,将三组的治疗状况合并作为总有效率的估计值,而后可以据此计并作为总有效率的估计值,而后可以据此计算各处理方案的理论有效与无效人数,假如算各处理方案的理论有效与无效人数,假如假设成立的话它们间的差别应当很小,卡方假设成立的话它们间的差别应当很小,卡方值应当不大,否则就有理由认为它们不是来值应当不大,否则就有理由认为它们不是来源于同一总体源于同一总体H0:三疗法有效率相同;三疗法有效率相同;H1:三疗法有效率不三疗法有效率不全相同全相同54完全随机设计的列联表卡方检验完全随机设计的列联表卡方检验请留意
35、,对立假设包括多种状况:例如三组间互不相同、请留意,对立假设包括多种状况:例如三组间互不相同、某两组间相同且都与第三组不同;所以假如拒绝原假设,某两组间相同且都与第三组不同;所以假如拒绝原假设,还须要对三组进行多重比较还须要对三组进行多重比较(卡方分割卡方分割)才可以最终下结才可以最终下结论论卡方检验的公式既可以运用基本公式卡方检验的公式既可以运用基本公式 c2=(A-T)2/T;也可以通过下列公式削减计算量:也可以通过下列公式削减计算量:55完全随机设计的列联表卡方检验完全随机设计的列联表卡方检验须要说明一点:该公式也可以用于一般四格须要说明一点:该公式也可以用于一般四格表,它的结果与四格表
36、专用公式表,它的结果与四格表专用公式(未校正未校正)计计算结果完全相同算结果完全相同将表中数据代入:将表中数据代入:查表得:查表得:c20.05,2=5.99,所以,所以P0.05,在,在a=0.05的水准上拒绝的水准上拒绝H0,认为三种疗法的总,认为三种疗法的总体有效率不全相同体有效率不全相同56例例7-7:某医师在探讨血管惊惶素:某医师在探讨血管惊惶素I转化酶转化酶(ACE)基因基因I/D多态(分多态(分3型)与型)与2型糖尿病肾病型糖尿病肾病(DN)的关系时,的关系时,将将249例例2型糖尿病患者按有无糖尿病肾病分为两组,型糖尿病患者按有无糖尿病肾病分为两组,资料见下表。问两组资料见下表
37、。问两组2型糖尿病患者的型糖尿病患者的ACE基因型总基因型总体分布有无差别?体分布有无差别?57 组别组别DDIDII合计合计 DN组组42(37.8)48(43.3)21(18.9)111 无无DN组组30(21.7)72(52.2)36(26.1)138 合计合计72(28.9)120(48.2)57(22.9)249请留意,本例题中只有两组视察对象,因此备择假设请留意,本例题中只有两组视察对象,因此备择假设为为“两组患者的基因构成不同两组患者的基因构成不同”H0:两组患者的基因构成相同两组患者的基因构成相同 H1:两组患者的基因构成不同两组患者的基因构成不同a=0.05代入公式得:代入公
38、式得:在在a=0.05的水准上,拒绝的水准上,拒绝H0,接受,接受H1,认为两组患,认为两组患者的总体基因构成不同者的总体基因构成不同58行行 列表卡方检验留意事项列表卡方检验留意事项同四格表资料一样,同四格表资料一样,RC表的表的 2分布是建立在大样本的假定上的,分布是建立在大样本的假定上的,要求总例数不行过少,不能有要求总例数不行过少,不能有1/5以上的格子理论频数小于以上的格子理论频数小于5,且不,且不能有一个格子的理论频数小于能有一个格子的理论频数小于1假如出现上述状况,可以考虑:增大样本量;依据专业学问合理地假如出现上述状况,可以考虑:增大样本量;依据专业学问合理地合并相邻的组别;删
39、除理论数太小的行列合并相邻的组别;删除理论数太小的行列;改用其它方法分析,;改用其它方法分析,例如准确概率法例如准确概率法当多个样本率(或构成比)作当多个样本率(或构成比)作 2检验,结论为拒绝零假设时,只检验,结论为拒绝零假设时,只能认为各总体率(或总体构成比)之间总的有差别,不能说明两两能认为各总体率(或总体构成比)之间总的有差别,不能说明两两之间有差别;两组间的比较可接受之间有差别;两组间的比较可接受 2分割的方法分割的方法 59第五节第五节.多个样本率间的多重比较多个样本率间的多重比较多个样本率比较的资料若经卡方检验的结论为拒绝多个样本率比较的资料若经卡方检验的结论为拒绝H0,接受,接
40、受H1 时,意味着总体率间不全相同,须用时,意味着总体率间不全相同,须用卡方分割法把卡方分割法把 RC表分成多个独立的四格表进行两表分成多个独立的四格表进行两两比较,但必需重新规定检验水准,其目的是为保两比较,但必需重新规定检验水准,其目的是为保证检验假设中证检验假设中I型错误型错误 的概率不变。的概率不变。三组作两两比较须要比较三次,假如每次的显著性三组作两两比较须要比较三次,假如每次的显著性水准均为水准均为0.05,则三次比较后的显著性水准为,则三次比较后的显著性水准为1-0.953=0.14,远大于原先的预期,所以要重新确认,远大于原先的预期,所以要重新确认a,使得经过三次比较后一类错误
41、仍为,使得经过三次比较后一类错误仍为0.05多个样本率间的多重比较多个样本率间的多重比较因分析目的不同,因分析目的不同,k个样本率两两比较个样本率两两比较的次数不同,故重新规定的检验水准的的次数不同,故重新规定的检验水准的估计方法亦不同;通常有两种状况估计方法亦不同;通常有两种状况随意两个试验组间的比较,以及多个试随意两个试验组间的比较,以及多个试验组同一个相同的比照间的比较验组同一个相同的比照间的比较62试验组与同一个比照组的比较试验组与同一个比照组的比较 分析目分析目的为各试验组与同一个比照组的比较,的为各试验组与同一个比照组的比较,而各试验组间不须比较;其检验水准而各试验组间不须比较;其
42、检验水准 用用下式估计下式估计636465列联表资料的两两比较列联表资料的两两比较对比组对比组结果结果理疗理疗 vs.药物药物有差别有差别理疗理疗 vs.膏药膏药有差别有差别药物药物 vs.膏药膏药尚不认为有别尚不认为有别第六节、准确概率法第六节、准确概率法(Fisher exact test)前以述及,前以述及,2检验是基于大样本假定,四格检验是基于大样本假定,四格表时,假如总例数小于表时,假如总例数小于40或随意一格子理论或随意一格子理论数小于数小于1,大样本假定不成立,则不能用,大样本假定不成立,则不能用 2检检验验 另外,有些状况下虽然满足卡方检验的运用另外,有些状况下虽然满足卡方检验
43、的运用条件,但是计算的卡方值与卡方界值特别接条件,但是计算的卡方值与卡方界值特别接近近(P特别接近特别接近a)此时也可以考虑运用准确概率此时也可以考虑运用准确概率法法该方法是由该方法是由Ronald Fisher提出,干脆计算概提出,干脆计算概率值;因此严格说来,它并不属于卡方检验,率值;因此严格说来,它并不属于卡方检验,而是独立于卡方检验而是独立于卡方检验四格表准确概率法四格表准确概率法例例74:将:将33名名HBsAg阳性孕妇随机分为乙肝免疫球蛋阳性孕妇随机分为乙肝免疫球蛋白预防组与非预防组,视察两组新生儿的乙肝感染率,白预防组与非预防组,视察两组新生儿的乙肝感染率,问两组感染率有无差别?
44、问两组感染率有无差别?分组分组分组分组HBVHBV感染感染感染感染合计合计合计合计感染率感染率感染率感染率(%)(%)阳性阳性阳性阳性阴性阴性阴性阴性预防组预防组预防组预防组4(a)4(a)18(b)18(b)22(a+b)22(a+b)18.1818.18非预防组非预防组非预防组非预防组5(c)5(c)6(d)6(d)11(c+d)11(c+d)45.4545.45合计合计合计合计9(a+c)9(a+c)24(b+d)24(b+d)3333四格表准确概率法四格表准确概率法由于总例数小于由于总例数小于40例,此时卡方检验不再适用例,此时卡方检验不再适用假设两种处理没有差别,可以考虑先将两组合并
45、,假设两种处理没有差别,可以考虑先将两组合并,得到合计感染人数得到合计感染人数9人,合计阴性人数人,合计阴性人数24人,总人数人,总人数33人人现从现从33人中抽取人中抽取22人作为样本,得到阳性人数为人作为样本,得到阳性人数为4,阴性人数为阴性人数为18的可能性为:的可能性为:上式可以写为以下通式:上式可以写为以下通式:也就是说出当原假设成立时,当前四格表的出现也就是说出当原假设成立时,当前四格表的出现概率为概率为0.088;而假设检验中的;而假设检验中的P值为比当前状况值为比当前状况更极端的概率之和,所以还要求在保持边界合计更极端的概率之和,所以还要求在保持边界合计值不变的状况下,发生概率
46、小于等于当前组合的值不变的状况下,发生概率小于等于当前组合的发生概率之和发生概率之和四格表准确概率法四格表准确概率法表号表号abcdP1022920.000001432121830.000094123220740.001976564319650.018447855418560.087627286517470.225327297616380.319213668715290.2432104098141100.09120390109130110.01289752由于我们的题目只想了解两组的预防效果是否不由于我们的题目只想了解两组的预防效果是否不同,故这是一个双侧假设,因此全部满足发生概同,故这是一个
47、双侧假设,因此全部满足发生概率率P不大于当前组合即可,所以上述表格号为不大于当前组合即可,所以上述表格号为15以及以及10均满足;假如题目问是否认为预防组的感均满足;假如题目问是否认为预防组的感染率低于非预防组,那么只有染率低于非预防组,那么只有15满足满足将满足条件的四格表的概率求和,即可得到最终将满足条件的四格表的概率求和,即可得到最终的的P值,本例为值,本例为0.1210,高于显著性水准,高于显著性水准0.05,所,所以尚不拒绝以尚不拒绝H0,尚不认为两组感染率有不同,尚不认为两组感染率有不同四格表准确概率法四格表准确概率法卡方检验留意事项卡方检验留意事项双向有序属性相同的双向有序属性相
48、同的RC表表 表中的两分类变量皆为有序且属表中的两分类变量皆为有序且属性相同。事实上是性相同。事实上是22配对设计的扩展,即水平数配对设计的扩展,即水平数3的诊断试的诊断试验配伍设计,如用两种检测方法同时对同一批样品的测定结果。验配伍设计,如用两种检测方法同时对同一批样品的测定结果。其探讨目的通常是分析两种检测方法的一样性,此时宜用一样其探讨目的通常是分析两种检测方法的一样性,此时宜用一样性检验(或称性检验(或称Kappa检验)检验)对比法对比法测定结果测定结果核素法测定结果核素法测定结果合计合计正常正常减弱减弱异常异常正常正常 582363减弱减弱142750异常异常891734合计合计67532714773本章小结本章小结卡方检验的基本原理卡方检验的基本原理拟合优度拟合优度一般四格表与配对四格表卡方检验一般四格表与配对四格表卡方检验列联表卡方检验列联表卡方检验Fisher准确概率法准确概率法74