卡方检验解释PPT讲稿.ppt

上传人:石*** 文档编号:70283245 上传时间:2023-01-18 格式:PPT 页数:80 大小:4.41MB
返回 下载 相关 举报
卡方检验解释PPT讲稿.ppt_第1页
第1页 / 共80页
卡方检验解释PPT讲稿.ppt_第2页
第2页 / 共80页
点击查看更多>>
资源描述

《卡方检验解释PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《卡方检验解释PPT讲稿.ppt(80页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、卡方检验解释医疗等本科班医学统计学Dr.宇传华 制作第1页,共80页,编辑于2022年,星期五主讲内容第一第一 概述概述基本思想基本思想第二第二 22 22表卡方检验表卡方检验第三第三 配对四格表卡方检验配对四格表卡方检验第四第四 RC RC表卡方检验表卡方检验第五第五 Fisher Fisher确切概率检验确切概率检验第六第六 多个样本率的多重比较多个样本率的多重比较第七有序分组资料的线性趋势检验第七有序分组资料的线性趋势检验第2页,共80页,编辑于2022年,星期五卡方检验概述p136第3页,共80页,编辑于2022年,星期五检验的应用检验两个样本率之间差别的显著性;检验多个样本率或构成比

2、之间差别的显著性;检验两个双向无序分类变量是否存在关联;配对计数资料的比较。第4页,共80页,编辑于2022年,星期五一、两独立一、两独立样本率本率检验(一)(一)两独立样本率资料的四格表形式 例例7-1 为研研究究肿瘤瘤标志志物物癌癌胚胚抗抗原原(CEA)对肺肺癌癌的的诊断断价价值,随随机机抽抽取取72例例确确诊为肺肺癌癌的的患患者者为肺肺癌癌组,114例例接接受受健健康康体体检的的非非肺肺癌癌患患者者为对照照组。用用CEA对其其进行行检测,结果果呈呈阳阳性性反反应者者病病例例组中中33例例,对照照组中中10例。例。问两两组人群的人群的CEA阳性率有无差异?阳性率有无差异?第5页,共80页,

3、编辑于2022年,星期五表表7-1 CEA对两组人群的诊断结果对两组人群的诊断结果*括号内为理论频数。第6页,共80页,编辑于2022年,星期五 本例资料经整理成表本例资料经整理成表7-1形式,即有形式,即有两个处理组,每个处理组的例数由发生数两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有和未发生数两部分组成。表内有33、39、10、104 四个基本数据,其余数据均由此四个基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。四个数据推算出来的,故称四格表资料。(二)(二)检验的基本思想检验的基本思想第7页,共80页,编辑于2022年,星期五 表表7-2 四格表资料的基

4、本形式四格表资料的基本形式 第8页,共80页,编辑于2022年,星期五基本思想:可通基本思想:可通过 检验的基本公式来的基本公式来理解。理解。式中,式中,A为实际频数(为实际频数(actual frequency),),T为理论频数(为理论频数(theoretical frequency)。)。第9页,共80页,编辑于2022年,星期五 理论频数理论频数 是根据检验设是根据检验设 ,且,且用合并率用合并率 来估计而定的。来估计而定的。第10页,共80页,编辑于2022年,星期五第11页,共80页,编辑于2022年,星期五理论频数由下式求得:理论频数由下式求得:式中,式中,TRC 为第为第R 行

5、行C 列的理论频数列的理论频数 nR 为相应的行合计为相应的行合计 nC 为相应的列合计为相应的列合计第12页,共80页,编辑于2022年,星期五 检检验验统统计计量量 值值反反映映了了实实际际频频数数与理论频数的吻合程度。与理论频数的吻合程度。若若检检验验假假设设H0:1=2成成立立,四四个个格格子子的的实实际际频频数数A 与与理理论论频频数数T 相相差差不不应应该该很很大大,即即统统计计量量 不不应应该该很很大大。如如果果 值值很很大大,即即相相对对应应的的P 值值很很小小,若若 ,则则反反过过来来推推断断A与与T相相差差太太大大,超超出出了了抽抽样样误误差差允允许许的的范范围围,从从而而

6、怀怀疑疑H0的的正正确确性性,继继而而拒拒绝绝H0,接接受受其其对对立立假设假设H1,即,即12。第13页,共80页,编辑于2022年,星期五 由公式(由公式(7-1)还可以看出:)还可以看出:值的大小还取决于值的大小还取决于 个数的多少(严格地说是自由度个数的多少(严格地说是自由度的大小)。由于各的大小)。由于各 皆皆是是正正值值,故故自自由由度度愈愈大大,值值也也会会愈愈大大;所所以以只只有有考考虑虑了了自自由由度度的的影影响响,值值才才能能正正确确地地反反映映实实际际频频数数A和和理理论论频频数数T 的的吻吻合程度。合程度。检检验验的的自自由由度度取取决决于于可可以以自自由由取取值值的的

7、格格子子数数目目,而而不不是是样样本本含含量量n n。四四格格表表资资料料只只有有两两行行两两列列,=1=1,即即在在周周边边合合计计数数固固定定的的情情况况下下,4 4个个基基本本数数据据当当中中只只有有一一个个可可以以自自由由取值。取值。第14页,共80页,编辑于2022年,星期五(1)建立检验假设,确定检验水平。建立检验假设,确定检验水平。H0:1=2H1:12=0.05。(三)(三)假设检验假设检验第15页,共80页,编辑于2022年,星期五(2)求)求检验统计量量值第16页,共80页,编辑于2022年,星期五第17页,共80页,编辑于2022年,星期五四格表四格表资料料检验的的专用公

8、式用公式第18页,共80页,编辑于2022年,星期五(四四)四格表四格表资料料检验的校正公式的校正公式 第19页,共80页,编辑于2022年,星期五 分分布布是是一一连连续续型型分分布布,而而四四格格表表资资料料属属离离散散型型分分布布,由由此此计计算算得得的的 统统计计量量的的抽抽样样分分布布亦亦呈呈离离散散性性质质。为为改改善善 统计量分布的连续性,则进行连续性校正。统计量分布的连续性,则进行连续性校正。第20页,共80页,编辑于2022年,星期五四格表资料 检验公式选择条件:,不校正的理论或专用公式;,校正公式;,直接计算概率 (Fisher)。连续性校正仅用于连续性校正仅用于 的四格表

9、资料,当的四格表资料,当 时,一般不作校正。时,一般不作校正。第21页,共80页,编辑于2022年,星期五例例7-2 将将116例例癫痫患患者者随随机机分分为两两组,一一组70例例接接受受常常规加加高高压氧氧治治疗(高高压氧氧组),另另一一组46例例接接受受常常规治治疗(常常规组),治治疗结果果见表表7-3。问两两种种疗法法的有效率有无差的有效率有无差别?第22页,共80页,编辑于2022年,星期五表7-3 两种疗法治疗癫痫的效果 第23页,共80页,编辑于2022年,星期五 本例 ,故用四格表资料 检验的校正公式 ,查 界值表得 。按 检验水准不拒绝 ,尚不能认为组有效率不等。第24页,共8

10、0页,编辑于2022年,星期五本本资料若不校正料若不校正时,结论与之相反。与之相反。第25页,共80页,编辑于2022年,星期五(四)卡方检验的连续性校正问题s赞成依据是:这样做可使卡方统计量抽样分布的连续性和平滑性得到改善,可以降低I类错误的概率,连续性校正后的卡方检验,其结果更接近于Fisher确切概率法。不过,校正也不是无条件的,它只适合于自由度为1时,样本含量较小,如n40,或至少有一个格子的理论频数太小,如T5的情形。第26页,共80页,编辑于2022年,星期五(四)卡方检验的连续性校正问题s反对依据是:经连续性校正后,P值有过分保守之嫌。此外,Fisher确切概率法建立在四格表双边

11、固定的假定下,而实际资料则是单边固定的四格表,连续性校正卡方检验的P值与Fisher确切概率法的P值没有可比性。第27页,共80页,编辑于2022年,星期五就应用而言,无论是否经过连续性校正,就应用而言,无论是否经过连续性校正,若两种检验的结果一致,无须在此问题上若两种检验的结果一致,无须在此问题上纠缠。但是,当两种检验结果相互矛盾时,纠缠。但是,当两种检验结果相互矛盾时,如例如例7-27-2,就需要谨慎解释结果了。,就需要谨慎解释结果了。为客观起见,建议将两种结论同时报告出为客观起见,建议将两种结论同时报告出来,以便他人判断。当然,如果两种结论来,以便他人判断。当然,如果两种结论一致,如均为

12、或,则只报道非连续性检验一致,如均为或,则只报道非连续性检验的结果即可。的结果即可。第28页,共80页,编辑于2022年,星期五第第二二节节、两相关两相关样本率本率检验(McNemar检验)配配对四格表四格表资料的料的 检验第29页,共80页,编辑于2022年,星期五与计量资料推断两总体均数是否有差与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,计数资料别有成组设计和配对设计一样,计数资料推断两个总体率(构成比)是否有差别也推断两个总体率(构成比)是否有差别也有成组设计和配对设计,即有成组设计和配对设计,即四格表资料四格表资料和和配对四格表资料配对四格表资料。第30页,共80页,编

13、辑于2022年,星期五例例7-3某某抗抗癌癌新新药的的毒毒理理研研究究中中,将将78只只大大鼠鼠按按性性别、窝别、体体重重、年年龄等等因因素素配配成成39对,每每个个对子子的的两两只只大大鼠鼠经随随机机分分配配,分分别接接受受甲甲剂量量和和乙乙剂量量注注射射,试验结果果见表表7-4。试分分析析该新新药两两种种不不同同剂量的毒性有无差异。量的毒性有无差异。第31页,共80页,编辑于2022年,星期五表表7-4 某抗癌新药两种剂量的毒理实验结果某抗癌新药两种剂量的毒理实验结果 第32页,共80页,编辑于2022年,星期五 上述配对设计实验中,就每个对子而言,上述配对设计实验中,就每个对子而言,两种

14、处理的结果不外乎有两种处理的结果不外乎有四种可能四种可能:两只大鼠均死亡(甲两只大鼠均死亡(甲乙乙)数数(a);两只均生存(甲两只均生存(甲乙乙)数数(d);其中一只死亡(甲其中一只死亡(甲乙乙)数数(b);其中一只死亡(甲其中一只死亡(甲乙乙)数数(c)。第33页,共80页,编辑于2022年,星期五其中,其中,a,d 为两法两法观察察结果一致的两种情况,果一致的两种情况,b,c为两法两法观察察结果不一致的两种情况果不一致的两种情况。检验统计量为检验统计量为第34页,共80页,编辑于2022年,星期五第35页,共80页,编辑于2022年,星期五注意:注意:本本法法一一般般用用于于样本本含含量量

15、不不太太大大的的资料料。因因为它它仅考考虑了了两两法法结果果不不一一致致的的两两种种情情况况(b,c),而而未未考考虑样本本含含量量n和和两两法法结果果一一致致的的两两种种情情况况(a,d)。所所以以,当当n很很大大且且a与与d的的数数值很很大大(即即两两法法的的一一致致率率较高高),b与与c的的数数值相相对较小小时,即即便便是是检验结果果有有统计学学意意义,其其实际意意义往往也不大。往往也不大。第36页,共80页,编辑于2022年,星期五第第三三节RC表 检验 第37页,共80页,编辑于2022年,星期五行行列表列表资料料多个样本率比较时,有R行2列,称为R2表;两个样本的构成比比较时,有2

16、行C列,称2C表;多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为RC表。第38页,共80页,编辑于2022年,星期五检验统计量量第39页,共80页,编辑于2022年,星期五一、多个一、多个样本率的比本率的比较第40页,共80页,编辑于2022年,星期五 例7-4用A、B、C三种不同方法分别处理新生儿脐带,发生感染的情况见表7-6,试比较3种不同方法的脐带感染率有无差异。表9-6 三种脐带处理方法的脐带感染情况 第41页,共80页,编辑于2022年,星期五第42页,共80页,编辑于2022年,星期五二、两组构成比的比较第43页,共80页,编辑于2022年,星期五例7-5为研

17、究某种新药对尿路疼痛的止痛效果,将有尿路疼痛的患者144例随机分为两组,每组72例,一组服该新药(治疗组),另一组服安慰剂(对照组)。两组患者尿路疼痛的原因见表7-7,问两组患者尿路疼痛原因的分布有无差异?表7-7 两组患者尿路疼痛原因的分布 第44页,共80页,编辑于2022年,星期五第45页,共80页,编辑于2022年,星期五第46页,共80页,编辑于2022年,星期五三、多组构成比的比较第47页,共80页,编辑于2022年,星期五例例7-6 在某项疼痛测量研究中,给160例手术后疼痛的患者提供四种疼痛测量量表,即直观模拟量表(VAS),数字评估量表(NRS),词语描述量表(VDS),面部

18、表情疼痛量表(FPS),患者首选的量表以及患者的文化程度见表7-8,问患者首选疼痛量表与文化程度是否有关?第48页,共80页,编辑于2022年,星期五表7-8 不同文化程度患者首选疼痛量表的类型 第49页,共80页,编辑于2022年,星期五第50页,共80页,编辑于2022年,星期五四、RC表检验的条件第51页,共80页,编辑于2022年,星期五1行列表中的各格T1,并且1T5的格子数不宜超过1/5格子总数,否则可能产生偏性。处理方法有三种:增大样本含量以达到增大理论频数的目的,属首选方法,只是有些研究无法增大样本含量,如同一批号试剂已用完等。第52页,共80页,编辑于2022年,星期五根据专

19、业知识,删去理论频数太小的行或列,或将理论频数太小的行或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的随机性。注意注意:不同年龄组可以合并,但不同血型就不能合并。改用双向无序RC表的Fisher确切概率法(可用SAS软件实现)。第53页,共80页,编辑于2022年,星期五第四节、Fisher确切概率检验确切概率检验是由Fisher1934年提出的一种用于两个独立样本率比较的方法,故又称Fisher确切概率法。有人认为,当样本量n和理论频数T太小时,如n40而且T5,或T1,或n20,应该用确切概率检验。这一观点所基于的理论是,当样本量太小时,二项分布的正态逼近性较差,因而不宜用基于

20、正态分布的检验。提出上述条件的另外一种考虑是确切概率法的计算量偏大,但随着计算工具的大大改进,确切概率法的应用不一定限于上述条件。第54页,共80页,编辑于2022年,星期五例7-4某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非预防组,结果见表7-4。问两组新生儿的HBV总体感染率有无差别?组别组别阳性阳性阴性阴性合计合计感染率感染率(%)预防注射预防注射组组4182218.18 非预防组非预防组5 61145.45 合计合计9243327.27第55页,共80页,编辑于2022年,星期五基本思想在四格表周边合计数固定不变的条件下,计算

21、表内4个实际频数变动时的各种组合之概率;再按检验假设用单侧或双侧的累计概率,依据所取的检验水准做出推断。第56页,共80页,编辑于2022年,星期五1各组合概率的计算在四格表周边合计数不变的条件下,表内4个实际频数,变动的组合数共有“周边合计中最小数+1”个。如例7-4,表内4个实际频数变动的组合数共有个,依次为:(1)(2)(3)(4)(5)0221212203194189 28 37 46 55 6(6)(7)(8)(9)(10)5176167158149134 73 82 9110011第57页,共80页,编辑于2022年,星期五第58页,共80页,编辑于2022年,星期五1计算现有样本

22、四格表的和及各组合下四格表的,见表7-5。本例、。2计算满足条件的各组合下四格表的概率。3计算同时满足和条件的四格表的累计概率。本例满足条件,累计概率为s教材批p143第59页,共80页,编辑于2022年,星期五本例,宜用四格表资料的Fisher确切概率法直接计算累计概率。检验步骤为:,即两组新生儿HBV的总体感染率相等:,即两组新生儿HBV的总体感染率不等第60页,共80页,编辑于2022年,星期五四格表组合四格表组合102292-1980.00000143212183-1650.00009412322074-1320.00197656431965-990.018447855*41856-6

23、6*0.08762728*651747-337616380871529339814110660.0912039010913011990.01289752第61页,共80页,编辑于2022年,星期五第五节多个样本率间的多重比较当多个样本率比较的表资料检验,推断结论为拒绝,接受时,只能认为各总体率之间总的来说有差别,但不能说明任两个总体率之间有差别。要进一步推断哪两两总体间有差别,若直接用四格表资料的检验进行多重比较,将会加大犯类错误的概率。第62页,共80页,编辑于2022年,星期五1多个实验组间的两两比较,k为样本率的个数。第63页,共80页,编辑于2022年,星期五2、实验组与同一个对照组的

24、比较第64页,共80页,编辑于2022年,星期五第六节双向无序分类资料的关联性检验例例 7-8 测得某地测得某地5801人的人的ABO血型和血型和MN血型结果血型结果如表,问两种血型系统之间是否有关联?如表,问两种血型系统之间是否有关联?ABO血型血型MN血型血型合计合计MNMNO4314909021823A3884108001598B4955879502032AB13717932348合计合计1451166626845801第65页,共80页,编辑于2022年,星期五步骤1、建立检验假设2、计算检验统计量3、求出P值,作结论注意:若须进一步分析关系的密切程度时,可计算Pearson列联系数第

25、66页,共80页,编辑于2022年,星期五第七节有序分组资料的线性趋势检验例7-11某研究者欲研究年龄与冠状动脉粥样硬化等级之间的关系,将278例尸解资料整理成表7-13,问年龄与冠状动脉粥样硬化等级之间是否存在线性变化趋势?表表7-13 7-13 年龄与冠状动脉硬化的关系年龄与冠状动脉硬化的关系年龄年龄(岁岁)(X)(X)冠状动脉硬化等级冠状动脉硬化等级(Y)(Y)合计合计+2020707022224 42 298983030272724249 93 3636340401616232313137 7595950509 92020151514145858合计合计1221228989414126

26、26278278第67页,共80页,编辑于2022年,星期五步骤1、建立检验假设2、计算检验统计量3、求出P值,作结论注意:基本思想是:首先计算表资料的值,然后将总的值分解成线性回归分量与偏离线性回归分量。若两分量均有统计学意义,说明两个分类变量存在相关关系,但关系不是简单的直线关系;若线性回归分量有统计学意义,偏离线性回归分量无统计学意义时,说明两个分类变量不仅存在相关关系,而且是线性关系。NonzeroCorrelation863.3895.0001Chi-Square171.4325.0001第68页,共80页,编辑于2022年,星期五dataex7_11;inputrcf;cards;

27、1170122213414221272224239243311632233313347419422043154414;proc freq;weight f;tables r*c /cmh1;run;第69页,共80页,编辑于2022年,星期五注意注意双向有序属性不同的表资料表资料中两个分类变量皆为有序的,但属性不同,如表7-13。对于该类资料,若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表资料,选用秩转换的非参数检验;若研究目的为分析两个有序分类变量间是否存在相关关系,宜用等级相关分析或Pearson积矩相关分析(见第九章);若研究目的为分析两个有序分类变量间是否存在线

28、性变化趋势,宜用本节所介绍的有序分组资料的线性趋势检验。第70页,共80页,编辑于2022年,星期五summary第71页,共80页,编辑于2022年,星期五5、理论频数和fisher确切概率法6、多个样本率的多重比较7、表资料的分类分类和相应检验目的相应检验目的可以分为双向无序、单向有序、双向有序属性相同和双向有序属性不同4类。A、对于双向无序资料,若研究目的为多个样本率(或构成比)的比较,可用行列表资料的检验;若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表资料的检验以及Pearson列联系数进行分析。第72页,共80页,编辑于2022年,星期五B、单向有序表资料

29、有两种形式。一种是表资料中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序的。其研究目的通常是分析不同年龄组各种传染病的构成情况,此种单向有序表资料可用行列表资料的检验进行分析。另一种情况是表资料中的分组变量(如疗法)为无序的,而指标变量(如疗效按等级分组)是有序的。其研究目的为比较不同疗法的疗效,此种单向有序表资料宜用秩转换的非参数检验进行分析(见第八章)。第73页,共80页,编辑于2022年,星期五C、双向有序属性相同的表资料表资料中的两个分类变量皆为有序且属性相同。实际上是配对四格表资料的扩展,即水平数3的配伍资料,如用两种检测方法同时对同一批样品的测定结果。其研究目的通

30、常是分析两种检测方法的一致性,此时宜用一致性检验或称Kappa检验(见第二十八章);也可用特殊模型分析方法(可用SAS软件)。第74页,共80页,编辑于2022年,星期五D、双向有序属性不同的表资料资料中两个分类变量皆为有序的,但属性不同,如表7-13。对于该类资料,若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表资料,选用秩转换的非参数检验;若研究目的为分析两个有序分类变量间是否存在相关关系,宜用等级相关分析或Pearson积矩相关分析(见第九章);若研究目的为分析两个有序分类变量间是否存在线性变化趋势,宜用本节所介绍的有序分组资料的线性趋势检验。第75页,共80页,编辑于2022年,星期五8、解题思路实验研究的目的是什么?研究变量是什么?该资料属何种类型资料?属什么实验设计?可以采用什么假设检验方法进行分析?怎样建立检验假设?如果得出假设检验的统计量=37.92,而对应的统计量=5.99,请问如何下结论?第76页,共80页,编辑于2022年,星期五第77页,共80页,编辑于2022年,星期五第78页,共80页,编辑于2022年,星期五第79页,共80页,编辑于2022年,星期五THANK YOU!THANK YOU!许林勇许林勇您您的的建建议议是是我我进进步步的的源源泉泉!第80页,共80页,编辑于2022年,星期五

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁