《医学统计学第七章卡方检验课件.ppt》由会员分享,可在线阅读,更多相关《医学统计学第七章卡方检验课件.ppt(99页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、检验检验Chi-Square Test第七章第七章1105ContenttestoffourfolddatatestofpairedfourfolddataFisherprobabilitiesinfourfolddatatestofRCtableMultiplecomparisonofsampleratestestofgoodnessoffit21053105 目的目的:推断两个总体率或构成比之间有无差别推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别多个总体率或构成比之间有无差别 多个样本率的多重比较多个样本率的多重比较 两个分类变量之间有无关联性两个分类变量之间有无关联
2、性 频数分布拟合优度的检验。频数分布拟合优度的检验。检验统计量检验统计量:应用应用:计数资料:计数资料4105第一节第一节 四格表资料的四格表资料的 检验检验5105目的:目的:推断两个总体率(构成比)是推断两个总体率(构成比)是 否有差别否有差别 (和(和u u检验等价)检验等价)要求:要求:两样本的两分类个体数排列成四两样本的两分类个体数排列成四 格表资料格表资料6105 (1)分布是一种连续型分布:按分布的密度函数可给出分布是一种连续型分布:按分布的密度函数可给出自由度自由度=1,2,3,的一簇分布曲线的一簇分布曲线(图(图7-1)。)。(2)分布的一个基本性质是可加性:分布的一个基本性
3、质是可加性:如果两个独立的如果两个独立的随机变量随机变量X1和和X2分别服从自由度分别服从自由度1和和2的分布,即的分布,即 ,那么它们的和(,那么它们的和(X1+X2)服从自由度()服从自由度(1+2)的)的 分布,分布,即即 。一、一、检验的基本思想检验的基本思想 1 分布分布710581052 检验的基本思想检验的基本思想例例7-1 某某院院欲欲比比较较异异梨梨醇醇口口服服液液(试试验验组组)和和氢氢氯氯噻噻嗪嗪+地地塞塞米米松松(对对照照组组)降降低低颅颅内内压压的的疗疗效效。将将200例例颅颅内内压压增增高高症症患患者者随随机机分分为为两两组组,结结果果见见表表7-1。问问两两组组降
4、降低低颅颅内内压压的的总总体体有有效效率率有有无无差差别别?9105表表7-1 两组降低颅内压有效率的比较两组降低颅内压有效率的比较 10105 本例资料经整理成图本例资料经整理成图7-2形式,即有两形式,即有两个处理组,每个处理组的例数由发生数和个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有未发生数两部分组成。表内有 四个四个基本数据,其余数据均由此四个数据推算基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。出来的,故称四格表资料。11105 图图7-2 四格表资料的基本形式四格表资料的基本形式12105基本思想:可通过基本思想:可通过 检验的基本公式检验的基本公
5、式来理解。来理解。式中,式中,A为实际频数(为实际频数(actual frequency),),T为理论频数(为理论频数(theoretical frequency)。)。13105理论频数由下式求得:理论频数由下式求得:式中,式中,TRC 为第为第R 行行C 列的理论频数列的理论频数 nR 为相应的行合计为相应的行合计 nC 为相应的列合计为相应的列合计14105 理论频数理论频数 是根据检验假设是根据检验假设 ,且用合,且用合 并率来估计并率来估计 而定的。而定的。如上例,无效假设是试验组与对照组降低颅内压的如上例,无效假设是试验组与对照组降低颅内压的总体有效率相等,均等于合计的有效率总体
6、有效率相等,均等于合计的有效率87%。那么。那么理论上,试验组的理论上,试验组的104例颅内压增高症患者中有效例颅内压增高症患者中有效者应为者应为104(174/200)=90.48,无效者为,无效者为104(26/200)=13.52;同理,对照组的;同理,对照组的96例颅内压增例颅内压增高症患者中有效者应为高症患者中有效者应为96(174/200)=83.52,无效者,无效者为为96(26/200)=12.48。15105 检检验验统统计计量量 值值反反映映了了实实际际频频数数与与理理论频数的吻合程度。论频数的吻合程度。若若检检验验假假设设H0:1=2成成立立,四四个个格格子子的的实实际际
7、频频数数A 与与理理论论频频数数T 相相差差不不应应该该很很大大,即即统统计计量量 不不应应该该很很大大。如如果果 值值很很大大,即即相相对对应应的的P 值值很很小小,若若 ,则则反反过过来来推推断断A与与T相相差差太太大大,超超出出了了抽抽样样误误差差允允许许的的范范围围,从从而而怀怀疑疑H0的的正正确确性性,继继而而拒绝拒绝H0,接受其对立假设,接受其对立假设H1,即,即12。16105 由公式(由公式(7-1)还可以看出:)还可以看出:值的大小还取决于值的大小还取决于 个数的多少(严格地说是自由度个数的多少(严格地说是自由度的大小)。由于各的大小)。由于各 皆皆是是正正值值,故故自自由由
8、度度愈愈大大,值值也也会会愈愈大大;所所以以只只有有考考虑虑了了自自由由度度的的影影响响,值值才才能能正正确确地地反反映映实实际际频频数数A和和理理论论频频数数T 的吻合程度。的吻合程度。检检验验的的自自由由度度取取决决于于可可以以自自由由取取值值的的格格子子数数目目,而而不不是是样样本本含含量量n n。四四格格表表资资料料只只有有两两行行两两列列,=1=1,即即在在周周边边合合计计数数固固定定的的情情况况下下,4 4个个基基本本数数据据当当中中只只有有一一个个可可以以自自由由取值。取值。17105(1)建立检验假设,确定检验水平。建立检验假设,确定检验水平。H0:1=2 即试验组与对照组降低
9、颅内压的即试验组与对照组降低颅内压的总体总体有效率相等有效率相等H1:12 即试验组与对照组降低颅内压的即试验组与对照组降低颅内压的总体总体有效率不相等有效率不相等=0.05。3.假设检验步骤假设检验步骤18105(2)求检验统计量值)求检验统计量值1910520105二、四格表资料检验的专用公式二、四格表资料检验的专用公式21105 分分布布是是一一连连续续型型分分布布,而而四四格格表表资资料料属属离离散散型型分分布布,由由此此计计算算得得的的统统计计量量 的的抽抽样样分分布布亦亦呈呈离离散散性性质质。为为改改善善 统统计计量量 分分布布的的连连续续性性,则则需需行行连连续续性性校正。校正。
10、22105三、四格表资料检验的校正公式三、四格表资料检验的校正公式 23105四格表资料 检验公式选择条件:,专用公式;,校正公式;,直接计算概率。连续性校正仅用于连续性校正仅用于 的四格表资料,当的四格表资料,当 时,一般不作校正。时,一般不作校正。24105例例7-2 某某医医师师欲欲比比较较胞胞磷磷胆胆碱碱与与神神经经节节苷苷酯酯治治疗疗脑脑血血管管疾疾病病的的疗疗效效,将将78例例脑脑血血管管疾疾病病患患者者随随机机分分为为两两组组,结结果果见见表表7-2。问问两两种种药药物物治治疗疗脑脑血血管管疾病的有效率是否相等?疾病的有效率是否相等?25105表表7-2 两种药物治疗脑血管疾病有
11、效率的比较两种药物治疗脑血管疾病有效率的比较26105本例,故用四格表资料检验的校正公式,查界值表得。按 检验水准不拒绝,尚不能认为两种药物治疗脑血管疾病的有效率不等。27105本资料若不校正时,本资料若不校正时,结论与之相反。结论与之相反。28105第二节第二节配对四格表资料的配对四格表资料的 检验检验29105与计量资料推断两总体均数是否与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,有差别有成组设计和配对设计一样,计数资料推断两个总体率(构成比)计数资料推断两个总体率(构成比)是否有差别也有成组设计和配对设计,是否有差别也有成组设计和配对设计,即即四格表资料四格表资料和和配对
12、四格表资料配对四格表资料。30105例例7-3 某某实实验验室室分分别别用用乳乳胶胶凝凝集集法法和和免免疫疫荧荧光光法法对对58名名可可疑疑系系统统红红斑斑狼狼疮疮患患者者血血清清中中抗抗核核抗抗体体进进行行测测定定,结结果果见见表表7-3。问问两两种种方方法法的的检检测测结结果果有无差别?有无差别?31105表表7-3 两种方法的检测结果两种方法的检测结果 32105 上述配对设计实验中,就每个对子而上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有言,两种处理的结果不外乎有四种可能四种可能:两种检测方法皆为阳性数两种检测方法皆为阳性数(a);两种检测方法皆为阴性数两种检测方法皆为阴
13、性数(d);免疫荧光法为阳性,乳胶凝集法为免疫荧光法为阳性,乳胶凝集法为 阴性数阴性数(b);乳胶凝集法为阳性,免疫荧光法为乳胶凝集法为阳性,免疫荧光法为 阴性数阴性数(c)。33105其中,其中,a,d 为两法观察结果一致的两种情况,为两法观察结果一致的两种情况,b,c为两法观察结果不一致的两种情况为两法观察结果不一致的两种情况。检验统计量为检验统计量为34105注意:注意:本本法法一一般般用用于于样样本本含含量量不不太太大大的的资资料料。因因为为它它仅仅考考虑虑了了两两法法结结果果不不一一致致的的两两种种情情况况(b,c),而而未未考考虑虑样样本本含含量量n和和两两法法结结果果一一致致的的
14、两两种种情情况况(a,d)。所所以以,当当n很很大大且且a与与d的的数数值值很很大大(即即两两法法的的一一致致率率较较高高),b与与c的的数数值值相相对对较较小小时时,即即便便是是检检验验结结果果有有统统计计学学意意义义,其其实实际际意义往往也不大。意义往往也不大。35105检验步骤:检验步骤:36105第三节第三节四格表资料的四格表资料的Fisher确切概率法确切概率法 37105条件:条件:理论依据:理论依据:超几何分布超几何分布 (非(非 检验检验 的范畴的范畴)38105例例7-4 某医师为研究乙肝免疫球蛋某医师为研究乙肝免疫球蛋白预防胎儿宫内感染白预防胎儿宫内感染HBV的效果,将的效
15、果,将33例例HBsAg阳性孕妇随机分为预防注射组阳性孕妇随机分为预防注射组和非预防组,结果见表和非预防组,结果见表7-4。问两组新生。问两组新生儿的儿的HBV总体感染率有无差别?总体感染率有无差别?39105表7-4两组新生儿HBV感染率的比较40105一、基本思想在四格表周边合计数固定不变的条在四格表周边合计数固定不变的条件下,计算表内件下,计算表内4个实际频数变动时的个实际频数变动时的各种组合之概率各种组合之概率 ;再按检验假设用;再按检验假设用单侧或双侧的累计概率单侧或双侧的累计概率 ,依据所取,依据所取的检验水准的检验水准 做出推断。做出推断。411051各组合概率Pi的计算在四格表
16、周边合计数不变的条件下,表内4个实际频数a,b,c,d 变动的组合数共有“周边合计中最小数+1”个。如例7-4,表内4个实际频数变动的组合数共有9+1=10个,依次为:42105各组合的概率Pi服从超几何分布,其和为1。计算公式为!为阶乘符号 43105 2累计概率的计算累计概率的计算(单、双侧单、双侧检验不同检验不同)441054510546105二、检验步骤(二、检验步骤()4710548105表7-5例7-4的Fisher确切概率法计算表49105例7-5某单位研究胆囊腺癌、腺瘤的P53基因表达,对同期手术切除的胆囊腺癌、腺瘤标本各10份,用免疫组化法检测P53基因,资料见表7-6。问胆
17、囊腺癌和胆囊腺瘤的P53基因表达阳性率有无差别?50105表表7-6 胆囊腺癌与胆囊腺瘤胆囊腺癌与胆囊腺瘤P53基因表达阳性率的比较基因表达阳性率的比较 51105本例a+b+c+d=10,由表7-7可看出,四格表内各种组合以i=4和i=5的组合为中心呈对称分布。表7-7例7-5的Fisher确切概率法计算表*为现有样本52105(1)计算现有样本的D*和P*及各组合下四格表的Di。本例D*=50,P*=0.02708978。(2)计算满足Di50条件的各组合下四格表的概率Pi。(3)计算同时满足Di50和PiP*条件的四格表的累计概率。本例为P7和P8,(4)计算双侧累计概率P。P0.05,
18、按=0.05检验水准不拒绝H0,尚不能认为胆囊腺癌与胆囊腺瘤的P53基因表达阳性率不等。53105注意:注意:54105第四节第四节行列表资料的 检验 55105行行列表资料列表资料多个样本率比较时,有R行2列,称为R2表;两个样本的构成比比较时,有2行C列,称2C表;多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为RC表。56105检验统计量检验统计量57105一、多个样本率的比较一、多个样本率的比较58105例7-6某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见表7-8。问三种疗法的有效率有无差别?表7-8三种疗法有效率的比较59105
19、检验步骤:60105二、样本构成比的比较61105例7-7某医师在研究血管紧张素I转化酶(ACE)基因I/D多态(分3型)与2型糖尿病肾病(DN)的关系时,将249例2型糖尿病患者按有无糖尿病肾病分为两组,资料见表7-9。问两组2型糖尿病患者的ACE基因型总体分布有无差别?表7-9DN组与无DN组2型糖尿病患者ACE基因型分布的比较62105检验步骤检验步骤63105三、双向无序分类资料的关联性检验表中两个分类变量皆为无序分类变量的行列表资料,又称为双向无序表资料。64105注意:双向无序分类资料为两个或多个样本,做差别检验(例7-7);若为单样本,做关联性检验。65105例7-8测得某地58
20、01人的ABO血型和MN血型结果如表7-10,问两种血型系统之间是否有关联?表7-10某地5801人的血型(单样本,做关联性检验)66105表7-10资料,可用行列表资料检验来推断两个分类变量之间有无关系(或关联);若有关系,可计算Pearson列联系数C进一步分析关系的密切程度:列联系数C取值范围在01之间。0表示完全独立;1表示完全相关;愈接近于0,关系愈不密切;愈接近于1,关系愈密切。67105检验步骤68105由于列联系数C=0.1883,数值较小,故认为两种血型系统间虽然有关联性,但关系不太密切。69105四、行列表资料检验的注意事项701051行列表中的各格T1,并且1T5的格子数
21、不宜超过1/5格子总数,否则可能产生偏性。处理方法有三种:增大样本含量以达到增大理论频数的目的,属首选方法,只是有些研究无法增大样本含量,如同一批号试剂已用完等。71105根据专业知识,删去理论频数太小的行或列,或将理论频数太小的行或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的随机性。注意注意:不同年龄组可以合并,但不同血型就不能合并。改用双向无序RC表的Fisher确切概率法(可用SAS软件实现)。721057310574105 第五节多个样本率间的多重比较7510576105分割法分割法 77105一、基本思想因分析目的不同,k个样本率两两比较的次数不同,故重新规定的检验水准
22、的估计方法亦不同。通常有两种情况:78105791058010581105二、多个实验组间的两两比较82105例7-9对例7-6中表7-8的资料进行两两比较,以推断是否任两种疗法治疗周围性面神经麻痹的有效率均有差别?83105检验步骤本例为3个实验组间的两两比较84105表7-12三种疗法有效率的两两比较8510586105三、各实验组与同一个对照组的比较87105例7-10以表7-8资料中的药物治疗组为对照组,物理疗法组与外用膏药组为试验组,试分析两试验组与对照组的总体有效率有无差别?本例为各实验组与同一对照组的比较881058910590105第七节频数分布拟合优度的检验91105医学研究
23、实践中,常需推断某现象频数分布是否符合某一理论分布。如正态性检验就是推断某资料是否符合正态分布的一种检验方法,但只适用于正态分布。Pearson值能反映实际频数和理论频数的吻合程度,故检验可用于推断频数分布的拟合优度,且应用广泛。如正态分布,二项分布,Poisson分布,负二项分布等。92105例7-12观察某克山病区克山病患者的空间分布情况,调查者将该地区划分为279个取样单位,统计各取样单位历年累计病例数,资料见表7-15的第(1)、(2)栏,问此资料是否服从Poisson分布?93105表7-15Poisson分布的拟合与检验*:X8的概率:94105951059610597105练习题P156P156一、最佳选择题一、最佳选择题全做全做三、计算分析题三、计算分析题 第第3 3、5 5、7 7、1010题题9810599105