卡方检验方法精.ppt

上传人:石*** 文档编号:64368462 上传时间:2022-11-29 格式:PPT 页数:61 大小:2.56MB
返回 下载 相关 举报
卡方检验方法精.ppt_第1页
第1页 / 共61页
卡方检验方法精.ppt_第2页
第2页 / 共61页
点击查看更多>>
资源描述

《卡方检验方法精.ppt》由会员分享,可在线阅读,更多相关《卡方检验方法精.ppt(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、卡方检验方法卡方检验方法1第1页,本讲稿共61页掌握内容:掌握内容:几种常见设计类型资料的卡方检验几种常见设计类型资料的卡方检验熟悉的内容熟悉的内容卡方检验的适用范围卡方检验的适用范围了解内容了解内容1 1四格表资料的四格表资料的FisherFisher精确概率法精确概率法2第2页,本讲稿共61页用样本信息推论总体特征的过程。用样本信息推论总体特征的过程。包括:包括:参数估计参数估计:运用统计学原理,用从样本计算出来的统运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。计指标量,对总体统计指标量进行估计。假设检验:假设检验:又称显著性检验,是指由样本间存在的又称显著性检验

2、,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出差别对样本所代表的总体间是否存在着差别做出判断。判断。3第3页,本讲稿共61页 统计描述统计描述统计推断统计推断应应 用用计量资料计量资料 频数分布频数分布集中趋势集中趋势离散趋势离散趋势统计图表统计图表抽样误差、抽样误差、标准误标准误 t u F检验检验正常值范围正常值范围区间估计区间估计计数资料计数资料相对数及相对数及其标准化其标准化统计图表统计图表标准误标准误 2检验检验率的区间率的区间估计估计人口统计人口统计疾病统计疾病统计相关与回归相关与回归 r b统计图表统计图表 t检验检验 4第4页,本讲稿共61页在总体率为在总体率为

3、的二项分布总体中做的二项分布总体中做n1和和n2抽样抽样,样本率样本率p1和和p2与与的差别的差别,称为称为率抽样误差。率抽样误差。已知已知0 nP5,n(1-P)55第5页,本讲稿共61页例为了解铅中毒病人是否有尿棕色素增加现象,分别例为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液作尿棕色素定性检查,结果见对病人组和对照组的尿液作尿棕色素定性检查,结果见下表,问铅中毒病人与对照人群的尿棕色素阳性率差别下表,问铅中毒病人与对照人群的尿棕色素阳性率差别有无统计学意义?有无统计学意义?表两组人群尿棕色素阳性率比较表两组人群尿棕色素阳性率比较组别组别阳性数阳性数阴性数阴性数合计合

4、计阳性率阳性率(%)铅中毒病人铅中毒病人2973680.56对照组对照组9283724.32合计合计38357352.056第6页,本讲稿共61页 2检验检验(Chi-square test)是现代统计学的是现代统计学的创始人之一,英国人创始人之一,英国人K.Pearson(1857-1936)于)于1900年提出的年提出的一种具有广泛用途的统计方法。一种具有广泛用途的统计方法。7第7页,本讲稿共61页 2 检验的用途检验的用途用途较为广泛的假设检验方法用途较为广泛的假设检验方法,本章仅介绍用于本章仅介绍用于分类计数资料分类计数资料的假设检验,用于检验两个(或多的假设检验,用于检验两个(或多个

5、)率或构成比之间差别是否有统计学意义,配个)率或构成比之间差别是否有统计学意义,配对对 2 2检验检验配对计数资料的差异是否有统计检验检验配对计数资料的差异是否有统计学意义。学意义。8第8页,本讲稿共61页2检验的基本思想检验的基本思想检验实际频数检验实际频数(A)(A)和理论频数和理论频数(T)(T)的差别的差别是否由抽样误差所引起的。也就是由样是否由抽样误差所引起的。也就是由样本率(或样本构成比)来推断总体率或本率(或样本构成比)来推断总体率或构成比。构成比。9第9页,本讲稿共61页表表7-1 两种药物治疗胃溃疡有效率的比较两种药物治疗胃溃疡有效率的比较 目的:推断是否目的:推断是否1 1

6、=2 2?10第10页,本讲稿共61页本例资料经整理成下表形式,本例资料经整理成下表形式,即有两个处理组,每个处理即有两个处理组,每个处理组的例数由发生数和未发生组的例数由发生数和未发生数两部分组成。表内有数两部分组成。表内有 四个基本数据,其余数据均四个基本数据,其余数据均由此四个数据推算出来的,故由此四个数据推算出来的,故称称四格表资料四格表资料。11第11页,本讲稿共61页 表表7-1 完全随机设计两样本率比较的四格表完全随机设计两样本率比较的四格表 处理组处理组属性属性合计合计阳性阳性阴性阴性1 A11(T11)A12(T12)n1(固定值固定值)2 A21(T21)A22(T22)n

7、2(固定值固定值)合计合计 m1 m2n12第12页,本讲稿共61页衡量衡量理论频数理论频数与实际频数的差别与实际频数的差别ARC是位于是位于R行行C列交叉处的实际频数,列交叉处的实际频数,TRC是位于是位于R行行C列交叉处的列交叉处的理论频数。理论频数。(ARC-TRC)反映实际频数与理论频数的差距,除以)反映实际频数与理论频数的差距,除以TRC 为的是考虑相对差距。所以,为的是考虑相对差距。所以,2 值反映了实际频数与理论频数的吻值反映了实际频数与理论频数的吻合程度,合程度,2 值大,说明实际频数与理论频数的差距大。值大,说明实际频数与理论频数的差距大。2 值的大小除值的大小除了与实际频数

8、和理论频数的差的大小有关外,还与它们的行、列数有了与实际频数和理论频数的差的大小有关外,还与它们的行、列数有关。即自由度的大小。关。即自由度的大小。=(行(行-1)(列(列-1)13第13页,本讲稿共61页理论频数的计算理论频数的计算n nR R是是A ARCRC所在行的合计,所在行的合计,n nC C是是A ARCRC所在列的合所在列的合计,是两个样本例数的合计计,是两个样本例数的合计14第14页,本讲稿共61页 理论频数 是根据检验假设 且用合并率 来估计 而定的。如本例,无效假设是如本例,无效假设是A药组与药组与B药组的总体有效率药组的总体有效率相等,均等于合计的阳性率相等,均等于合计的

9、阳性率66.67%(110/165)。)。那么理论上,那么理论上,A药组的药组的85例中阳性人数应为例中阳性人数应为85(110/165)=56.67,阴性人数为,阴性人数为85(55/165)=28.33;同理,;同理,B药组的药组的80例中阳性人数应为例中阳性人数应为80(110/165)=53.33,阴性人数为,阴性人数为80(55/165)=26.67。15第15页,本讲稿共61页2检验的基本公式 上述上述基本公式基本公式由由PearsonPearson提出,因此软件提出,因此软件上常称这种检验为上常称这种检验为PearesonPeareson卡方检验,下面卡方检验,下面将要介绍的其他

10、卡方检验公式都是在此基础将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,上发展起来的。它不仅适用于四格表资料,也适用于其它的也适用于其它的“行行列表列表”。16第16页,本讲稿共61页 分布是一种连续型分布分布是一种连续型分布(Continuous distribution),v 个相个相互独立的标准正态变量互独立的标准正态变量(standard normal variable)的平方和称为的平方和称为 变量,其分布即为变量,其分布即为 分布;自由度分布;自由度(degree of freedom)为为v。17第17页,本讲稿共61页 2 2分布是一种连续型分布分布

11、是一种连续型分布(Continuous(Continuous distribution)distribution),v v 个相互独立的标准正态变量个相互独立的标准正态变量(standard normal variable)(standard normal variable)的平方和称为的平方和称为 2 2 变量,其分布即为变量,其分布即为 2 2 分布;分布;自由度自由度(degree of freedom)(degree of freedom)为为v v。v=1v=4v=6v=918第18页,本讲稿共61页 2分布的形状依赖于自由度分布的形状依赖于自由度 的大小:的大小:当自由度当自由度2

12、时,曲线呈时,曲线呈“L”型;型;随着随着 的增加,曲线逐渐趋于对称;的增加,曲线逐渐趋于对称;当自由度当自由度 时,曲线逼近于正态曲时,曲线逼近于正态曲线。线。19第19页,本讲稿共61页如果假设检验成立,如果假设检验成立,A与与T不应该相差不应该相差太大。太大。理论上可以证明理论上可以证明 (A-T)2/T服从服从x2分分布,计算出布,计算出x2值后,查表判断这么大的值后,查表判断这么大的x2是否为小概率事件,以判断建设检验是否为小概率事件,以判断建设检验是否成立。是否成立。20第20页,本讲稿共61页在在=1,21第21页,本讲稿共61页自由度一定时,自由度一定时,P值越小,值越小,x2

13、值越大,值越大,反比关系。反比关系。当当P 值一定时,自由度越大,值一定时,自由度越大,x2越大。越大。=1时,时,P=0.05,x2=3.84 P=0.01,x2=6.63 P=0.05时,时,=1,x2=3.84 =2,x2=5.9922第22页,本讲稿共61页第一节第一节 四格表资料四格表资料2检验检验B1B2合计合计A1aba+bA2cdc+d合计合计a+cb+dn=a+b+c+d一般四格表的基本形式一般四格表的基本形式23第23页,本讲稿共61页 表表7-1 完全随机设计两样本率比较的四格表完全随机设计两样本率比较的四格表 处理组处理组属性属性合计合计阳性阳性阴性阴性1 A11(T1

14、1)A12(T12)n1(固定值固定值)2 A21(T21)A22(T22)n2(固定值固定值)合计合计 m1 m2n24第24页,本讲稿共61页四格表四格表 2检验的专用公式检验的专用公式n40,T525第25页,本讲稿共61页 为了不计算理论频数为了不计算理论频数T,可由基本公式推导出可由基本公式推导出,直接由各格子的实际频数(直接由各格子的实际频数(a、b、c、d)计)计 算算卡方值的公式:卡方值的公式:第26页,本讲稿共61页1建立检验假设建立检验假设:,两总体率不等,两总体率不等 :,两总体率相等,两总体率相等 检验统计量检验统计量2值反映了实际频数与理论频数值反映了实际频数与理论频

15、数的吻合程度的吻合程度。27第27页,本讲稿共61页 若若检检验验假假设设H0:1=2成成立立,四四个个格格子子的的实实际际频频数数A 与与理理论论频频数数T 相相差差不不应应该该很很大大,即即统统计计量量2 2 不不应应该该很很大大。如如果果2 2 值值很很大大,即即相相对对应应的的P 值值很很小小,若若 P,则则反反过过来来推推断断A与与T相相差差太太大大,超超出出了了抽抽样样误误差差允允许许的的范范围围,从从而而怀怀疑疑H0的的正正确确性性,继继而而拒拒绝绝H0,接接受受其其对对立立假假设设H1,即,即12。28第28页,本讲稿共61页 2计算检验统计量计算检验统计量(1)当总例数)当总

16、例数n40 且所有格子的理论频数且所有格子的理论频数T5时:用检验的基本公式或四格表资料检验的专时:用检验的基本公式或四格表资料检验的专用公式;用公式;基本公式基本公式专用公式专用公式 29第29页,本讲稿共61页(2)当总例数)当总例数 n40 且有一个格子且有一个格子1T5时时:用校正公式;或改用四格表资料的用校正公式;或改用四格表资料的Fisher确切确切概率法。概率法。30第30页,本讲稿共61页 2分布是一连续型分布,而四格表资料分布是一连续型分布,而四格表资料属离散型分布,由此计算得的属离散型分布,由此计算得的 2统计量统计量的抽样分布亦呈离散性质。为改善的抽样分布亦呈离散性质。为

17、改善 2统统计量分布的连续性,则需行连续性校正计量分布的连续性,则需行连续性校正(correction for continuity)。2 连续性校正仅用于连续性校正仅用于=1 的四格表资的四格表资料,当料,当2 时,一般不作校正。时,一般不作校正。31第31页,本讲稿共61页(3)当)当n40,或,或T5时:用时:用检验的基本公式或四格表资料检验的专用公检验的基本公式或四格表资料检验的专用公式式:2=23.1238第38页,本讲稿共61页(3)查查 2界值表(附表界值表(附表7)确定)确定P值,值,P0.05,得出结论。,得出结论。按按0.05水准,不水准,不拒绝拒绝H0,可以认为两组人群对

18、该抗生可以认为两组人群对该抗生素的耐药率的差异无统计学意义。素的耐药率的差异无统计学意义。39第39页,本讲稿共61页 例例2某矿石粉厂生产一种矿石粉时,在数天某矿石粉厂生产一种矿石粉时,在数天内即有部分工人患有职业性皮肤炎。后随机抽内即有部分工人患有职业性皮肤炎。后随机抽取取15名工人穿新防护服,其余仍穿原用的防护名工人穿新防护服,其余仍穿原用的防护服,一个月后检查两组工人的皮肤炎患病情况,服,一个月后检查两组工人的皮肤炎患病情况,资料见下表,问两组的患病率差别有无统计学资料见下表,问两组的患病率差别有无统计学意义?意义?表穿新旧防护服工人的皮肤炎患病比较表穿新旧防护服工人的皮肤炎患病比较防

19、护服种类防护服种类皮肤炎症皮肤炎症合计合计阳性数阳性数阴性数阴性数新新1(3.84)14 (11.16)15旧旧10(7.16)18 (20.84)28合计合计11324340第40页,本讲稿共61页本例本例n40,因有一格子的理论数,因有一格子的理论数5,因而要,因而要用校正用校正 2 检验。检验。H0:两组工人皮肤炎总体患病率相等,即两组工人皮肤炎总体患病率相等,即 1=2H1:两组工人皮肤炎总体患病率不等,即两组工人皮肤炎总体患病率不等,即 1 2=0.05校正校正 2值为值为41第41页,本讲稿共61页以以=1查界值表,按查界值表,按 检验水检验水准不拒绝准不拒绝,接受,接受,尚不能认

20、为穿不同防护,尚不能认为穿不同防护服的两组工人的皮肤炎患病率的差别有统计学服的两组工人的皮肤炎患病率的差别有统计学意义;意义;注意:本例若不作连续性校正,则,注意:本例若不作连续性校正,则,得得,可见两者是有区别的。,可见两者是有区别的。42第42页,本讲稿共61页注意:注意:两样本率比较的资料,既可用两样本率比较的资料,既可用 检验也检验也可用可用 检验来推断两总体率是否有差别,且在检验来推断两总体率是否有差别,且在不校正的条件下两种检验方法是等价的,对同一不校正的条件下两种检验方法是等价的,对同一份资料有份资料有。43第43页,本讲稿共61页小结小结 T5,用四格表专用公式用四格表专用公式

21、n 40 1T5,用连续性校正公式用连续性校正公式 T1,用确切概率法。用确切概率法。n40,用确切概率法。用确切概率法。第44页,本讲稿共61页第三节第三节 配对四格表资料的配对四格表资料的 2检验检验与计量资料推断两总体均数是否有差别与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,计数资料有成组设计和配对设计一样,计数资料推断两个总体率(构成比)是否有差别推断两个总体率(构成比)是否有差别也有成组设计和配对设计,即也有成组设计和配对设计,即四格表资四格表资料料和和配对四格表资料配对四格表资料。45第45页,本讲稿共61页 将含量为将含量为n n的随机样本同时按照两个二项的随机样

22、本同时按照两个二项分类的属性进行交叉分类,形成分类的属性进行交叉分类,形成2 2行行2 2列的交列的交叉分类表,如表叉分类表,如表8-68-6,目的是检验两种属性间,目的是检验两种属性间的阳性率是否相同的阳性率是否相同变量1变量2合计阳性阴性阳性 a b阴性 c d合计(固定值)表表8-6 配对四格表资料表配对四格表资料表46第46页,本讲稿共61页变量变量1的阳性率变量的阳性率变量2的阳性率的阳性率 可见,两个变量阳性率的比较只和可见,两个变量阳性率的比较只和b、c有关,而与有关,而与a、d无关。无关。变量变量1的阳性率的阳性率 变量变量2的阳性率的阳性率 47第47页,本讲稿共61页前面是

23、两个独立样本,行合计是事先固前面是两个独立样本,行合计是事先固定的定的;而这里的;而这里的“两份样本两份样本”互不独立,互不独立,样本量都是样本量都是n,是固定的,是固定的,而行合计与,而行合计与列合计却是事先不确定的。列合计却是事先不确定的。48第48页,本讲稿共61页配对四格表资料的配对四格表资料的 2检验的专用公式检验的专用公式 b+c40 b+c4049第49页,本讲稿共61页两种白喉杆菌培养基结果比较两种白喉杆菌培养基结果比较甲培养基甲培养基乙培养基乙培养基合计合计14(a)2(b)16 9(c)3(d)12合计合计23528配对四格表资料的配对四格表资料的 2检验步骤检验步骤50第

24、50页,本讲稿共61页配对四格表资料的2检验步骤 1.H0:两种培养基阳性率相同,总体两种培养基阳性率相同,总体BC;H1:两种培养基阳性率不同,总体两种培养基阳性率不同,总体BC。0.05。2.计算统计量:计算统计量:23.273.84 3.按按 0.05水准,不拒绝水准,不拒绝H0,可以认为甲乙可以认为甲乙两法血清学检出阳性率无显两法血清学检出阳性率无显著性差异著性差异51第51页,本讲稿共61页第四节 行列表2检验52第52页,本讲稿共61页 RC表的2检验通用公式53第53页,本讲稿共61页几种几种RC表的检验假设表的检验假设H054第54页,本讲稿共61页1.多个样本率的比较多个样本

25、率的比较例例 某医院用某医院用3种方案治疗急性无黄疸型病毒肝炎种方案治疗急性无黄疸型病毒肝炎254例,观察结果见表,问例,观察结果见表,问3种疗法的有效率是否不同。种疗法的有效率是否不同。55第55页,本讲稿共61页检验步骤:检验步骤:H H0 0:3 3种治疗方案的有效率相等种治疗方案的有效率相等H H1 1:3 3种治疗方案的有效率不全相等种治疗方案的有效率不全相等 =0.05 =0.05 56第56页,本讲稿共61页P P 0.05 0.05,在,在=0.05=0.05的检验水准下,的检验水准下,拒绝拒绝H H0 0,接受,接受H H1 1,可以认为三种疗法的有效率有差别。可以认为三种疗

26、法的有效率有差别。57第57页,本讲稿共61页2.样本构成比的比较例例 某研究人员收集了亚洲、欧洲和北美洲人的某研究人员收集了亚洲、欧洲和北美洲人的A A、B B、ABAB、O O血型资料,结果见表,问不同地区人群血型资料,结果见表,问不同地区人群ABOABO血血型分类构成比是否不同。型分类构成比是否不同。58第58页,本讲稿共61页检验步骤检验步骤H H0 0:不同地区人群血型分布总体构成比相同:不同地区人群血型分布总体构成比相同H H1 1:不同地区人群血型分布总体构成比不全相同:不同地区人群血型分布总体构成比不全相同 =0.05 =0.05 P 0.05,在,在=0.05检验水准下,拒绝

27、检验水准下,拒绝H0,认为三个不同地区的人群血型分布总体构成比有差别。认为三个不同地区的人群血型分布总体构成比有差别。59第59页,本讲稿共61页 1.对对RC表,若较多格子(表,若较多格子(1/5)的理论频数)的理论频数小于小于5或有一个格子的理论频数小于或有一个格子的理论频数小于1,则易犯,则易犯第一类错误。第一类错误。出现某些格子中理论频数过小时怎么办?出现某些格子中理论频数过小时怎么办?(1)增大样本含量(最好!)增大样本含量(最好!)(2)删去该格所在的行或列(丢失信息!)删去该格所在的行或列(丢失信息!)(3)根据专业知识将该格所在行或列与别的)根据专业知识将该格所在行或列与别的行

28、或列合并。(丢失信息!甚至出假象)行或列合并。(丢失信息!甚至出假象)RC表表2检验的应用注意事项检验的应用注意事项60第60页,本讲稿共61页行列表2检验时的注意事项2.2.多个样本率比较,若所得统计推断为拒绝多个样本率比较,若所得统计推断为拒绝多个样本率比较,若所得统计推断为拒绝多个样本率比较,若所得统计推断为拒绝H0H0,接受接受接受接受H1H1时,只能认为各总体率之间总的来说有时,只能认为各总体率之间总的来说有时,只能认为各总体率之间总的来说有时,只能认为各总体率之间总的来说有差别,但不能说明任两个总体率之间皆有差别。差别,但不能说明任两个总体率之间皆有差别。差别,但不能说明任两个总体

29、率之间皆有差别。差别,但不能说明任两个总体率之间皆有差别。要进一步推断哪两总体率之间有差别,需进一要进一步推断哪两总体率之间有差别,需进一要进一步推断哪两总体率之间有差别,需进一要进一步推断哪两总体率之间有差别,需进一步做多个样本率的多重比较。步做多个样本率的多重比较。步做多个样本率的多重比较。步做多个样本率的多重比较。3.3.当计数资料为双向有序资料时,不可做卡方分析,当计数资料为双向有序资料时,不可做卡方分析,当计数资料为双向有序资料时,不可做卡方分析,当计数资料为双向有序资料时,不可做卡方分析,需做非参数性检验;当分组变量为等级,分析变需做非参数性检验;当分组变量为等级,分析变需做非参数性检验;当分组变量为等级,分析变需做非参数性检验;当分组变量为等级,分析变量为非等级可做卡方分析,分析变量为等级资料量为非等级可做卡方分析,分析变量为等级资料量为非等级可做卡方分析,分析变量为等级资料量为非等级可做卡方分析,分析变量为等级资料不可做卡方分析。不可做卡方分析。不可做卡方分析。不可做卡方分析。61第61页,本讲稿共61页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁