《第八章卡方检验.pptx》由会员分享,可在线阅读,更多相关《第八章卡方检验.pptx(86页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、复习:率的抽样误差与标准误 样本率样本率(p)和总体率和总体率()的差异称为率的抽的差异称为率的抽样误差样误差(sampling error of rate),用率的标,用率的标准误准误(standard error of rate)度量。)度量。如果总体率如果总体率未知,用未知,用样本率样本率p估计估计如果总体率如果总体率未知,用未知,用样本率样本率p估计估计第1页/共86页2 正态近似法:当n n足够大,且频率p p和(1-(1-p p)都不太小时,如np和n(1-p)55时,p p的抽样分布近似正态分布,可用正态分布法求总体概率的100(1-100(1-)置信区间。这时用频率的标准误S
2、SP P代替平均值的标准误 。复习:总体率的可信区间第2页/共86页31 1、单样本资料的单样本资料的单样本资料的单样本资料的Z Z检验(样本率与总体率的比较)检验(样本率与总体率的比较)检验(样本率与总体率的比较)检验(样本率与总体率的比较)如果二项分布的如果二项分布的如果二项分布的如果二项分布的 或或1 1 不太小,当不太小,当n n足够大时,足够大时,一般一般nn和和n n(1 1)均大于)均大于5 5时,时,在在n n次随机试验中某次随机试验中某事件发生次数事件发生次数X X及发生频率及发生频率P P的分布近似正态分布。的分布近似正态分布。因此,样本率和总体率之间、两个样本率之间差异的
3、判因此,样本率和总体率之间、两个样本率之间差异的判断可用断可用Z Z检验。检验。复习:二项分布频率资料的Z检验第3页/共86页4对于假设H0:=0,H1:0H0成立时,检验统计量如果根据样本算得的Z值偏大,有理由拒绝H0第4页/共86页5样本不太大时,需要做连续性校正样本不太大时,需要做连续性校正第5页/共86页62 2、两组独立样本频率的两组独立样本频率的Z Z检验检验第6页/共86页7本章主要内容第一节独立样本四格表资料的2检验第二节多个独立样本RC列联表资料的2检验第三节配对设计资料的2检验第四节22列联表的确切概率法第五节2分布和拟合优度检验第7页/共86页第八章卡方检验 2检验检验(
4、Chi-square test)是现代统计学的是现代统计学的创始人之一,英国人创始人之一,英国人K.Pearson(1857-1936)于)于1900年提出的一种具有广泛用途的年提出的一种具有广泛用途的统计方法。该检验以统计方法。该检验以2 2分布和拟合优度检验分布和拟合优度检验为理论依据为理论依据。第8页/共86页91、推推断断两两个个或或两两个个以以上上总总体体率率(或或构构成成比比)之间有无差别?之间有无差别?2、两个变量间有无相关关系、两个变量间有无相关关系(关联度分析关联度分析)3、拟合优度检验、拟合优度检验 (goodness of fit test)X2检验的应用第9页/共86页
5、10第一节第一节 独立样本四格独立样本四格表资料的表资料的x2检验检验22列联表(contingency table)第10页/共86页11主要内容主要内容四格表四格表x2检验检验的基本思想的基本思想1.四格表四格表x2检验检验的基本步骤的基本步骤2.四格表四格表x2检验检验的专用公式的专用公式3.四格表四格表x2检验检验的注意事项的注意事项4.第11页/共86页12例例8-1例8-1 将病情相似的169名消化道溃疡患者随机分成两组,分别用洛赛克与雷尼替丁两种药物治疗,4周后疗效见表8-1。问:两种药物治疗消化道溃疡的愈合率有无差别?表8-1 两种药物治疗消化道溃疡4周后疗效处处 理理愈愈 合
6、合未愈合未愈合合合 计计愈合率(愈合率(%)洛赛克洛赛克64(64(a)21(21(b)85(85(n1 1)75.2975.29雷尼替丁雷尼替丁51(51(c)33(33(d)84(84(n2 2)60.7160.71合计合计115(115(m1 1)54(54(m2 2)169(169(n)68.0568.05第12页/共86页13(一)(一)22列联表列联表x2检验检验的基本思想的基本思想表表8-2 独立样本资料的四格表独立样本资料的四格表处处 理理愈愈 合合未愈合未愈合合合 计计愈合率(愈合率(%)洛赛克洛赛克6464(57.8457.84)2121(27.1627.16)858575
7、.2975.29雷尼替丁雷尼替丁5151(57.1657.16)3333(26.8426.84)848460.7160.71合计合计115115545416916968.0568.05表8-2 两种药物治疗消化道溃疡4周后疗效abcd第13页/共86页14x2检验检验的基本公式的基本公式第14页/共86页15X2分布是一种连续型随机变量的概率分布分布是一种连续型随机变量的概率分布图8-1 不同自由度X2分布的概率密度曲线 (X2界值表见475页)第15页/共86页16设有k个相互独立的标准正态分布随机变量Z1、Z2.Z,则Z12+Z22+Z2的分布服从自由度为的x2分布,记为x2(v)。是指上
8、式中包含的独立变量的个数。当趋于时,x2分布逼近正态分布。各种自由度的x2分布右侧尾部面积为时的临界值记为x2(,v)=3=1=2=4=6第16页/共86页17(二)(二)22列联表列联表x2检验检验的基本步骤的基本步骤1、建立检验假设,确定检验水准H0:12即两种药物治疗消化道溃疡的愈合率相同H1:12即两种药物治疗消化道溃疡的愈合率不同=0.052、计算统计量计算理论频数计算x2统计量第17页/共86页183、确定P值,做出推断结论v=(2-1)(2-1)=1查X2界值表得,本例,故P0.10 按照=0.05水准,不拒绝H0,差别无统计学意义。尚不能认为两种治疗方案的总体缓解率不同。如果公
9、式未进行校正,则P 0.05,拒绝H0,结论相反。第23页/共86页24(四)(四)22列联表列联表x2检验检验的注意事项的注意事项1、x2校正公式仅用于v=1的四格表资料,对v2的多组样本分布,一般不作校正。2、当n40,或T1,校正x2值也不恰当,可用Fisher确切检验。3、本节两个例题均强调两组患者“病情相似”,这一点非常重要,只有在两组对象其它方面“同质”的前提下才能比较两个频率,才能进行22列联表的x2检验。第24页/共86页2525小小 结结1、2检验的基本思想 (1)n 40,且,且T 5时,用时,用 2 检验基本公式和专用公式检验基本公式和专用公式 (2)n 40,但有,但有
10、1 T5时,用四格表时,用四格表 2检验校正公式检验校正公式 (3)n 40,或,或T0.75,在=0.05水准上不拒绝H0,差别没有统计学意义。尚不能认为儿童急性白血病患者与成年人急性白血病患者的血型分布不同。第37页/共86页38(四)多组间的两两比较多个率和多个频率分布比较的x2检验,结论为拒绝H0时,仅表示多组中至少有两组是不同的。若要明确,需作多组间两两比较,即分割RC列联表,对每两个率之间有无统计学意义做出结论。检验水准进行校正(bonferroni调整法)=/m(比较次数)m=k(k-1)/2若多个实验组与同一对照组进行比较,比较次数为k-1,则=/k-1第38页/共86页391
11、、建立检验假设,确定检验水准H0:任意两个对比组的总体有效率相等H1:任意两个对比组的总体有效率不相等a=0.05本例为3个实验组间的两两比较,检验水准为=0.05/3=0.01672、计算检验统计量3、确定P值,作出推断结论第39页/共86页400.01670.016740第55页/共86页563、确定p值,做出推断自由度v=(2-1)(2-1)=1,查界值表,本例,因而P0.005,在=0.05水准上拒绝H0,接受H1,差别有统计学意义。可以认为两种检验方法的阳性率结果有差别。由于甲法阳性率为68.20%,乙法阳性率为84.09%,可以认为乙法阳性率高于甲法阳性率。第56页/共86页57上
12、述方法称为McNemar检验,将(b+c)视为固定值,在此条件下推断,无需考虑一致数a、d的大小,因而这类方法在统计学中称为条件推断方法。第57页/共86页58二、配对二、配对RRRR列联表资料的列联表资料的 2 2检验检验第58页/共86页59例8-6 对150名冠心病患者用两种方法检查室壁收缩运动的情况,见表8-10,试分析两种方法测定结果的概率分布是否相同。表8-10 两种方法检查室壁收缩运动情况甲法测定结果甲法测定结果乙法测定结果乙法测定结果合计合计正常正常减弱减弱异常异常正常正常60603 32 26565减弱减弱0 042429 95151异常异常8 89 917173434合计合
13、计686854542828150150(固定值)(固定值)第59页/共86页60表8-9配对设计资料的配对设计资料的RRRR列联表列联表变量变量1变量变量2合计合计12R1A11A12 A1Rn12A21A22A2Rn2RAR1AR2 ARRnR合计合计m1m2 mRn(固定值)(固定值)R为类别数为类别数,ni和和mi为第为第i行合计和第行合计和第i列合计。列合计。H0成立成立时,时,T服从自由度为服从自由度为R-1的的x2分布分布。是是McNemar的推广的推广 第60页/共86页61对例8-6两种方法检查心室壁运动资料1.建立检验假设,确定检验水准:H0:两变量的概率分布相同,H1:两变
14、量的概率分布不同,=0.052.选定检验方法,计算检验统计量:配对多分类 2 2检验:检验:第61页/共86页62第62页/共86页633.确定确定P值,作出统计推断值,作出统计推断。查附表8:2 2 界值表得 2 20.050.05(2)(2)=5.99,=5.99,2 2=1.600.05.在在=0.05水准上不拒绝拒绝H0无无效假设,差别没有统计学意义。效假设,差别没有统计学意义。专业结论:专业结论:尚不能认为尚不能认为两种方法检查室壁运动分级的概率分布不相同。第63页/共86页64完全随机设计与配对设计四格表资料的比较第64页/共86页65第四节列联表的确切概率法例8-7将23名精神抑
15、郁症患者随机分到两组,分别用两种药物治疗,结果见表,问两种药物的治疗效果是否不同?表8-11两种药物治疗精神抑郁症的疗效比较分组分组有效有效无效无效合计合计有效率(有效率(%)甲药甲药751258.3乙药乙药381127.3合计合计101323(40)43.5第65页/共86页66理论依据:超几何分布。条件:费歇尔确切概率法费歇尔确切概率法(Fishers exact probability Fishers exact probability),由(,由(1934193419341934年)提出。是一种直接计算概率的假设检年)提出。是一种直接计算概率的假设检验。验。非非 2检验的范畴,而作为小
16、样本四格表资料检验检验的范畴,而作为小样本四格表资料检验方法的补充。方法的补充。四格表资料的Fisher确切概率法 第66页/共86页67(一)Fisher确切概率法的基本思想在四格表边缘合计固定不变的条件下,利用公式直接计算表内四个格子数据的各种组合的概率,然后计算单侧或双侧累计概率,并与检验水准a比较,做出是否拒绝H0的结论。第67页/共86页68分析步骤表8-11两种药物治疗精神抑郁症的疗效比较分组分组有效有效无效无效合计合计有效率(有效率(%)甲药甲药751258.3乙药乙药381127.3合计合计101323(0.05在=0.05水准上差别无统计学意义。专业结论:两种药物对精神抑郁症
17、患者的疗效无显著差别。第71页/共86页72按检验假设取单侧时的累计概率计算:若建立检验假设为:若建立检验假设为:H0:,1=2,H1:12;=0.05。因有p1-p2=0.583-0.273=0.3106,将所有每种组合下各药的有效率的差值0.3106的组合概率相加而得到单侧累积概率为:(上侧尾部概率)0.114224+0.023797+0.002115+0.000058=0.1400.05。在在=0.05水准上差别无统计学意义。尚不能认为甲药疗效优于乙药。如果进行单侧检验如果进行单侧检验第72页/共86页73第五节2检验用于拟合优度检验第73页/共86页74拟合优度检验拟合优度检验目的:根
18、据样本的频率分布检验其总体分布是否等于某给定的理论分布(检验一种随机变量是否符合某种特定分布)。第74页/共86页75例8-8 随机抽取12岁男孩120名,身高(cm)如下,检验水准为0.05.试检验该资料是否服从正态分布?(a=0.10)组段频数组段频数122.05142.0 20126.08146.0 11130.010150.0 6134.022154.0 158.05138.033第75页/共86页76 120名男孩身高的频数分布组段组段(XLXU)实际频数实际频数(A)122.05126.08130.010134.022138.033142.0 20146.0 11150.0 615
19、4.0 5合计合计120经计算:用样本均数和标准差作为总体分布的近似值。第76页/共86页77检验步骤1、建立检验假设,确定检验水准H0:总体分布等于均数为139.48,标准差为7.30的正态分布H1:总体分布不等于均数为139.48,标准差为7.30的正态分布=0.05第77页/共86页78拟合优度卡方检验的基本思想(1)设X是从某总体中抽取的简单随机样本,n=120(2)分成k个组段或类别,k=9(3)Ai表示落在第i个组段的频数(观察频数,是即频数)(4)Pi表示在H0成立的条件下,样本值落在第i个组段的概率(5)记Ti表示根据H0规定的理论频数第78页/共86页79组段组段A(x1)(
20、x2)P(x)T=nP(x)(A-T)2/T122.050.008320.008320.032400.032400.024080.024082.89002.89001.540531.54053126.080.032400.032400.097040.097040.064630.064637.75577.75570.007690.00769130.0100.097040.097040.226420.226420.129390.1293915.526315.52631.966981.96698134.0220.226420.226420.419670.419670.193250.1932523.1
21、89823.18980.061040.06104138.0330.419670.419670.635030.635030.215360.2153625.843325.84331.981881.98188142.0200.635030.635030.814110.814110.179080.1790821.489821.48980.103280.10328146.0110.814110.814110.925220.925220.111110.1111113.333113.33310.408270.40827150.060.925220.925220.976650.976650.051430.05
22、1436.17176.17170.004770.00477154.050.976650.976650.994410.994410.017760.017762.13092.13093.862893.86289合计合计120-9.937339.93733表表8-13 120名男生身高(名男生身高(cm)的频数分布表及拟合优度检验统计量的计算)的频数分布表及拟合优度检验统计量的计算第79页/共86页80 大样本时,统计量X2近似服从X2分布第80页/共86页813.确定确定P值,作出统计推断值,作出统计推断:自由度自由度=k-1-s=9-1-2=6。查附表8:2 2 界值表得 2 20.100.10
23、(6)(6)=10.64,=10.64,2 2=9.937=9.937 0.10.不拒绝不拒绝H0无效假设。无效假设。专业结论:专业结论:尚不能认为该地1212岁男孩身高不服从均数为139.48139.48,标准差为7.307.30的正态分布。第81页/共86页823.拟和优度x2检验的注意事项1、x2值的大小除与(A-T)的差值大小有关外,还与组数有关,分组不同,拟和的结果可能不同。一般要求分组时每组中理论频数不小于5,否则需要合并组段。且自由度与组数有关,同一自由度下,x2值越大,相应P值越小。2、需要有足够的样本含量,如样本量不大,有时经连续性校正后尚能勉强进行X2检验,校正公式为第82
24、页/共86页83 NomenclatureContingency table列联表列联表Chi-square test卡方检验卡方检验Observed frequency观察频数观察频数Expected frequency期望频数期望频数McNemars test麦克勒玛氏检验麦克勒玛氏检验Paired 2 by 2 table配对四格表配对四格表Concordant pairs一致的对子数一致的对子数discordant pairs不一致的对子数不一致的对子数Pearsons chi-square value皮尔生卡方值皮尔生卡方值Likelihood ratio chi-square value似然比卡方值似然比卡方值Fishers exact probability费歇尔确切概率费歇尔确切概率Cell frequency格子频数格子频数第83页/共86页84第84页/共86页85 分布的分布函数(概率积分函数)为 确定后,分布曲线下右侧尾部的面积为时,横轴上相应的界值记为 它的几何意义是:分布曲线下从0 0到某给定值 的面积。第85页/共86页86感谢您的观看!第86页/共86页