医学医学统计学卡方检验.pptx-淘文阁

资源描述

《医学医学统计学卡方检验.pptx》由会员分享，可在线阅读，更多相关《医学医学统计学卡方检验.pptx（103页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、名人格言谬误的好处是一时的,真理的好处是永久的,真理有弊病时,这些弊病会很快被消灭,而谬误的弊病则与谬误始终相随。狄德罗狄德罗(法国思想家法国思想家,1713,17131784)1784)第1页/共103页案例1：评价方法的讨论怎样评价男女生在德、智、体的差异？怎样评价A、B、C三种降压药物疗效的差别？第2页/共103页什么是定性数据？定性数据（qualitative data）或称为分类数据（categorical data），其观察值是定性的，表现为互不相容的类别或属性。例如患者服药后结局为治愈和未治愈，生存和死亡、阴性和阳性等。定性数据的统计分析主要是如何估计总体的率及如何推断两个及两个

2、以上总体率或构成比是否有差异、两个分类变量间有无相关关系等。第3页/共103页第一节率的估计一、一、率的点估计与总体均数的估计相似，从总体中随机抽取一个样本，从样本计算得到的率是总体率的点估计值。例 132例美国冠心病黑人在进行心脏搭桥手术后，有5人死亡，试估计美国冠心病黑人心脏搭桥手术后死亡率为多少？解：P=5/132*100%=3.8%第4页/共103页二、二、率的抽样误差与标准误率的抽样误差与标准误从总体中随机抽取一个样本，样本率与总体率之间存在差别，差别的大小可以估计。由抽样而引起的样本率与总体率的差异称为率的抽样误差。即率的标准误。第5页/共103页率的标准误计算公式式中，p p

3、为率的标准误；为总体率；n n为样本量当总体率未知时，以样本率p p作为的估计值，相应地此时率的标准误估计值按下式计算:式中，S Sp p为率的标准误的估计值；p p为样本率。第6页/共103页二、率的区间估计总体率的点估计是计算样本的率，很简单，但计算得到的样本率不等于总体率，它们间存在差异。因此，我们还需要知道总体率大概会在一个什么样的区间范围，即所谓总体率的可信区间估计。第7页/共103页总体率的可信区间可以用正态分布法估计。当n足够大，且p 和1-p均不太小，如np 和n（1-p）均大于5时，p的抽样分布逼近正态分布。此时，可根据正态分布的特性计算总体

4、率的(1-a)%可信区间:双侧：(p-u/2Sp,p+u/2Sp)单侧：大于p-uSp 或小于 p+uSp正态分布法第8页/共103页例10-1 采用某药治疗高血压病人200例，服药一月后160人有效，试估计该药的有效率及其双侧95%可信区间。解该药总体有效率：p=160/200=80%,Sp=0.02828 u0.05/2=1.96，总体有效率的95%CI为:（0.8-1.960.02828，0.8+1.960.02828）=（0.7446，0.8554）即估计该药的有效率为80%,该药的有效率的95%可信区间为（0.7446，0.8554）。第9页/共103页练习随机抽取某市小学40

5、0名儿童,查出患有牙疼200名，患有牙周炎240名，患有龋齿320名。试估计儿童牙疼、牙周炎、龋齿的患病率及其95可信区间为多少？指标例数阳性数阳性率 95%CI正态近似法牙疼 400 200 0.5000 0.45100.5490牙周炎 400 240 0.6000 0.55200.6480龋齿 400 320 0.8000 0.76080.8392 第10页/共103页CHISSCHISS软件实现1.进入数据模块点击数据文件建立数据库表2.进入统计模块进行统计计算点击统计统计推断可信区间率的可信区间反应变量：确认第11页/共103页率的置信区间CHISSCHISS数据库1

6、二行数据:1）第一行总例数;2）第二行阳性数（分子）2 每个指标（组）各一列第12页/共103页第二节第二节 2 222表资料的表资料的2 2检验检验第13页/共103页一、一、2 222四格表的数据 A、B两个定性变量各分两类，交叉分类计数所得的表称为22列联表。表中产生四个格子四个数a,b,c,d，亦称为四格表（fourfold table），如下表所示。分组B1B2合计A1aba+bA2cdc+d合计a+cb+da+b+c+d第14页/共103页案例1 治疗肺炎新药临床试验用某新药治疗肺炎病，并选取另一常规药作为对照药，治疗结果如下：采用新药治100例，有效 60例；采用对照药治40例

7、，有效 30例。试问：1）列表描述临床试验结果；2）两种药物疗效有无差别？组别有效无效新药 60 40 对照药 30 10 第15页/共103页2检验（chi-square test）是由英国统计学家K.Pearson于1900年提出的，其广泛地应用于分类数据的统计分析，推断两个及两个以上总体率或构成比差异是否有统计学意义、两个分类变量间有无相关关系等。设计类型的不同2检验不同，四个表2检验可以分为完全随机设计的两样本率比较的2检验和配对设计的2检验。2 2检验检验第16页/共103页(一）完全随机设计随机抽取n个个体，按照A属性分为两组，进行试验，然后按试验效应B属性分为两类。由A、

8、B两属性组合分成四格，得到相应的22频数表。这类22表主要进行两个样本率之间差异的显著性检验和两属性A、B之间是否存在相关关系。第17页/共103页二、2 2检验 2检验的统计量是2值，它是每个格子实际频数A(actualfrequency)与理论频数T(theoreticalfrequency)差值的平方与理论频数T之比的累计和。计算公式为：2检验是由统计学家K.Pearson(1899)提出，故也称为Pearson2检验。第18页/共103页实际数和理论频数实际频数是通过科学试验观察得到的数据，记为A。理论频数根据在两总体率相同的假设推算出的频数称为理论频数或希望数，记为T。为了便于理

9、解,我们以实际例子来说明2检验的假设。第19页/共103页理论数计算某班100名学生，其中女生40名，男生60名，现在评选优秀学生20名，问1）假设如果男女优秀生相同，男女生优秀生和非优秀生各多少名？2）现在男女优秀生各10人，问男女生优秀生率有无差别？解：女生优秀数为T11=女生非优秀数为T12=男生优秀数为T21=男生非优秀数为T22=第20页/共103页实际数与理论数优秀（理论数）非优秀（理论数）合计女生10（8 ）30（32 ）40男生10（12 ）50（48 ）60合计2080100第21页/共103页2检验的基本思想 2值反映了实际频数A与理论频数T吻合的程度。实际频数A与理论频数

10、T相差越大，则2值越大，2值越大，P值越小，越有理由认为两组总体率不相同。第22页/共103页TRC表示列联表中第R行第C列交叉格子的理论频数；nR表示该格子所在的第R行的合计数；nC表示该格子所在的第C列的合计数；n表示总例数。2）理论频数计算公式理论频数计算公式第23页/共103页例10-1 用磁场疗法治疗腰部扭挫伤患者708人，其中有效673例。用同样疗法治疗腰肌劳损患者347人，有效312例。观察结果如表10-6所示。问磁场疗法对两种疾病患者治疗效果有无差异?分组有效无效合计有效率(%)扭伤673673353570895.06腰肌劳损 312312353534789.92合计98

11、570105593.36第24页/共103页解题分析扭伤有效率95.06%,腰肌劳损有效率89.92%,造成这种差别的原因是什么呢?可能有两种:其一病的不同（本质上的差异）；其二抽样误差差别到底是本质上的差异还是纯粹的抽样误差，需进行假设检验。第25页/共103页解题步骤：1.建立假设:H0：磁场疗法对腰部扭伤和腰肌劳损治疗的总体有效率相同，即1=2H1：磁场疗法对腰部扭伤和腰肌劳损治疗的总体有效率不同，即12确定显著水平=0.05第26页/共103页3）2值计算公式服从自由度=(R-1)(C-1)的2分布R表示列联表中行标识的分组数；C表示列联表中列标识的分组数。第27页/共103页本例

12、实际数与理论数有效（理论数）无效（理论数）小计扭伤 673(661.0)35(47.0)708 腰肌劳损 312(324.0)35(23.0)347 合计 985 70 1055 第28页/共103页本例的2值：=(2-1)(2-1)=1由2界值表得20.05,1=3.84，本例2检验=9.94273.84，所以，P0.05。第29页/共103页2分布曲线第30页/共103页3.判断与决策按照=0.05的检验水准，拒绝H0，接受H1，两个总体有效率的差异有统计学意义。专业结论磁场疗法治疗腰部扭伤和腰肌劳损的治疗效果不相同。第31页/共103页4.CHISS软件实现步骤如下：点击数据文件

13、打开数据库表找到文件名：b10-1.DBF确认。(2)进入统计模块：进行相应的统计计算，具体操作为点击统计统计推断pearsonpearson卡方反应变量：有效、无效期望频数确认。(3)进入结果模块：点击结果。第32页/共103页设计的讨论治疗方法：磁场疗法、针灸疗法、推拿按摩疾病类型：腰部扭伤、腰肌劳损、腰疼观察结果：有效，无效第33页/共103页四格表2 2检验专用公式*为了简化计算，可以由2检验的基本公式和一些相关公式推导出四格表专用公式式中a，b，c，d是指表10-1中所示，n为样本总例数。第34页/共103页四格表2检验应用条件四格表2检验应根据实际频数和理论频数选取计算2统计

14、量的公式，四格表2检验专用公式应用条件是样本总例数n40，且四个格子中的每个理论数Tij5。第35页/共103页（三）2检验的连续性校正公式在四格表中n40，但是有一个格子的理论数1Tij40，且有格子的理论数1T12=4.765，1T22=3.245，所以不能应用2检验的基本公式，而应使用四格表2检验的连续性校正公式计算2统计量。第40页/共103页解题步骤：1.建立假设H0：1=2，即试验组与对照组实验室指标的改善及恢复正常率相同 H1：12，即试验组与对照组实验室指标的改善及恢复正常率不同确定显著水平=0.05第41页/共103页2.计算2统计量由2界值表得20.05,1=3.84，本

15、例2检验=3.2790.05。第42页/共103页3.3.统计推断按照=0.05的检验水准，不拒绝H0，两组病人的改善及恢复正常率差别差异无统计学意义。第43页/共103页4.CHISS软件实现(1)进入数据模块：打开已有数据文件的操作点击数据文件打开数据库表找到文件名：b10-2.DBF确认。(2)进入统计模块：进行相应的统计计算，具体操作为点击统计统计推断双向无序列联表反应变量：改善、未改善期望频数确认。第44页/共103页(4)结论：CHISS软件运行例10-3资料检验2后，在运行结果中会自动提示使用者，本资料“有理论频数小于5，推荐使用校正卡方结果”。连续校正 2=3.2790，P

16、=0.07020.05，尚不能认为两组的改善率的差异有统计学意义。由本例题运行结果可以看出校正与否所得到的结论截然相反，体现了校正公式的作用。第45页/共103页（四）Fisher确切概率法当四格表中出现 n40，或有某个理论数 Tij1时，2检验基本公式得到的结论偏差更大，统计学家Fisher（1934）依据超几何分布直接计算出有利于拒绝H0的概率的方法，此方法称为四格表的Fisher确切概率法(Fishersexactprobabilitiesin22table)。第46页/共103页四格表确切概率法的基本思想是：在四格表周边合计不

17、变的条件下，获得某个四格表的概率为由于Fisher确切概率法的计算量大且较为繁琐，我们将以实例结合CHISS软件介绍Fisher确切概率法方法。第47页/共103页例10-5 肿瘤转移病人全量放疗后用两种药物配合治疗，观察肿瘤消除的情况，结果见表。表10-8 肿瘤转移患者全量放疗后的情况问两种药物治疗后肿瘤全消率有无差别？用药分组全消未全消合计全消率(%)试验组7 71 1887对照组2 28 81020合计991850第48页/共103页解题分析n=1840，且所有格子的理论数均小于5。所以本例应当使用Fisher确切概率检验，求出检验假设H0成立的概率。第49页/共103页解题步

18、骤：1.建立假设、确定显著水平H0：1=2，即试验组与对照组患者全量化疗后肿瘤全消率相同 H1：12，即试验组与对照组患者全量化疗后肿瘤全消率不同=0.05第50页/共103页2.计算确切概率P值3.判断与决策利用CHISS软件进行Fisher确切概率检验，并进行统计推断。第51页/共103页CHISSCHISS操作步骤为 (1)进入数据模块：打开已有数据文件的操作点击数据文件打开数据库表找到文件名：b10-3.DBF确认。(2)进入统计模块：进行相应的统计计算，具体操作为：点击统计统计推断pearsonpearson卡方反应变量：全消、未全消期望频数确认。第52页/共103页卡方=8.1

19、000 自由度=1 p值=0.0044校正卡方=5.6250 自由度=1 p值=0.0177总例数小于40，建议用确切概率法。12 单侧确切概率=0.00761 2 双侧确切概率=0.0078第53页/共103页第二节第二节配对设计配对设计2222表资料表资料分析分析一、配对设计2222表资料n个受试对象分别用甲、乙两种方法来测定，并按（甲、乙）的测定结果分类计数，如（甲、乙）的测定结果分类有4种情况a a（+，+），b b（+，-）c c（-，+）,d,d（-，-），将分类计数结果整理成一个四格表,称为配对设计。第54页/共103页例10-6某医师欲研究甲乙两种诊断方法的相互关系。现随机抽

20、取56人采用两种方法进行诊断,所得数据如下表。甲法:乙：+-合计+20 20（a a）6 6 （b b）26-16 16（c c）14 14（d d）30合计362056第55页/共103页提出问题1）问甲乙两种诊断方法之间具有相关性？2）问甲乙两种诊断方法之间具有差别性？第56页/共103页采用2检验进行两变量的相关性分析解题分析要分析甲乙两种诊断方法的相互关系。由于n=5640，且每个格子上的理论数Tij5，所以可以选用四格表专用公式进行两变量的相关性分析。二、配对设计二、配对设计22表相关性检验表相关性检验第57页/共103页解题步骤：1.建立假设、确定显著水平H0：甲乙两种诊断方法

21、无关 H1：甲乙两种诊断方法有关=0.05第58页/共103页（3）计算2统计量由2界值表得20.05,1=3.84，本例2检验=3.3760.05。第59页/共103页3 统计推断按照=0.05的检验水准，不拒绝H0，可以认为甲乙两种诊断方法的关联无统计学意义。第60页/共103页4.CHISS软件实现(1)进入数据模块：打开已有数据文件的操作点击数据文件打开数据库表找到文件名：b10-4.DBF确认。(2)进入统计模块：进行相应的统计计算，具体操作为点击统计统计推断pearsonpearson卡方反应变量：是、否确认。第61页/共103页三、配对设计2222表差异性检验在配对设计22

22、表资料，除了关心两种处理的关联性之外，有时也需要比较两处理率的差异性。比较两种处理方法的优劣。在配对设计22表资料总体率的差异性检验时，检验假设不同于总体率的关联性检验假设，2统计量的计算也不同于四格表2检验公式。第62页/共103页1）建立假设H0：两总体B=CH1：两总体BC第63页/共103页 2）计算2统计量若b+c40时，应用公式又称McNemar检验(McNemars test for correlated proportions)。第64页/共103页若b+c40时，应用连续校正公式3）判断与决策若P,不拒绝H0.,认为两个率差异无统计学意义第65页/共103页例10-7 为比

23、较中和法与血凝法两种检验方法对关节痛患者抗“O”检测结果，某医师观测了105例关节痛患者，结果如表。两种检验方法测得结果有无差别?中和法血凝法：+-合计+54548 862-4 4393943合计5847105第66页/共103页解题步骤：1）建立假设：H0：两总体B=CH1：两总体BC确定显著水平=0.05第67页/共103页）计算2统计量因为b+c=8+4=1240，所以采用连续校正差异性检验公式。由2界值表得20.05,1=3.84，本例2检验=0.750.05。第68页/共103页3.统计推断P 0.05，不拒绝H0，尚不能认为两总体BC。第69页/共103页CHISS软件实现进

24、入数据模块：打开已有数据文件的操作点击数据文件打开数据库表找到文件名：b10-5.DBF确认。进入统计模块：进行相应的统计计算，具体操作为点击统计统计推断2222配对卡方反应变量：是、否确认。进入结果模块：点击结果第70页/共103页注意1 关联性和差异性检验对于配对设计22表资料，若想了解两种处理（属性）的关联性时，可作关联性检验；如要了解两处理的差别，可作率的差异性检验；若既想了解关联性，又想比较差别，可同时作关联性和差异性检验。关联性检验与率的差异性检验的结果意义不同，两种统计量数值无一定的关系，但两者结合起来可以获得较全面的结论。第71页/共103页2 配对资料四格表的常见错误+

25、-合计中和法 62624343105血凝法58584747105合计12090210第72页/共103页第三节第三节R RC C表资料表资料2 2检验检验分析分析在实际工作中，分类资料除了整理成22表之外，还经常会遇到行（row）或列（column）大于2，或是行和列同时大于2的列联表资料，我们将其统称为行列表（contingency table）简称RC表,R代表行数，C代表列数。22表是RC表的最简单的形式。第73页/共103页案例某研究者采用对照药，A药和B药治疗急性冠周炎，病例数分别为29例，32例和100例。治疗结果如下：采用对照治愈人数25例，未愈4例，治愈率86%；采用A药

26、治愈人数18例，未愈14例，治愈率56%；采用B药治愈人数70例，未愈30例，治愈率70%。试1）列表描述。2）三种药物疗效有无差别？第74页/共103页第75页/共103页R RC C表资料的分类表资料的分类双向无序RC表资料 -处理变量分组和反应变量无序单向有序RC表资料*-处理变量分组无序和反应变量有序双向有序RC表资料*-处理变量分组有序和反应变量有序第76页/共103页二、双向无序二、双向无序R RC C表资料表资料2 2检检验验对于双向无序列联表资料，其选用的统计方法应与处理变量分组和反应变量的顺序或大小无关，仅与列联表中总频数，各行合计、各列合计有关。可采用Pearson2检验进

27、行多个率差异的显著性检验，也可以进行多个样本构成比差异的显著性检验。第77页/共103页PearsonPearson拟合优度2 2检验其计算公式为:服从自由度为 2 分布第78页/共103页（一）R2表资料多个独立样本率的比较例10-8 用免疫法观察鼻咽癌患者(A=1)、头颈部其他恶性肿瘤患者(A=2)及正常成人组(A=3)的血清 EB病毒壳抗原的免疫球蛋白A(VCA-IgA)抗体的反应情况，资料如下。问三组阳性率有无差别?分组阳性阴性合计阳性率（%）A=1188188161620492.3A=2101023233330.3A=34933338212.8第79页/

28、共103页解题分析本例为三个独立样本率差异的显著性检验，且处理组分组和反应变量分类与顺序无关，可应用Pearson 2检验进行分析。第80页/共103页解题步骤：1建立假设H0：1=2=3，即三组人群中EB病毒VCA-IgA抗体阳性率相同H1：三组人群中EB病毒VCA-IgA抗体阳性率不同或不全相同确定显著水平=0.05第81页/共103页2.计算2统计量第82页/共103页3.统计推断 P0.05。按照=0.05的检验水准，拒绝H0，接受H1，可以认为三组人群中EB病毒VCA-IgA抗体阳性率差异有统计学意义。三组人群中EB病毒VCA-IgA抗体阳性率不同或不全相同。第83页/共103页

29、4.CHISS软件实现（1）进入数据模块：打开已有数据文件的操作点击数据文件打开数据库表找到文件名：b10-6.DBF确认。（2）进入统计模块：点击统计统计推断pearsonpearson卡方反应变量：阳性、阴性期望频数确认。（3）进入结果模块：点击结果第84页/共103页（二）多个独立样本构成比的比较例10-9 就表10-18资料,分析三个民族的血型分布是否相同。民族 ABOAB傣族 11211215015020540佤族 20020011211213573土家族 36221931069第85页/共103页解题分析本资料是要比较三个民族的血型分布是否相同，实际上就是比较三个民族

30、各种血型构成比的差异，故可以应用公式（10-14）进行2检验。第86页/共103页解题步骤：1.建立假设H0：三个民族居民的血型分布相同 H1：三个民族居民的血型分布不同或不全相同=0.05 第87页/共103页2.计算2统计量第88页/共103页3.统计推断 P，所以，P0.005。按照=0.05的检验水准，拒绝H0，接受H1，可以认为三组人群中EB病毒VCA-IgA抗体阳性率不全相同。进而应用Scheff可信区间法进行多个样本率的两两比较第95页/共103页1）a1与a2比较：两组率之差的95%可信区间计算为第96页/共103页2）a1与a3比较：两组率之差的95%可信区间为第97页/共103页3)a2与a3比较：两组率之差的95%可信区间为第98页/共103页（4）结论：a1与a2、a1与a3组人群中EB病毒VCA-IgA抗体阳性率差异有统计学意义；而a2与a3组人群中EB病毒VCA-IgA抗体阳性率差异无统计学意义。以a1组人群中EB病毒VCA-IgA抗体阳性率较高。第99页/共103页多重比较的CHISS实现对R2表资料，CHISS软件自动进行多个率的多重比较。第100页/共103页上机练习P110 例10-1-例10.10第101页/共103页第102页/共103页谢谢您的观看！第103页/共103页

展开阅读全文