《研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt》由会员分享,可在线阅读,更多相关《研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章第七章两分类资料的统计描述与推断两分类资料的统计描述与推断第一节第一节二项分布和二项分布和Poisson分布分布二项分布二项分布(binomialdistribution)是一种重要的离散是一种重要的离散型分布。其应用条件:型分布。其应用条件:每次试验结果只能是相互对每次试验结果只能是相互对立的两种情况中的一种,例如,某药的疗效为有效或立的两种情况中的一种,例如,某药的疗效为有效或无效;动物毒性试验的结果为存活或死亡;化验结果无效;动物毒性试验的结果为存活或死亡;化验结果为阳性或阴性;等等,二者中必居其一,且仅居其一;为阳性或阴性;等等,二者中必居其一,且仅居其一;已知发生某一结果已知发
2、生某一结果(如阳性如阳性)的概率为常数的概率为常数,则另,则另一结果一结果(阴性阴性)发生的概率为发生的概率为(1);在在n次重复试验次重复试验中,各次试验相互独立,即每次试验的结果不会影响中,各次试验相互独立,即每次试验的结果不会影响其他试验的结果。在医药学中二项分布常用于分类资其他试验的结果。在医药学中二项分布常用于分类资料的抽样研究,如总体率的估计、两率的比较等。料的抽样研究,如总体率的估计、两率的比较等。1定义定义若随机变量若随机变量X的概率函数为的概率函数为Pn(x)=Cnxx(1)nx,(x=1,2,n)(9.1)则则称称X服服从从参参数数为为n和和的的二二项项分分布布。式式中中P
3、n(x)为为Pn(X=x)的的简简写写;n为为试试验验次次数数;Cnx为为从从n个个不不同同元元素素中中,每每次次取取出出x个个元元素素的的不不同同组组合合的的种种数数;是是二二项项分布一个的参数,而不是圆周率。分布一个的参数,而不是圆周率。在在医医药药统统计计中中应应用用二二项项分分布布时时,表表示示总总体体阳阳性性率率,一一般般用用大大样样本本率率p来来估估计计;Pn(x)表表示示n次次试试验验中中,发发生阳性次数为生阳性次数为x的概率,二项分布的概率函数为的概率,二项分布的概率函数为Pn(x)=Cnxpx(1p)nx,(x=1,2,n)(9.2)二项分布的图形如图二项分布的图形如图9-1
4、所示。所示。Cnxx(1-)nx=+(1-)n=1,Cnxpx(1-p)nx=p+(1-p)n=1。由于二项分布变量取值的概率函数值由于二项分布变量取值的概率函数值Cnxx(1-)nx或或Cnxpx(1-p)nx正好是二项式正好是二项式+(1-)n或或p+(1-p)n的展开式中,按的展开式中,按 或或p的升幂排列的各项,故名二的升幂排列的各项,故名二项分布。项分布。所以,在所以,在n次独立重复试验中,一个二项分布变量次独立重复试验中,一个二项分布变量各取值的概率之和为各取值的概率之和为1。2二项分布的分布函数二项分布的分布函数二项分布的分布函数为:二项分布的分布函数为:F(x)=P(Xx)=P
5、n(0)+Pn(1)+.+Pn(x)(9.3)例例9.1某疗法治痹症的治愈率某疗法治痹症的治愈率=60%,用该疗法治疗,用该疗法治疗痹症三例痹症三例(n=3),治愈例数,治愈例数x(x=0,1,2,3)的情况如的情况如表表9-1。表表9-1三三例例患患者者中中治治愈愈x例例的的情情况况(治治愈愈率率p=0.60;治治愈例数愈例数x=0,1,2,3)治愈治愈例数例数x三例患者可能的情况三例患者可能的情况一患者一患者二患者二患者三患者三患者治愈治愈x例的概率例的概率*P3(x)=C3x0.6 x 0.4 3x P(Xx)*P(Xx)0未愈未愈未愈未愈未愈未愈C300.600.43=0.0640.0
6、6411愈愈未愈未愈未愈未愈未愈未愈愈愈未愈未愈未愈未愈未愈未愈愈愈C310.610.42=0.2880.3520.9362愈愈愈愈未愈未愈愈愈未愈未愈愈愈未愈未愈愈愈愈愈C320.620.41=0.4320.7840.6483愈愈愈愈愈愈C330.630.40=0.2161.0000.216注:注:*三例患者中治愈三例患者中治愈x例的概率函数为例的概率函数为P3(x);*P(Xx)为分布函数为分布函数3二二项项分分布布的的均均数数和和标标准准差差记记二二项项分分布布的的总总体体阳阳性率为性率为,未知时,用大样本率未知时,用大样本率p来估计来估计。由由式式(9.1)推推导导出出二二项项分分布布
7、变变量量X的的均均数数用用绝绝对对数数表表示时的计算公式为:总体均数示时的计算公式为:总体均数=E(X)=n相应的样本均数相应的样本均数=np(9.5)改用相对数改用相对数(率率)表示为:表示为:总体率总体率=,相应的样本率,相应的样本率p(9.6)二项分布变量二项分布变量X的标准差用绝对数表示时的计算公式的标准差用绝对数表示时的计算公式为:为:(9.7)二项分布变量的标准差用相对数二项分布变量的标准差用相对数(率率)表示时,称表示时,称为率的标准误,总体率的标准误记为为率的标准误,总体率的标准误记为p,样本率的标,样本率的标准误记为准误记为Sp,计算公式为:,计算公式为:(9.8)二、二、P
8、oisson分布分布Poisson分布分布(Poissondistribution)是一种重要的离散是一种重要的离散型分布。适用条件:型分布。适用条件:两分类的资料;两分类的资料;所考察的事所考察的事件发生率件发生率(一般用大样本率一般用大样本率p来估计来估计)很小,很小,n很大,很大,n(或或np)为一不大的常数;为一不大的常数;事件的发生是独立的,事件的发生是独立的,如各病人的患病与否与他人无关。如人群中,对某种如各病人的患病与否与他人无关。如人群中,对某种物质中过敏的人数,遗传缺陷、癌症等非传染性疾病物质中过敏的人数,遗传缺陷、癌症等非传染性疾病的发病例数;又如大量产品中不合格品出现的次
9、数;的发病例数;又如大量产品中不合格品出现的次数;用显微镜观察片子上每一格子内的细菌数;细胞发生用显微镜观察片子上每一格子内的细菌数;细胞发生某种变化或细菌死亡的数目等等,都服从或近似服从某种变化或细菌死亡的数目等等,都服从或近似服从Poisson分布。分布。Poisson分布可视为二项分布的特例。分布可视为二项分布的特例。Poisson分布常用于研究单位容积分布常用于研究单位容积(或面积、时间或面积、时间)内稀内稀有事件发生数的规律。有事件发生数的规律。1定义定义若随机变量若随机变量X的概率函数为的概率函数为(x=0,1,2,)(9.9)参数参数系系Poisson分布的总体均数分布的总体均数
10、(即数学期望即数学期望),=。2Poisson分布的均数、方差分布的均数、方差Poisson分布的总体均数分布的总体均数=n,相应的样本均数,相应的样本均数=np,式中式中为稀有事件发生的概率为稀有事件发生的概率(很小很小),未知时,未知时,用大样本率用大样本率p来估计来估计。式式(9.10)的的意意思思是是:稀稀有有事事件件在在n(n很很大大)次次试试验验中中平均发生平均发生n次次(未知时,用大样本率未知时,用大样本率p来估计来估计)。Poisson分布的方差分布的方差=均数均数3Poisson分布的分布函数为分布的分布函数为(9.10)4Poisson分布具有可加性分布具有可加性如果相互独
11、立的如果相互独立的k个随机个随机变量都服从变量都服从Poisson分布,则它们之和仍服从分布,则它们之和仍服从Poisson分分布,且均数为布,且均数为k个随机变量的均数之和。如果以较小个随机变量的均数之和。如果以较小的度量单位观察某一现象的发生数呈的度量单位观察某一现象的发生数呈Poisson分布时,分布时,把若干个小单位合并为一个大单位后,总计数亦呈把若干个小单位合并为一个大单位后,总计数亦呈Poisson分布,其均数等于以较小的度量单位时的均数分布,其均数等于以较小的度量单位时的均数之和。例如已知某放射性物质每之和。例如已知某放射性物质每10分钟放射脉冲数呈分钟放射脉冲数呈Poisson
12、分布,分布,5次测量的结果分别为次测量的结果分别为35,34,36,38,34次,那么次,那么50分钟的脉冲数分钟的脉冲数x=35+34+36+38+34=177次,亦呈次,亦呈Poisson分布。分布。Poisson分布资料常利分布资料常利用可加性原理使均数用可加性原理使均数20,以便用正态近似法处,以便用正态近似法处理。理。5三三种种分分布布的的渐渐近近关关系系二二项项分分布布、Poisson分分布布和和正正态态分分布布,是是三三种种基基本本的的也也是是最最重重要要的的概概率率分分布布,它它们们之之间间有有着着密密切切的的渐渐近近关关系系,若若所所考考察察的的事事件件发发生生率率为为p,试
13、验次数为,试验次数为n,则如图,则如图9-3。(1)二二项项分分布布资资料料,当当0.1p50时时,可可用用正正态态分分布布法法近近似似计计算算;当当p0.9,n50,均均数数np10时时,可可用用Poisson分分布布法法近近似似计计算;算;(2)Poisson分布资料,当均数分布资料,当均数20时,可用正态分时,可用正态分布法近似计算。布法近似计算。第一节第一节分类资料的统计描述分类资料的统计描述分分类类资资料料的的统统计计描描述述除除用用频频数数表表示示外外,更更多多是是用用相相对对数数(relativenumber)。如如表表7-1的的栏栏,表表7-1第第、列列,都都是是将将分分类类资
14、资料料的的观观察察结结果果,按按照照分分析析的的要要求求,分分类类汇汇总总统统计计观观察察单单位位数数(频频数数),列列出出的的分分类类资资料料频频数数分分布布表表。表表7-1中中第第、两两栏栏及及表表7-1第第列列的的数数据据都都是是绝绝对对数数。绝绝对对数数说说明明实实际际发发生生的的绝绝对对水水平平,是是统统计计分分析析的的基基础础。但但仅仅使使用用绝绝对对数数,不不能能进进行行比比较较分分析析研研究究,故故常常计计算算两两个个有有联联系系的的指指标标之之比比,统统称为相对数。常用相对数有比、构成比和率。称为相对数。常用相对数有比、构成比和率。相对数相对数表表7-1某年某医院外科病区院内
15、感染发生数及其相对数某年某医院外科病区院内感染发生数及其相对数病区病区调查调查人数人数院内感染院内感染发生数发生数各病区与普外病区各病区与普外病区院内感染发生数之比院内感染发生数之比各病区院内感染各病区院内感染发生数构成发生数构成(%)(%)各病区院内各病区院内感染率感染率(%)(%)普外普外808808717131.331.38.798.79胸外胸外52852869690.970.9730.430.413.0713.07骨外骨外49949934340.480.4815.015.06.816.81神外神外29129153530.750.7523.323.318.2118.21合计合计21262
16、126227227100.0100.010.710.7表表 7-1 7-1的的栏,表栏,表9-39-3第第、列,都是将分类资料的观察结果,按照列,都是将分类资料的观察结果,按照分析的要求,分类汇总统计观察单位数分析的要求,分类汇总统计观察单位数(频数频数),列出的分类资料频数分布表。,列出的分类资料频数分布表。表表9-29-2中第中第、两栏及表两栏及表9-39-3第第列的数据都是绝对数。绝对数说明实际发列的数据都是绝对数。绝对数说明实际发生的绝对水平,是统计分析的基础。但仅使用绝对数,不能进行比较分析研生的绝对水平,是统计分析的基础。但仅使用绝对数,不能进行比较分析研究究 肝脾血虚、肝郁化热肝
17、脾血虚、肝郁化热2026.67心虚肝郁、神不守舍心虚肝郁、神不守舍79.33肝肾阴虚、肝阳偏元肝肾阴虚、肝阳偏元3546.67表表9-375例更年期综合症辨证分型观察例更年期综合症辨证分型观察证证型型例数例数构成比构成比(%)脾肾阳虚、水湿不化脾肾阳虚、水湿不化1317.33合合计计75100.001,常用相对数常用相对数1 1比比(ratio)(ratio)亦亦称称相相对对比比(relative(relative ratio)ratio),是是两两个个有有关关指指标标之之比比,是是说说明明两两对对比比水水平平的的指指标标。对对比比的的数数量量可可以以是是绝绝对对数数、相相对对数数或或平平均均
18、数数,可可以以是是性性质质相相同同,也也可可以以是是性性质质不不相相同同。例例如如,变变异异系系数数CVCV=(标标准差准差 /均数均数)100%)100%,就是一个相对比。,就是一个相对比。习惯上,若甲指标大于乙指标,相对比的结果用倍习惯上,若甲指标大于乙指标,相对比的结果用倍数表示;若甲指标小于乙指标,相对比的结果用百分数表示;若甲指标小于乙指标,相对比的结果用百分数表示。如表数表示。如表9-29-2第第栏中,各病区与普外病区院内栏中,各病区与普外病区院内感染发生数之比分别为感染发生数之比分别为69/7169/71,34/7134/71,53/7153/71,即,即0.970.97,0.4
19、80.48,0.750.75。说明各病区院内感染发生数分别。说明各病区院内感染发生数分别为普外病区的为普外病区的97%97%,48%48%,75%75%。又如,我国最早的古。又如,我国最早的古典医籍五十二病方载药典医籍五十二病方载药240240种,种,发展到明代李时珍集古代医药之大成的科学巨著本发展到明代李时珍集古代医药之大成的科学巨著本草纲目,载药已达草纲目,载药已达18921892种,相对比种,相对比1892/1892/240=7.88240=7.88,说明本草纲目载药为五十二病方,说明本草纲目载药为五十二病方载药的载药的7.887.88倍倍 。2构成比构成比(constituentrat
20、io)又称构成指标。说明又称构成指标。说明某事物内部各组成部分在该事物整体中所占的比重或某事物内部各组成部分在该事物整体中所占的比重或分布,如说明药物的成份构成,或疾病的死因构成、分布,如说明药物的成份构成,或疾病的死因构成、年龄别构成、性别构成、职业构成等,常以百分数表年龄别构成、性别构成、职业构成等,常以百分数表示,计算公式为:示,计算公式为:3率率(rate)又又称称频频率率指指标标,它它指指一一定定条条件件下下某某现现象象发发生生的的频频率率或或强强度度。如如说说明明治治疗疗的的有有效效率率、疾疾病病的的病病死死率率等等。常常用用符符号号表表示示总总体体率率,而而用用符符号号p表表示示
21、样样本本率。率的计算公式为:率。率的计算公式为:式中的式中的100%或或1000为比例基数。选择依据:为比例基数。选择依据:习惯,如有效率、感染率、治愈率、病死率习惯用习惯,如有效率、感染率、治愈率、病死率习惯用百分率表示;出生率、死亡率习惯用千分率表示。百分率表示;出生率、死亡率习惯用千分率表示。使算得的率至少保留一、二位整数,如恶性肿瘤的死使算得的率至少保留一、二位整数,如恶性肿瘤的死亡率多采用十万分率表示。亡率多采用十万分率表示。4率率的的标标准准误误类类似似于于均均数数的的抽抽样样误误差差,在在抽抽样样研研究究中中所所获获得得的的样样本本率率与与总总体体率率也也存存着着率率的的抽抽样样
22、误误差差。表表示示率率抽抽样样误误差差大大小小的的统统计计指指标标称称为为率率的的标标准准误误(standardofrate)。由由于于总总体体率率和和总总体体率率的的标标准准误误一一般般未未知知,常常用用样样本本率率p来来估估计计总总体体率率,用用样样本本率率的的标标准误准误sp来估计总体率的标准误:来估计总体率的标准误:一般说来,用样本率一般说来,用样本率p 来估计总体率来估计总体率时,至少时,至少n 应大于应大于30。率的标准误是衡量样本率稳定性和可靠性的统计指率的标准误是衡量样本率稳定性和可靠性的统计指标,它反应率的抽样误差大小,率的标准误越小,表示标,它反应率的抽样误差大小,率的标准
23、误越小,表示率的抽样误差越小,用以估计总体率的可靠性就越大。率的抽样误差越小,用以估计总体率的可靠性就越大。反之,如果率的标准误越大,则由样本率估计总体率的反之,如果率的标准误越大,则由样本率估计总体率的可靠性越小。可靠性越小。5.应用相对数时应注意的问题应用相对数时应注意的问题(1)计计算算相相对对数数的的分分母母不不宜宜过过小小。观观察察单单位位数数够够多多时时,计计算算出出的的相相对对数数较较稳稳定定,可可以以正正确确反反映映实实际际情情况况。但但观观察察单单位位过过少少即即分分母母过过小小时时,计计算算出出来来的的相相对对数数不不稳稳定定,这这时时最最好好直直接接用用绝绝对对数数表表示
24、示;必必须须用用相相对对数数时时,应应同同时时列列出出其其可可信信区区间间。但但动动物物实实验验可可例例外外,因因动动物物实实验验可可以以周周密密设设计计,精精选选对对象象,严严格格控控制制实实验验条条件件,例例如如有有的的毒毒理理实实验验,每每组组用用10只只小小白白鼠鼠也也可可以以观观察察反反应应率率或或死死亡率。亡率。(2)进进行行率率的的对对比比分分析析时时,应应注注意意资资料料有有可可比比性性。除除了了被被研研究究的的因因素素之之外外,其其余余可可能能影影响响指指标标的的重重要要因因素素应应控控制制在在“齐齐同同对对比比”的的条条件件下下。若若两两组组分分类类资资料料的的诊诊断断标标
25、准准或或疗疗效效判判断断标标准准不不一一致致,则则组组间间缺缺乏乏可可比比性性;若若两两组组资资料料内内部部构构成成(如如病病人人的的性性别别、年年龄龄、病病程程及及病病情情等等)缺缺乏乏齐齐同同性性,则则两两个个总总率率也也不不能能直直接接进进行行比比较较。如如果果需需要要直直接接比比较较总总率率,为为了了消消除除某某一一混混杂杂因因素素(如如年年龄龄,职职业业,病病性性等等)对对观观察察结结果果的的影影响响,可可作作率率的标准化处理。的标准化处理。3)3)避避免免“以以比比代代率率”,“比比”、“率率”误误用用。例例如如临临床床研研究究报报告告中中,常常用用病病人人的的资资料料来来分分析析
26、疾疾病病与与年年龄龄、性性别别、职职业业等等因因素素的的关关系系,所所计计算算的的相相对对数数一一般般都都是是构成比,不能作为率来分析。构成比,不能作为率来分析。(4)(4)样本率样本率(或构成比或构成比)的比较,不能仅凭表面数值大小的比较,不能仅凭表面数值大小下结论,应进行假设检验。下结论,应进行假设检验。2,2,临床诊断试验评价方法的相对数临床诊断试验评价方法的相对数 一项新的临床诊断试验的评价,应该是将该试验一项新的临床诊断试验的评价,应该是将该试验与一种较为理想的、公认的标准诊断方法进行对比分与一种较为理想的、公认的标准诊断方法进行对比分析而得出的结论。标准诊断亦称析而得出的结论。标准
27、诊断亦称金标准金标准(gold(gold standard)standard)指能较为准确地区分阳性与阴性的诊断方指能较为准确地区分阳性与阴性的诊断方法。临床上常以活体组织检查、手术、尸体解剖、长法。临床上常以活体组织检查、手术、尸体解剖、长期追踪观察或其他可靠的方法作为标准诊断。新的诊期追踪观察或其他可靠的方法作为标准诊断。新的诊断方法与金标准对比,一定要有某方面的优点,才能断方法与金标准对比,一定要有某方面的优点,才能进行推广,否则予以摒弃。进行推广,否则予以摒弃。1诊断试验评价中四格表资料的相对数诊断试验评价中四格表资料的相对数下下面面用用表表9-4的的模模式式,作作为为诊诊断断试试验验
28、收收集集整整理理出出的的四四格格表表(four-foldtable)资资料料,介介绍绍诊诊断断试试验验评价中四格表资料的相对数及其计算公式。评价中四格表资料的相对数及其计算公式。诊诊 断断 试试验验金金标标准准合合计计阳阳性性阴阴性性阳阳性性真阳性数真阳性数(TP=a)假阳性数假阳性数(FP=b)a+b=TP+FP阴阴性性假阴性数假阴性数(FN=c)真阴性数真阴性数(TN=d)c+d=FN+TN合合计计a+c=TP+FNb+d=FP+TNa+b+c+d敏感度敏感度(Sesitivity,Se):敏感度即:敏感度即真阳性率真阳性率(truepositiverate,TPR),是指实为阳性时该试验
29、诊,是指实为阳性时该试验诊断为阳性的比例,表示该试验具有正确地识别阳性的断为阳性的比例,表示该试验具有正确地识别阳性的能力。按照金标准确定阳性的病例数为能力。按照金标准确定阳性的病例数为(a+c),用诊,用诊断性试验确定的阳性病例数为断性试验确定的阳性病例数为a,敏感度,敏感度Se为为Se(%)TPR=(9.4)特特异异度度(specificity,Sp):特特异异度度即即真真阴阴性性率率(truepositiverate,TNR),是是指指实实为为阴阴性性时时该该试试验验诊诊断断阴阴性性的的比比例例,表表示示该该试试验验具具有有正正确确地地识识别别阴阴性性的的能能力力。按按照照金金标标准准排
30、排除除的的病病例例数数为为(b+d),用用诊诊断断试试验验所排除的病例数为所排除的病例数为d,特异度,特异度Sp为为Sp(%)TNR=(9.6)诊断效率诊断效率(diagnosticefficiency,DE):诊断效率:诊断效率即该试验诊断的准确率,是指真阳性数、真阴性数占即该试验诊断的准确率,是指真阳性数、真阴性数占总例数的比例:总例数的比例:诊断效率诊断效率DE应大于应大于50%,且波动在,且波动在50100%范围范围内。内。DE值愈大,临床应用价值愈好,值愈大,临床应用价值愈好,DE小于等于小于等于50%的试验应予废弃的试验应予废弃敏感度敏感度Se和特异度和特异度Sp从正面说明诊断实验
31、的效从正面说明诊断实验的效能,诊断效率能,诊断效率DE则综合说明诊断实验的效能。则综合说明诊断实验的效能。预预断断值值(predictivevalue):预预断断值值是是指指试试验验结结果果提提示示本本病病存存在在或或不不存存在在的的可可能能性性。分分为为阳阳性性预预断断值值与与阴阴性性预断值。预断值。阳性预断值阳性预断值PPV(%)=a/(a+b)100%(9.9)阴性预断值阴性预断值NPV(%)=d/(c+d)100%(9.10)患病率患病率(prevalence):患病率为被检人群中,确诊:患病率为被检人群中,确诊病例的比值。病例的比值。患病率患病率=(a+c)/(a+b+c+d)(9.
32、11)诊诊断断指指数数(diagnosticindex,DI):诊诊断断指指数数是是敏敏感感性性与与特特异异性性的的总总和和,反反应应诊诊断断试试验验的的有有效效程程度度,故故诊断指数诊断指数DI(%)=Se+Sp(9.12)诊诊断断指指数数DI值值越越大大,诊诊断断试试验验的的应应用用价价值值也也越越大大,当当DI100%,这种试验应淘汰。,这种试验应淘汰。漏诊率漏诊率(falsenegativerate,FNR):漏诊率:漏诊率FNR即假阴性率即假阴性率。漏诊率漏诊率FNR=c/(a+c)100%=1Se(9.13)c/(a+c)+a/(a+c)=(a+c)/(a+c)=1,可知漏诊率,可
33、知漏诊率与敏感度互补。在统计学上,将假阴性的概率以与敏感度互补。在统计学上,将假阴性的概率以表表示,示,1=把握度,从诊断性试验来看,可认为把握度,从诊断性试验来看,可认为把握度把握度=1=敏感性。敏感性。误诊率误诊率(falsepositiverate,FPR):误诊率:误诊率FPR即假阳性率。即假阳性率。误诊率误诊率FPR=b/(b+d)100%=1Sp(9.14)b/(b+d)+d/(b+d)=1,可可知知假假阳阳性性率率和和真真阴阴性性率率互互补补。在在统统计计学学上上,将将假假阳阳性性的的概概率率以以表表示示,从从诊诊断断性试验来看,可认为性试验来看,可认为误诊率误诊率FPR=1Sp
34、=(9.15)由式由式(9.14)可知:置信水平可知:置信水平(1)=特异度特异度Sp。漏漏诊诊率率和和误误诊诊率率是是从从不不足足的的一一面面来来说说明明诊诊断断实实验验的的效效能能。(9)可用度可用度(diagnosticavailablity,DA)可用度可用度DA=(9.16)任任何何一一个个诊诊断断性性试试验验的的可可用用度度范范围围波波动动应应在在01之之间间,一般认为,只有一般认为,只有DA0.5的实验才有利用价值。的实验才有利用价值。例例9.2湖湖南南中中医医学学院院研研究究的的血血吸吸虫虫病病肝肝纤纤维维化化气气虚虚血血瘀瘀证证判判别别模模型型回回代代检检验验结结果果见见表表
35、9-5,试试评评价价该该判判别模型的诊断效果。别模型的诊断效果。判别分析诊断判别分析诊断 标准诊断标准诊断合合 计计气虚血瘀气虚血瘀 非气虚血瘀非气虚血瘀气虚血瘀气虚血瘀 36(a)5(b)36(a)5(b)41(a+b)41(a+b)非气虚血瘀非气虚血瘀 3(c)40(d)3(c)40(d)43(c+d)43(c+d)合合 计计 39(a+c)45(b+d)39(a+c)45(b+d)84(a+b+c+d)84(a+b+c+d)敏感度敏感度Se=a/(a+c)100%=(36/39)100%=92.31%;特异度特异度Sp=d/(b+d)100%=(40/45)100%=88.89%;诊断效
36、率诊断效率(准确率准确率)DE=(a+d)/(a+b+c+d)100%=90.48%可用度可用度DA=Youden指数指数A=SeSp100%=81.20%;阳性预断值阳性预断值PPV=a/(a+b)100%=87.80%;阴性预断值阴性预断值NPV=d/(c+d)100%=93.02%;漏诊率漏诊率FNR=c/(a+c)100%=1Se7.69%;误诊率误诊率FPR=b/(b+d)100%=1Sp=11.11%。可可见见所所建建立立的的数数学学判判别别模模型型对对气气虚虚血血瘀瘀的的诊诊断断辨辨别别具具有有良良好好的的判判别别效效果果,在在敏敏感感度度、特特异异度度、诊诊断断效效率率及及可可
37、用度等都达到了满意的效果。用度等都达到了满意的效果。Youden指数指数(记为记为Y):Youden指数指数Y反映该试验在反映该试验在诊断中的正确率。诊断中的正确率。Youden指数又称正确指数:指数又称正确指数:Youden指数指数Y=1或或Y=Se+Sp1(9.17)Youden指指数数的的取取值值范范围围在在(-1,+1)之之间间,越越接接近近于于+1,诊诊断断中中的的正正确确性性越越好好。Youden指指数数的的意意义义与与诊诊断断指数指数DI基本相同。视基本相同。视Se与与Sp同等重要时,有同等重要时,有改良改良Youden指数指数Y=Se+Sp+4SeSp/(Se+Sp)22(9.
38、19)似似然然比比:似似然然比比是是患患本本病病与与未未患患本本病病的的概概率率比比值值,分阳性似然比与阴性似然比。分阳性似然比与阴性似然比。阳性似然比阳性似然比(记为记为+LR)是指该项诊断试验诊断为阳性时,其正确是指该项诊断试验诊断为阳性时,其正确诊断真正有病的可能性与误诊率之比的多少倍:诊断真正有病的可能性与误诊率之比的多少倍:阳性似然比阳性似然比+LR=真阳性率真阳性率/假阴性率假阴性率=Se/(1Sp)=Se/FPR(9.20)阳阳性性似似然然比比+LR反反映映了了诊诊断断试试验验判判断断正正确确的的可可能能程程度度,取取值值范范围围在在(0,+)之之间间,其其值值越越大大,该该项项
39、检检测测方方法法证证实实阳阳性性的的能能力力越强越强阴性似然比阴性似然比(记为记为-LR)是指该项诊断试验获得阴性结果时,其是指该项诊断试验获得阴性结果时,其漏诊者为真正无病人数的多漏诊者为真正无病人数的多阴性似然比阴性似然比-LR=假阴性率假阴性率/真阴性率真阴性率=(1Se)/Sp(9.21)阴阴性性似似然然比比-LR反反映映诊诊断断试试验验判判断断错错误误的的可可能能程程度度,取取值值范范围围在(在(0,+)之间,其值越小,检测方法排除阳性的能力越好。)之间,其值越小,检测方法排除阳性的能力越好。3.3.不同类型疾病的评价指标的选择不同类型疾病的评价指标的选择1 1常用的判断预后指标的计
40、算公式常用的判断预后指标的计算公式 病死率(病死率(%)=100%(9.34)(2)治愈率治愈率(curerate)主要用于病程短且死亡率低主要用于病程短且死亡率低的疾病,是预后程度与医疗水平的标志,它的生物的疾病,是预后程度与医疗水平的标志,它的生物学意义恰与病死率相反。计算公式为:学意义恰与病死率相反。计算公式为:治愈率治愈率(%)=100%(9.35)(1 1)病死率病死率(case-fatality)主要用于病程短但死亡主要用于病程短但死亡率较高的疾病。它既可说明疾病预后的严重程度,又率较高的疾病。它既可说明疾病预后的严重程度,又是诊断与医疗水平的重要标志。计算公式为:是诊断与医疗水平
41、的重要标志。计算公式为:(3)存存活活率率(survivalrate)常常用用于于反反映映恶恶性性肿肿瘤瘤或或其其它它死死亡亡率率较较高高疾疾病病在在一一定定时时间间内内的的存存活活频频率率。计算公式为:计算公式为:存活率存活率=100%(9.36)(4)缓解率缓解率(remissionrate)与与复发率复发率(recurrencerate)主要用于病程长、慢性疾病。主要用于病程长、慢性疾病。缓解率缓解率(%)=100%(9.37)复发率(复发率(%)=100%(9.38)2不同类型疾病的评价指标的选择不同类型疾病的评价指标的选择见表见表9-7。疾病类疾病类型型结局结局评价指标评价指标突发性
42、突发性疾病疾病它是在某种条件下,病态突然出现而又很快它是在某种条件下,病态突然出现而又很快消失,如麻醉后的呕吐。消失,如麻醉后的呕吐。出现率,平均持续时间。出现率,平均持续时间。急性疾急性疾病病传染病的结局一般大多恢复,少数死亡;非传染病的结局一般大多恢复,少数死亡;非传染病,如急性肺炎等所引起的发热、咳嗽、传染病,如急性肺炎等所引起的发热、咳嗽、罗音、胸片出现的阴影等均可在短期内消失。罗音、胸片出现的阴影等均可在短期内消失。治愈率或消失率。治愈率或消失率。慢性病慢性病及慢性及慢性病急性病急性发作发作多数慢性疾病可出现治愈、缓解、复发、迁多数慢性疾病可出现治愈、缓解、复发、迁延、恶化、死亡等多
43、种结局,但很少能彻底延、恶化、死亡等多种结局,但很少能彻底治愈。如高血压病人的血压慢性迁延肝炎病治愈。如高血压病人的血压慢性迁延肝炎病人的肝功能、冠心病病人的心电图改变等。人的肝功能、冠心病病人的心电图改变等。缓解率、有效率、复发率、缓解率、有效率、复发率、病死率或研究某一指标恢病死率或研究某一指标恢复正常的程度及时间。复正常的程度及时间。特殊的特殊的严重的严重的疾病疾病恶性肿瘤的结局大多死亡;神经系统疾病的恶性肿瘤的结局大多死亡;神经系统疾病的结局严重者可有残废、功能丧失;某些药物结局严重者可有残废、功能丧失;某些药物慢性中毒可致畸变;脑外伤的结局容易出现慢性中毒可致畸变;脑外伤的结局容易出
44、现后遗症等。后遗症等。生存率、致畸率、后遗症生存率、致畸率、后遗症发生率、致残率等远期疗发生率、致残率等远期疗效观察指标。效观察指标。其他其他如高血钙是甲状旁腺机能亢进症的重要结局。如高血钙是甲状旁腺机能亢进症的重要结局。研究某一指标恢复正常的研究某一指标恢复正常的时间。时间。3选择评价指标时的注意事项选择评价指标时的注意事项(1)对所选指标最基本的要求对所选指标最基本的要求客观性客观性:指标有客观的记录指标有客观的记录,如心电图等如心电图等特异性特异性:如脱落细胞检查诊断胃癌等如脱落细胞检查诊断胃癌等灵敏性灵敏性:能测定出反应的微小变化的能测定出反应的微小变化的“阈值阈值”,如脑血流图等,如
45、脑血流图等精精确确性性:系系指指准准确确度度和和精精确确度度而而言言。理理想想的的指指标标是是既既准准确确又又精精密密重重现现性性:在在相相同同的的条条件件下下,不不管管谁谁作作重重复复试试验验都都能能得得出出相相同同的的评评价价结果。结果。从从统统计计学学角角度度考考虑虑,一一般般认认为为客客观观指指标标比比主主观观指指标标敏敏感感,计计量量指指标比记数指标敏感。标比记数指标敏感。(2)以以病病死死率率或或存存活活率率、治治愈愈率率、缓缓解解率率等等反反映映预预后后,虽虽然然简简明明,但但只只是是提提供供了了一一个个时时点点的的预预后后信信息息,并并未未反反映映预预后后的的全全貌貌。单单纯纯
46、比比较较两两组组存存活活率率或或死死亡亡率率)等等以以说说明明疗疗效效和和预预后后的的差差异异,仅仅适适于于急急性性疾疾病病。对对于于大大多多数数疾疾病病,特特别别是是慢慢性性疾疾病病,单单个个时时点点存存亡亡比比较较是是相对片面的,正确的作法是进行相对片面的,正确的作法是进行生存率分析生存率分析第六节第六节 总体率的可信区间总体率的可信区间 样本率样本率p是总体率是总体率的点估计的点估计(无偏估计无偏估计),与总体与总体均数的估计一样均数的估计一样,由于样本率由于样本率p与总体率与总体率之间存在着之间存在着抽样误差抽样误差,除了点估计以外除了点估计以外,常需根据样本率常需根据样本率p推算推算
47、总体率总体率以一定的概率所在的范围以一定的概率所在的范围,即总体率即总体率的可信的可信区间区间.下面介绍查表法和正态近似法求总体率下面介绍查表法和正态近似法求总体率的可信的可信区间。区间。1查表法查表法(1)二项分布资料:总体阳性发生率为二项分布资料:总体阳性发生率为时,在时,在n次次独立重复试验中,阳性的发生次数独立重复试验中,阳性的发生次数X是一个服从二项是一个服从二项分布的随机变量,阳性的发生次数分布的随机变量,阳性的发生次数X取某一确定值取某一确定值x的概率为:的概率为:Pn(x)=Cnxx(1)n x(9.46)最多有最多有x 例为阳性的累计概率为:例为阳性的累计概率为:P(Xx)=
48、Pn(0)+Pn(1)+Pn(x)(9.47)最少有最少有x 例为阳性的累计概率为:例为阳性的累计概率为:P(X x)=Pn(x)+Pn(x+1)+Pn(n)(9.48求阳性总体率求阳性总体率的的1可信区间实际上是求满足可信区间实际上是求满足P(1n/2时,应时,应以以(nx)值查表,然后用值查表,然后用100减去查得的数值,即为减去查得的数值,即为所求可信区间。所求可信区间。例例9.4用某中医疗法矫治用某中医疗法矫治15名学生的近视眼,其中名学生的近视眼,其中10名名有效,求其总体有效率的有效,求其总体有效率的95%可信区间。可信区间。本例本例n=15,x=10,附表,附表5中未列出,先以中
49、未列出,先以x=1510=5查附表查附表5,在,在n=15的横行和的横行和x=5的纵列交叉处的纵列交叉处95%可信区间的数值可信区间的数值1262,再,再10012=88,10062=38,所以该中医疗法矫治近视眼总体有效率的,所以该中医疗法矫治近视眼总体有效率的95%可信可信区间为区间为3888%。本例本例95%可信区间的下限为可信区间的下限为0.38,表明总体有效率,表明总体有效率=38%时,治疗时,治疗15例的有效例数虽可达到例的有效例数虽可达到10例乃至例乃至10例以上,但概率只有例以上,但概率只有0.025!可用二项分布变量的概率!可用二项分布变量的概率分布规律验证,当分布规律验证,
50、当=0.38时:时:P(X 10)0.3810(10.38)5+0.3811(10.38)4+.+0.38150.025类似地,总体有效率类似地,总体有效率的的95%可信区间上限为可信区间上限为0.88表明,即使总体有效率表明,即使总体有效率=88%,治疗,治疗15例的有效例数例的有效例数可能会低于可能会低于10例,但可能性不大,其概率只有例,但可能性不大,其概率只有0.025,可用二项分布变量的概率分布规律验证,当可用二项分布变量的概率分布规律验证,当=0.88时:时:P(X10)(10.88)15+0.88(10.88)14+.+0.8810(10.88)50.0252正态近似法正态近似法