《《循证医学》第五章循证医学常用统计学方法.ppt》由会员分享,可在线阅读,更多相关《《循证医学》第五章循证医学常用统计学方法.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五章 循证医学实践中常用的统计学方法,临床证据的数据资料类型,分类变量资料 数值变量资料 等级变量资料,无序分类 有序分类,二项分类 多项分类,等级变量资料,正态分布 偏态分布,集中趋势 离散趋势,单个研究证据资料的方法学质量判断,资料完整性的判断 组间基线资料的可比性 重复性检验 缺失值分析 精确度分析 样本量分析,单个研究证据资料的方法学质量判断,资料的完整性判断 纳入分析的研究对象数量以及重要的指标数前后一致 即:试验前后组例数是否一致? 丢失率1(终末例数/入组例数)100 或(丢失例数/入组例数)100 判断标准: 丢失率0 证据资料完整 丢失率20: 证据质量差 不宜使用,证据资
2、料的质量判断,资料组间基线资料是否可比 试验组和对照组之间的重要的临床基线资料是否相对一致,即除了研究的干预措施外,其他影响研究结果的因素在两组间分配是否均衡。 判断方法:均衡性检验 结果判定:组间无显著性差异,均衡性好,试验结果可信 组间差异显著,均衡性差,需做分层分析 如有分层分析结果,试验结论可信度高 如无分层分析结果,试验结论可信度低,重复性检验 多次重复观察或测量的情况下,观测或试验结果是否一致?,证据资料的质量判断,观察结果的Kappa一致性检验: 无Kappa一致性检验结果,证据可信度低,不可靠 Kappa0.7 证据质量好,测量数据的一致性判断:差异度5% 批内差异度(第一次测
3、量值第二次测量值)/第一次测量值 批外差异度(第一批测量值第二批测量值)/第一批测量值,证据资料的质量判断,缺失值分析 因各种原因不能得到观测指标的具体测量值,出现数据丢失。,随机性缺失:与组别、干预措施等无关,随机产生,无规律 非随机性缺失:受实验因素的影响,导致实验组和对照组出现非对称性数据丢失。,证据资料的质量判断,对于缺失值的处理 1、分类变量资料的缺失值处理-敏感性分析 如:试验组和对照组各丢失了10例。 将试验组丢失的10例作为“无效病例”,对照组丢失的10例作为“有效病例”,重新做统计学分析。如果结论与原证据结论一致,资料可靠;结论不一致,资料不可靠。 2、数值变量资料的缺失值处
4、理均数差值的可信区间 可信区间窄,数据精度高,资料可靠性大,结果可信 可信区间宽,数据精度差,资料可靠性小,说明有可能丢失数据或者样本量较少。,证据资料的质量判断,精确度分析 可信区间(CI)是按照预先给定的概率(1)去估计未知总体参数的可能范围。 如:95可信区间:指该区间有95的可能性包含了被估计的总体参数,有5(小概率事件)可能性不包含被估计的总体参数。 可信限:可信区间的上下界限值 抽样误差小,可信区间窄,估计的可靠性高,精确度大 抽样误差大,可信区间宽,估计的可靠性低,精确度小,证据资料的质量判断,样本量分析 样本量:能够最真实反应实际试验效果的观察对象的适宜量。 样本量大小的影响因
5、素:预期的试验率差d;显著性水平,检验把握度1-。 如:预期治疗组有效率80%,对照组60%,d=20% =0.05,1-=0.9 则:n=110人,统计学方法的正确抉择,不同的资料类型所选用的统计学方法不同,只有正确的选择适合的统计学方法,才能得出正确的结果。 统计分析时,应首先要明确相关的条件。 如:数据资料的分布类型(正态分布、偏态分布、二项分布等);是否满足方差齐性;理论频数是否足够大等。,统计学方法的正确抉择计量资料统计描述,表53 数值变量资料常用描述指标,均数 描述一组数据的平均水平、集中位置 正态分布或近似正态分布 中位数 同均数 偏态、开口资料或分布未知 几何均数 同均数 对
6、数正态分布、等比资料 标准差 描述一组资料的变异大小、离散程度 正态分布或近似正态分布 四分位数间距 同标准差 偏态、开口资料或分布未知 极差 同标准差 任何资料类型 变异系数 比较各组资料的变异度大小 单位不同、均数相差悬殊,指标名称 作 用 适用资料, 均数标准差 中位数四分位数间距 几何均数标准差,统计学方法的正确抉择计数资料统计描述,表54 分类变量资料常用描述指标,指标名称 作 用 适用资料,率 事件发生例数/观测总例数 分析事件发生的强度和频率 构成比 单个事件发生例数/多个事件例数总和 总事件数的各个事件所占比重 相对比 甲事件发生率(数) /乙事件发生率(数) 甲事件发生是乙事
7、件的多少倍,不同类型资料常用指标及可信区间的计算,一、分类变量资料,1、EER、CER及可信区间 EER (Experimental Event Rate):试验组中采取干预措施后事件的发生率 如对某病采取某种防治措施后该病的发生率。 CER (Control Event Rate) :对照组中未采取或采取对照措施后事件的发生率 如对某病不采取防治措施的该病的发生率。,死亡 未死亡 例数 阿司匹林组 15 110 125 对照组 30 90 120 合计 45 200 245,表51 阿司匹林治疗心肌梗死的效果,EER=15/125=12% CER=30/120=25%,总体率()的95%可信
8、区间:p1.96sp 即(p-1.96Sp,p+1.96Sp),阿司匹林组:Sp2.91 对 照 组:Sp3.95,分类变量资料EER、CER及可信区间,阿司匹林组心梗死亡率95的可信区间:,p1.96sp121.962.91 即(6.30,17.70),对照组心梗死亡率的95可信区间:,p1.96sp251.963.95 即(17.26,32.74),分类变量资料EER、CER及可信区间,分类变量资料RR及可信区间,2、相对危险度(RR)及可信区间,RR (Relative Risk):是暴露组(试验组)的事件发生率p1与非暴露组(对照组)的事件发生率p0的比值,用以说明前者是后者的多少倍,
9、常用来表示暴露因素与疾病之间的联系强度及在病因学上的意义大小。,RR=p1/p0=EER/CER,表52 RR计算四格表,组别 发生数 未发生数 总例数 率 暴露组 a b n1 p1 非暴露组 c d n2 p0,RR意义:,如p1和p0是死亡率、病死率、患病率等指标时: RR1表示暴露因素(试验因素)对疾病有影响。 RR1,表示暴露因素是疾病的有害因素,且RR越大,暴露因素对疾病的不利影响越大; RR1,表示暴露因素是疾病的有益因素,且RR越小,暴露因素对疾病的有益作用越大; RR1,表示暴露因素与疾病无关。,分类变量资料RR及可信区间,RR意义:,如p1和p0是有效率、治愈率等指标时:
10、RR1表示暴露因素(试验因素)对疾病有影响。 RR1,表示暴露因素是疾病的有益因素,且RR越大,暴露因素对疾病的有利影响越大; RR1,表示暴露因素是疾病的有害因素,且RR越小,暴露因素对疾病的有害作用越大; RR1,表示暴露因素与疾病无关。,分类变量资料RR及可信区间,分类变量资料RR及可信区间,RR可信区间计算,先计算RR的自然对数值ln(RR)和ln(RR)的标准误SE(lnRR) ,计算公式如下:,表52 RR计算四格表,组别 发生数 未发生数 总例数 暴露组 a b n1 非暴露组 c d n2,分类变量资料RR及可信区间,例:前述阿司匹林治疗心肌梗死的效果,试估计其RR的95可信区
11、间。,死亡 未死亡 例数 阿司匹林组 15 110 125 对照组 30 90 120 合计 45 200 245,表51 阿司匹林治疗心肌梗死的效果,治疗组病死率p1=15/125;对照组病死率p030/120,分类变量资料OR及可信区间,3、比值比(OR)及可信区间,OR (Odds Ratio):是病例组暴露率与非暴露率比值和对照组暴露率与非暴露率比值之比。多用于回顾性研究,作为RR的估计值。,表53 OR计算四格表,组别 暴露数 未暴露数 总例数 病例组 a b n1 对照组 c d n2,分类变量资料OR及可信区间,OR可信区间计算,先计算OR的自然对数值ln(OR)和ln(OR)的
12、标准误SE(lnOR) ,计算公式如下:,例:前述阿司匹林治疗心肌梗死的效果,试估计其OR的95可信区间。,死亡 未死亡 例数 阿司匹林组 15 110 125 对照组 30 90 120 合计 45 200 245,表51 阿司匹林治疗心肌梗死的效果,分类变量资料OR及可信区间,分类变量资料OR及可信区间,该例OR95可信区间为(0.207,0.807),该区间小于1,可认为阿司匹林治疗心肌梗死有效。,分类变量资料RRR及可信区间,4、相对危险度减少率(RRR)及可信区间,RRR (Relative Risk Reduction):反映试验组与对照组某病发生率增减的相对量的比值。,计算公式:
13、,RRR可信区间可由1RR可信区间得到:,分类变量资料ARR及可信区间,5、ARR及可信区间 绝对危险度减少率ARR(Absolute Risk Reduction) :试验组与对照组之间率的差值,反映两组疾病发生率增减的绝对量,说明试验效应的大小。 ARR可信区间可用于推断两个率差别有无统计学意义。 ARR0,表明干预措施无试验效应 ARR0,考虑可信区间范围 可信区间不包含0,两个率差异有统计学意义 可信区间包含0,两个率差异无统计学意义,分类变量资料ARR及可信区间,计算公式: 可信区间:,(p1-p2)u*S(p1-p2),如前例阿司匹林治疗心梗效果:ARR=CER-EER=25%-1
14、2%=13%,ARR95可信区间:,(p1-p2)u*S(p1-p2),(0.250.12)1.960.049(0.03,0.23) 即(3%,23),分类变量资料NNT及可信区间,6、NNT及可信区间,NNT (the Number of patients who Need to be Treated.):对患者采取某种防治措施后,得到一例有利结果所需要的防治病例数。,计算公式:,意义:NNT值越小,该防治措施效果越好,临床意义越大。,如:一种防治措施的ARR11,则NNT1/11%9,即只需防治9个病例就可得到一例额外的有利效果。,分类变量资料NNT及可信区间,NNT可信区间计算: 可利用
15、ARR的可信区间计算。,NNT95可信区间上限:ARR95可信区间下限的倒数值。 NNT95可信区间下限:ARR95可信区间上限的倒数值。,如前例阿司匹林治疗心梗效果: ARR95%可信区间为(3,23), 则NNT95可信区间为(1/23,1/3),即(4.3,33.3)。,7、其他指标,NNH (the Number Need to Harm .):对患者采取某种防治措施后,出现一例副作用所需要的防治病例数。,计算公式:,ARI (Absolute Risk Increase):绝对危险增加率,即试验组中某不利结果发生率与对照组中该结果发生率的差值。反映采用某干预措施后,患者不利结果增加的
16、绝对值。,计算公式:,例:某治疗措施引起副作用发生率64,对照组为37,ARI=27%,NNH=4,即该治疗措施每治疗4个病例就会有一例发生副作用。,分类变量资料其他指标,意义:NNH值越小,说明某治疗措施引起的副作用越大。,数值变量资料可信区间,1、均数的可信区间,计算公式:,样本含量小时 样本含量大时,2、均数差的可信区间,计算公式:,假设检验方法的选择数值变量资料比较,表55 数值变量资料比较的假设检验方法,分析目的 应用条件 统计方法,单样本与已知总体均数比较 来自正态总体,n小 t检验 正态总体,n100 u检验 成组资料(两组比较) 正态总体,方差齐,n50 u检验 正态总体,方差
17、齐,n50 成组t检验 非正态或方差不齐 成组秩和检验 配对资料比较 配对差值服从正态分布 配对t检验 不服从正态分布 配对秩和检验 成组资料(多组) 正态总体,方差齐 成组设计的方差分析 非正态或方差不齐 成组设计的秩和检验 配伍资料 正态总体,方差齐 配伍设计的方差分析 非正态或方差不齐 配伍设计的秩和检验,假设检验方法的选择分类变量资料比较,表56 分类变量资料比较的假设检验方法,分析目的 应用条件 统计方法,样本率与已知总体率比较 np5且n(1-p)5 二项分布的u检验 n小,且p或(1p)小 可信区间查表法 两率或构成比比较 np5且n(1-p)5 二项分布的u检验 n40且最小T
18、5 四格表2检验 n40且140 McNemar 2检验 b+c5或少于1/5的格子1T5 行列表2检验 T1或多于1/5以上格子1T5 确切概率法,假设检验方法的选择多因素分析,一、多元线性回归分析 概念:用回归方程定量地刻画一个数值变量的应变量(Y)与多个自变量X1、X2、X3.XP间的线性依存关系。 Y=0+ 1X1+ 2X2+3X3+pXp + e 0为常数项,也成截距,为Y的基线水平量。 1、2、3、p为回归系数,如p是指在其他变量固定的条件下,Xp每改变一个单位后Y的平均变化量。 e为除去所有自变量对Y影响后的随机误差,也成残差。 应用条件: 1、应变量要求是数值变量资料,且满足随
19、机性和独立性,自变量可以是数值变量资料、分类变量资料、等级资料。 2、应变量和自变量间具有线性关系 3、残差e服从正态分布。,二、Logistic回归模型 概念:研究分类变量结果与一些影响因素之间的多元统计方法。 特点:应变量为分类变量资料,自变量可以是分类变量,也可以是数值变量资料。 用途: 1、用于控制1个或多个混杂因素的条件下,探讨某个事件的发生与研究因素的关系。 2、探讨各种影响因素间的交互作用。 3、可用于筛选危险因素。 4、可预测事件的发生。,假设检验方法的选择多因素分析,假设检验方法的选择多因素分析,三、COX风险比例回归模型 概念:在生存分析中将事件发生的结果与随访时间两个因素
20、结合在一起进行分析的一种统计学分析方法。 特点:应变量为病人生存时间,自变量可以是分类变量,也可以是数值变量资料。 H(t)=H0(t)exp(1X1+ 2X2+ 3x3+ nXn) H(t)为风险函数,H0(t)为基准风险函数,与时间有关的任意函数。 Xi表示与生存可能有关的影响因素。 i为回归系数:-i0,则Xi值越大,病人死亡风险越大 -i0,则Xi值越大,病人死亡风险越小 -i0,则Xi值与病人死亡风险无关,假设检验方法的选择多因素分析,用途: 探索性模型:用于危险因素的筛选; 验证模型:消除了混杂因素的影响后,探讨生存时间以及事件的发生与研究因素的关系,实现定量化。,总体分析与分层分
21、析,总体分析:对收集到的试验组和对照组数据作为整体进行两组间差异的比较。 特点:未考虑潜在的可能影响到试验结果的因素的干扰,可能会导致分析结果的不确切。 分层分析:将整体资料中的混杂因素分组,分别比较各组内试验组与对照组数据间的差异。 特点:消除了混杂因素的影响,使分析结果完全表现为试验措施效果。,计算得: =55.5 , =55.5 , OR=309243/208126=2.87,OR95%CI:(2.18,3.17),表1、 食管癌与对照的吸烟比较,总体分析与分层分析,按饮酒与食管癌的关系列表计算:,表2、 食管癌与对照的饮酒比较,得: =31.9,OR=2.29,说明饮酒与食管癌有联系;
22、 饮酒又与吸烟密切相关,饮酒可能是混杂因素。,总体分析与分层分析,按饮酒进行分层,并分别计算其OR值,表3、按饮酒与否分层分析食管癌与吸烟的关系,饮酒者中吸烟的OR值(2.98)稍高于不分层时的OR(2.87), 而不饮酒者中吸烟的OR(1.67)却低很多,饮酒可能加强了吸烟的作用。,总体分析与分层分析,计算合并的OR值与 检验 计算公式(M-H法)如下:,按表3的数字计算得: =34.74,ORM=2.42,调整后的x2值与OR值较未调整的x2(55.5)与OR(2.87)为低, 但仍有统计学意义。提示吸烟与食管癌之间有显著关联, 而饮酒是吸烟与食管癌之间的混杂因素,似夸大了吸烟的作用。,总体分析与分层分析,证据的临床意义和统计学意义,表57 证据的临床意义和统计学意义,假设检验是否有统计学意义,并不能说明其有临床价值。因此,一定要将临床意义和统计学意义进行综合分析,才能做出合理的结论。,