《医学统计学之生存分析.ppt》由会员分享,可在线阅读,更多相关《医学统计学之生存分析.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十七章第十七章 生存分析生存分析(Survival Analysis)概概 述述问题的提出问题的提出:临临床床上上疗疗效效、预预后后的的评评价价常常用用疾疾病病的的结结局局指指标标:如如有有效效率率、治治愈愈率率、死死亡亡率率指指标标比比较较,对对于于在在短短期期内内能能明明确确治治疗疗效效果果的的疾疾病病是是适适用用的的。但但对对于于肿肿瘤瘤和和慢慢性性疾疾病病,其其指指标标的的评评价不全面。价不全面。例例 某病的疗效比较某病的疗效比较 治愈率治愈率 平均治愈时间平均治愈时间 甲药甲药 80%20天天 乙药乙药 81%12天天疾疾病病的的疗疗效效除除了了应应评评价价“结结局局”的的好好坏坏
2、,结结局局所所经经历历的的时时间间长长短短也也是是评评价价疗效重要的指标。疗效重要的指标。随访研究资料随访研究资料随访资料随访资料:随随访访观观察察某某事事件件出出现现“某某结结局局”和和“时时间间”的的资资料料统统称称为为随随访访资资料料,评评价价该该资料的统计学方法为生存分析。资料的统计学方法为生存分析。生生存存分分析析是是将将“结结局局”与与“时时间间”两两个个因素结合一起研究的统计分析方法因素结合一起研究的统计分析方法起始事件起始事件(事(事件的特征)件的特征)失效事件失效事件(结(结局出现的特征)局出现的特征)如诊断、用如诊断、用药、手术等药、手术等如疾病如疾病 的死的死亡、复发等亡
3、、复发等一、基本概念一、基本概念 时间时间(t)1.生存时间生存时间(t)=失效事件日期失效事件日期 起始事件日起始事件日期。期。t的单位:可用年、月、周表示。的单位:可用年、月、周表示。第一节第一节 生存分析的基本概念生存分析的基本概念2.截尾数据:截尾数据:生存时间观察过程被人为的截生存时间观察过程被人为的截止称为截尾(止称为截尾(censored)数据。原数据。原因有:因有:失访,失访,退出研究,如其退出研究,如其他原因死亡。他原因死亡。终止:研究时间结终止:研究时间结束,未出现结果事件。束,未出现结果事件。截截尾尾值值(censored value):其其生生存存时间记为时间记为t+。
4、(。(例:例:10+月)月)3.生存数据的特点生存数据的特点1.有有完完全全观观察察的的随随访访数数据据:研研究究对对象象在在规规定定的的研研究究期期间间提提供供确确切切的的“时时间间”。其其生生存存时时间间记记为为“t”。2.有截尾数据:截尾数据有截尾数据:截尾数据(t+)虽然提供的信息不虽然提供的信息不完全,但提供了部分信息,如完全,但提供了部分信息,如 t=10+年年9年。年。3.生存数据的效应变量(生存数据的效应变量(Y)有两个:有两个:1)“时间(时间(t)值值”,(,(t)0 2)结局状态结局状态=“如死亡或截尾值如死亡或截尾值”。其他统计方法不能处理该资料其他统计方法不能处理该资
5、料90年年91年年92年年93年年(研究结束)(研究结束)死亡死亡失访失访死亡死亡一批病人不同时间进入研究的随访资料一批病人不同时间进入研究的随访资料起点起点存活存活起点起点起点起点起点起点起点起点存活存活二二.资料的收集资料的收集(一)随访内容(一)随访内容1.明确起始事件的特征和时间,如手明确起始事件的特征和时间,如手术日期等。术日期等。2.明确随访结局:效果的特征事件,明确随访结局:效果的特征事件,如死亡或截尾事件。如死亡或截尾事件。3.明确研究结束时间。明确研究结束时间。4.记录影响记录影响“时间时间”的其他自变量。的其他自变量。例:例:收集生存数据和影响预后的因素收集生存数据和影响预
6、后的因素。某病用不同药后随访记录(天)某病用不同药后随访记录(天)预后因素预后因素 随访记录随访记录病例病例 性别性别 处理处理 开始开始 终止终止 是否是否 生存生存 号号 组组 日期日期 日期日期 死亡死亡 时间时间1 1 A药药 98/07/12 98/11/29 Y 1402 2 B药药 98/07/01 98/12/29 Y 1603 1 A 药药 98/08/22 98/11/29 仍活仍活 994 2 B药药 98/10/20 98/11/25车祸死亡车祸死亡 36(二)随访的方式二)随访的方式1.全体观察对象同时接受某处理全体观察对象同时接受某处理随访方式:多见于动物实验(见图
7、随访方式:多见于动物实验(见图17-1,a)2.观察对象在不同时间接受处理因素观察对象在不同时间接受处理因素随访方式:多见于临床试验研究随访方式:多见于临床试验研究(见图(见图17-1,b)起始事件时间起始事件时间如给药如给药0研究结研究结束时间束时间tOO为死亡O 为截尾(三)生存分析主要研究的内容三)生存分析主要研究的内容1.统计描述:统计描述:用统计指标描述生存过程,用统计指标描述生存过程,计算不同时间点(计算不同时间点(t)的生存率的生存率2.统计推断:统计推断:统计检验不同处理方式的生统计检验不同处理方式的生存过程有无差别存过程有无差别3.自变量(自变量(x)与时间(与时间(t)的关
8、系的关系:影响:影响生存时间的危险因素分析生存时间的危险因素分析三、生存分析中的基本方法三、生存分析中的基本方法1.非参数法非参数法*:特点:不考虑变量的分布,采用秩次统计量。特点:不考虑变量的分布,采用秩次统计量。是生存资料常采用的方法。主要是单变量的统是生存资料常采用的方法。主要是单变量的统计描述和比较。计描述和比较。2.半参数法半参数法*:如:如Cox模型,主要是生存时间的模型,主要是生存时间的影响因素分析。影响因素分析。3.参数法:参数法:特点:假定资料服从某分布。常采用指数分布特点:假定资料服从某分布。常采用指数分布和和Weibull分布等。(不常用)分布等。(不常用)讲义例:讲义例
9、:17-1某人研究手术方法治疗某人研究手术方法治疗23位肾上腺肿瘤病人的位肾上腺肿瘤病人的生存时间(月)如下:生存时间(月)如下:1,3,5(3),),6(3),),7,8,10(2),),14+,17,19+,20+,22+,26+,31+,34,34+,44,59注注:()括号内的数为相同时间点的人数括号内的数为相同时间点的人数数据特点数据特点:1.生存时间的分布为偏态分布生存时间的分布为偏态分布,2.有截尾值有截尾值3.每个值包含两个含义,即每个值包含两个含义,即“t”和状态和状态“死亡死亡与否与否”第二节第二节 生存率的估计与生存曲线生存率的估计与生存曲线(一)描述生存资料的几个指标(
10、一)描述生存资料的几个指标1.死亡概率、生存概率(死亡概率、生存概率(275页)页)死亡概率(死亡概率(F):):指死于某时段内的可能性。指死于某时段内的可能性。生存概率(生存概率(S=1-F):):指某时间段开始存活的个指某时间段开始存活的个体到该时间段结束时仍存活的概率。体到该时间段结束时仍存活的概率。例例:生存生存 期初期初 死亡死亡 生存生存 死亡死亡 生存生存 生存率生存率(年年)人数人数 人数人数 人数人数 概率概率 概率概率 S(t)0-1 100 10 90 0.1 0.9 0.90 1-2 90 10 80 0.11 0.89 0.80 2-3 80 20 70 0.25 0
11、.75 0.70死亡概率死亡概率F(t=1)=0.1,在在1年内死亡的概率年内死亡的概率.S(t=2)表示从起始事件到表示从起始事件到2年时点仍存活的概率年时点仍存活的概率生存时间数据分析时整理示意图生存时间数据分析时整理示意图 死亡死亡0 2 4 6 8 10 12 14 16 18 20 年“t”表示从研究起点到结局出现时表示从研究起点到结局出现时间间t失访失访失访失访死亡死亡死亡死亡死亡死亡2.生存函数生存函数:(survival function),),简称简称生存率。记为生存率。记为S(t)=P(Xt)。)。S(t):):指某观察对象从起始事件(如手指某观察对象从起始事件(如手术时间
12、为术时间为0点)开始,经历了点)开始,经历了t(年或月)个年或月)个单位时间后仍存活的概率。(单位时间后仍存活的概率。(273页)页)1)直接法直接法 生存率的计算公式生存率的计算公式2.概率乘法原理计算(概率乘法原理计算(275页)页)有截尾数据时采用有截尾数据时采用S(t)也称累计生存概率,也称累计生存概率,t 时刻存活是时刻存活是t 之前一直生存的累积。之前一直生存的累积。例:例:Pj 为生存概率为生存概率(公式(公式17-2)3.生存曲线生存曲线:(:(survival curve)指各时点(指各时点(t)为横轴为横轴,生存率生存率S(t)为为纵轴纵轴,连接一起的曲线图。描述该组病连接
13、一起的曲线图。描述该组病人各时点的生存过程。(人各时点的生存过程。(277页)页)4.半数生存期半数生存期(中位数生存时间)(中位数生存时间)生存率为生存率为0.5时对应的时间(时对应的时间(t),),表示表示50%的个体可生存的时间,常作为生存的个体可生存的时间,常作为生存数据的平均指标。(数据的平均指标。(278页)页)甲甲手术手术乙乙手术手术图图17-2 两种手术治疗方式术后病人生存曲线的比较两种手术治疗方式术后病人生存曲线的比较(二)生存率估计的统计方法(二)生存率估计的统计方法(非参数方法)(非参数方法)1.小样本数据生存率计算小样本数据生存率计算。用用 kaplan-Meier的乘
14、积极限法的乘积极限法(product-limit method,PL法)法)2.大样本数据生存率计算大样本数据生存率计算用寿命表法(用寿命表法(Life Table,LT法)法)两法特点:两法特点:1.均可计算有截尾和无截尾值的生均可计算有截尾和无截尾值的生存资料。存资料。2.生存率生存率S(t)计算采用概率乘法计算采用概率乘法原理。原理。3.统计软件可计算一组生存数据各统计软件可计算一组生存数据各时间点的生存率时间点的生存率S(t)、)、生存率的生存率的标准误标准误Sp、中位数生存时间、绘制中位数生存时间、绘制生存曲线。生存曲线。1.、小样本资料小样本资料 kaplan-Meier的乘积极限
15、法的乘积极限法例:表例:表17-1资料资料概率乘法原理估计生存率概率乘法原理估计生存率S(t)。)。P(Xt)=P1 P2.Pk Pt (17-2)P(X3)=S(3)=P1 P2=0.9570.0.955=0.914P(X5)=S(5)=P1 P2P3=0.9140.854=0.783Pj为生为生存概率存概率表表17-1 甲种手术后病人生存率的计算方法甲种手术后病人生存率的计算方法时间时间(月月)死亡死亡 期初期初 死亡死亡 生存生存 生存率生存率T 人数人数 人数人数 概率概率 概率概率 1 1 23 0.043 0.957 0.9573 1 22 0.045 0.955 0.9145 3
16、 21 0.143 0.857 0.7836 3 18 0.167 0.833 0.6527 1 15 0.067 0.933 0.6098 1 14 0.071 0.929 0.56510 2 13 0.154 0.846 0.47814+0 11 0.000 1.000 0.478表表17-1资料的统计描述指标资料的统计描述指标(SPSS 软件软件)Survival Standard 95%Confidence Survival Standard 95%Confidence Time error Interval Time error IntervalMean:24.23 4.99 (14
17、.44,34.01)Mean:24.23 4.99 (14.44,34.01)Median:10.00 6.96 (.00,23.63)Median:10.00 6.96 (.00,23.63)生存时间的百分位数生存时间的百分位数(表示表示t t的比例的比例)Percentiles Percentiles 25.00 50.00 75.00 25.00 50.00 75.00Time Value 44.00 10.00 6.00Time Value 44.00 10.00 6.00S SE 8.01 6.96 1.148.01 6.96 1.14表表17-2资料乙手术方法的统计描述指标资料乙手
18、术方法的统计描述指标 Survival Standard 95%Survival Standard 95%ConfidencConfidenc Time Err IntervalTime Err Interval Mean 7.80 1.18 (5.50,10.10)Mean 7.80 1.18 (5.50,10.10)Median 6.00 2.98 (.16,11.84)Median 6.00 2.98 (.16,11.84)生存时间的百分位数生存时间的百分位数 (表示表示t t的比例的比例)PercentilesPercentiles 25.00 50.00 75.00 25.00 50
19、.00 75.00 Value 11.00 6.00 3.00Value 11.00 6.00 3.00 SE SE 1.94 2.98 .77 1.94 2.98 .77甲甲手术手术乙乙手术手术图图17-2 两种手术治疗方式术后病人生存曲线的比较两种手术治疗方式术后病人生存曲线的比较月月2.大样本资料的生存分析方法大样本资料的生存分析方法寿命寿命表法(表法(Life-table method)表表17-3 2418例男性心绞痛病人生存率情况例男性心绞痛病人生存率情况术后术后 死亡死亡 截尾截尾 期初期初 校正校正 生存生存 生存率生存率年数年数 人数人数 人数人数 人数人数 人数人数 概率概
20、率 (t+1)0-456 0 2418 2418 0.8114 0.81141-226 39 1962 1942.5 0.8837 0.7172-152 22 1697 1686 0.9098 0.6524校正人数=1962-39/2=1942.5 例例17-3寿命表法的区别寿命表法的区别1.计算时间段计算时间段 的生存率。的生存率。2.寿命表方法计算死亡(生存)概率,假定有寿命表方法计算死亡(生存)概率,假定有截尾事件的人在各时间组内平均生存为截尾事件的人在各时间组内平均生存为1/2时间。时间。死亡概率死亡概率=某时间组内死亡人数某时间组内死亡人数/校正观察人数校正观察人数校正观察人数校正观
21、察人数=期初观察人数截尾人数期初观察人数截尾人数/2第三节第三节 生存曲线的统计检验生存曲线的统计检验目的:将生存率为整体进行曲线与曲线的目的:将生存率为整体进行曲线与曲线的比较比较方法:时序检验(方法:时序检验(Log-Rank),),为非参为非参数法检验数法检验,可对两组或多组做比较可对两组或多组做比较.检验假设:检验假设:H0:两总体的生存率相同两总体的生存率相同 H1:两总体的生存率不同两总体的生存率不同检验水准检验水准=0.05,如如P,拒绝拒绝H0Log-rank检验检验检验统计量检验统计量该该2服从的自由度服从的自由度=(比较组数比较组数1)Ai为某组各时间点实际死亡数为某组各时
22、间点实际死亡数(di)之和之和.Ti为某组各时间点的期望死亡数为某组各时间点的期望死亡数(Ti)合计合计i 表示比较组,表示比较组,i=1,2,k组组Log-rank检验的基本假定检验的基本假定时间时间 甲法手术组甲法手术组 乙法手术组乙法手术组 合计合计 t 1 23 1 1.605 20 2 1.395 43 3如如H0成立成立:2统计量的统计量的P0.05 表表17-4按按两组合计两组合计死亡率计算死亡率计算理论数理论数两生存率曲线的检验结果两生存率曲线的检验结果 表表17-4资料:资料:=组数组数-1=2-1,p0.01结论结论:两生存曲线有差别两生存曲线有差别.根据中位数生存根据中位
23、数生存时间和生存曲线的比较时间和生存曲线的比较,认为甲手术方法认为甲手术方法生存时间长于乙法生存时间长于乙法.注意注意:两生存曲线有交叉两生存曲线有交叉,可能有混杂因素可能有混杂因素,应应排除后排除后,再做结论再做结论.(讲义)(讲义)甲甲手术手术乙乙手术手术图图17-2 两种手术治疗方式术后病人生存曲线的比较两种手术治疗方式术后病人生存曲线的比较月月第四节、第四节、COX比例风险回归模型比例风险回归模型COX模型用于分析多个协变量(模型用于分析多个协变量(x)与风险与风险率(率(y=死亡、不死亡)的关系,以确定协死亡、不死亡)的关系,以确定协变量的重要性。变量的重要性。方法的优点:方法的优点
24、:1.能处理截尾数据能处理截尾数据 2.适用于分布未知的资料适用于分布未知的资料 3.排除混杂因子,评价预后排除混杂因子,评价预后(proportional hazards regression model,PHREG)一、一、Cox模型的基本形式模型的基本形式h(t,x):):危险(风险)率函数。表示生存到危险(风险)率函数。表示生存到t 时刻的个体死于时刻的个体死于t+t 的瞬时死亡率。的瞬时死亡率。h(t,x):):也反映受危险因素(也反映受危险因素(x)的影响,在的影响,在时刻时刻t的死亡风险率。的死亡风险率。式中:式中:X:表示与生存率有关的危险因素表示与生存率有关的危险因素:某危险
25、因素的回归系数某危险因素的回归系数公式公式17-15单个单个X的的Cox模型及参数的意义模型及参数的意义Cox模型的表达模型的表达h(t,x)=h0(t)exp(x)h0(t):):为危险因素为为危险因素为0时在时在t时刻的基础危险率。时刻的基础危险率。比例风险率模型比例风险率模型(proportion hazard model)与与时间时间t 无无关的比例因关的比例因子子h(t)01.00.20.40.60.81234时间时间t风风险险率率比例风险率函数示意图比例风险率函数示意图参数参数的意义的意义h(t,x)=h0(t)exp(x)=0,某危险因素(某危险因素(X)与死亡风险与死亡风险无关
26、。无关。0,X值越大,死亡的危险性越大。值越大,死亡的危险性越大。0,X值越大,死亡的危险性越小。值越大,死亡的危险性越小。的反对数值为某危险因素(的反对数值为某危险因素(X)的相的相对危险度(对危险度(RR)如某危险因素如某危险因素x 取值为取值为1和和0,则受,则受x影响影响和不受和不受x影响死亡的相对危险度是:影响死亡的相对危险度是:在多变量的在多变量的Cox回归模型中,回归模型中,i 表示其他表示其他因素固定(不变)后,某因素固定(不变)后,某Xi的两个水平的两个水平(X=1)与(与(X=0)相比危险率的倍数。相比危险率的倍数。例;讲义例;讲义 多变量的多变量的Cox回归模型回归模型例
27、例:讲义讲义283页页探讨胃癌患者的预后,探讨胃癌患者的预后,X1(手术手术=1,否,否=0),),X2(放射治疗放射治疗=1,否,否=0)1的意义:固定放射因素后,做手术病人死的意义:固定放射因素后,做手术病人死亡的危险性为不做手术病人的亡的危险性为不做手术病人的69.76%。1的含义:手术但不放射者相对于不手的含义:手术但不放射者相对于不手术不放射者死亡风险的术不放射者死亡风险的69.%。如病人如病人X1=1,X2=1,死亡的风险率为:死亡的风险率为:如病人如病人X1=0,X2=0者:者:二者的相对危险度:二者的相对危险度:二二.COX模型的参数估计与假设检验模型的参数估计与假设检验1.回
28、归系数(回归系数(b)的估计:最大似然法估计的估计:最大似然法估计2.回归系数(回归系数(i)的检验:有的检验:有Wald检验和似检验和似然比检验然比检验3.可采用逐步回归法筛选有统计意义的变量。可采用逐步回归法筛选有统计意义的变量。以上计算在统计软件(以上计算在统计软件(SAS、SPSS等)均等)均可完成。可完成。讲义讲义283页页-286页。页。四、四、COX回归方程在生存分析中回归方程在生存分析中的主要应用(的主要应用(P286)COX模型模型:h(t,x)=h0(t)exp(ixi)1.估计协变量参数(估计协变量参数()和其相对危险度和其相对危险度(RR)及可信区间。及可信区间。2.对
29、影响危险率的变量进行筛选对影响危险率的变量进行筛选3.用预后指数(用预后指数(PI),),对个体预后危险性做对个体预后危险性做评价。评价。个体预后指数(PI)X标准化变量值标准化变量值为标准化回归系数为标准化回归系数PI0,表示个体危险度为平均水平。表示个体危险度为平均水平。PI0,表示个体危险度大于平均水平。表示个体危险度大于平均水平。PI0,表示个体危险度小于平均水平。表示个体危险度小于平均水平。17-30五五 应用实例:讲义应用实例:讲义表表17-5,病人结局(,病人结局(Y)与影响因素及量化与影响因素及量化值值结果:表结果:表17-7变量变量 Sb p RR X4 1.7616 0.5
30、4791 0.0013 5.822 X5 0.9313 0.44455 0.0362 2.538 95%的可信区间的可信区间 上限上限 下限下限X4 1.989 17.039X5 1.062 6.066例例2、肺癌病人生存时间与有关因素的分析、肺癌病人生存时间与有关因素的分析记录记录75例肺癌病人的生存时间(月)和例肺癌病人的生存时间(月)和18个可个可能与预后有关的因素能与预后有关的因素年龄、性别、得分、类型、分化、分期、淋巴年龄、性别、得分、类型、分化、分期、淋巴结侵犯、结侵犯、CEA、P53、P16、放疗、化疗、放疗、化疗、手术等手术等分析目的:分析目的:1.筛选出与预后有关的主要因子筛
31、选出与预后有关的主要因子2.对个体预后危险性进行评价对个体预后危险性进行评价COX回归多因素模型结果(逐步回归法回归多因素模型结果(逐步回归法)Variables in the Equation BSEWald B Sig.Exp(B)年龄年龄 .064.017 13.89 0.77 .0001.066 性别性别 -.833.425 3.839 -0.35.040.435 分期分期 .266.141 3.585 0.51 .0051.305 CEA .015.007 4.264 0.50 .0391.015 NM -.360.260 1.920 -0.31 .001.698结论:结论:对生存时
32、间不利的因素:对生存时间不利的因素:年龄、分期、年龄、分期、CEA有利因素:有利因素:性别、性别、NM 个体预后指数估计个体预后指数估计预后指数方程或预后指数得分(预后指数方程或预后指数得分(PI)式中式中b为标准化回归系数,为标准化回归系数,x为标准化变量值为标准化变量值=年龄年龄 性别性别 分期分期 CEA NM 预后指数得分预后指数得分 72 1 7 80 1 2.23 46 1 3 15 2 -182 30 1 4 15 2 -2.58 50 2 5 20 2 -1.80 80 1 6 130 1 3.22 56 1 4 59 1 0.007.75例肺癌病人预后的得分例肺癌病人预后的得
33、分六六 、Cox 模型应用的注意事项模型应用的注意事项(讲义288页)Cox 模型要求模型要求1.样本例数不能太小,样本例数为协变量样本例数不能太小,样本例数为协变量个数的个数的5-20倍。倍。2 生存资料的截尾数据不能超过生存资料的截尾数据不能超过20%。3.Y要有一定的死亡例数。要有一定的死亡例数。4.死亡风险死亡风险 exp(x)不不随时间变化而变随时间变化而变化。满足比例风险的要求。化。满足比例风险的要求。本章的本章的要求要求思考题:思考题:1.什么数据资料应采用生存分析。什么数据资料应采用生存分析。2.生存分析的单因素分析和多因素分析各生存分析的单因素分析和多因素分析各自回答什么问题?自回答什么问题?3.单因素生存分析中有常用哪几个统计指单因素生存分析中有常用哪几个统计指标,各自表达的含义是什么?标,各自表达的含义是什么?4.Cox模型与模型与Logistic回归模型有何不同和回归模型有何不同和相同?相同?