《生存分析精品文稿.ppt》由会员分享,可在线阅读,更多相关《生存分析精品文稿.ppt(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、生存分析第1页,本讲稿共45页 生存分析的目的生存分析的目的1.估计:根据样本生存资料估计总体生存率及其他有关指标估计:根据样本生存资料估计总体生存率及其他有关指标(如中位生存期)等。(如中位生存期)等。2.比较:对不同组生存率进行比较。比较:对不同组生存率进行比较。3.影响因素分析:为探索和了解影响生存时间长短的因素,或平衡影响因素分析:为探索和了解影响生存时间长短的因素,或平衡某些因素后,研究某个或某些因素对生存的影响。某些因素后,研究某个或某些因素对生存的影响。4.预测:对具有不同因素、不同水平的个体进行生存预测。预测:对具有不同因素、不同水平的个体进行生存预测。第2页,本讲稿共45页第
2、一节生存时间资料的特点第一节生存时间资料的特点第二节小样本生存率的第二节小样本生存率的kaplan-Meier估计估计第三节大样本生存率的寿命表法估计第三节大样本生存率的寿命表法估计第四节第四节生存曲线比较的假设检验生存曲线比较的假设检验第3页,本讲稿共45页第一节生存时间资料的特点第一节生存时间资料的特点一、数据结构一、数据结构二、统计描述指标二、统计描述指标三、资料要求三、资料要求第4页,本讲稿共45页一、数据结构在临床医学中在临床医学中,对病人疗效考查:对病人疗效考查:1.治疗结局?治疗结局?2.生存时间?生存时间?第5页,本讲稿共45页 “生存时间生存时间”的概念的概念 开始事件开始事
3、件 终点事件终点事件 生物生存生物生存 死亡死亡 生存时间生存时间电脑开始使用正常 出现故障 疾病产生 治愈疾病治愈 复发 阴性 阳性第6页,本讲稿共45页生存时间的三个要点生存时间的三个要点一、起始事件一、起始事件二、二、终点事件终点事件三、生存时间三、生存时间第7页,本讲稿共45页医学例子:起始事件 随访时间 终点事件疾病确诊疾病确诊 死亡死亡治疗开始 死亡治疗开始 痊愈接触危险物 出现反应治愈出院 复发广义的广义的“生存时间生存时间”也可为医疗费用(元)、也可为医疗费用(元)、医疗设备使用次数、车辆行驶总里程医疗设备使用次数、车辆行驶总里程(公里公里)等等 第8页,本讲稿共45页随访(f
4、ollow-up)资料的记录生存资料一般通过随访收集,生存资料一般通过随访收集,记录的项目:记录的项目:(起始与终止)随访事件(起始与终止)随访事件生存时间(开始观察日期与终止观察日期)(年、月、生存时间(开始观察日期与终止观察日期)(年、月、天、小时、分、秒等)天、小时、分、秒等)分组变量(处理方法)分组变量(处理方法)和其它协变量(性别、年龄、职业、文化程度等)和其它协变量(性别、年龄、职业、文化程度等)第9页,本讲稿共45页月 份(2000年)图12-1 生存时间原始记录示意(+截尾)天 数图12-2 生存时间排序整理数据示意01167第10页,本讲稿共45页生存时间资料的特点生存时间资
5、料的特点2个效应变量个效应变量(1)生存时间)生存时间(天数天数),(,(2)结局)结局(死亡与否、死亡与否、是否阳性等是否阳性等)删失(截尾)数据删失(截尾)数据:在规定的观察期内,对某些观察对象由在规定的观察期内,对某些观察对象由于某种原因未能观察到死亡结局,并不知道确切的生存时间,称为于某种原因未能观察到死亡结局,并不知道确切的生存时间,称为生存时间的删失数据(生存时间的删失数据(censoreddata)。如表)。如表12-1中的中的1号和号和3号号病人未观察到底,不知他们究竟能活多长时间。病人未观察到底,不知他们究竟能活多长时间。产生结尾原因:产生结尾原因:(1)迁移迁移(2)死于其
6、他原因死于其他原因(3)因其他客观原因中途退出因其他客观原因中途退出(4)研究结束时终点事件尚未发生研究结束时终点事件尚未发生分布类型复杂分布类型复杂:生存时间分布不服从正态分布,常常呈正偏态分生存时间分布不服从正态分布,常常呈正偏态分布、布、Weibull分布、分布、Gamma分布或更为复杂的分布,因此要用特分布或更为复杂的分布,因此要用特殊的统计方法。殊的统计方法。第11页,本讲稿共45页2 2个效应变量个效应变量(1 1)生存时间)生存时间(天数天数),(,(2 2)结)结局局(死亡与否、是否阳性等死亡与否、是否阳性等)错误错误1:忽略生存时间,采用:忽略生存时间,采用Logistic回
7、归分析死亡率回归分析死亡率错误错误2:忽略结局,采用:忽略结局,采用t检验、线性回归分析生存时间检验、线性回归分析生存时间第12页,本讲稿共45页得不到确切的生存时间,但它们提供的生存时间长于观得不到确切的生存时间,但它们提供的生存时间长于观察期的时间,这种数据为察期的时间,这种数据为不完全数据不完全数据。或截尾数据、删失数。或截尾数据、删失数据或终检值。据或终检值。(如有确切的生存时间,则这种数据称为(如有确切的生存时间,则这种数据称为完全数据完全数据。)。)两种错误的做法:两种错误的做法:错误错误1:丢弃截尾数据,只考虑确切数据。(损失了信息):丢弃截尾数据,只考虑确切数据。(损失了信息)
8、错误错误2:将截尾数据当作确切数据处理。(低估了生存时:将截尾数据当作确切数据处理。(低估了生存时间的平均水平)。间的平均水平)。截尾截尾(删失删失)数据或终检值数据或终检值(censored data)(censored data)第13页,本讲稿共45页两种错误的做法:两种错误的做法:错误错误1:采用平均生存时间而不是采用采用平均生存时间而不是采用中位中位生存时间生存时间来表示生存时间的平均水平。来表示生存时间的平均水平。错误错误2:采用常规采用常规t检验或方差分析进行组检验或方差分析进行组间比较。(应采用间比较。(应采用log-rank检验检验比较几组比较几组生存时间生存时间)正偏态(正
9、偏态(positive skewnesspositive skewness)数据)数据第14页,本讲稿共45页二、生存分析的统计描述指标二、生存分析的统计描述指标1.死亡概率、生存概率死亡概率、生存概率2.生存率及其标准误生存率及其标准误3.半数生存期(中位数)半数生存期(中位数)及四分位数间距及四分位数间距第15页,本讲稿共45页例例1手术治疗手术治疗60例肺癌病人,术后每年死亡例肺癌病人,术后每年死亡10例,例,无删失。试求基本生存分析指标。无删失。试求基本生存分析指标。N=60;术后 年内 年内 年初 年 死亡死亡死亡死亡生存生存(t+1)年年 年 死亡 截尾 观察 平均 率率概率概率概
10、率概率生存率生存率 数 例数 例数 例数 例数 p=1-q t d c n0 n=no-d/2 m=d/n q=d/n0(n0-d)/n0 (n0-d)/N(1)(2)(3)(4)(5)(6)(7)(8)(9)0 10 0 60 55 .181 .167 .833 .833 1 10 0 50 45 .222 .200 .800 .667 2 10 0 40 35 .286 .250 .750 .500 3 10 0 30 25 .400 .333 .667 .333 4 10 0 20 15 .667 .500 .500 .167第16页,本讲稿共45页1.死亡率、死亡概率、生存概率死亡率、
11、死亡概率、生存概率(1)死亡率死亡率(mortalityrate,deathrate)表示某单位时间内的死亡强度表示某单位时间内的死亡强度。年平均人口数年平均人口数=(年初人口数年初人口数+年末人年末人口数口数)/2第17页,本讲稿共45页(2)死亡概率死亡概率(mortalityprobability)是指单位时段开始时存活的个体到该时段结束时死是指单位时段开始时存活的个体到该时段结束时死亡的可能性,即死于某时段亡的可能性,即死于某时段tt+n内的概率内的概率。d/n0 年内有删失,分母用校正人口数:年内有删失,分母用校正人口数:校正人口数校正人口数=年初人口数年初人口数删失删失例数例数/2
12、n0c/2 第18页,本讲稿共45页(3)生存概率生存概率(survivalprobability)指某单位时段开始时存活的个体到该指某单位时段开始时存活的个体到该时段结束时仍存活的可能性的大小。时段结束时仍存活的可能性的大小。(n0-d)/n0 分子为年末尚存人数,分子为年末尚存人数,若年内有删失,分母用校正人口数。若年内有删失,分母用校正人口数。第19页,本讲稿共45页生存率生存率 (survival rate)(survival rate)(累积生存概率累积生存概率 cumulative cumulative probability of survival)probability of
13、survival)指病人经历指病人经历t t个单位时间后仍存活的个单位时间后仍存活的概率。概率。生存概率指单个时段的概率,生存概率指单个时段的概率,生存率指从生存率指从0 0t t多个时段的积累概率多个时段的积累概率。2.生存率及其标准误生存率及其标准误第20页,本讲稿共45页生存率与生存概率仅一字之差,含义却是不生存率与生存概率仅一字之差,含义却是不同的。同的。生存概率是针对单位时间而言的,生存率是生存概率是针对单位时间而言的,生存率是针对某个较长时间段的,它是生存概率的累积针对某个较长时间段的,它是生存概率的累积结果。结果。如评价肿瘤预后常用的如评价肿瘤预后常用的5年生存率,是指第年生存率
14、,是指第1年存活、第年存活、第2年也存活,年也存活,直至第,直至第5 5年仍年仍存活的累积概率,而这存活的累积概率,而这5 5年间每年间每1 1年有不同的生年有不同的生存概率。存概率。第21页,本讲稿共45页如数据中无删失,生存率可用下式计算如数据中无删失,生存率可用下式计算如果有删失数据,则需分时段计算不同单位如果有删失数据,则需分时段计算不同单位时间的生存概率时间的生存概率Pi(i=1,2,t),t),然后利用概率然后利用概率乘法原理将乘法原理将Pi相乘得到相乘得到t t时刻生存率。时刻生存率。S(t)=P(T tk)=p1 p2 pk 第22页,本讲稿共45页例如手术治疗例如手术治疗50
15、例肺癌病人,术后例肺癌病人,术后1,2,3年的年的死亡数分别为死亡数分别为10,10,10例,无截尾数据。例,无截尾数据。试求各年的试求各年的生存概率和生存概率和3年生存率。年生存率。解:解:各年生存概率各年生存概率p1=(5010)/50,p2=(4010)/40,p3=(3010)/303年生存率年生存率S(3)=P(T3)(n0-d)/N=(5030)/50=0.4000或或S(3)=p1p2p3=0.4000第23页,本讲稿共45页生存率的标准误 生存率置信区间 第24页,本讲稿共45页生存曲线 以生存时间为横轴,生存率为纵轴绘制的曲线 (a)研究终止在475天 (b)研究终止在474
16、天图12-3 乘积极限法生存曲线(阶梯形阶梯形)及其半数生存期(Md=158天)图12-4 寿命表法生存曲线(折线折线)及其半数生存期(Md=1.7年)第25页,本讲稿共45页生存曲线给我们的信息阶梯状;每一级阶梯代表一个死亡时间点阶梯状;每一级阶梯代表一个死亡时间点(在截尾时间点无阶在截尾时间点无阶梯梯);如果最大时间点是截尾则生存曲线不与曲线相交(见下;如果最大时间点是截尾则生存曲线不与曲线相交(见下图),否则与横轴相交。图),否则与横轴相交。DeathCensored第26页,本讲稿共45页MedianSurvival1.8 Years生存曲线给我们的信息第27页,本讲稿共45页3.半数
17、生存期及四分位数间距半数生存期及四分位数间距半数生存期也称中位生存期(半数生存期也称中位生存期(mediansurvivaltime),即生存时间中位数,表示恰好有即生存时间中位数,表示恰好有50%的个体活过的个体活过此时间,即生存率为时对应的生存时间(集中此时间,即生存率为时对应的生存时间(集中趋势指标)。其数值可借助生存曲线进行粗略的图表趋势指标)。其数值可借助生存曲线进行粗略的图表法估计,或用线性内插法求解精确的数值。删失数据法估计,或用线性内插法求解精确的数值。删失数据超过样本量的超过样本量的50%时,无法估计中位生存时间。此时较时,无法估计中位生存时间。此时较为实际的做法是使用生存时
18、间超过一给定时间长度的概为实际的做法是使用生存时间超过一给定时间长度的概率(如率(如3年生存率或年生存率或5年生存率)年生存率)生存期的四分位数间距生存期的四分位数间距tt,反映离散程度大小反映离散程度大小第28页,本讲稿共45页三、资料的基本要求三、资料的基本要求1.死亡例数(或死亡比例)不宜太少,否死亡例数(或死亡比例)不宜太少,否则宜出现偏性;则宜出现偏性;2.截尾原因无偏性;截尾原因无偏性;3.生存时间尽可能记录精确生存时间尽可能记录精确第29页,本讲稿共45页生存率估计生存率估计常用的两种方法常用的两种方法:1.1.乘积极限法,即乘积极限法,即kaplan-Meierkaplan-M
19、eier法法 (小样本时)(小样本时)2.2.寿命表法寿命表法 (大样本时)(大样本时)第30页,本讲稿共45页第二节小样本生存率的第二节小样本生存率的kaplan-Meier估计估计第31页,本讲稿共45页 乘乘 积积 极极 限限 法法(product-limit method)又又 称称Kaplan-Meier法法,由由Kaplan和和Meier于于1958年年提提出出,主主要要针针对对小小样样本本资资料料,也也可可用用于于大大样本,是一种非参数方法。样本,是一种非参数方法。基基本本思思想想:将将生生存存时时间间由由小小到到大大依依次次排排列列,在在每每个个死死亡亡点点上上,计计算算其其期
20、期初初人人数数、死死亡亡人人数、死亡概率、生存概率和生存率。数、死亡概率、生存概率和生存率。第32页,本讲稿共45页11名接受“手术+化疗”治疗的乳腺癌患者的生存时间:10,14,15,16+,19,19,20,20+,24,26,28序序号号时间时间(月月)死死亡亡数数删删失失数数期初例期初例数数生存概率生存概率生存率生存率标准误标准误itidiciniPi=(ni-di)/niS(ti)SE(S(ti)110101110/11=0.90910.90910.086721410109/10=0.90000.81820.11633151098/9=0.88890.72730.1343416+01
21、88/8=1.00000.72730.13435192075/7=0.71430.51950.15696201054/5=0.80000.41560.1562720+0144/4=1.00000.41560.15628241032/3=0.66670.27710.15379261021/2=0.50000.13850.124510281010/1=0.00000.0000-第33页,本讲稿共45页第34页,本讲稿共45页第35页,本讲稿共45页 (a)研究终止在475天 (b)研究终止在474天图12-3 乘积极限法生存曲线(阶梯形阶梯形)及其半数生存期(Md=158天)00第36页,本讲稿共
22、45页第三节第三节大样本生存率的寿大样本生存率的寿命表法估计命表法估计寿命表法寿命表法(life-tablemethod)的应用早于的应用早于KaplanMeier法,它是法,它是KaplanMeier法的法的近似方法近似方法(频数表法频数表法)第37页,本讲稿共45页第38页,本讲稿共45页图图12-4寿命表法生存曲线寿命表法生存曲线(折线折线)及其半数生存期(及其半数生存期(Md=1.7年)年)寿命表法只估计时段右端点的生存右端点的生存率率,省略了时段内的生存率估计 第39页,本讲稿共45页第四节第四节生存曲线比较的假设检验生存曲线比较的假设检验1.Logrank(时序时序)检验检验(也称
23、为(也称为Cox-Mantel检验)检验)2.Breslow检验检验(也称(也称Breslow广义广义Wilcoxon检验检验)第40页,本讲稿共45页21例乳腺癌患者两种疗法的生存时间(月)例乳腺癌患者两种疗法的生存时间(月)手手术术组组691315181919202224手手术术+化化疗疗组组10141516+19192020+242628第41页,本讲稿共45页序号序号时间时间单纯单纯手术手术组组手术手术加加化疗化疗组组合合计计itin1id1ic1iT1in2id2ic2iT2iNiDi1610100.476211000.5238211299100.450011000.55002013
24、108000.421111100.57891914138100.444410000.55561815147000.411810100.58821716157100.87509101.1250162716+6000.00008010.00001408186100.46157000.53851319195201.66677202.333312410203100.75005101.2500821120+2000.00004010.00006015280000.00001101.000011合计合计101006.8567119212.143319第42页,本讲稿共45页第43页,本讲稿共45页期初人数第44页,本讲稿共45页第45页,本讲稿共45页