《生存分析的概念.doc》由会员分享,可在线阅读,更多相关《生存分析的概念.doc(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除生存分析课程总结院 (系) 统计学院 专 业 统计学 班 级 经济分析2班 学 号 32009121304 姓 名 吕嘉琦 第一章 绪论一、生存分析的概念:将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。研究生存现象和响应时间数据及其统计规律的一门学科。对一个或多个非负随机变量(生存时间)进行统计分析研究。对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法。在综合考虑相关因素(内因和外因)的基础上,对涉及生物学、医学(临床、流行病)、工程(可靠性)、保险精算学、公共卫生学、社会学和人口学(老龄问
2、题、犯罪、婚姻)、经济学(市场学)等领域中,与事件(死亡,疾病发生、发展和缓解,失效,状态持续)发生的时间(也叫寿命、存活时间或失效时间,统称生存时间)有关的问题提供相关的统计规律的分析与推断方法的学科。二、“生存时间”(Survival Time)的概念 生存时间也叫寿命、存活时间、失效时间等等。医学:疾病发生时间、治疗后疾病复发时间可靠性工程系:元件或系统失效时间犯罪学:重罪犯人的假释时间 社会学:首次婚姻持续时间人口学:母乳喂养新生儿断奶时间经济学:经济危机爆发时间、发行债券的违约时间保险精算学:保险人的索赔时间、保险公司某一索赔中所付保费汽车工业:汽车车轮转数 市场学中:报纸和杂志的篇
3、幅和订阅费三、生存分析的应用领域:社会学,保险学,医学,生物学,人口学,医学,经济学,可靠性工程学等四、生存分析的“别名”:生存分析(Survival analysis),事件时间分析(time-to-event analysis),事件历史分析(event history analysis),失效时间分析(工程学)(failure time analysis),可靠性分析(reliability analysis)。五、生存分析的历史生存分析方法最早可上溯至十九世纪的死亡寿命表。现代的生存分析则开始于二十世纪三十年代工业科学中的相关应用。二次世界大战:武器装备的可靠性研究,这一研究兴趣延续到
4、战后。此时生存分析都集中在参数模型。 二十世纪六七十年代:医学研究中大量临床试验的出现,要求方法学有新的突破,导致了生存分析的研究开始转向非参数方法。D.R. Cox在72年提出的比例风险模型为此做出了划时代的贡献。现在,生存分析方法的在医学领域得到了广泛的应用,而通过医学研究要求的不断提高,这一方法也得到了飞速的发展。六、生存分析研究的目的1、描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线。统计方法包括Kaplan-Meier(K-M)法、寿命表法。2、比较:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。统计方法log-rank检验
5、等。3、影响因素分析:研究某个或某些因素对生存率或生存时间的影响作用。如为改善脑瘤病人的预后,应了解影响病人预后的主要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。统计方法Cox比例风险回归模型等。4、预测:建立Cox回归预测模型。主要研究内容描述生存过程:研究人群生存状态的规律,研究生存率曲线的变动趋势,是人寿保险业的基础。生存过程影响因素分析及结局预测:识别与反应、生存及疾病等相关风险因素,预测生存结局,在临床中应用的非常广泛。七、主要分析方法1、参数法方法:首先要求观察的生存时间t 服从某一特定的分布,采用估计分布中参数的方法获得生存率的估计值。生存时间的分布可能为指数分布、W
6、eibull分布、对数正态分布等,这些分布曲线都有相应的生存率函数形式。只需求得相应参数的估计值,即可获得生存率的估计值和生存曲线。2、非参数方法:实际工作中,多数生存时间的分布不符合上述所指的分布,就不宜用参数法进行分析,应当用非参数法。这类方法的检验假设与以往所学的非参数法一样,假设两组或多组的总体生存率曲线分布相同,而不论总体的分布形式和参数如何。非参数法是随访资料的常用分析方法。3、半参数方法:只规定了影响因素和生存状况间的关系,但是没有对时间(和风险函数)的分布情况加以限定。这种方法主要用于分析生存率的影响因素,属多因素分析方法,其典型方法是Cox比例风险模型。4、几种常用的统计软件
7、:SAS,SPSS,Stata,Excel,R 第二章 数据类型一、完全数据(Complete data)每个个体确切的生产时间都是知道的。这样的数据称为完全数据(Complete data)。但在实际的生存分析中,数据在很多情况下是很难完全观察到的。二、删失(Censoring )生存数据一个重要的特点是:在研究结束时,无法获得某些个体确切的生存时间。例如:失去联系(病人搬走,电话号码改变),无法观察到结局(死于其他原因),研究截止,个体仍然存活在这些情况下获得的数据就是删失数据(Censored data)。对存在删失的个体,只知道删失时间(Censoring time)。删失分为右删失(
8、Right censoring)、左删失(Left censoring)和区间删失(Interval censoring)1、右删失(Right censoring)。在进行观察或调查时,一个个体的确切生存时间不知道,而只知道其生存时间大于时间L,则称该个体的生存时间在L上是右删失的,并称L为右删失数据(Right-censored data)。右删失有三种类型(按结束时间差别):I型删失(Type I censoring)、II型删失(Type II censoring)和III型删失(Type III censoring)。(1)I型删失(Type I censoring):对所有个体的观
9、察停止在一个固定的时间,这种删失即为I型删失(或定时删失)。例如:动物研究通常是以有固定数目的动物接受一种或多种处理开始,由于时间和费用的限制,研究者常常不能等到所有动物死亡。一种选择就是在一个固定时间周期内观察,在截止时间之后仍可能有些动物活着,但不继续观察了。这些动物的生存时间是不知道的,只知其不小于研究周期时间。I型删失的删失时间是固定的。图表 1 I型删失示例(2)II型删失(Type II censoring):同时对n个个体进行观察,一直到有一固定数目(r n)的个体死亡(失效)为止,这种删失即为II型删失。II型删失的删失时间是随机的。图表 2 II型删失示例(3)III型删失(
10、Type III censoring):所有个体在不同时间进入研究,某些个体在研究结束之前死亡,他们的确切生存时间是知道的,其他个体在研究结束之前退出研究而不被跟踪观察或在研究结束时仍然活着。进入研究的时间可能不同,删失时间也可能不同,这种删失叫做III型删失,又称为随机删失(Random censoring)。图表 3 III型删失示例2、左删失(Left censoring)研究对象在时刻开始接受观察,而在此之前我们感兴趣的时间已经发生,这就是左删失。例如:“您初次吸食大麻是在什么时候?” 有一种回答:“我吸食过,但我不记得吸食的具体时间了。”这些回答的吸食时间数据就是左删失。通过测试确定
11、儿童学会完成特定任务的年龄,有些儿童在进入研究前就已经可以完成某项特定任务,这些儿童的事件发生时间也是左删失。出现左删失同时,也可能出现右删失,称为双删失(Double censoring)。例如:对吸食大麻的问卷还有一种回答:“我从来没有吸食过”,这样的数据就是右删失。3、区间删失(Interval censoring):若个体的确切生存时间不知道,只知道其生存时间在两个观察时间 L和R之间(LR),则称该个体的生存时间在L,R上是区间删失的。实际工作中,凡是不能或者不愿作连续监测时就会遇到这样的区间删失。区间删失分两种:第一类区间删失(Case I Interval censoring)和
12、第二类区间删失(Case II Interval censoring)。当对个体只进行一次观察,且个体的确切生存时间不知道,只知道其生存时间是否大于观察时间(即或),这种删失称为第一类区间删失,也称为现实状况数据(Current data)。当对个体进行次观察,其观察时间L和R 满足时,这种删失称为第二类区间删失,也称为一般区间删失。如果初始时间(如艾滋病感染时间)和发生时间均为区间删失,则称生存时间为双重区间删失(Double interval censoring)。三、截断(Truncation)在研究或者观测中,淘汰了一些对象(样本),使得研究者“意识不到他们的存在”。对截断数据的分析构
13、造似然采用条件分布。截断包括两种:左截断(Left truncation)和右截断(Right truncation)。1、左截断(Left Truncation):只有个体经历某种初始事件以后才能观察到其生存时间,称为左截断(Left truncation),此时获得的数据称为左截断数据(Left-truncated data)例如:暴露于某疾病、发生死亡前的中间事件等。退休中心老年居民死亡时间(没到年龄没有进入观测)左截断与左删失的区别:在左截断的研究中,根本没有考虑那些在进入研究之前已经经历了感兴趣时间的个体,而在左删失的研究中,我们能获得这些个体的部分信息。即有左截断又存在右删失的情况
14、,称为左截断右删失(Left-truncation and right-censoring)2、右截断(Right Truncation)只有经历了某种终止事件才能观察到生存时间(将要经历该事件的个体不包含在实验样本中),称为右截断(Right truncation),此时获得的数据称为右截断数据(Right-truncated data)。例如:对艾滋病感染和发病时间观测数据,有些个体感染病毒但尚未发病,这样的个体不在样本范围之内。3、截断的数学表示设Y是一个非负的表示生存时间的随机变量;T是另外一个表示截断时间的随机变量。在左截断下,只有当时,才能观察到T和Y;在左截断下,只有当时,才能观
15、察到T和Y。第三章 基本函数和模型一、生存函数(Survival Function)描述生存时间统计特征的基本函数,也叫生存率(Survival Rate) :设T 表示生存时间,F(t)为T 分布函数,生存函数定义为:生存函数性质:非增函数。满足当生存时间为连续型随机变量时:生存函数的图像叫做生存曲线(Survival Curve),如下图:陡峭的生存曲线表示较低的生产率或较短的生存时间;平缓的生存曲线表示较高的生存率或较长的生存时间。离散生存时间产生于舍入操作将失效(或死亡)时间分组从区间和寿命用整数计量等。离散时间生存函数是非增的阶梯函数,当T 取值为,且,离散时间生存函数是非增的阶梯函
16、数二、危险率函数(Hazard Function):危险率函数:描述观察个体在某时刻存活条件下,在以后的单位时间内死亡的(条件)概率:当T 连续 ;当T 离散,取值为,则处的危险率为危险率函数在工程上叫做失效率函数或损坏函数,在生存分析和医学统计中又称为风险率函数或瞬时死亡率(Simultaneous death rate)、或死亡强度(Death intensity)、或条件死亡率(Conditional death rate)、或年龄死亡率(Age death rate)等。常见风险函数曲线三、累积风险函数(Cumulative Hazard Function)累积危险率函数:当T 连续,
17、当T 离散时,危险率函数有两种定义形式:如果的值很小,两种定义形式的值接近四、平均剩余寿命函数(Expected residual life)平均剩余寿命函数定义为:为平均寿命。五、常用的参数模型生存时间的分布一般不呈正态分布。常用的分布有:指数分布、威布尔(Weibull)分布、伽玛(Gamma)分布、对数罗吉斯蒂(logistic)分布、对数正态分布。1、指数分布生存函数形式为:密度函数为:危险率函数为:指数分布的一个重要性质:无记忆性(某事件的发生时间与历史记录无关),即2、威布尔(Weibull)分布生存函数形式为:其中是尺度参数,是形状参数,时为指数分布。危险率函数为:适用于危险率递
18、增(取)、递减(取)和为常数(取)等各种情形。3、伽玛(Gamma)分布生存函数:其中称为伽玛函数。第四章 生存数据基本特征的非参数估计一、生存函数的估计假设事件发生在D个严格区分的时间点上:在无删失条件下:二、右删失生存函数的估计:存在右删失下:三、乘积限(product-limit)估计乘积限估计又称Kaplan-Meier估计阶梯函数,在观察时间点上发生跳跃;跳跃的高度与上发生的事件数和前删失数有关;超出观测上限的时间没有给出很好的估计。四、乘积限估计尾部修正Efron(1967)建议最大观察时间点以后的生存函数等于0,即等价于假定最大时间点上的生存者马上就会死亡。(负偏估计)Gill(
19、1980)建议最大观察时间点以后的生存函数,即假设最大时间点上的生存者永远不会死。(正偏估计)Brown、Hollander 和 Kowar(1974)建议尾部估计为一条指数曲线,即五、乘积限估计的方差Greenwood估计式:六、生存函数点估计的置信区间利用渐进正态性的线性置信区间:其他变换形式的非线性置信区间对数变换 反正弦平方根七、累积死亡率的估计无删失条件下危险率函数的估计:有删失条件下累计死亡率估计:1.直接利用累积死亡率与生存函数的关系:2.Nelson-Aalen估计为 方差为:具有更好的小样本性质Nelson-Aalen估计的应用1)用于选择事件发生时间的参数模型2)为危险率提
20、供粗估计(对估计进行核平滑后计算斜率)八、累积死亡力函数的置信区间线性置信区间:其他变换形式的非线性置信区间对数变换区间 反正弦平方根变化区间注:1、乘积限估计和Nelson-Aalen估计都是建立在非信息删失(non-informative censoring)假设下2、乘积限估计的尾部估计:a)取0;b)取最大观测点的值;c)构造指数曲线3、无删失时,乘积限估计即为经验生存函数九、生命时间均值的估计平均生存时间:估计式为:方差为:十、左截断右删失数据生存函数的估计只有生存到某时刻之后才能进入观察乘积限估计(独立截断下是最大似然估计)(为条件估计)Lai和Ying(1991)修正乘积限估计:
21、 (当风险集较小时忽略此处的死亡) I为指数函数;n为样本大小;为常数。十一、左删失数据生存函数估计利用“时间倒转法”:即不是从原点处测量时间,而是从很大的一个时间倒着从相反的方向测量,用时间减去原始时间,得到右删失数据结构,利用乘积限估计式估计纯粹左删失情况很少见。十二、同时存在左、右删失情况设为观察时间点, 表示时的死亡数,表示时的右删失数,表示时的左删失数,则生存函数的迭代估计步骤为:步骤0:忽略左删失获得乘积限估计作为的初始估计;步骤(K+1)1:使用S的当前估计值通过估计步骤(K+1)2:使用上一步骤的结果,估计在时发生的事件数为步骤(K+1)3: 使用上一步修正后的右删失数据,仍然
22、忽略左删失计算乘积限估计。如果这一估计在所有处都有接近,则停止迭代,否则继续步骤1。十三、右截断数据生成函数的估计传染病的研究中比较常见。设代表第个个体被传染的时间,是从感染到发病的时间。研究样本包含从0到期间病人的观测值.(只有在时间之前发病的人才进入研究)。利用颠倒时间轴法:令则变为左截断的,便可构造的乘积限估计式。十四、生命表中生存函数的估计生命表(也称寿命表,life table)方法是测定死亡率和描述群体生存现象的最古老的技术之一。主要用于保险精算、人口学、医学等方面。一组(大规模)个体在整个考察时间上被连续观察,它们的事件发生时间或删失时间被记入 个相邻但不重叠的区间内 根据生命表
23、方法应用的范围不同,可分为人口生命表和临床生命表,分析方法相似。生命表方法数据假设(1)独立删失:假定删失的事件时间(包括损失和退出)与它们如果一直被观察到事件发生所得到的死亡时间是独立的。(2)假定删失时间和死亡时间是均匀分布在每个区间上的。(3)假定死亡力在区间内是常数。生命表的构造方法1. 第一列给出相邻但不重叠的固定区间事件发生时间和删失时间将落入且只落入其中的一个区间。2. 第二列给出进入第个区间的对象数,这些个体还没有经历观察事件的发生。3. 第三列给出在第个区间中失去踪迹(死亡)或活着退出观察(迁出)的个体数4. 第四列给出在第个区间中,面临观察事件风险的暴露数的一个估计值,假设
24、删失时间在区间上是均匀分布的,则5. 第五列是在第个区间中发生观察事件(如死亡)的个体数6. 第六列给出在第个区间起点处的生存函数的估计对于第一个区间,且生命表分析的主要任务就是估计,基本思想:乘积限方法。7. 第七列给出估计的第个区间中点处的概率密度函数,其中它表示在第个区间上单位时间内发生观察事件的概率,即8. 第八列给出在第个区间中点处估计的危险率,由 有也可以定义为每个个体单位时间的时间发生率 注:最后一个区间在理论上是无限的,所以没有任何危险或概率密度函数的估计。9. 第九列是第个区间起点生存函数标准差的估计值,Greenwood(1976)将其定义为: 其中的估计的标准差为0 其形
25、式与乘积限估计式的标准差估计一样。10. 第十列给出在第个区间中点处概率密度函数标注差的估计值,它近似等于11. 生命表的最后一列给出了第个区间中点处危险率函数的标准差的估计,它近似等于第五章 相对风险回归模型一、Cox相对风险模型设成为相对风险。为基准风险函数。为协变量。二、相对风险回归模型(Cox模型)取即得Cox model,其中:为协变量和的函数为未知的回归参数 Relative risk model(Cox model)为参数部分为未知参数为非参数部分,未知基准函数,因此,相对风险模型为半参数模型。在Cox模型下:生存时间的分布函数为三、几个简单示例1. 最简单模型:2.相对风险与时间有关的例子3. 考虑术后风险因素4. 当存在多个协变量时,即可以涉及基本协变量、各个协变量间的交互及协变量与时间函数的交互。四、比例风险模型当时,即协变量不依赖时间变化,此时为常数。故称为比例风险模型(Proprotional hazards model)在比例风险模型下:五、相对风险模型参数估计基本方法:偏似然(partial likelihood)偏似然的定义:偏似然的性质1、 偏似然不是一般意义下的似然,没有直观的概率、条件概率或边缘概率的解释。2、 在很多情况下,可以类似似然函数使用。如与大样本相关估计相关的性质。【精品文档】第 13 页