《生存分析-cox_回归与sas应用总结.pdf》由会员分享,可在线阅读,更多相关《生存分析-cox_回归与sas应用总结.pdf(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、生存分析生存分析(Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析生存率分析或存活率分析存活率分析。生存资料特点生存资料特点:1 1 生存时间的分布一般为非正态分布生存时间的分布一般为非正态分布指数分布,对数正态分布,Weibull分布,Gamma分布,2 2 含有截尾数据含有截尾数据(censored data)censored data)截尾数据提供的信息是不完全的是否出现、何时出现结局不知道是否出现、何时出现结局不知道生存资料的分析生存资料的分析估计估计:Kapla
2、nKaplan-MeierMeier法法,寿命表法寿命表法比较比较:loglog-rankrank检验检验影响因素分析影响因素分析:CoxCox比例风险回归模型比例风险回归模型(CoxCox回归模型回归模型),是生是生存分析中最重要的模型之一存分析中最重要的模型之一。预测预测:CoxCox回归模型预测生存率回归模型预测生存率。生存资料的分析方法生存资料的分析方法描述描述-生存时间生存时间 生存率生存率 风险率风险率 非参数法非参数法-KMKM法法、寿命表寿命表(LIFETEST)(LIFETEST)参数法参数法-指数模型、Weibull模型、Gompertz模型(LIFEREG)半参数法半参数
3、法-COXCOX回归回归(PHREG)(PHREG)Cox 回归分析是生存分析的一种半参数分析方法。优点:多因素分析方法不考虑生存时间分布利用截尾数据多元线性回归多元线性回归logisticlogistic回归回归Cox回归数据类型数据类型 Y Y数值变量数值变量Y Y分类变量分类变量Y Y二分类变量二分类变量+时间时间X X数值变量、分类变量、等级变量数值变量、分类变量、等级变量模型结构模型结构Y=1x1+2x2+mxmh(t,x)=h0(t)exp(1x1+2x2+mxm)变量筛选变量筛选 前进法;后退法;逐步法前进法;后退法;逐步法参数估计参数估计 最小二乘法最小二乘法最大似然法最大似然
4、法最大似然法最大似然法参数检验参数检验 F F-testtestt t-testtest似然比检验似然比检验WaldWald检验检验scorescore检验检验似然比检验似然比检验WaldWald检验检验scorescore检验检验参数解释参数解释 回归系数回归系数b b优势比优势比ORORRR样本含量样本含量 至少变量数的至少变量数的1010倍倍至少变量数的至少变量数的2020倍倍非截尾例数至少变至少变量数的量数的1010倍倍应用应用因素分析因素分析预测预报预测预报 Y Y因素分析因素分析预测、判别预测、判别P(YP(Y1)1)因素分析因素分析生存预测生存预测S(t)S(t)Cox 回归分析
5、是生存分析的一种半参数分析方法。COX回归用于研究各种因素(称为协变量,或伴随变量等)对于生存期长短的关系,进行多因素分析。h(t,x)=h0(t)exp(1x1+2x2+mxm)X1,X2,Xm是协变量1,2,m是回归系数,由样本估计而得。I0表示该协变量是危险因素,越大使生存时间越短I0表示该协变量是保护因素,越大使生存时间越长h0(t)为基础风险函数,它是全部协变量X1,X2,Xm都为0或标准状态下的风险函数,一般是未知的。COX回归的应用:(1)因素分析分析哪些因素(协变量)对生存期的长短有显著作用。对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与生存期的长短
6、有显著关系。(2)求各因素在排除其它因素的影响后,对于死亡的相对危险度(或比数比)如某因素Xi的偏回归系数为bi,则该因素Xi对于死亡的比数比为exp(bi)当Xi为二值变量时,如转移(1=转移,0=不转移)exp(bi)为转移相对于不转移对于死亡的相对危险度(或比数比)COX回归的应用:(3)比较各因素对于生存期长短的相对重要性比较各标准化偏回归系数bi 绝对值的大小,绝对值大的对生存期长短的作用也大。(4)考察因素之间的交互作用如考察XL和XK之间的交互作用是否显著,再增加一各指标:XLK=XL*XK,如其偏回归系数bLK显著,则XL和XK之间的交互作用显著。-指标回归系数P值相对危险度-
7、肿瘤部位中段-0.7169 0.0469 0.488肿瘤部位下段-1.0077 0.0068 0.365深度0.3585 0.0007 1.431TNM分期0.1603 0.0003 1.174未分化癌0.7019 0.0385 2.018淋巴结转移数0.2703 0.0001 1.310-COX回归方程为:h(t,x)=h0(t)exp(-0.7169X3b-1.0077X3c+0.3585X4+0.1603X5+0.7019X8c+0.2703X9)侵及深度越深,TNM分期越大,淋巴结转移数越多,则生存期越短;细胞类型为未分化癌的生存期短肿瘤部位中段或下段的比上段生存期长。PHREG(pr
8、oportional harzard regression,比例风险回归)过程基于Cox比例危险模型对生存数据进行回归分析,结局变量(因变量)为生存时间,可以处理生存时间有截尾的数据。模型中的自变量可以是连续性、分类变量、时间依存的自变量。成比例风险模型检验:(最大似然法迭代)(似然比模型参数的检验:似然比、比分检验和Wald检验PHREG过程的语法格式如下:PROC PRREG 过程选项;MODEL=/模型选项;STRATA;FREQ;BY;RUN;1.【过程选项】NOPRINT 不打印输出NOSUMMARY 不打印输出事件和截尾数值SIMPLE 输出MODEL 语句中每一个说明变量的简单的
9、描述统计量。PHREG过程的语法格式如下:PROC PRREG 过程选项;MODEL=/模型选项;STRATA;FREQ;BY;RUN;2.【模型选项】TIES=估计生存率方法BRESLOW:使用Breslow的近似似然估计,为默认的选项DISCRETE:用离散Logistic模型替代比例风险模型,多用于m:n的Logistic回归EFRON:使用 Efron的近似似然EXACT 计算在比例危险假定下所有失效事件发生在具有相同值的删失时间或较大值时间之前的精确条件概率。PHREG过程的语法格式如下:PROC PRREG 过程选项;MODEL=/模型选项;STRATA;FREQ;BY;RUN;2
10、.【模型选项】ENTRYTIME=变量名,规定一个替代左截断时间的变量名。SELECTION=自变量筛选方法FORWARD/F:按规定的P值SLE从无到有依次选择变量进入模型BACKWARD/B:按规定的P值SLS从含有全部变量的模型开始,依次剔除变量STEPWISE/S:按SLE的标准依次选入变量,同时对模型中现有的变量按SLS的标准剔除不显著的变量SCORE 采用最优子集选择法PHREG过程的语法格式如下:PROC PRREG 过程选项;MODEL=/模型选项;STRATA;FREQ;BY;RUN;3.【STRATA语句】比例风险的假定可能不会对所有的层都成立,此时需要作分层分析。STRA
11、TA语句要求按照分层变量名列的水平数拟合一个多层的Cox模型。与BY语句不同,后者是要求按分组变量名列分别估计模型及参数。当省略所有的选项,并且只有一个分类自变量(分组变量)时,模型的检验相当于生存曲线的比较(log-rank 检验)。例:随访25例分别以A、B治疗方法治疗的某癌症病人,资料如下,+号表示为截尾值。1:有肾功能损害,0:无肾功能损害。proc phreg data=aa;model days*censor(1)=group renal;run;The PHREG ProcedureData Set:aa数据集名称Dependent Variable:DAYS 应变量名Censo
12、ring Variable:CENSOR 截尾指示变量Censoring Value(s):1 截尾值Ties Handling:BRESLOW BRESLOW 法处理相等的数据Summary of the Number of Event and Censored ValuesTotal Event Censored Percent Censored25 20 5 20.00总例数死亡数截尾数截尾的百分数Testing Global Null Hypothesis:BETA=0模型检验,无效假设为=0Criterion Covariates Covariates Model Chi-Squar
13、eWithout With-2 LOG L 106.176 83.260 22.916 with 2 DF(p=0.0001)似然比检验Score .29.715 with 2 DF(p=0.0001)比分检验Wald .13.863 with 2 DF(p=0.0010)Wald检验Analysis of Maximum Likelihood Estimates参数的最大似然估计Standard Wald Pr RiskVariable DF Estimate Error Chi-Square Chi-Square Ratio变量名自由度参数估计标准误参数的Wald 2检验P值相对危险度GROUP 1 0.989726 0.52355 3.57363 0.0587 2.690RENAL 1 4.112210 1.13854 13.04529 0.0003 61.082对自变量的检验结果用Wald2检验,P值分别为0.0587,0.0003。COX回归方程:h(t,x)=h0(t)*e0.989726group+4.112210renal相对危险度分别为2.690,61.082,说明B组死亡的危险为A组的2.690倍,而伴肾功能损害的死亡的危险为无肾功能损害61.082倍。