SAS统计分析.ppt-淘文阁

资源描述

《SAS统计分析.ppt》由会员分享，可在线阅读，更多相关《SAS统计分析.ppt（118页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2013.6.13,1,医学统计学,8,主讲人陶育纯,http:/ 卫生统计学第7版方积乾主编人民卫生出版社年级、专业：2010级白求恩医学班授课时间：2013年6月14日授课时数：4h,2013.6.13,3,目录,第十八章 logistic回归分析的SPSS操作,第十九章生存分析的SPSS操作,2013.6.13,4,第十八章 logistic回归分析的SPSS操作,一、非条件logistic回归, logistic回归的概念,logistic回归(logistic regression) 定义:是研究分类类型的因变量和多个自变量间依存关系的一种非线性的多重回归方法。,1个因变

2、量(分类),k个自变量(k1),非线性,2013.6.13,5,医学研究中常碰到应变量的可能取值仅有两个（即二分类变量），如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等，显然这类资料不满足多重回归的条件。若发生率P为应变量，仍用线性模型处理，则不能保证在自变量的各种组合下，P的取值仍限制在01内。 logistic回归模型成功地解决了上述问题，已成为流行病学中研究疾病发生与危险因素间关系, logistic回归的基本原理,2013.6.13,6,较常用的方法，此外在校正混杂因素、疾病预后的估计、疾病诊断等方面也可应用此方法。 logistic回归模型的基本原理如下：,2

3、013.6.13,7,由上式推导可得：,OR,2013.6.13,8,此式即为logistic回归模型。式中0为常数项,参数i为logistic回归系数。 Logistic回归参数的估计通常采用最大似然法(Maximum Likelihood，ML)。最大似然法的基本思想是先建立似然函数与对数似然函数，再通过使对数似然函数最大求解相应的参数值，所得到的估计值称为参数的最大似然估计值。,2013.6.13,9,Logistic回归参数估计的基本原理如下：,2013.6.13,10,logistic回归模型建立后，需要作假设检验。 logistic回归模型的假设检验常用方法有： 1. 似然比检验(

4、Likelihood Ratio Test),通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G（又称Deviance）。 G2(ln Lpln Lk) 样本量较大时，G近似服从自由度为待检验因素个数的2分布。,2013.6.13,11,2. 记分检验(Score Test),以未包含某个或几个变量的模型为基础，保留模型中参数的估计值，并假设新增加的参数为零，计算似然函数的一价偏导数(又称有效比分)及信息距阵，两者相乘便得比分检验的统计量S。样本量较大时，S近似服从自由度为待检验因素个数的2分布。,3. Wald检验(Wald Test),检验假设为

5、：H0: =0, H1: 0 。通过Wald统计量2i检验，2i近似服从自由度为1的2分布。,2013.6.13,12,上述三种方法中，似然比检验最可靠，记分检验一般与它相一致，但两者均要求较大的计算量；而Wald检验未考虑各因素间的综合作用，在因素间有共线性时结果不如其它两者可靠。,2013.6.13,13,2013.6.13,14,流行病学概念：设表示暴露因素X时个体发病的概率，则发病的概率与未发病的概率1- 之比为优势（odds）， logit 就是odds的对数。,2013.6.13,15,相对危险度（relative risk）: RR= 1/ 2比数（odds） : Odds=

6、/(1- )比数比（odds ratio）: OR= /(1- )/ /(1- )在患病率较小情况下，ORRR。,2013.6.13,16,Logistic回归中的常数项（ 0 ）表示，在不接触任何潜在危险保护因素条件下，效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数（ i ）表示，某一因素改变一个单位时，效应指标发生与不发生事件的概率之比的对数变化值，即OR或RR的对数值。分析因素Xi为二分类变量时，存在（暴露）Xi ，不存在（未暴露） Xi ，则Logistic回归中Xi的系数i就是暴露与非暴露优势比之对数值。即OR=exp(i )=ei 。,2013.6.

7、13,17,Logistic回归分析的一般步骤,变量的编码哑变量的设置和引入各个自变量的单因素分析自变量的筛选交互作用的引入建立多个模型选择较优的模型模型应用条件的评价输出结果的解释,2013.6.13,18,1. 变量的编码,变量的编码要易于识别注意编码的等级关系改变分类变量的编码，其分析的意义并不改变。牢记编码使用变量数值标识（value labels）记录编码内容,2013.6.13,19,变量的编码举例,变量名变量标识变量值值标识 SEX 性别 1 男 2 女 EDU 教育程度 0 文盲 1 小学 2 初中及以上,variable labels,value labels,2013

8、.6.13,20,variable labelssex 性别edu 教育程度value labelssex 1 男 2 女edu 0 文盲 1 小学程度 2 初中及以上,SPSS数据库中的变量编码,2013.6.13,21,2. 哑变量的设置和引入,哑变量，又称指示变量或设计矩阵。有利于检验等级变量各个等级间的变化是否相同。一个k分类的分类变量，可以用k-1个哑变量来表示。使用变量数值标识。,2013.6.13,22,哑变量设置举例,婚姻状况：结婚，离婚，丧偶，单身,2013.6.13,23,以单身作为参照,2013.6.13,24,SPSS中哑变量的设置（Categorical按钮）,Ind

9、icator: 默认。以第1 或最后1类作对照，其他每类与对照比较；Sample: 以第1 或最后1类作对照，其他每类与对照比较，但反映平均效应。Difference: 除第1类外各分类与其前各类平均效应比较；Helmert: 除最后1类外各分类与其前各类平均效应比较；Repeated: 除第1类外各分类与其前一类比较；Polynomial: 假设类间距相等，用于数值型变量。Deviation: 以第1 或最后1类作对照，其余每类与总效应比较。,2013.6.13,25,3. 自变量的单因素分析,了解自变量与因变量的分布检验是否符合建立模型的应用条件偏离应用条件时，进行数据变换各个自变量两组

10、间的比较计数资料计量资料双变量分析,2013.6.13,26,4. 自变量的筛选,变量筛选的可用方法逐步logistic回归：自动选择有显著性的自变量，不仅用于自变量的剔选，也用于交互作用项是否显著的判断。前进法：逐个引入模型外的变量。后退法：放入所有变量，再逐个筛选。理论上看，前进法选择变量的经验公式缺乏总体概念，当用于因素分析时，建议用后退法。当变量间有完全相关性时，后退法无法使用，可用前进法。,2013.6.13,27,5. 交互作用的引入,交互作用的定义当自变量和因变量的关系随第三个变量的变化而改变时，则存在交互作用交互作用项的引入基于临床实际认为对结果有重要影响基于模型应用条件的分

11、析引入两个自变量的乘积项交互作用的检验交互作用的解释,2013.6.13,28,6. 建立多个模型,饱和模型自定义的模型从饱和模型中选择自变量再建立模型,可以略去不看！,2013.6.13,29,7. 选择较优的模型,模型拟合优度检验AIC（Akaike information criterion）：同一资料的多个模型的比较，此值越小，模型越合适。SC（Schwartz criterion）：同上Score统计量：同上，但不包括截距项。-2logL（似然比检验，Omnibus Test）：检验全部自变量的作用是否显著。较为可靠。适用于含连续性变量的情况。模型拟合好， 2值大，P值小。Hosm

12、er-Lemeshow检验：评价估计概率和观察概率接近的程度。适用于含连续性变量的情况。模型好， 2值小，P值大。,2013.6.13,30,8. 模型应用条件的评价,残差分析残差是观察值与估计值之差。合理的logistic回归模型也可能得到不理想的残差，这在自变量是二分类变量时更易出现。增加交互作用项可能增加模型的效能。,可以做眼保操！,2013.6.13,31,9. 输出结果的解释,模型中各个系数的显著性检验Wald检验：类似于直线回归系数的t检验Wald 2检验：同上似然比检验：自变量不在模型中与在模型中的似然值比较。Score检验,2013.6.13,32,回归系数的解释系数的正负值

13、：正（负）系数表示随自变量的增加因变量logit值的增加（减少）。二分类自变量系数为比数比的对数值，由此可得比数比=eb。多分类自变量以第i类作参照，比较相邻或相隔的两个类别。连续型自变量当自变量改变一个单位时，比数比为eb。,2013.6.13,33,模型拟合的优劣自变量与结果变量（因变量）有无关系确认因变量与自变量的编码模型包含的各个自变量的临床意义由模型回归系数计算得到的各个自变量的比数比的临床意义,不看理论，看实例！,2013.6.13,34, logistic回归的实例,例6. 成组病例-对照研究。在饮酒与食道癌的病例-对照研究中,考虑到年龄可能是混杂因素，按年龄分层后资料

14、整理见下表6。,2013.6.13,35,此例若不考虑年龄的混杂作用，可以简单地估计本例饮酒与患食道癌的优势比： OR=(96665)/(104109)=5.63 此例若考虑年龄的混杂作用，则需要分层估计OR，但本例第1和第6年龄组都出现频数为0，使得这两组无法估计OR。 logistic回归模型能较好地利用所有的信息，校正混杂作用，估计排除年龄影响后饮酒与患食道癌的关系。,2013.6.13,36,SPSS分析步骤,相当重要！,1. 建立SPSS数据文件（见exp6.sav）； 2. 频数加权：Data Weight Cases Weight cases byfreq OK。 freq是频数

15、变量。 3. 分析： Analyze Regression Binary Logistic 打开Logistic Regression对话框，将Y变量(id)调入Dependent:栏中，将X1、X2变量(drink、age)调入Covariates :栏中，点击 Catergorical 按钮打开哑变量定义窗口，将age调入右侧窗口，选择First ，点击 Change Continue OK即可完成Logistic回归分析。(Method:默认选Enter）,2013.6.13,37,SPSS分析结果1,Logistic Regression,不算加权的例数,2013.6.13,38,SP

16、SS分析结果2,年龄变量的哑变量编码表,Block 0: Beginning Block,2013.6.13,39,SPSS分析结果3,只含常数项的方程,Block 1: Method = Enter,似然比检验的结果,2013.6.13,40,SPSS分析结果4,OR=Exp(B ),2013.6.13,41,此例考虑年龄的混杂作用，用logistic回归模型估计本例饮酒与患食道癌的优势比OR=5.297，比未校正年龄的5.63稍有下降，说明可能饮酒者的年龄较不饮酒者大，年龄有混杂作用。此例的logistic回归模型有统计学意义(似然比2=200.573，P0.001)，而且饮酒和年龄都是

17、影响食道癌的有统计学意义的因素(Wald检验2=77.291，P0.001和Wald检验2= 57.193，P0.001)，二者的OR值为正，故都为危险因素。,2013.6.13,42,第二十一章生存分析的SPSS操作,一、生存分析简介, 生存资料的特点,医学研究中常用死亡率或存活率来表达某事件在一定时间内终极结果的发生强度或概率。显然这是一种只考虑结果而不考虑过程的方法。,To be or not to be, that is a question.,2013.6.13,43,医学研究中常有需要考虑过程(时间)的研究，如治疗爱滋病的疗效观察，研究其能否使病人存活时间延长是主要的目的。对于

18、像肿瘤、结核及其他慢性疾病而言，其预后不是短期内所能明确判断的，这时常采取对病人进行随访(Follow Up)调查，统计一定期限后的生存时间(Survival Time)的长短以判断疗效。此外，随访资料的失访问题也使得前述只考虑结果的死亡率或存活率不准确。,2013.6.13,44, 生存分析的概念,生存分析(Survival Analysis) 定义：是将事件的结果（终点事件）和出现这一结果所经历的时间结合起来分析的一种统计分析方法。,To be or not to be is only a part of the question. The question also includes

19、how long to be.,2013.6.13,45,生存分析也可以称为用于处理以生存时间为反应变量、含有删失数据(Censored Data)一类资料的统计方法。所谓生存时间，狭义地讲是从某个标准时点起至死亡止，即患者的存活时间。例如，患有某病的病人从发病到死亡或从确诊到死亡所经历的时间。广义地说，“死亡”可定义为某研究目的“结果”的发生，如宫内节育器的失落，疾病的痊愈，女孩月经初潮的到来等（生存分析中往往统指各“死亡”为失效）。,2013.6.13,46,生存分析在医学科研中具有广泛而重要的应用价值，它对人群寿命的研究，各种慢性疾病的现场追踪研究或预后观察，临床疗效的试验、动物模型实

20、验等研究中针对随访资料的处理起着非常重要的作用。,2013.6.13,47,又称失效时间(Failure Time)。定义：终点事件与起始事件之间的时间间隔。终点事件指研究者所关心的特定结局。起始事件是反映研究对象生存过程的起始特征的事件。, 生存分析的基本术语,生存时间(Survival Time),终点事件,起始事件,生存时间,2013.6.13,48,生存时间举例起始事件终点事件服药痊愈手术切除死亡染毒死亡化疗缓解缓解复发疾病确诊死亡治疗开始死亡（痊愈）接触危险物出现反应治愈出院复发,2013.6.13,49,终点事件和起始事件是相对而言的，它们都

21、由研究目的决定，须在设计时明确规定，并在研究期间严格遵守，不能随意改变。,广义的“生存时间”也可为医疗费用（元）、医疗设备使用次数、车辆行驶总里程(公里)等。,2013.6.13,50, 生存时间数据常通过随访(Follow Up)获得。随访资料的记录项目常有：（起始与终止）随访事件生存时间（开始观察日期与终止观察日期）生存时间单位（年、月、天、小时、分、秒等）分组变量（处理方法）和其它协变量（性别、年龄、职业、文化程度等）,2013.6.13,51,随访资料举例：,月份（2002年）图5 生存时间原始记录示意 (“+”删失),天数图6 生存时间排序整理数据示意,2013.6

22、.13,52,生存时间的类型,1. 完全数据（Complete Data）从起点至死亡（死于所研究疾病）所经历的时间。 2. 删失数据（截尾数据，Censored Data）从起点至删失点所经历的时间。删失原因：失访、死于其它疾病、观察结束时病人尚存活等。,生存时间的度量单位可以是年、月、日、小时等。常用符号t表示，删失数据在其右上角标记“+”表示。,2013.6.13,53,生存时间资料的特点,2个效应变量：生存时间(天数)，结局(死亡与否、是否阳性等)删失数据：如表10中的1号和 3号病人未观察到底，不知他们究竟能活多长时间。产生结尾原因：迁移；死于其他原因；因其他客观原因中途退

23、出；预定终止结果迟迟不发生。分布类型复杂：生存时间分布常呈正偏态分布。,2013.6.13,54,二、生存分析的描述统计, 死亡概率和生存概率,(1) 死亡率 (mortality rate，death rate) 表示某单位时间内的死亡强度。,年平均人口数=(年初人口数+年末人口数)/2,2013.6.13,55, 死亡概率 (mortality probability) 指死于某时段内的可能性大小。,年内有删失，分母则用校正人口数：校正人口数= 年初人口数删失例数 / 2 = n0c/2,2013.6.13,56, 生存概率 (survival probability) 指某单位时段

24、开始时存活的个体到该时段结束时仍存活的可能性的大小。,分子为年末尚存人数，若年内有删失，分母用校正人口数（公式见前）。,2013.6.13,57, 生存率及其标准误,(1) 生存率 (survival rate, survival function) 指观察对象经历t个单位时段后仍存活的可能性。,2013.6.13,58,生存率的计算公式,1. 直接法,上式适用于无删失数据的计算，若含有删失数据，分母必须分时段校正。,2. 概率乘法定理法,S ( t ) = P (T tk ) = p1 p2 pk,上式可处理有删失数据资料的计算，对含有删失数据的pi ，可用校正人数估计。,2013.6.13

25、,59,生存率的计算实例,例8. 手术治疗60例肺癌病人，术后1，2，3年的死亡数分别为5，10，15例，无删失数据。试求各年的生存概率和逐年生存率。,各年生存概率： p1 = ( 60 5 ) / 60 = 0.9167, p2 = ( 55 10 ) / 55 = 0.8182, p3 = ( 45 15 ) / 45 = 0.6667，逐年生存率：S(1) = P(t1) = (n0-d1)/N =(60 5)/60 = 0.9167, 或 S(1) = p1 = 0.9167; S(2) = P(t2) = (n0-d2)/N =(60 15)/60 = 0.75, 或 S(2) =

26、 p1 p2 = 0.91670.81820.75; S(3) = P(t2) = (n0-d3)/N =(60 30)/60 = 0.5, 或 S(2) = p1 p2 p3 = 0.91670.81820.66670.5;,2013.6.13,60,生存概率和生存率是不同的，前者是单个时段的概率，后者是指从0t多个时段的累积概率。生存率实质是累积生存概率(cumulative probability of survival) 。,(2) 生存率的标准误 (SE of survival rate),2013.6.13,61,(3) 生存率的置信区间 (CI of survival rate)

27、, 生存曲线,生存曲线 (survival curve) 以观察（随访）时间为横轴，以生存率为纵轴，将各个时间点所对应的生存率连接在一起的曲线图。,2013.6.13,62,生存曲线的实例,例9. 某医师收集20例脑瘤患者，分别用甲、乙两疗法治疗的生存时间（周）如下，甲疗法组：1 3 3 7 10 15 15 23 30；乙疗法组：5 7+ 13 13 23 30 30+ 38 42 42 45+。试绘制生存曲线。,SPSS操作步骤,1. 建立SPSS数据文件（见exp9.sav）； 2. 绘制生存曲线： Analyze Survival Kaplan-Meier打开Kaplan-Meier对

28、话框，将“生存时间(周)”变量(t)调入Time:栏中，将“结局”变量(s)调入Status:栏中，点击 Define Event按钮打开该窗口，在 Single Value:栏中添,2013.6.13,63,入1 Continue，将“疗法”变量(grp)调入Factor:栏中，点击Options按钮打开该窗口，在Plot:栏中选择 Survival Continue OK即可完成生存曲线的绘制。,地方不够了，图在下页。,SPSS输出结果,生存曲线见图5。,2013.6.13,64,图5. 甲、乙两疗法治疗20例脑瘤患者的生存曲线,死亡,38,2013.6.13,65, 半数生存期（中位数

29、）及四分位数间距,(1)半数生存期也称中位生存期(Median survival time) 即生存时间中位数，表示50%的个体可存活的时间即生存率为50% 时对应的生存时间（集中趋势指标）。,2013.6.13,66,(2) 生存期的四分位数间距 (Quartile of survival time),生存期的四分位数间距T25 T75 ，反映生存时间的离散程度大小。,2013.6.13,67,二、生存率的估计, 乘积极限法(Kaplan-Meier法),Kaplan-Meier法由Kaplan和Meier于1958年提出，直接用概率乘法定理估计生存率，故称乘积极限法(product-li

30、mit method)，是一种非参数法，适用于小样本和大样本。基本思想：将生存时间由小到大依次排列，在每个死亡点上，计算其期初人数、死亡人数、死亡概率、生存概率和生存率。,2013.6.13,68,Kaplan-Meier法的实例,例10. 某医师收集了10例某癌症患者的生存时间(天)，分别为：110，36，30+，78，120+，16，20+，58，44，21 。试用Kaplan-Meier法估计生存率并绘制生存曲线。,SPSS操作步骤,1. 建立SPSS数据文件（见exp10.sav）； 2. 估计生存率并绘制生存曲线： Analyze Survival Kaplan-Meier打开Ka

31、plan-Meier对话框，将“生存时间(天)”变量(t)调入Time:栏中，将“结局”变量(s)调入Status:,2013.6.13,69,栏中，点击 Define Event按钮打开该窗口，在 Single Value:栏中添入1 Continue，点击Options按钮打开该窗口，在Plot:栏中选择 Survival Continue OK即可完成生存率的估计和生存曲线的绘制。,SPSS输出结果,Kaplan-Meier,3例删失,2013.6.13,70,排序,生存率的估计值,生存率的标准误,Cumulative Proportion Surviving at the Time

32、时点生存率,中位生存期,2013.6.13,71,中位生存期=58,0.5,生存曲线（阶梯）,2013.6.13,72, 寿命表法,寿命表法(life-table method)的应用早于Kaplan-Meier法，它是Kaplan-Meier法的近似方法(频数表法)。基本思想：将整个观察时间划分成许多小的时间段，对每个时间段计算所有活到某时间段起点的病例在该时段内死亡（失效）的概率。当生存资料是按固定时间间隔收集，随访结果只有每个时间段的观察人数、死亡人数和删失人数，而每个病例的确切生存时间不知道时，应该使,2013.6.13,73,用此法分析。寿命表法适合于大样本的频数表生存资料的分

33、析。注意寿命表法只估计时段右端点的生存率，省略了时段内的生存率估计。,寿命表法的实例,例11. 某研究者收集了555例女性心绞痛病人的生存时间（年）资料，见表11。试用寿命表法估计生存率并绘制生存曲线。,表11见下页。,2013.6.13,74,此资料为大样本的频数表生存资料，应用寿命表法估计生存率。,2013.6.13,75,SPSS操作步骤,1. 建立SPSS数据文件（见exp11.sav）； 2. 加权频数：Data Weight cases打开Weight cases对话框，将“期内人数”变量(number)调入Weight cases by下Frequency Variable栏中，

34、 OK ； 3. 估计生存率并绘制生存曲线：Analyze Survival Life Tables打开Life Tables对话框，将“生存年数”变量(time)调入Time:栏中，将“数据状态”变量(d)调入Status:栏中并定义死亡状态的标志值，在Display Time Intervals下0 through后添入最后时段的组中值11.5，by后添入1（即间,2013.6.13,76,隔时间），点击Options按钮打开该窗口，在Plot:栏中选择 Survival Continue OK即可完成生存率的估计和生存曲线的绘制。,SPSS输出结果,Survival Analysis,

35、别怕，不拔牙。正常警告信息。,2013.6.13,77,Survival Variable: time,中位生存期=8.779,至本组段上限的累积生存率,每组的生存概率,续,2013.6.13,78,续,生存率的标准误,风险率,概率密度,一般基本不看，因为噢！ ,2013.6.13,79,生存曲线（折线）,0.5,中位生存期=8.779,2013.6.13,80,寿命表法的生存曲线应该呈折线形，一般不宜绘成阶梯形，因两点间的生存率的变化无法掌握，故用直线连接为宜。SPSS默认是生成阶梯形，需要修改方可得到折线形的生存曲线。,三、生存曲线比较的假设检验, log-rank检验,log-rank检

36、验又称对数秩检验、时序检验，是一种非参数检验，用于比较两组或多组生存曲线或生存时间是否相同。,2013.6.13,81,log-rank检验的实例,例12. 某医师收集了符合手术治疗适应症的21例乳腺癌患者，随机分成两组，一组10例单纯接受手术治疗,另一组在手术后还接受化疗,其生存时间(月)见表12。试比较两组的总体生存率有无差别。,SPSS操作步骤,1. 建立SPSS数据文件（见exp12.sav）； 2. 生存率和生存曲线的比较： Analyze Survival Kaplan-Meier打开Kaplan-Meier对话框，将“生存时,2013.6.13,82,间(月)”变量(t)调入Ti

37、me:栏中，将“结局”变量(s)调入Status:栏中并定义死亡状态的标志值，将“疗法”变量(grp)调入Factor:栏中，点击Compare Factor按钮打开该窗口，选择Test Statistics下的 Log rank , Continue ，点击Options按钮选择 Survival Continue OK即可完成生存率比较的log-rank检验和生存曲线的绘制。,SPSS输出结果,Kaplan-Meier,2013.6.13,83,手术组的中位生存期=18.000,2013.6.13,84,中位生存期,Log rank检验结果为：2 = 2.794，P=0.0950.05。

38、故尚不能认为两种疗法下的乳腺癌患者的总体生存率有差别。,2013.6.13,85,0.5,两组生存曲线的比较,2013.6.13,86, Breslow检验,Breslow检验又称Generalized Wilcoxon检验，是一种把各时间点的例数作为权重考虑的非参数检验方法，用于比较两组或多组生存曲线或生存时间是否相同。,Breslow检验的实例,见例12.。,SPSS操作步骤,操作步骤与log-rank检验过程相同，只需在Compare,2013.6.13,87,Factor窗口内选择Test Statistics下的 Breslow即可。,Breslow检验结果为：2 = 1.840，P

39、=0.1750.05。故尚不能认为两种疗法下的乳腺癌患者的总体生存率有差别。,SPSS输出结果（主要部分）,2013.6.13,88, 生存曲线假设检验的注意事项,1. 要求各组生存曲线不能交叉，如交叉提示存在混杂因素，应采用分层分析方法或多因素方法来校正混杂因素。 2. 当假设检验有统计意义时，可从以下几方面来评价各组效应大小：生存曲线图目测判断、中位生存期比较等。,2013.6.13,89,3. log-rank检验是用于整条生存曲线或整体生存率的比较，若比较两组某时间点处的生存率，则按下式计算： 4. 当如比较多个时间点处生存率，检验水准应取Bonferroni校正，即=/k ，其中k为

40、比较的次数，以保证总的I型错误概率不超过。,2013.6.13,90,三、Cox回归分析, Cox回归模型简介,1972年由英国统计学家D.R.Cox提出的比例风险回归模型(proportional hazards regression model)是对生存资料进行多因素分析的重要方法之一。简称Cox回归模型。 Cox回归主要用于肿瘤和其它慢性病的预后分析，也可用于队列研究的病因探索，以及生存时间的影响因素的筛查。,2013.6.13,91,Cox回归的优点是不用考虑生存时间分布，可以利用删失数据，可以估计各个影响因素对风险率影响程度。,(1) Cox模型的基本形式,h(t,X)t 时刻风险函

41、数(hazard function)、风险率或瞬时死亡率。 h0(t) 基准风险函数，即所有变量都取0时, t时刻风险函数。 X1、X2、Xp 协变量、影响因素、预后因素。 1、2、p 回归系数。,2013.6.13,92,假设危险因素X在非暴露组取值为0，在暴露组取值为1，可有下式：,上式中得到的暴露组与非暴露组的危险率之比正是流行病学中的相对危险度RR，则Cox回归模型中回归系数的流行病学含义是0-1变量的相对危险度的自然对数。,OR,2013.6.13,93,0，RR1，说明变量X增加时，危险率增加，即X是危险因素。0，RR1，说明变量X增加时，危险率下降，即X是保护因素。=0，RR=1

42、，说明变量X增加时，危险率不变，即X是危险无关因素。,(2) 参数估计与假设检验,参数估计最大似然法(Maximum Likelihood method)。,2013.6.13,94,假设检验似然比检验（likelihood ratio test）得分检验（ score test） Wald检验（Wald test）,(3) 因素筛选与最优模型的建立,变量筛选方法向前引入法（前进法）Forward 向后剔除法（后退法）Backward 逐步引入-剔除法（逐步法）Stepwise,2013.6.13,95,检验水准初步的、探索性的研究，或变量数较少时，可取0.10。设计严谨的、证实性

43、的研究，或变量数较多时，可取0.05或0.01。检验水准包括引入的检验水准和剔除的检验水准。一般地，剔除引入，即严进宽出。,2013.6.13,96,(4) Cox回归分析结果的判读,寻找与生存相关的因素（即有统计学意义的）。了解因素作用大小、方向及相对危险度的大小，搞清是保护因素还是危险因素。因素作用大小的排序，比较用标准化回归系数的绝对值。个体的预后指数及预后分组：预后指数（prognostic index，PI）,2013.6.13,97,预后指数越小，预后越好；预后指数越大，预后越差。, Cox回归分析实例,例13.某医师在研究急性白血病患者的生存率时，收集了33名患者

44、的资料，按Ag阳、阴性分组（Ag阳性组17例，Ag阴性组16例），同时考察白细胞数的影响作用。具体数据见表13。试作Cox回归分析。,表13见下页。,2013.6.13,98,2013.6.13,99,SPSS操作步骤,1. 建立SPSS数据文件（见exp13.sav）； 2. Cox回归分析：Analyze Survival Cox Regression打开Cox Regression对话框，将“生存月数”变量(t)调入Time:栏中，将“结局”变量(s)调入Status:栏中并定义死亡状态的标志值1，将“Ag分组”变量(grp)和“白细胞数”变量(wbc)调入Covariates栏中，由于变量少，故Method选择Enter法，点击Categorical按钮打开该窗口，把左侧Covariates栏中的grp移入Categorical Covariates栏中（标明分类变量）， Continue ，点击Plots按钮打开该窗口，,

展开阅读全文