第六讲-常用多因素回归分析方法简介.pdf

上传人:asd****56 文档编号:69678620 上传时间:2023-01-07 格式:PDF 页数:80 大小:750.35KB
返回 下载 相关 举报
第六讲-常用多因素回归分析方法简介.pdf_第1页
第1页 / 共80页
第六讲-常用多因素回归分析方法简介.pdf_第2页
第2页 / 共80页
点击查看更多>>
资源描述

《第六讲-常用多因素回归分析方法简介.pdf》由会员分享,可在线阅读,更多相关《第六讲-常用多因素回归分析方法简介.pdf(80页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2013/9/4 1 常用多因素回归分析方法简介常用多因素回归分析方法简介 陈 雯 中山大学公共卫生学院 医学统计与流行病学系 常用多因素回归分析常用多因素回归分析方法方法 前情提要前情提要 简单线性回归(简单线性回归(10)变量数:2(X&Y)变量间的关系:依存关系 X:自变量(independent variable)Y:因变量(dependent variable)2013/9/4 2 常用多因素回归分析常用多因素回归分析方法方法 前情提要前情提要 Y随X的变化的程度:(b)X对Y影响的大小:2013/9/4 3 2R常用多因素回归分析常用多因素回归分析方法方法 2013/9/4 4 多

2、个多个X对对1个个Y的影响的影响?血压值受年龄、性别、饮食习惯、吸烟状况、家族史等的影响 Y为分类变量为分类变量?医院抢救急性心肌梗塞患者能否成功(是/否)Y:结局是否发生:结局是否发生+发生的快慢发生的快慢?两组肝癌患者治疗后复发时间(月)常用多因素回归分析方法常用多因素回归分析方法 2013/9/4 5 多重线性回归多重线性回归 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 基本概念基本概念 多重线性回归多重线性回归(multiple linear regression)是简单线性回归方法的拓展,它采用回归 方程的方式定量地描述一个因变量Y 和多 个自变量X之间的

3、线性依存关系。2013/9/4 6 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 例例11-1 某研究预分析大气污染物一氧化氮(NO)的浓度(ppm)与汽车流量(千辆)、气温()、空气湿度(%)、风速(m/s)等因素的关系。研究者选择了24个工业水平相近的城市,每个城市选择一个交通点,测量了上述资料。数据如表11-1所示。常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 2013/9/4 7 表表11-1 24个城市交通点空气中个城市交通点空气中NO浓度监测数据浓度监测数据 一氧化氮(Y)车流量(1X)气温(2X)气湿(3X)风速(4X)一氧化氮

4、(Y)车流量(1X)气温(2X)气湿(3X)风速(4X)0.066 1.300 20.0 80 0.45 0.005 0.948 22.5 69 2.00 0.076 1.444 23.0 57 0.50 0.011 1.440 21.5 79 2.40 0.001 0.786 26.5 64 1.50 0.003 1.084 28.5 59 3.00 0.170 1.652 23.0 84 0.40 0.140 1.844 26.0 73 1.00 0.156 1.756 29.5 72 0.90 0.039 1.116 35.0 92 2.80 0.120 1.754 30.0 76 0.

5、80 0.059 1.656 20.0 83 1.45 0.040 1.200 22.5 69 1.80 0.087 1.536 23.0 57 1.50 0.120 1.500 21.8 77 0.60 0.039 0.960 24.8 67 1.50 0.100 1.200 27.0 58 1.70 0.222 1.784 23.3 83 0.90 0.129 1.476 27.0 65 0.65 0.145 1.496 27.0 65 0.65 0.135 1.820 22.0 83 0.40 0.029 1.060 26.0 58 1.83 0.099 1.436 28.0 68 2.

6、00 0.099 1.436 28.0 68 2.00 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 2013/9/4 8 问题问题 单位时间内过往的汽车数(千辆)、气温()、空气湿度(%)、风速(m/s)这四个因素是否都对空气中一氧化氮(NO)的浓度(ppm)有影响?如何定量地描述这些因素对一氧化氮浓度的影响?哪个因素对一氧化氮浓度的影响最大?哪个因素的影响最小?常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 2013/9/4 9 1.1回归模型回归模型 pppxxxYXXX 22110,.,2,1|截距:所有自变量为截距:所有自变量为0时反

7、应变量时反应变量Y的的 总体平均值总体平均值。常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 偏回归系数(偏回归系数(partial regression coefficient),当方程中),当方程中其他自变量保持常量时,自变量其他自变量保持常量时,自变量Xi每增加(或减少)一个单每增加(或减少)一个单位,位,Y平均变化平均变化 个单位。个单位。i2013/9/4 10 1.2样本回归方程样本回归方程 量纲不同的两个自变量的偏回归系数可否直接比较?不能!需计算标准化偏回归系数bi(standardized partial regression coefficient)

8、自变量标准化变换(P195,公式11-3)ppXbXbXbbY.22110常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 2013/9/4 11 1.3回归系数的估计回归系数的估计 最小二乘估计(最小二乘估计(least square estimation,LSE)寻找一套适宜的偏回归系数(b0,b1,b2bp)建立多重线性回归方程,使得反应变量的观测值与回归方程的估计值之间的残差平方和最小残差平方和最小。(同“简单线性回归”)43621035.01055.6004.0116.0142.0XXXXY常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归

9、2013/9/4 12 新问题新问题 回归方程是否有意义?即在所有自变量中,是否至少存在一个自变量与Y的总体均数呈线性关系?回归方程的效果如何?也即是这四个自变量能够解释反应变量的变异的百分比是多少?四个自变量是否都对反应变量有影响?2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 13 1.4回归方程的假设检验回归方程的假设检验 0123411234=00=0.05HH:,不全为 假设检验方法:方差分析假设检验方法:方差分析 变异来源 自由度 SS MS F P 回归 4 0.064 0.016 17.59.001 残差 19 0.017 0.001

10、总 23 0.081 表表11-2 检验回归方程整体意义的方差分析表检验回归方程整体意义的方差分析表 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 14 1.5确定系数确定系数 确定系数(确定系数(coefficient of determination)缺点:缺点:回归方程增加自变量时,不管自变量对因变量的贡献大小,确定系数只增不减。总回归SSSSR2反映回归方程的效果反映回归方程的效果 R2=0.79 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 15 调整的确定系数(调整的确定系数(adjusted

11、coefficient of determination)优点:优点:方程中增加对因变量贡献很小或没贡献的自变量时,调整的确定系数不会增大,还可能变小。R2=0.79 Rad2=0.74 11111/1/1122pnnRnSSpnSSMSMSRad总残差总残差1.6调整的确定系数调整的确定系数 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 16 1.7复相关系数复相关系数 复相关系数(复相关系数(multiple correlation coefficient)随机变量Y与一组随机变量(X1、X2、X3、Xp)之间线性相关的程度。总回归SSSSR 2

12、013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 17 1.8回归系数的假设检验回归系数的假设检验 假设检验方法:假设检验方法:t 检验检验 01:0:00.05iiHH表表11-3 偏回归系数的偏回归系数的t t检验与标准化偏回归系数检验与标准化偏回归系数 变量 自由度 回归系数 标准误 t P 标准化偏 回归系数 车流量1X 1 0.116 0.027 4.23 0.0005 0.592 气温2X 1 0.004 0.002 2.36 0.0289 0.273 气湿3X 1-6.5510-6 0.001-0.01 0.9925-0.001 风速4X 1

13、-0.035 0.011-3.21 0.0050-0.448 2013/9/4 18 结论结论 车流量、气温、风速对一氧化氮浓度的影响有统计学意义,气湿的影响没有统计学意义。上述三个自变量可以解释一氧化氮浓度的约80%的变异。从标准化偏回归系数的大小发现,车流量的影响最大,其次为风速,气温。2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 19 1.9自变量的筛选自变量的筛选 筛选的统计学标准筛选的统计学标准 残差平方和(SS残差)缩小或确定系数(R2)增大 残差的均方(MS残差)缩小或调整确定系数(Rad2)增大 Cp统计量缩小 赤池信息准则(Akai

14、kes information criterion,AIC)贝叶斯信息量(Bayesian information criterion,BIC)2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 20 1.9自变量的筛选自变量的筛选 筛选的常用方法筛选的常用方法 前进法(forward regression)后退法(backward regression)逐步回归法(stepwise regression)最优子集回归法(optimum subsets regression)2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线

15、性回归 21 偏回归平方和偏回归平方和 1.9自变量的筛选自变量的筛选 模型参数估计 2R 2adR pC 残差MS Intercept 1X 2X 3X 4X 0.787 0.755 3.00.0008-0.142 0.116 0.004-0.035 0.787 0.743 5.00.0009-0.142 0.116 0.004-6.6E-6-0.035 表表11-4 两个回归模型的参数估计与统计量两个回归模型的参数估计与统计量 只需要车流量、气温和风速三个变量就可以较好地预测 空气中一氧化氮浓度。421035.0004.0116.0142.0XXXY2013/9/4 常用多因素回归分析方法

16、常用多因素回归分析方法-多重线性回归多重线性回归 22 多重线性回归分析中的自变量:多重线性回归分析中的自变量:连续型的变量(如年龄、血压等)二分类的变量(如性别)有序变量(如肿瘤的分期、疗效的分级等)无序多分类变量(如血型等)1.10哑变量的设置哑变量的设置 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 23 概念 将有序变量或无序多分类变量转换成为多个二分类多个二分类变量变量的过程常被称为“哑元化(dummying)”,得到的多个二分类变量称为“哑变量“哑变量(dummy variable)”1.10哑变量的设置哑变量的设置 2013/9/4 常

17、用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 24 例例11-3 血型是一个无序多分类变量,它的取“值”是A、B、AB、O四种,可以用3个二分类变量来描述。见表11-5:1.10哑变量的设置哑变量的设置 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 25 1.10哑变量的设置哑变量的设置 变量 血型 1X 2X 3X A 1 0 0 B 0 1 0 AB 0 0 1 O 0 0 0 表表11-5 用二分类哑变量描述血型用二分类哑变量描述血型 参考变量 二分类变量的个数二分类变量的个数=有序变量或无序分类变量的类别数有序变量或无

18、序分类变量的类别数-1 型非ABBAX103型非AAX101型非BBX1022013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 26 概念概念 如果某个自变量与因变量的线性关系随着另外一个自变量的取值的改变而改变,我们就说这两个自变量之间存在交互作用或交互效应交互作用或交互效应(interaction),又称为效应修正(effect modification)。1.11交互效应交互效应 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 27 例例11-4 某项研究调查了3334名有心脏疾患的妇女,了解血清高密度脂蛋白

19、胆固醇(HDL cholesterol,mg/dl)与体质指数(body mass index,BMI,kg/m2)的关系,考虑到是否患糖尿病(DIABETES)也是影响HDL水平的因素,因此建立了一个以体质指数、是否患糖尿病为自变量,HDL为反应变量的线性回归方程。1.11交互效应交互效应 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 28 1.11交互效应交互效应 糖尿病患者的糖尿病患者的HDL水平随水平随BMI增大而下降增大而下降 的速度比非糖尿病组的缓慢的速度比非糖尿病组的缓慢 BMI&糖尿病:交互效应糖尿病:交互效应 图图11-3 BMI和

20、和HDL的线性回归图的线性回归图 2013/9/4 29 1.11交互效应交互效应 在多重线性回归中,估计两个自变量的交互作用的 最直接的方法就是引入一个新的自变量 新的自变量=可能存在交互作用的两个自变量的乘积 一级交互作用(first-order interaction)二级交互作用(second-order interaction)2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 30 1.12多重线性回归的应用多重线性回归的应用 筛选危险因素。定量地建立一个反应变量与多个解释变量之间的线性关系。通过较易测量的变量估计不易测量的变量。通过解释变量预

21、测反应变量。通过反应变量控制解释变量。2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 31 1.13多重线性回归应用的注意事项多重线性回归应用的注意事项 前提条件(前提条件(LINE)线性(linear)独立性(independence)正态性(normal)等方差性(equal variance)2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 32 1.13多重线性回归应用的注意事项多重线性回归应用的注意事项 多重共线性多重共线性(multicollinearity)当自变量均为随机变量时,变量间高度相关。共

22、线性会导致:回归系数估计值极不稳定,重要的自变量不能进入方程 样本回归系数可大可小,可正可负,其专业意义无法解释 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 33 1.13多重线性回归应用的注意事项多重线性回归应用的注意事项 例例11-2 陈峰陈峰(1991)报告了一个实例。有报告了一个实例。有22例例胎儿受精龄胎儿受精龄(Y,周周)与胎儿外形测量指标与胎儿外形测量指标:身长身长(X1,cm),头围,头围(X2,cm),体重,体重(X3,g)的数据。的数据。计算得到回归方程:计算得到回归方程:321007.0159.2693.1012.11XXXY

23、2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 34 1.13多重线性回归应用的注意事项多重线性回归应用的注意事项 通过计算发现:头围与身长的相关系数等于0.997(P0.05)头围与体重的相关系数等于0.947(P0.05)身长与体重的相关系数等于0.944(P0.9)方差膨胀因子(variance inflation factor,VIF)(10)容忍度(tolerance)(0.25)2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 36 1.13多重线性回归应用的注意事项多重线性回归应用的注意事项 多重共

24、线性的处理多重共线性的处理 删除变量:在相关性较强的变量中删除测量误差大的、缺失数据多的、从专业上看意义不是很重要的或者在其它方面不太满意的变量。采用采用主成分回归方法、通径分析、岭回归。2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 37 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法 38 logistic回归回归 2013/9/4 38 生物医学研究领域的诸多因变量(结局指标,或称效应指标)通常是分类变量,例如,“生存或死亡”,“发病与不发病”等,并且影响因素(自变量)与其联系,更多的是非线性关系。对于这类问题,应用线性回归显然缺

25、乏合理性。问题的提出问题的提出 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 39 条件条件logistic回归回归 配对(匹配)病例配对(匹配)病例-对照研究对照研究 单自变量、多自变量 非条件非条件logistic回归(回归(logistic回归)回归)成组或非配对的匹配研究成组或非配对的匹配研究 单自变量、多自变量 2.1logistic回归回归的类型 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 40 例例18-1 非甾体抗炎药品上市前的研究中,已知非甾体抗炎药品上市前的研究中,已知可能引起亚临床上

26、消化道出血症状。因此,开展可能引起亚临床上消化道出血症状。因此,开展了大样本上市后安全性再评价,了大样本上市后安全性再评价,以确定该药品是以确定该药品是否引起上消化道出血不良反应否引起上消化道出血不良反应。回顾性调查的。回顾性调查的47136例服用该药的患者中,有例服用该药的患者中,有155例上消化道出例上消化道出血;同期没有服用该药的血;同期没有服用该药的44634例对照中,有例对照中,有96例上消化道出血,数据见表例上消化道出血,数据见表18-1。2.2单自变量单自变量logistic回归回归 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 41

27、2.2单自变量单自变量logistic回归回归 出血例数(Y=1)未出血例数(Y=0)合 计 服用该药(X=1)155(a)46 981(b)47 136(a+b)未用该药(X=0)96(c)44 538(d)44 634(c+d)常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 表表18-1 上消化道出血症状与非甾体抗炎药物的关系上消化道出血症状与非甾体抗炎药物的关系 1011P(YX)11bpab服用该药品人群中,不发生上消化道出血症状的条件概率 服用该药品人群中,发生上消化道出血症状的条件概率 1apab111P(YX)2013/9/4 42 2.2单自变量单自变量

28、logistic回归回归 优势与优势比优势与优势比 上述两个条件概率之比,称为“发生出血症状”比“不发生出血症状”的优优势(势(odds)odds1=a/b(服药)odds0=c/d(不服药)odds1与odds0之比,称优势比优势比(odds ratio,OR)/1.53ORad bc常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 1odds1100/1/1OR2013/9/4 43 2.2单自变量单自变量logistic回归回归 单自变量单自变量logistic方程方程 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 01011001logi

29、t ln()1exp()1(1)1 eexp()(1xp)xxxxxxxoddsoddsXXXPYXX2013/9/4 44 2.2单自变量单自变量logistic回归回归 参数估计参数估计 极大似然法极大似然法(maximum likelihood,ML)确定logistic回归模型 确定似然函数和对数似然函数 求似然函数或对数似然函数达到极大时参数估计值b0和b1 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 45 2.2单自变量单自变量logistic回归回归 回归系数的解释回归系数的解释 以例以例18-1 为例:为例::在未服用该药品条件下(

30、X=0),上消化道出血与不出血的对数优势 :在服用该药品条件下(X=1),上消化道出血与不出血的对数优势 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 001logit PX0100ln()111ln()12013/9/4 46 2.2单自变量单自变量logistic回归回归 回归系数的解释回归系数的解释 logistic回归系数为正值时,exp(b)大于1,危险因素 logistic回归系数为负值时,exp(b)小于1,保护因素 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 0101011101ln()exp()(1)(0)ln()ln()

31、11OROR2013/9/4 47 2.3多自变量多自变量logistic回归回归 回归方程回归方程 参数估计方法与回归系数的解释与单自变量参数估计方法与回归系数的解释与单自变量模型相同模型相同 标准化回归系数:多个量纲不同自变量标准化回归系数:多个量纲不同自变量 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 ppXXP.)(logit1102013/9/4 48 2.4回归系数的假设检验回归系数的假设检验 检验假设:检验假设:常用检验方法常用检验方法 似然比检验(likelihood ratio test)Wald检验 记分检验(score test)常用多因素回归

32、分析方法常用多因素回归分析方法-logistic回归回归 01:0;:0HH2013/9/4 49 2.4回归系数的假设检验回归系数的假设检验 似然比检验似然比检验(likelihood ratio test)对数似然函数值(lnL)反映模型拟合资料的好坏 大样本条件下-2lnL近似服从自由度 的 分布,p:模型的自变量个数 似然比统计量:G=-2lnL-(-2lnL)常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 1pN22013/9/4 50 2.4回归系数的假设检验回归系数的假设检验 Wald检验:检验:常用多因素回归分析方法常用多因素回归分析方法-logisti

33、c回归回归 22)(iiiSEi :第i个回归系数估计值 SE:回归系数估计值的标准误 2013/9/4 51 2.4回归系数的假设检验回归系数的假设检验 记分检验记分检验(score test):score=S(COV)S S:列向量,对数似然函数的一阶偏导数值 S:行向量 COV是模型的方差协方差矩阵 大样本,记分统计量服从2分布 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 52 2.4回归系数的假设检验回归系数的假设检验 常用检验方法的选择常用检验方法的选择 大样本:三种方法得到的结果一致的 小样本:似然比检验,结果相对也比较可靠 记分检验,

34、比较敏感 Wald检验,偏保守 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 53 2.5回归模型的拟合优度回归模型的拟合优度 检验假设:检验假设:H0:模型拟合观察资料 H1:模型不拟合观察资料 常用检验方法常用检验方法 似然比检验(likelihood ratio test)Hosmer-Lemeshow检验 Cox&Snell R2系数 Nagelkerke R2系数 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 54 2.6条件条件logistic回归回归 混杂是生物医学研究中最为棘手的问题之一。在

35、设计阶段,采用配对(匹配)方法对可能的混杂因素加以控制,有助于提高研究效率和可靠性。该类设计资料的分析:条件logistic回归 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 55 2.6条件条件logistic回归回归 例例28.4(1:1配对病例对照研究)某市调查三种生活因素与胃癌发病的关系,设计时采用配对病例对照形式,按每一个病例的性别、年龄和居住地选取一个健康对照。调查的三种生活因素取值见表28.7,共调查50对病例与对照,具体资料见表28.8。常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 56 2

36、.6条件条件logistic回归回归 变量名 取值范围 不良饮食习惯(X1)0,1,2,3,4 表示程度(0 表示无,4 表示很多)喜吃卤食和盐渍食物(X2)0,1,2,3,4 表示程度(0 表示不吃,4 表示非常喜欢吃)精神状况(X3)0 表示差,1表示好 表表28.7 三种生活因素的取值三种生活因素的取值 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 57 表表28.8 50对胃癌病例与对照三种生活因素调查结果对胃癌病例与对照三种生活因素调查结果 病例 对照 病例 对照 no X1 X2 X3 X1 X2 X3 no X1 X2 X3 X1 X2

37、 X3 1 2 4 0 3 1 0 26 2 2 0 1 1 0 2 3 2 1 0 1 0 27 2 0 1 0 2 1 3 3 0 0 2 0 1 28 1 1 1 3 0 1 4 3 0 0 2 0 1 29 2 0 1 3 0 0 5 3 0 1 0 0 0 30 3 1 0 0 2 1 6 2 2 0 0 1 0 31 1 0 1 0 0 0 7 3 1 0 2 1 0 32 3 2 1 1 0 1 8 3 0 0 2 0 0 33 3 0 1 2 0 1 9 2 2 0 1 0 1 34 2 0 1 0 0 1 10 1 0 0 2 0 0 35 1 2 0 2 0 1 11 3

38、0 0 0 1 1 36 2 0 0 2 0 1 12 3 4 0 3 2 0 37 0 1 1 1 1 0 13 1 1 1 2 0 0 38 0 0 1 3 0 0 14 2 2 1 0 2 1 39 3 0 1 0 1 0 15 2 3 0 2 0 0 40 2 0 1 3 0 1 16 2 4 1 0 0 1 41 2 0 0 1 0 1 17 1 1 0 0 1 1 42 3 0 1 0 0 1 18 1 3 1 0 0 1 43 2 1 1 0 0 0 19 3 4 1 2 0 0 44 2 0 1 1 0 0 20 0 2 0 0 0 0 45 1 1 1 0 0 1 21 3

39、2 1 3 1 0 46 0 1 1 0 0 0 22 1 0 0 2 0 1 47 2 1 0 0 0 0 23 3 0 0 2 2 0 48 2 0 1 1 1 0 24 1 1 1 0 1 1 49 1 2 1 0 0 1 25 1 2 0 2 0 0 50 2 0 1 0 3 1 2013/9/4 58 2.6条件条件logistic回归回归 病历对照研究中,每一对内的病例与对照可比,对子间病例与对照无可比性 记第i对中的病例为A,对照为B Y=1表示得病,Y=0表示未得病 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 59 2.6条件条件l

40、ogistic回归回归 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 )(exp11)(BAXXAP一对中只有一人得病得病病例和对照两者之一都可能得病的条件下病例得病例和对照两者之一都可能得病的条件下病例得病的条件概率:病的条件概率:条件条件logistic回归回归 同一层病例和对照的基线患病(发病)概率相同一层病例和对照的基线患病(发病)概率相同,回归模型无常数项同,回归模型无常数项 2013/9/4 60 2.8logistic回归模型的应用回归模型的应用 筛选危险因素筛选危险因素 研究医院抢救急性心肌梗塞(AMI)患者能否成功的危险因素 校正混杂因素校正混杂因素

41、 研究吸烟行为与性别的联系及其强度,年龄极可能是混杂因素,也引入回归方程 预测与判别预测与判别 临床判别诊断和流行病学筛检危险人群(条件logistic回归模型不能用于预测)常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 61 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法 62 Cox回归回归 2013/9/4 62 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-Cox回归回归 63 Cox回归与回归与logistic回归的区别回归的区别 因变量因变量Y:Logistic回归:分类变量(结局)回归:分类变量(结局)C

42、ox回归:结局回归:结局 出现结局所经历的时间长短(生存时间)出现结局所经历的时间长短(生存时间)2013/9/4 63 3.1生存分析的基本概念生存分析的基本概念 结局事件,又称失效(failure)生存时间(survival time),又称失效时间(failure time)从规定的观察起点到某一给定终点事件出现的时间 完全数据(complete data):起点至结局所经历的时间 删失数据(censored data)由于失访、改变防治方案、研究工作结束等情况,使得部分病人不能随访到底,称之为删失。从起点至删失点所经历的时间,称为删失数据。常用多因素回归分析方法常用多因素回归分析方法-

43、Cox回归回归 2013/9/4 64 id 年龄 瘤大小 复发 手术日期 终止观察日期 生存时间 生存结局 1 62 1 0 01/10/1996 11/20/2000 59 0 2 64 1 0 03/05/1996 08/12/2000 54 1 3 52 2 1 04/09/1996 12/03/1999 44 0 4 60 1 0 06/06/1996 10/27/2000 53 0 5 59 2 0 07/20/1996 06/21/1998 23 1 6 59 1 1 08/19/1996 09/10/1999 37 1 7 63 1 0 09/16/1996 10/20/200

44、0 50 1 8 62 1 0 09/20/1996 09/18/1999 36 1 9 50 1 0 09/26/1996 03/22/1999 30 1 10 26 1 1 11/04/1996 05/25/2000 43 1 30 54 3 1 03/10/2000 09/20/2000 6 1 3.1生存分析的基本概念生存分析的基本概念 常用多因素回归分析方法常用多因素回归分析方法-Cox回归回归 表表19-2 30例膀胱肿瘤患者生存资料原始记录表例膀胱肿瘤患者生存资料原始记录表 2013/9/4 65 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-Cox回归回归 6

45、6 生存率(生存率(survival rate)观察对象经历t个单位时段后仍存活的可能性 若无删失数据:若有删失数据,须分时段计算生存概率:pi(i=1,2,k)为各分时段的生存概率 3.1生存分析的基本概念生存分析的基本概念 观察总例数时刻仍存活的例数ttTPtS)()(kkkkkptSppptTPtS)()()(1212013/9/4 66 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-Cox回归回归 67 估计方法(非参数)估计方法(非参数)寿命表法寿命表法 大样本或粗略的生存时间资料 Kaplan-Meier(K-M)法法 小样本或大样本且有精确生存时间的资料 3.2

46、生存率估计生存率估计 2013/9/4 67 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-Cox回归回归 68 图图19-2 肿瘤肿瘤3.0cm组和肿瘤组和肿瘤3.0cm组组生存曲线生存曲线(K-M法)法)中位生存期:生存率为50时对应的生存时间 中位生存期:生存率为中位生存期:生存率为50时对应的生存时间时对应的生存时间 2013/9/4 68 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-Cox回归回归 69 比较方法(充分利用生存时间,非参数)比较方法(充分利用生存时间,非参数)log-rank检验检验 检验假设 H0:,即两条总体生存曲线相同 H1

47、:,即两条总体生存曲线不同 检验统计量 3.3生存曲线比较生存曲线比较)()(21tStS)()(21tStSggigiVTd22)(实际死亡数实际死亡数 理论死亡数理论死亡数 2013/9/4 69 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-Cox回归回归 70 比较方法比较方法 Breslow检验检验 检验假设:同log-rank检验 检验统计量 3.3生存曲线比较生存曲线比较 ggigiiVTdw22)(权重权重=t时刻前的生存人数时刻前的生存人数 Breslow:对近期差异敏感 log-rank:对远期差异敏感 2013/9/4 70 2013/9/4 常用多因素

48、回归分析方法常用多因素回归分析方法-Cox回归回归 71 Log-rank,Breslow检验检验:单因素分析单因素分析 生存率的各混杂因素在组间不均衡可比生存率的各混杂因素在组间不均衡可比?Cox比例风险回归模型比例风险回归模型(Cox回归回归)(Cox proportional hazards regression model)3.4Cox回归回归 2013/9/4 71 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-Cox回归回归 72 3.4Cox回归模型回归模型)exp()()(22110ppXXXthth协变量或影响因素协变量或影响因素 基准风险函数基准风险函数(

49、baseline hazard)风险函数风险函数 半参数模型(半参数模型(semi-parametric model)2013/9/4 72 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-Cox回归回归 73 3.5回归系数的解释回归系数的解释 0112201122()exp(+)()()()exp(+)+)ppijpph tXXXh th th tXXX风险比(风险比(risk ratio)或相对危险度)或相对危险度(relative risk,RR)exp()i在其它协变量不变条件下,变量在其它协变量不变条件下,变量Xi每增加每增加一个单位所引起的相对危险度一个单位所引起

50、的相对危险度 2013/9/4 73 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-Cox回归回归 74 3.6回归系数的估计与检验回归系数的估计与检验 估计方法估计方法 部分似然函数法(partial likelihood)检验方法检验方法 Score检验 Wald检验和 似然比检验 2013/9/4 74 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-Cox回归回归 75 3.7Cox回归分析的应用回归分析的应用 影响因素分析影响因素分析 膀胱肿瘤患者生存时间的影响因素:肿瘤大小、分级、是否复发、患者年龄 变量 )(SE Wald2 P RR CIRR%

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁