《第18章 logistic回归分析.ppt》由会员分享,可在线阅读,更多相关《第18章 logistic回归分析.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十八章第十八章 logistic回归分析回归分析(logisticregression)1例18-1 在研究医院抢救急性心肌梗塞(AMI)患者能否成功的危险因素调查中,某医院收集了5年中该医院所有的AMI患者,共200例,研究危险因素为X1(抢救前是否休克);X2(抢救前是否心衰);X3(抢救前是否超过12小时)等。研究目的:分析影响抢救成功的主要因素。2P=0(抢救成功)抢救成功)P=1(抢救不成功)抢救不成功)X1X2X3NX1X2X3N000350004001340011001017010401119011151001710061016101911061106111611163 医学研
2、究中常碰到应变量应变量的可能取值仅有两个(即二分类变量二分类变量)或多个,如生存与死亡、发病与未发病、阳性与阴性、治愈与未治愈、暴露与未暴露等.而而我我们们在在研研究究中中,又又经经常常要要分分析析应应变变量量结结果果的的产产生生与与哪哪些些因因素素有有关关。例例如如:生生存存与与死死亡亡,发发病病与与未未发发病病,阴阴性性与与阳阳性性等等结结果果的的产产生生可可能能与与病病人人的的年年龄龄、性性别别、生生活活习习惯、体质、遗传等许多因素有关惯、体质、遗传等许多因素有关。5 如何找出其中哪些因素对结果的产生有显著性影响呢?显然这类资料不满足多重线性回归的条件。Logistic回归分析能较好地解
3、决这类问题。目的:目的:作出以多个自变量(危险因素)估计作出以多个自变量(危险因素)估计应变量(应变量(结果因素)结果因素)的的logistic回归方程。回归方程。资料:资料:1.应变量为反映某现象发生与不发生应变量为反映某现象发生与不发生的二值变量;的二值变量;2.自变量宜全部或大部分为分自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数类变量,可有少数数值变量。分类变量要数量化。量化。7例18-1 在研究医院抢救急性心肌梗塞(AMI)患者能否成功的危险因素调查中,某医院收集了5年中该医院所有的AMI患者,共200例,研究危险因素为X1(抢救前是否休克);X2(抢救前是否心衰);
4、X1(抢救前是否超过12小时)等。研究目的:分析影响抢救成功的主要因素。8P=0(抢救成功)抢救成功)P=1(抢救不成功)抢救不成功)X1X2X3NX1X2X3N000350004001340011001017010401119011151001710061016101911061106111611169用途:用途:研究某种疾病或现象发生和多个危研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系。险因素(或保护因子)的数量关系。单因素单因素 用用 检验的检验的局限性局限性:只能研究只能研究1个危险因素个危险因素;只能够定性。只能够定性。卡方检验10outlineLogistic回归
5、模型的基本结构与建立回归模型的基本结构与建立条件条件logistic回归回归Logistic回归的应用与注意事项回归的应用与注意事项11第一节第一节 logistic回归模型的回归模型的 基本结构与建立基本结构与建立12,在m个自变量的作用下阳性结果发生的概率记作个自变量的作用下阳性结果发生的概率记作 一、一、基本概念13 Logistic回归模型的构造 若因变量y为连续型正态定量变量时,可采用多元线性回归分析y与变量 X1,X2,Xp之间的关系:y0+1X1+2X2+pXp l 现现y为为发发病病或或未未发发病病,生生存存与与死死亡亡等等定定性性分类变量分类变量,不能直接用上模型进行分析。,
6、不能直接用上模型进行分析。l 能否用发病的概率能否用发病的概率P来直接代替来直接代替 y呢?呢?l p0+1X1+2X2+pXp14等式左边 变化范围P 发病概率 0 P11P 不发病概率 0 P1 p/1-p 比数(ratio)0 p/1-p+ln(p/1-p)对数比(ratio)-ln(p/1-p)+15 Logistic 回归模型为:llnP/(1-P)=0+1X1+pXp.定义:logit(P)=lnP/(1-P)为 Logistic变换,Logistic 回归模型为:logit(P)=0+1X1+pXp;概率概率P:01,logitP:。取值范围取值范围 16经数学变换可得:概率预报
7、模型概率预报模型 logistic函数的图形函数的图形18 Logistic回归模型是一种概率模型,它是以疾病,死亡等结果发生的概率为因变量,影响疾病发生的因素为自变量建立回归模型。它特别适用于应变量为二项,多项分类的资料。在临床医学中多用于鉴别诊断,评价治疗措施的好坏及分析与疾病预后有关的因素等。19模模型型参参数数的的意意义义20 流流行行病病学学衡衡量量危危险险因因素素作作用用大大小小的的比比数比例指标。计算公式为:数比例指标。计算公式为:优势比优势比 OR(odds ratio)2122与与logisticP的关系的关系:2324二、logistic回归模型的参数估计回归模型的参数估计
8、 1.参数估计参数估计2.2.原原理理:最最大大似似然然(maximumlikelihood)估计估计 25 2.优势比估计优势比估计 可反映某一因素两个不同水平(c1,c0)的优势比。对于二分类26 三、三、logistic回归模型的假设检验回归模型的假设检验 1.1.似然比检验似然比检验 基本思想:比较在两种不同假设条件下的对数似然函数值,看其差别大小。具体方法:先拟合一个不包含待检因素在内的logistic模型,求出它的对数似然函数lnL0(包含包含l个自个自变量变量),然后把需要检验的因素加入,模型中去再配合,得到新的对数似然函数lnL1(包含包含p p个自变量个自变量),G=1(ln
9、L1-lnL0)服从自由度=p-p-l的 分布 既适合单个既适合单个自变量的假设检验又适合多个自变量的自变量的假设检验又适合多个自变量的假设检验(常用于整个模型)。假设检验(常用于整个模型)。27 三、三、logistic回归模型的假设检验回归模型的假设检验 2.大于3.84,有统计学意义比较适合单个自变量的检验28例18-1 在研究医院抢救急性心肌梗塞(AMI)患者能否成功的危险因素调查中,某医院收集了5年中该医院所有的AMI患者,共200例,研究危险因素为X1(抢救前是否休克);X2(抢救前是否心衰);X1(抢救前是否超过12小时)等。研究目的:分析影响抢救成功的主要因素。29P=0(抢救
10、成功)P=1(抢救不成功)X1X2X3NX1X2X3N0003500040013400110010170104011190111510017100610161019110611061116111630例例18-1的参数估计与的参数估计与Wald检验结果检验结果 logit(P)=-2.0858+1.1098X1+0.7028X2+0.9751X331方法:方法:前进法、后退法和逐步法前进法、后退法和逐步法。检验统计量:检验统计量:不是不是 F 统计量,而是似然比统计量、统计量,而是似然比统计量、Wald 统计量和计分统计量之一。统计量和计分统计量之一。四、自变量筛选四、自变量筛选例例18-2
11、为了探讨冠心病发生的有关危险因素,对为了探讨冠心病发生的有关危险因素,对26例冠心病病人和例冠心病病人和28例对照者进行病例例对照者进行病例 对照研究,各对照研究,各因素的说明及资料见表因素的说明及资料见表18-1和表和表18-2。试用。试用logistic 逐步回归分析方法筛选危险因素。逐步回归分析方法筛选危险因素。32表表18-1 冠心病冠心病8个可能的危险因素与赋值个可能的危险因素与赋值33表表18-2 冠心病危险因素的病例冠心病危险因素的病例 对照调查资料对照调查资料 34 表表18-3 例例18-2进入方程中的自变量及有关参数的估计值进入方程中的自变量及有关参数的估计值 学会学会看看
12、结果!结果!3536 第二节 条件logistic回归 37一、原理 此时,每一匹配组内病例和对照是可比的,而匹配组间无可比性.38表表18-5 1:M 条件条件logistic回归数据的格式回归数据的格式*t=0 为病例,其它为对照 39条件 logistic 模型40参数估计参数估计 原理:最大似然(maximum likelihood)估计 综合n个匹配组后的条件似然函数:对L取自然对数后,用Newton-Raphson迭带方法求得参数j的估计值bj(j=1,2,3,m)41二、应用实例42表表18-7 喉癌喉癌1:2配对病例配对病例 对照调查资料整理表对照调查资料整理表 43表18-8
13、 例18-3进入方程中的自变量及有关参数的估计值 采用逐步法 6个危险因素 变量筛选 4个进方程,结果见表20-8。44第三节logistic回归的应用及注意事项45一、logistic回归的应用 1流行病学危险因素分析 logistic回归得到某一因素的回归系数bj后,可以很快估计这一因素在不同水平下的优势比或相对危险度,非常适用于流行病学研究(包括病例对照研究、队列研究、横断面研究)。46一、logistic回归的应用 2校正混杂因素 流行病学中常存在一些混杂因素,logistic可以很方便的控制混杂因素的影响,得到校正后的优势比。比Mantel-Haenszel应用方便的多。47一、lo
14、gistic回归的应用 3预测与判别 如:通过例20-1建立的模型,根据AMI患者的危险因素暴露情况,预测AMI抢救成功的概率。对于条件logistic回归,常数项得不到估计,不能用于预测。有的情况下,模型的常数项没有多大实际意义。对于病例对照研究的病例和对照的比例是人为选定的,不能代表自然人群的病例和非病例的比例,因而建立的模型常数项没有实际意义,也不能直接用于预测。大规模的队列研究和横断面研究中,不同暴露层的发病率(或患病率等指标)与研究人群分布一致,常数项才有意义,可用来预测。48二、logistic回归应用的注意事项1、变量的取值形式:数值变量 转化为有序分类,便于结果解释。无序分类
15、为了便于解释,对二项分类变量一般按0、1编码,一般以0表示阴性或较轻情况,而1表示阳性或较严重情况。多分类(k个)无序分类常用k-1个(0,1)哑变量代替。有序分类 可以直接按得分处理,也可以转化为k-1个(0,1)哑变量(dummy variable)代替。49西、中西、中三种疗法哑变量化 原资料原资料姓名姓名性性别别 年年龄龄 疗疗法法张张山山150中西中西李四李四120西西王五王五018中中刘六刘六070中中赵赵七七135中西中西孙孙八八029西西哑变量化哑变量化姓名姓名性性别别年年龄龄X1X2张张山山15001李四李四12010王五王五01800刘六刘六07000赵赵七七13501孙孙
16、八八02910无序分类资料无序分类资料,分分k类,转化为类,转化为k-1个(个(0,1)哑变量)哑变量(dummy variable)无序分类资料无序分类资料,分分k类,转化为类,转化为k-1个(个(0,1)哑变量)哑变量(dummy variable)b1:相当相当A 型相对于型相对于O 型的差别型的差别b2:相当相当B 型相对于型相对于O 型的差别型的差别b3:相当相当AB 型相对于型相对于O 型的差别型的差别51b1,b2,b3分别反映中学、大学、大学以上相对于小学分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小文化程度者经济收入差别的大小等级资料等级资料,将将K K个
17、等级转换为个等级转换为K-1K-1个(个(0 0,1 1)哑变量)哑变量(dummy dummy variable)variable)52采用此种哑变量赋值方法,主要在于强调参数的解释。要注意的而是,关于”阳性反映“的定义,如果反应变量Y的编码顺序相反,相应的回归系数的绝对值不变,正负号相反。532、样本含量 样本含量要足够大。经验上病例和对照人数应各有30-50例。方程中自变量的个数越多,例数越大。对于配对资料,n20p,p为自变量个数。543、多数情况下,模型常数项没有多大意义,不用对其进行参数估计和假设检验。55小结:1、logistic回归模型参数的意义2、logistic回归模型的假设检验3、逐步回归4、条件logistic回归5、logistic回归模型的应用56