《《Logistic回归》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《Logistic回归》PPT课件.ppt(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Logistic回归回归Logistic Regression医学研究中的分类变量:医学研究中的分类变量:二分类变量:二分类变量:o生存与死亡生存与死亡o有病与无病有病与无病o有效与无效有效与无效o感染与未感染感染与未感染多分类有序变量:多分类有序变量:o疾病程度(轻度、中度、重度)疾病程度(轻度、中度、重度)o治愈效果(治愈、显效、好转、无效)治愈效果(治愈、显效、好转、无效)多分类无序变量:多分类无序变量:o手术方法(手术方法(A、B、C)o就诊医院(甲、乙、丙、丁)就诊医院(甲、乙、丙、丁)医学研究者经常关心的问题诸如医学研究者经常关心的问题诸如:哪些因素导致了人群中有的人患胃癌而哪些因
2、素导致了人群中有的人患胃癌而有的人不患胃癌有的人不患胃癌?哪些因素导致了手术后有的人感染,而哪些因素导致了手术后有的人感染,而有的人不感染?有的人不感染?哪些因素导致了某种治疗方法出现治愈、哪些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果显效、好转、无效等不同的效果?是回归分析的问题吗?是回归分析的问题吗?因变量因变量因变量因变量y y 连续型连续型连续型连续型 服从正态分布服从正态分布服从正态分布服从正态分布舒张压舒张压舒张压舒张压年龄年龄年龄年龄胆固醇含量胆固醇含量胆固醇含量胆固醇含量自变量自变量自变量自变量x x数值型数值型数值型数值型 与与与与Y Y呈线性关系呈线性关系
3、呈线性关系呈线性关系例如:例如:例如:例如:回忆:回忆:线性回归分析对因变量的要求线性回归分析对因变量的要求YES!“问题如何解决?问题如何解决?”y=f(x)p=p(y=1|x)=p(x)不能直接不能直接分析分析变量变量y与与x的关系的关系转换为转换为分析分析y取某取某个值的概率变量个值的概率变量 p与与x的关系的关系y=1,0 x任意任意0p1,x任意任意Logistic回归模型回归模型不存在不存在不存在不存在Logistic回归回归 一.Logistic回归的概念:在医学研究中经常遇到应变量为互斥的二项分类资料。如治愈与未愈,生存与死亡等。同时有许多自变量可能岁结果产生影响,而这种影响不
4、一定是线性的,可采用Logistic回归分析。Logistic回归是一种用于多因素分析的曲线模型,特别适用于应变量为离散型多项分类的资料。Logistic回归回归二二.Logistic回归的概率公式:回归的概率公式:对概率P取logit变换,则Logistic回归模型变成:Logistic回归回归即:变量logit(P)关于x的线性函数。P/Q表示了某事件发生的比数比(odds)。Logistic回归模型的解释:相对危险度(RR):暴露下发病率与不暴露发病率的比值。比数比(OR):病例组的暴露的优势与对照组暴露的优势之比。当发病率很低时,OR RR。即:可以用OR作为RR的估计值。Logist
5、ic回归回归Logistic回归模型的解释:l当偏回归系数为正时,x增加,OR增加,为危险因素。l当偏回归系数为负时,x增加导致OR减小,为保护因素。l比较暴露因素对应变量的影响大小,用标准化偏回归系数。Logistic回归回归Logistic回归对变量的要求:应变量为二分类或多分类变量自变量为数值变量、等级或二分类变量多分类的计数资料需进行变量转换,形成一组哑变量(dummy variable)Logistic回归回归自变量只有一个时自变量只有一个时,模型中回归系模型中回归系数的意义数的意义0(常数项)(常数项):暴露因素:暴露因素xi=0时,个体发病概时,个体发病概率与不发病概率之比的自然
6、对数比值。率与不发病概率之比的自然对数比值。模型中回归系数的意义模型中回归系数的意义回归系数回归系数的含义:危险因素的含义:危险因素x x增增加一个单位时,即加一个单位时,即x xi i=1=1与与x xi i=0=0相比,相比,发生结果(发生结果(y=1y=1)优势比的对数值。)优势比的对数值。回归系数回归系数与与OR X与与Y的关联的关联 =0,OR=1 无关无关 0,OR1 有关,危险因素有关,危险因素 0,OR1 有关,保护因子有关,保护因子Logistic回归模型中回归系数的意义回归模型中回归系数的意义Logistic 回归分析中回归系数的意义回归分析中回归系数的意义 的意义:的意义
7、:在在Logistic回归模型回归模型(Logit P=+x)中中,表示表示自变量变化一个单位,导致自变量变化一个单位,导致的因变量的变化值,的因变量的变化值,在这里,因变量在这里,因变量是是Logit(P),即比数的对数。即比数的对数。Logistic 回归中回归系数的意义回归中回归系数的意义1)当暴露因素(危险因素)当暴露因素(危险因素)只有两个水平只有两个水平时时,且暴露时为且暴露时为1,不暴露时为,不暴露时为0,则模型中该暴露变量前的系数就是则模型中该暴露变量前的系数就是暴露与暴露与不暴露的比数比的对数值。不暴露的比数比的对数值。也即也即:Ln(OR)=或或 OR =exp()2)当暴
8、露因素为当暴露因素为等级变量等级变量时,如收入水平,时,如收入水平,x 的取值为:的取值为:1、2、3、4表示不同的等级。表示不同的等级。的意义就是表示每相差一的意义就是表示每相差一个等级时的比数比的对数,而个等级时的比数比的对数,而Exp()表示每增加一个等级表示每增加一个等级时的比数比时的比数比。3)当暴露因素为当暴露因素为连续变量连续变量(如年龄)时,(如年龄)时,就表示年龄每增就表示年龄每增加一岁时比数比的对数。加一岁时比数比的对数。Exp(Exp()表示年龄增加一岁时比数)表示年龄增加一岁时比数比。比。Logistic 回归中参数的意义回归中参数的意义 例例1:MI MI MI MI
9、 非非非非MIMIMIMI 合计合计合计合计 服服服服OC OC OC OC 39 24 6339 24 63 未服未服未服未服OC OC OC OC 114 154114 154 268 268 合计合计合计合计 153 153 178 331 178 331 拟合的拟合的拟合的拟合的LogisticLogistic回归模型为:回归模型为:回归模型为:回归模型为:logit logit P P OR ORexpexp()()()()即:服用口服避孕药者发生心肌梗塞的概率是不即:服用口服避孕药者发生心肌梗塞的概率是不即:服用口服避孕药者发生心肌梗塞的概率是不即:服用口服避孕药者发生心肌梗塞的概
10、率是不服者的倍。服者的倍。服者的倍。服者的倍。例例2 2、自变量是分类型变量自变量是分类型变量 为了了解冠心病与种族的关系,某研究所为了了解冠心病与种族的关系,某研究所调查了调查了100100个样本,数据列在下表中。试估计各个样本,数据列在下表中。试估计各种族间患冠心病的相对危险度。种族间患冠心病的相对危险度。设设y=1表示患冠心病,表示患冠心病,y=0表示未患冠心病。把种表示未患冠心病。把种族转换为两个哑变量族转换为两个哑变量,x(1)=1表示黑人,表示黑人,x(2)=1表表示其它种族示其它种族,两个哑变量都为两个哑变量都为0时表示白人时表示白人.Logistic 回归中参数的意义回归中参数
11、的意义Logistic回归分析结果回归分析结果1.模型总体检验结果说明该模型具有统计意义模型总体检验结果说明该模型具有统计意义(p=0.0035)。2.参数检验说明,黑人与白人患冠心病的相对危险度是:参数检验说明,黑人与白人患冠心病的相对危险度是:OR=8(p=0.0010),说明黑人患冠心病的几率大约是白人的说明黑人患冠心病的几率大约是白人的8倍。倍。3.参数检验说明,其他种族人与白人患冠心病的相对危险度是:参数检验说明,其他种族人与白人患冠心病的相对危险度是:OR=5(p=0.0058),说明其他种族人患冠心病的几率大约是说明其他种族人患冠心病的几率大约是白人的白人的5倍。倍。有多个危险因
12、素(有多个危险因素(xi)多个变量多个变量的logistic回归模型方程回归模型方程的线性表达:的线性表达:i i反映了在其他变量固定后,反映了在其他变量固定后,X=1与与x=0相比发生相比发生Y事件的对数优势比。事件的对数优势比。Logistic回归分析中回归系数的意义回归分析中回归系数的意义例例1中加入年龄变量后拟合的中加入年龄变量后拟合的Logistic模型为:模型为:Logit P 12 其中,其中,x1为口服避孕药(为口服避孕药(x11为服,为服,0为没服),为没服),x2为年龄(为年龄(x21为为40岁,岁,2为为4040岁)岁)OR1exp()()回归系数的意义为:控制了其他因素
13、后,该因素回归系数的意义为:控制了其他因素后,该因素对应变量的影响。对应变量的影响。即:控制了年龄的影响后,口服避孕药发生心肌即:控制了年龄的影响后,口服避孕药发生心肌梗塞的概率是不服者的倍。梗塞的概率是不服者的倍。Logistic 回归模型的假设检验回归模型的假设检验1.检验一:对建立的整个模型做检验。检验一:对建立的整个模型做检验。检验方法检验方法 似然比检验似然比检验(likelihood ratio test)检验全部自变量(包括常数项)对应变量的联检验全部自变量(包括常数项)对应变量的联合作用,即整个回归方程是否有意义。合作用,即整个回归方程是否有意义。说明自变量对说明自变量对y的作
14、用是否有的作用是否有统计意义。统计意义。2.检验二:检验模型中某检验二:检验模型中某是否对是否对y有作用。有作用。检验假设:检验假设:检验统计量:主要为检验统计量:主要为Wald检验检验=1Logistic 回归模型的假设检验回归模型的假设检验筛选自变量:l 意义:将回归系数有显著意义的自变量选入将回归系数有显著意义的自变量选入模型中,作用不显著的自变量则排除在外。模型中,作用不显著的自变量则排除在外。l 方法:前进法(Forward)后退法(Backward)逐步法(Stepwise)筛选方法:似然比检验、Wald检验Logistic回归回归例例2 2:冠心病危险因素的病例对照研究:冠心病危
15、险因素的病例对照研究 因素因素变量名变量名赋值说明赋值说明年龄年龄X140=1,40 49=2,50 59=3,60=4高血压史高血压史X2无无=0,有有=1高血压家族史高血压家族史X3无无=0,有有=1吸烟吸烟X4不吸不吸=0,吸吸=1高血脂史高血脂史X5无无=0,有有=1动物脂肪摄入动物脂肪摄入X6低低=0,高高=1体重指数体重指数(BMI)X724=1,24=2,26=3A型性格型性格X8是是=0,否否=1冠心病冠心病 Y对照对照=0,病例,病例=1冠心病危险因素的病例冠心病危险因素的病例 对照调查资料对照调查资料 序号序号X1X2X3X4X5X6X7X8Y131010011022011
16、00100321010010042001001005300101110逐步逐步Logistic回归分析结果回归分析结果变量变量 Sb Wald P OR常数常数 -4.705 1.540 9.30 0.0023 年龄年龄 0.924 0.477 3.76 0.0525 X5 1.496 0.744 4.04 0.0443 X6 3.136 1.249 6.30 0.0121 X8 1.947 0.847 5.29 0.0215 7.011 1、logisticlogistic回归的应用回归的应用对对疾病(某结果)危险因素分析和筛选疾病(某结果)危险因素分析和筛选 用回归模型中的回归系数(用回归
17、模型中的回归系数(i i)和)和OR说明危险因素与疾病的关系。说明危险因素与疾病的关系。适用的资料:适用的资料:前前 瞻瞻 性性 研研 究究 设设 计计、病病 例例 对对 照照 研研 究究 设设 计计、横断面研究设计的资料。横断面研究设计的资料。Logistic回归的应用回归的应用校正混杂因素,对疗效做评价校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处理成不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效。因素,正确评价疗效。预测预测 预测个体在某因素存在条件下,发生某事件预测个体在某因素
18、存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。(发病)的概率,为进一步治疗提供依据。判别判别 根据概率大小对分类作出预测。根据概率大小对分类作出预测。2、应用时注意的问题、应用时注意的问题病例和对照组的例数可相等或不等。病例和对照组的例数可相等或不等。样本含量样本含量:原则原则:自变量个数越多,所需例数越多。:自变量个数越多,所需例数越多。各组样本例数(对照组和病例组)为自各组样本例数(对照组和病例组)为自变量个数的变量个数的520倍。倍。Logistic回归分析和线性回归分析的异回归分析和线性回归分析的异同同相同点:相同点:o都可以利用模型来筛选危险因子;都可以利用模型来筛选危
19、险因子;o都可以校正混杂因子的影响;都可以校正混杂因子的影响;o都可以用来做预测。都可以用来做预测。不同点:不同点:o前者对因变量无分布要求,后者要求因变量是正态分布变量;前者对因变量无分布要求,后者要求因变量是正态分布变量;o前者要求因变量必须是分类型变量,后者要求因变量必须是连续型前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。数值变量。o前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量呈线性关系;呈线性关系;o前者是分析因变量取某个值的概率与自变量的关系,后者是直接分前者是分析因变量取某个值的概率与自
20、变量的关系,后者是直接分析因变量与自变量的关系。析因变量与自变量的关系。医学中经常需要作配对的病例医学中经常需要作配对的病例-对照研究。对照研究。即在病例即在病例-对照研究中,对每一个病例配以对照研究中,对每一个病例配以性别、年龄或其它条件相似的一个性别、年龄或其它条件相似的一个(1:1)或或几个几个(1:M)对照,然后分析比较病例组与对对照,然后分析比较病例组与对照组以往暴露于致病因素的经历。照组以往暴露于致病因素的经历。分析配对病例分析配对病例-对照研究资料的统计分析方对照研究资料的统计分析方法一般采用条件法一般采用条件logistic回归分析。回归分析。条件条件logistic回归分析的
21、数学模型以及分析回归分析的数学模型以及分析原理方法均和原理方法均和 非条件非条件logistic回归分析类回归分析类似。因为参数的估计公式涉及到条件概率似。因为参数的估计公式涉及到条件概率理论,所以称为条件理论,所以称为条件logistic回归分析。回归分析。条件条件logistic回归分析回归分析多分类的多分类的Logistic回归回归Logistic回归的应变量可以为多分类变量:回归的应变量可以为多分类变量:应变量(应变量(Y)可为有序的多分类资料)可为有序的多分类资料如:疗效指标:治愈、显效、好转、无效,如:疗效指标:治愈、显效、好转、无效,研究影响疗效的因素研究影响疗效的因素 应变量(应变量(Y)可为无序的多分类资料)可为无序的多分类资料例:阑尾炎类型:卡他型、坏疽型、腹膜例:阑尾炎类型:卡他型、坏疽型、腹膜炎型,研究阑尾炎类型与危险因素的关炎型,研究阑尾炎类型与危险因素的关系。系。