《Logistic 回归分析.ppt》由会员分享,可在线阅读,更多相关《Logistic 回归分析.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Logistic 回归分析回归分析Logistic Regression Analysis翟景花公共卫生学院1复习:复习:线性回归分析对反应变量的要求线性回归分析对反应变量的要求反应变量反应变量y 连续型连续型服从正态分布服从正态分布舒张压舒张压年龄年龄胆固醇含量胆固醇含量自变量自变量x数值型数值型 与与Y呈线性关系呈线性关系例如:例如:2医学研究中经常遇到分类型变量,例如:医学研究中经常遇到分类型变量,例如:二分类变量:二分类变量:o生存与死亡生存与死亡o有病与无病有病与无病o有效与无效有效与无效o感染与未感染感染与未感染多分类有序变量:多分类有序变量:o疾病程度(轻度、中度、重度)疾病程度
2、(轻度、中度、重度)o治愈效果(治愈、显效、好转、无效)治愈效果(治愈、显效、好转、无效)多分类无序变量:多分类无序变量:o手术方法(手术方法(A、B、C)o就诊医院(甲、乙、丙、丁)就诊医院(甲、乙、丙、丁)3医学研究者经常关心的问题诸如医学研究者经常关心的问题诸如:吸烟是否影响肺癌的发病?吸烟是否影响肺癌的发病?年龄和糖尿病的发病有无关系年龄和糖尿病的发病有无关系?哪些因素导致了手术后有的人感染,而有的哪些因素导致了手术后有的人感染,而有的人不感染?人不感染?哪些因素导致了某种治疗方法出现治愈、显哪些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果效、好转、无效等不同的效果?是
3、回归分析问题吗?是回归分析问题吗?4这些应该是属于回归分析问题这些应该是属于回归分析问题!但是这种回归分析问题但是这种回归分析问题不不能借助于线性回归模能借助于线性回归模型,因为反应变量的假设条件遭到破坏型,因为反应变量的假设条件遭到破坏能否找到一种其他形式的模型能否找到一种其他形式的模型y=f(x)来描述分来描述分类变量类变量y和和x之间依存关系呢?之间依存关系呢?NO 因为从数学角度看,使得因为从数学角度看,使得x取任意值而取任意值而y仅仅 取取1和和0两个值的函数不存在。两个值的函数不存在。YES!5“转换一个角度来解决这个问题转换一个角度来解决这个问题”y=f(x)p=p(y=1|x)
4、=p(x)不能直接分析不能直接分析变量变量y与与x的关系的关系转换为分析转换为分析y取某个值的概率取某个值的概率变量变量p与与x的关系的关系y=1,0 x任意任意0p1,x任意任意存在存在Logistic回归模型回归模型不存在不存在6主要内容主要内容Logistic 回归模型的基本概念回归模型的基本概念Logistic回归的参数估计及假设检验回归的参数估计及假设检验Logistic回归分析的分类回归分析的分类Logistic回归的应用回归的应用7第一节 Logistic 回归模型的基本概念一、Logistic 回归的实例8二、Logistic 回归模型的基本结构AMI抢救后死亡率与影响因素关系
5、的回归模型P值大于1或小于0变量变换91970年,年,Cox引入了引入了Logit变换变换请注意其右侧仍然可以写成线性的形式!请注意其右侧仍然可以写成线性的形式!大量实践证明,大量实践证明,LogitP往往和自变量呈线性关系。往往和自变量呈线性关系。已经成为了分类变量的标准建模方法。已经成为了分类变量的标准建模方法。Logistic函数函数Logistic回归模型回归模型10多变量的Logistic回归模型11Logistic 回归概念是分类数据统计分析的一种重要方法,研究多水平是分类数据统计分析的一种重要方法,研究多水平(包括(包括2个水平)的应变量与其影响因子间关系的个水平)的应变量与其影
6、响因子间关系的回归分析。即用于分析某类事件发生概率与自变量回归分析。即用于分析某类事件发生概率与自变量之间依存关系的回归,即之间依存关系的回归,即Logistic回归。回归。Logistic这个名称来源于它所采用的这个名称来源于它所采用的Logit变换,和变换,和英文单词英文单词Logistic的含义(后勤的)一点关系都没有,的含义(后勤的)一点关系都没有,与逻辑就更不相干了。与逻辑就更不相干了。自从传入国内以来,自从传入国内以来,Logistic回归就一直采用英文写回归就一直采用英文写法,从没有使用过译名。法,从没有使用过译名。12第二节第二节 Logistic回归的参数估计及假设检验回归的
7、参数估计及假设检验引发的新特点引发的新特点由于反应变量为二分类,所以误差项应当服从由于反应变量为二分类,所以误差项应当服从二项分布,而不是正态分布。二项分布,而不是正态分布。误差项的分布规律应当和所预测的反应变量相同误差项的分布规律应当和所预测的反应变量相同由于上述原因,最小二乘法也不再适用,由于上述原因,最小二乘法也不再适用,最大似然法的优越性和重要性一举凸现出来。最大似然法的优越性和重要性一举凸现出来。13最大似然法(maximum likelihood,ML)的基本思想是先建立似然函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,称为参数的最大似然估计值。计算方法来自于概
8、率分布。似然(L,likelihood):某种结局组合出现的概率,由于总体率不同L也不同,所以又被称为似然函数。一、一、Logistic回归的参数估计及意义回归的参数估计及意义1415常数项表示在自变量取值均为常数项表示在自变量取值均为0时,死亡优势(比数)时,死亡优势(比数)的自然对数值。的自然对数值。exp()=0.124是无休克、无心衰和抢救及时组死亡是无休克、无心衰和抢救及时组死亡的优势。的优势。当死亡率很低时,该值近似等于自然死亡率。当死亡率很低时,该值近似等于自然死亡率。16为为Logistic回归系数,表示其它自变量取值固定时,回归系数,表示其它自变量取值固定时,该自变量增加一个
9、单位引起优势比自然对数的变化该自变量增加一个单位引起优势比自然对数的变化量。量。=lnOR,OR=e或或OR=exp()OR表示暴露组的疾病危险是非暴露组的多少倍。表示暴露组的疾病危险是非暴露组的多少倍。OR1为危险因素;为危险因素;OR1为保护因素。为保护因素。17 logistic回归模型系数回归模型系数的意义解释:的意义解释:从从 e =ORRR,说明当发病率很低时,说明当发病率很低时,e 近似近似地表示了相对危险度,即暴露下的发病率与非暴露地表示了相对危险度,即暴露下的发病率与非暴露下的发病率之比。下的发病率之比。例如,在例例如,在例20-1中得到中得到 11.110,因此,因此,RR
10、 OR=e =3.034,表明心梗发生后抢救前有休克的死亡危险是表明心梗发生后抢救前有休克的死亡危险是没有休克的没有休克的3.034 倍倍。18一般地,一般地,logistic回归模型系数的意义是:回归模型系数的意义是:2)如果)如果X是连续变量,则是连续变量,则OR近似表示在近似表示在X相邻两相邻两个单位上的相对危险度。个单位上的相对危险度。1)如果)如果X=1、0,则,则OR近似表示在近似表示在X=1条件下的条件下的发病率与发病率与X=0条件下发病率之比。(见例条件下发病率之比。(见例20-1)3)如果)如果X是分类变量,则要将是分类变量,则要将X的哑变量放入模的哑变量放入模型,则型,则O
11、R表示两个类之间的相对危险度。表示两个类之间的相对危险度。19二、假设检验和回归系数的区间估计二、假设检验和回归系数的区间估计1.似然比检验似然比检验(likelihood ratio test)检验整个模型是否有统计学意义,即检验所有的偏检验整个模型是否有统计学意义,即检验所有的偏回归系数是否均为回归系数是否均为0。检验假设为。检验假设为H0:1=m=0H1:1,m 不全为不全为0 统计量统计量G=-2lnL(-1,-m)-2lnL 其中其中L是不包含是不包含m个自变量的模型的似然函数。个自变量的模型的似然函数。L是包含所有自变量的模型似然函数,是包含所有自变量的模型似然函数,G反映的是后一
12、个反映的是后一个模型较前一个模型拟和优度提高的程度。模型较前一个模型拟和优度提高的程度。大样本,大样本,H0成立的条件下,成立的条件下,G服从自由度为服从自由度为m的卡方检的卡方检验。验。20分别检验各个自变量是否有意义,即单个总体回分别检验各个自变量是否有意义,即单个总体回归系数是否为零。检验假设为归系数是否为零。检验假设为H0:i=0H1:i0 统计量统计量G=-2lnL-2lnL(i)其中其中L是扣除是扣除Xi的模型似然函数,的模型似然函数,L是包含是包含Xi的模型的似然的模型的似然函数。函数。大样本,大样本,H0成立的条件下,成立的条件下,G服从自由度为服从自由度为1的卡方检验。的卡方
13、检验。212.Wald检验检验常用于回归系数的假设检验,检验假设为常用于回归系数的假设检验,检验假设为H0:i=0H1:i0统计量统计量该检验是通过比较该检验是通过比较值来进行的,它是基值来进行的,它是基于于值服从正态分布的假设。值服从正态分布的假设。223.优势比的区间估计优势比的区间估计总体回归系数的的(总体回归系数的的(1-)置信区置信区间为间为23按数据的类型:按数据的类型:o非条件非条件logistic回归分析(成组数据)回归分析(成组数据)o条件条件logistic回归分析(配对病例回归分析(配对病例-对照数据)对照数据)按反应变量取值个数:按反应变量取值个数:o二值二值logis
14、tic回归分析回归分析o多值多值logistic回归分析回归分析按自变量个数:按自变量个数:o一元一元logistic回归分析回归分析 对应四格表资料卡方检验o多元多元logistic回归分析回归分析第三节第三节 Logistic回归分析的分类回归分析的分类Logistic回归分析回归分析24条件条件logistic回归回归研究中有研究中有N个配比组,每组中个配比组,每组中n个病例配个病例配m个对照者。这时,各个研究对象发生某事件个对照者。这时,各个研究对象发生某事件的概率即为条件概率。的概率即为条件概率。适用于适用于配比设计的病例配比设计的病例-对照研究对照研究精细分层设计的队列研究精细分层
15、设计的队列研究25条件条件Logistic回归回归1:1条件条件Logistic回归及模型回归及模型 在在1:1配对设计的病例配对设计的病例-对照研究中,若对照研究中,若y=1表表示得病,示得病,y=0表示未得病;表示未得病;A表示病例,表示病例,B为对为对照,一对病例和对照中只有照,一对病例和对照中只有1人得病的条件下人得病的条件下恰好是恰好是A得病的概率为:得病的概率为:26条件条件Logistic回归模型回归模型27第四节第四节 Logistic回归的应用回归的应用筛选危险因素:如例筛选危险因素:如例20-1校正混杂因素校正混杂因素预测与判别预测与判别28筛选危险因素筛选危险因素病因学研
16、究病因学研究病例病例-对照研究对照研究队列研究队列研究影响因素的研究影响因素的研究横断面调查横断面调查29校正混杂因素校正混杂因素一般采用一般采用Mantel-Haenszel分层分析分层分析分层较细或存在格子零频数时,分层较细或存在格子零频数时,M-H法法无法采用。无法采用。logistic回归分析可综合校正多个混杂因回归分析可综合校正多个混杂因素的影响素的影响30预测与判别预测与判别logistic回归模型作为一种概率模型,非条件回归模型作为一种概率模型,非条件logistic回归方程可计算相应的概率预测值,回归方程可计算相应的概率预测值,对个体所属类别作出概率性的判别。但由于对个体所属类
17、别作出概率性的判别。但由于条件条件logistic回归模型不能估计常数项,不能回归模型不能估计常数项,不能用于预测。用于预测。31注意问题注意问题个体间的独立性个体间的独立性足够的样本量足够的样本量模型评价模型评价标准化回归系数标准化回归系数32注意问题注意问题筛选自变量时,临床和流行病学意义和生物学机筛选自变量时,临床和流行病学意义和生物学机制在模型结果解释中占更重要的地位。制在模型结果解释中占更重要的地位。自变量可以是无序分类变量、有序分类变量和数自变量可以是无序分类变量、有序分类变量和数值变量。无序分类变量常用多个值变量。无序分类变量常用多个0-1假(哑)变量假(哑)变量来代替,使结果更
18、容易解释。数值变量可以转换来代替,使结果更容易解释。数值变量可以转换成等级变量,使参数意义更明确。成等级变量,使参数意义更明确。大多数情况下,不需对常数项做解释和假设检验。大多数情况下,不需对常数项做解释和假设检验。条件条件Logistic回归模型无常数项,不能用于预测。回归模型无常数项,不能用于预测。33Logistic回归分析和线性回归分析的异同点回归分析和线性回归分析的异同点相同点:相同点:o都可以利用模型来筛选危险因子;都可以利用模型来筛选危险因子;o都可以校正混杂因子的影响;都可以校正混杂因子的影响;o都可以用来做预测。都可以用来做预测。不同点:不同点:o前者对因变量无分布要求,后者
19、要求因变量是正态前者对因变量无分布要求,后者要求因变量是正态分布变量;分布变量;o前者要求因变量必须是分类型变量,后者要求因变前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。量必须是连续型数值变量。o前者不要求自变量和因变量呈线性关系,后者要求前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量呈线性关系;自变量和因变量呈线性关系;o前者是分析因变量取某个值的概率与自变量的关系,前者是分析因变量取某个值的概率与自变量的关系,后者是直接分析因变量与自变量的关系。后者是直接分析因变量与自变量的关系。34小结 Logistic回归为概率型的非线性模型回归为概率型的非线性模型
20、 反应变量为分类变量,自变量可以是任意类型反应变量为分类变量,自变量可以是任意类型 一元一元logistic回归分析对应四格表资料卡方检验回归分析对应四格表资料卡方检验 对模型的检验采用的对模型的检验采用的是似然比检验,对单个偏回似然比检验,对单个偏回归系数的检验可采用似然比检验或归系数的检验可采用似然比检验或Wald卡方检验卡方检验 回归系数回归系数 表示其它自变量取值固定时,该自变量表示其它自变量取值固定时,该自变量增加一个单位引起优势比自然对数的变化量增加一个单位引起优势比自然对数的变化量 =lnOR,OR=e OR表示联系强度表示联系强度35对资料分析结果的正确解释至关重要对资料分析结果的正确解释至关重要3637