《商务数据挖掘介绍(教授制作)ln6.ppt》由会员分享,可在线阅读,更多相关《商务数据挖掘介绍(教授制作)ln6.ppt(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Logistic 回归回归 李保坤老师西南财经大学统计学院本节内容提要本节内容提要Logistic 回归模型回归模型关于关于 Odds 和和 Odds RatioLogistic回归模型的解释回归模型的解释参数估计参数估计 假设检验假设检验使用使用SAS的一个例子的一个例子Logistic 回归模型回归模型模型关系的一边是一系列的变量模型关系的一边是一系列的变量xi二元变量二元变量(是是/否否)类别变量类别变量(社会等级社会等级,.)连续变量连续变量(年龄年龄,.)另一边是另一边是二元变量二元变量 Y 二元输出是商业二元输出是商业,生物学和流行病学中经常出现的情况生物学和流行病学中经常出现的情
2、况Logistic 回归模型回归模型表表1 年龄年龄(Age)和冠心病和冠心病(CD)发病情况发病情况Logistic 回归模型回归模型比较病人和非病人的平均年龄比较病人和非病人的平均年龄非病人非病人:38.6 岁岁病人病人:58.7 岁岁能不能用线形回归能不能用线形回归?表表1数据的散点图数据的散点图冠冠心心病病症症状状年龄年龄Logistic 回归模型回归模型表表2 按年龄组划分的冠心病发病情况按年龄组划分的冠心病发病情况年龄组 人数 冠心病人数 累积%表表2数据的散点图数据的散点图年龄组年龄组病病人人百百分分数数Logistic 回归模型回归模型x得得病病概概率率转换转换logit of
3、 P(y|x)=非感染区疾病的概率比对数非感染区疾病的概率比对数(log odds)=感染区疾病的概率比对数的单位变化率感染区疾病的概率比对数的单位变化率e =概率比变化率概率比变化率关于关于 Odds 和和 Odds Ratio例子:例子:在一个具有在一个具有17个家庭的样本里,共有个家庭的样本里,共有3家的收入为¥家的收入为¥10000,5家家的收入为¥的收入为¥11000,9家的收入为¥家的收入为¥12000。在收入为¥。在收入为¥10000的家庭里,的家庭里,1个个主妇不工作,主妇不工作,2个主妇工作;在收入为¥个主妇工作;在收入为¥11000的家庭里,的家庭里,1个主妇不工作,个主妇
4、不工作,4个主妇工作;在收入为¥个主妇工作;在收入为¥12000的家庭里,的家庭里,1个主妇不工作,个主妇不工作,8个主妇工作。个主妇工作。收入收入主妇工作状况主妇工作状况总计总计0 0(不工作)(不工作)1 1(工作)(工作)1010111112121 11 11 12 24 48 83 35 59 9总计总计3 314141717关于关于 Odds 和和 Odds Ratio主妇工作的主妇工作的OddsOdds收入收入主妇工作状况主妇工作状况工作的工作的OddsOdds0 0(不工作)(不工作)1 1(工作)(工作)1010111112121 11 11 12 24 48 82/1=22/
5、1=24/1=44/1=48/1=88/1=8关于关于 Odds 和和 Odds Ratio用收入为¥用收入为¥11000家庭的主妇工作的家庭的主妇工作的Odds除以收入为¥除以收入为¥10000家庭的主妇工作的家庭的主妇工作的Odds,我们会得到,我们会得到4/2=2。用收入为¥用收入为¥12000家庭的主妇工作的家庭的主妇工作的Odds除以收入为¥除以收入为¥11000家庭的主妇工作的家庭的主妇工作的Odds,我们得到,我们得到8/4=2。注意:当收入增加注意:当收入增加1个单位(¥个单位(¥1000)工作的)工作的Odds增加到增加到原来的原来的2倍。倍。Odds Ratio2在这个例子
6、中,我们把收入每增加在这个例子中,我们把收入每增加1个单位,主妇工作的个单位,主妇工作的Odds增加到原来的增加到原来的2倍。倍。Logistic回归模型的解释回归模型的解释可以把结果变量可以把结果变量Y看作一个贝努里实验看作一个贝努里实验,E(Y)=是每一个实验成功的概率是每一个实验成功的概率 的值在的值在0和和1之间之间Logistic回归模型的解释回归模型的解释多元线性回归模型多元线性回归模型 不适合用于二元结果变量不适合用于二元结果变量,因为线性回归因为线性回归模型假定结果变量可以取任意值模型假定结果变量可以取任意值,而事实上而事实上只能取只能取0到到1之间的数值之间的数值.这时我们使
7、用这时我们使用Logistic回归模型回归模型Logistic回归模型的解释回归模型的解释这个比率这个比率 被称作概率比被称作概率比(odds),它是它是的函数的函数Logistic回归模型的解释回归模型的解释对于只有一个预测变量的情况对于只有一个预测变量的情况:X每增加每增加1,odds增加增加eLogistic回归模型的解释回归模型的解释Logistic回归模型的解释回归模型的解释因此因此,e是是Odds Ratioe=1,对应的是对应的是=0,它表示对应的预测变它表示对应的预测变量量x和结果变量和结果变量y没有关系没有关系Logistic回归模型的解释回归模型的解释对于只有一个预测变量对
8、于只有一个预测变量x,使用样本数据得到使用样本数据得到模型模型:的估计为的估计为参数估计参数估计线形回归线形回归:最小二乘最小二乘Logistic回归回归:极大似然估计极大似然估计似然函数似然函数估计参数估计参数 和和 通常使用对数似然函数更为简单通常使用对数似然函数更为简单参数估计参数估计:最大似然估计最大似然估计参数估计参数估计:最大似然估计最大似然估计参数估计参数估计:最大似然估计最大似然估计牛顿-纳逊方法,Newton-Raphson 参数估计参数估计:最大似然估计最大似然估计变量编码变量编码名义变量或有序变量名义变量或有序变量:烟草消费烟草消费:无无=0,灰烟灰烟=1,棕色烟棕色烟=
9、2,金黄烟金黄烟=3最好使用指示变量最好使用指示变量(即虚拟变量即虚拟变量)x1,x2,x3 如果是灰烟,如果是灰烟,x1=1,x2=0,x3=0 如果是棕色烟,如果是棕色烟,x1=0,x2=1,x3=0 如果是金黄烟,如果是金黄烟,x1=0,x2=0,x3=1 如果不抽烟,如果不抽烟,x1=0,x2=0,x3=0编码可消除对吸烟变量各个类别的人为分编码可消除对吸烟变量各个类别的人为分层影响,且不需要进行任何假定层影响,且不需要进行任何假定假设检验假设检验问题问题包括某预测变量的模型是否比不包括这一变量包括某预测变量的模型是否比不包括这一变量的模型提供结果变量的更多信息的模型提供结果变量的更多
10、信息?三种检验三种检验似然比统计量似然比统计量Wald 检验检验Score 检验检验假设检验假设检验检验这一假一假设的的检验统计量是卡方量是卡方统计量。量。常用的有种常用的有种假设检验假设检验Wald 检验检验似然比检验似然比检验Score 检验检验关于模型差异的假设检验关于模型差异的假设检验比较两个嵌入模型(比较两个嵌入模型(nested models)Log(odds)=+1x1+2x2+3x3+4x4 (模型模型1)Log(odds)=+1x1+2x2 (模型模型 2)似然比统计量:似然比统计量:-2 log(模型模型2似然函数似然函数/模型模型1似然函数似然函数)=-2 log(模型模
11、型2似然函数似然函数)减去减去-2log(模型模型1似然函数似然函数)似然比统计量服从似然比统计量服从 2 分布,分布,DF=模型参数个数之差模型参数个数之差拟和和优度度m=x变量的水平数,量的水平数,(对冠心病的例子冠心病的例子m=5)ni=x变量第量第i水平的水平的观测记录数数K=参数的数量参数的数量(对冠心病的例子冠心病的例子k=2)拟和和优度度对于连续型预测变量,我们需要对于连续型预测变量,我们需要 Hosmer-Lemshow 拟和优度检验拟和优度检验Hosmer-Lemshow 统计量计算拟和优度时把统计量计算拟和优度时把自变量的范围划分为自变量的范围划分为10个有序组,比较每一组个有序组,比较每一组实际的记录数量(观测到的)以及实际的记录数量(观测到的)以及logistic回归回归模型预测的记录数量(预测的)。因此检验统模型预测的记录数量(预测的)。因此检验统计量是卡方统计量,期望的结果是不显著,这计量是卡方统计量,期望的结果是不显著,这表明模型预测和观测并没有显著区别。表明模型预测和观测并没有显著区别。例子:冠心病数据例子:冠心病数据该数据集合包括数据集合包括n=100条条观测记录每一条每一条记录写成一行,数据如下写成一行,数据如下页。