多元统计分析逻辑回归.ppt

上传人:石*** 文档编号:47075333 上传时间:2022-09-29 格式:PPT 页数:42 大小:2.62MB
返回 下载 相关 举报
多元统计分析逻辑回归.ppt_第1页
第1页 / 共42页
多元统计分析逻辑回归.ppt_第2页
第2页 / 共42页
点击查看更多>>
资源描述

《多元统计分析逻辑回归.ppt》由会员分享,可在线阅读,更多相关《多元统计分析逻辑回归.ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、多元统计分析逻辑回归现在学习的是第1页,共42页概述现实生活中,有很多诸如需要确定客户买或不买某种商品、银行客户信用好或不好等情况这时,某个事件以多大概率出现和哪些影响量决定该概率的问题尤为重要如果用状态1(购买)和0(不买)的因变量(Y)表示事件,则事件发生的概率P有如下关系:P(y=0)+P(y=1)=1现在学习的是第2页,共42页由于这类问题的因变量是类别变量,无法应用回归方程来解决逻辑回归逻辑回归是通过回归方程,确定概率的期望值一种通过分析影响因素,来得到某种结果的概率分为二项逻辑回归和多项逻辑回归现在学习的是第3页,共42页问题问题因变量因变量自变量自变量选择销售方式两组:销售代表、

2、旅行推销员客户数、产品可替代性、拜访次数等19个变量职场新人从事与专业相关的工作两组:毕业半年后从事与专业相关工作、不相关工作性别、学制、住房情况、专业、职业培训等15个变量公民的选举行为三组:联盟党、社民党、民主党政治态度、民主满意度、工会会员、宗教团体等影响婴儿出生体重的因素两组:体重正常的婴儿、体重偏轻的婴儿年龄、种族、孕期检查次数现在学习的是第4页,共42页相同点相同点不同点不同点逻辑回归都属于结构检验法。以所观察的影响量作为自变量,通过回归方程计算权重,观察该权重决定个体实际属于某组的概率0/1事件也可看做是两组判别。多元事件同理逻辑回归的前提条件较少,故回归结果更可靠;逻辑回归的目

3、的根据经验观察结果推导事件发生概率;判别分析是为了获得分类结果判别分析现在学习的是第5页,共42页建立逻辑回归方程例子例子:超市的销售主管想知道,顾客收入水平是否对购买新的高级黄油产品有影响。为此,他选择了12位顾客,调查他们的月净收入(x)及是否购买了该类黄油产品购买记为y=1,未购买记为y=0调查结果如下:现在学习的是第6页,共42页值表值表事件 收入140001420016000152001550015100148000270001800032000250002600购买黄油=-0.749+0.000336收入现在学习的是第7页,共42页逻辑回归不是要估计二元变量的观察值,而是要明确这些

4、观察值的出现概率通常把状态y=1看作“事件y发生”,而状态y=0为“事件不发生”假设存在一个非经验观察到的隐变量z,它能对应自变量的状态xj给出因变量y的二元水平现在学习的是第8页,共42页 y通过隐变量与xj建立联系:逻辑函数:(1)(2)(1)、(2)构成逻辑回归方程。z值称为Logit现在学习的是第9页,共42页现在学习的是第10页,共42页分析过程逻辑回归分析可分为五个步骤:v(1)建模v(2)估计逻辑回归函数v(3)解释回归系数v(4)检验模型整体v(5)检验特征变量现在学习的是第11页,共42页(1 1)建模)建模逻辑回归分析的前提也是使用者首先根据实施逻辑思考确定,哪些事件应作为

5、可能的因变量类型,哪些影响量决定事件类型的概率,从而提出关于自变量和因变量可能关系的假设自变量和事件y=1的出现概率间的连带关系假设现在学习的是第12页,共42页二元逻辑回归:因变量是二元的,即只有0和1两个水平;因变量多于两类的,多元逻辑回归分析自变量也称为共变量,可以是基数测度和非基数测度,也可“混合”xj自变量线性组合z指数连接eZ逻辑连接P(y=1)联合影响量Logit可能性比P(y=1)/P(y=0)出现概率现在学习的是第13页,共42页人造黄油购买者人造黄油购买者y=1人造黄油未购买者人造黄油未购买者y=0受访者k可涂抹性X1k保质期X2k受访者k可涂抹性x1k保质期x2k1234

6、56789101112236434325334345427546635131415161718192021222324547345456566435342257346数据现在学习的是第14页,共42页(2 2)估计逻辑回归函数)估计逻辑回归函数通常用极大似然估计法估计模型的参数,目的是使观察到的调查数据的概率最大,来确定反映自变量权重的逻辑回归模型参数bj若对每个观察个体k考虑如下关系式:现在学习的是第15页,共42页Newton-Raphson算法合成一个方程:似然函数:求解:判别准则:Pk0.5,把个体分入y=1;否则分入y=0现在学习的是第16页,共42页确定zk值(Logit)的回归方

7、程:zk=3.528-1.943可涂抹性k+1.119保质期k将原始数据代入回归方程Y=1Y=0现在学习的是第17页,共42页(3 3)解释回归系数)解释回归系数自变量xj与概率Pk(y=1)间不存在线性关系,导致回归系数间不能相互比较,无法直接解释回归系数现在学习的是第18页,共42页常数项只影响逻辑函数的水平位置。为正时,逻辑函数左移;为负时,逻辑函数右移回归系数影响逻辑函数的走向。回归系数较大时,概率值很快接近逻辑函数的边缘负的回归系数使事件y=1的概率随x值增大而减小,而正回归系数则使事件y=1的概率随x值增大而增大现在学习的是第19页,共42页逻辑回归的发生比:逻辑回归的Logit:

8、z=Logit=ln(发生比)现在学习的是第20页,共42页“可涂抹性”的回归系数为负,该变量降低了人造黄油的购买概率;“保质期”的回归系数为正,它对购买概率产生正向影响;若自变量增加1单位,则有利于事件y=1的可能性比(发生比)扩大ebj倍发生比说明了变量对出现概率的影响程度,发生比也称为效应系数效应系数现在学习的是第21页,共42页正、负回归系数对事件y=1的出现概率的影响:b效应系数效应系数exp(b)Logit(z)发生比发生比P(y=1)/P(y=0)P(y=1)b0eb1增加b增大eb倍增加b0eb0.5的个体分入人造黄油的购买者(M),其他分入未购买者(N)现在学习的是第29页,

9、共42页分类矩阵(Confusion-Matrix)观察值观察值预测值预测值购买与否百分比校正购买不购买购买不购买总百分比10221083.383.383.3判对比例(hit ratio)=判对数目/总数=20/24=0.833现在学习的是第30页,共42页如果样本容量允许,把随机样本分成两个子样本:一个分析样本和一个检验样本(Holdout-sample)。分析样本用于估计逻辑回归函数,然后根据此函数将检验样本中的元素分类,并计算判对比率;现在学习的是第31页,共42页Press Q检验该检验统计量服从自由度为1的卡方分布取=0.05,查得临界值为3.84,故该分类结果与随机分类结果有显著差

10、别现在学习的是第32页,共42页重要模型拟合度评价指标总结现在学习的是第33页,共42页离群者诊断除了说明逻辑回归方程的整体拟合度外,单个观察个体对模型整体有效性有何作用也很重要逻辑估计的模型关系与调查数据拟合度不佳的基本原因有两个:模型不合适;存在许多个体(观察值),不具有模型所描述的关系,并由于其特殊的变量水平明显偏离结果;现在学习的是第34页,共42页对于第二种情况,通过确定每个个体的单独残差可说明在观察中是否存在“离群者”,对个体k残差如下:通常认为残差绝对值大于0.5(两组情况下)为离群者,并导致分类错误为了更好地辨认出此类离群者,采用一种加权方法,标准化残差:现在学习的是第35页,

11、共42页现在学习的是第36页,共42页对第三位受访者,他购买了人造黄油y=1,根据他的评价(可涂抹性=6,保质期=5),用估计出来的逻辑方程计算出购买概率为0.073,其标准化残差值为3.589,明显将该受访者分类错误必须深入分析离群者的情况,以解释极端位置的原因,通常考虑如下原因:v(1)受访者回答问题的方式反常,把该观察值去除;v(2)大的残差值表明模型的解释能力差,模型中未考虑重要影响量,需扩展或修正模型现在学习的是第37页,共42页(5 5)检验特征变量)检验特征变量 似然比检验LR检验也可用于与简约模型的比较。分别令一个回归系数为0,构建不同的简约模型,再写出完整模型(LLV)和一个

12、简约模型(LLR)的-2倍对数似然之差相应的零假设为:H0:回归系数bj的效应为0;H1:回归系数bj的效应不为0现在学习的是第38页,共42页完整模型(LLV)和一个简约模型(LLR)的-2倍对数似然之差所形成的检验统计量服从卡方分布,自由度为两模型参数个数之差。若仅检验一个变量,则自由度等于1现在学习的是第39页,共42页Wald统计量分母是bj的标准差W基本服从自由度为1的卡方分布回归系数标准误差Walddf显著水平可涂抹性保质期常数项-1.9431.1193.5280.7980.5862.3385.9243.6452.2761110.0150.0560.131现在学习的是第40页,共42页多项逻辑回归根据响应变量类型分为定性名义响应变量、定性有序响应变量(1)当名义响应变量有多个类别时,多项logit模型应采取把每个类别与一个基线类别配成对,通常取最后一类为参照,称为基线-类别logit现在学习的是第41页,共42页模型有J-1个方程,每个方程有不同的参数,这些效应依据与基线配对的类别而变化不管哪个类别作为基线,对于同一对类别都会有相同的参数估计,即基线类别的选择是任意的;现在学习的是第42页,共42页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁