Logistic回归模型分析.pdf

上传人:qwe****56 文档编号:69626345 上传时间:2023-01-07 格式:PDF 页数:6 大小:352.05KB
返回 下载 相关 举报
Logistic回归模型分析.pdf_第1页
第1页 / 共6页
Logistic回归模型分析.pdf_第2页
第2页 / 共6页
点击查看更多>>
资源描述

《Logistic回归模型分析.pdf》由会员分享,可在线阅读,更多相关《Logistic回归模型分析.pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第1 4 卷第3 期2 0 0 5 年9 月计算机辅助工程C o M P I,T E RA I D E DE N G I N E E RE 呵G、b 1 1 4N o 3S e p 2 0 0 5文章编号:1 0 0 6 0 8 7 1(2 0 0 5)0 3 0 0 7 4 0 5L o g i s t i c 回归模型分析施朝健L2,张明铭1(1 上海海事大学商船学院,上海2 0 0 1 3 5;2 复旦大学信息工程学院,上海2 0 0 4 3 3)摘要:对L o g i s t i c 回归模型做了比较详细的分析。通过阐述回归分析与概率假定的关系,并把回归模型纳入广义线性模型框架进行推导

2、和分析,便于全面了解回归模型及其理论依据和构造方法,以利于对回归模型的合理应用。关键词:L o g i s t i c 回归;广义线性模型;概率模型中图分类号:0 2 1 2 1;T P 2 7 4文献标识码:AA n a l y s i so fL o g i s t i cr e g r e s s i o nm o d e l sS H IC h a o ji a n1 一,Z H A N GM i n g m i n g1(1 M e r c h a n tM a r i n eC o l l e g e,S h a n g h a iM a r i t i m eU n i v,S

3、h a n g h a i2 0 0 1 3 5,C h i n a;2 C o l l e g eo fI n f E n g,F u d a nU n i v,S h a n g h a i2 0 0 4 3 3,C h i n a)A b s t r a c t:L o g i s t i cr e g r e s s i o nm o d e li sa n a l y z e di nd e t a i l B yi l l u s t r a t i n gt h er e l a t i o nb e t w e e nr e g r e s s i o na n a l y s

4、 i sa n di t sp r o b a b i l i t yh y p o t h e s i s,a n a l y z i n ga n dd e d u c i n gr e g r e s s i o nm o d e l sw h i c ha r ep e r f o r m e di nt h ef r a m e w o r ko fg e n e r a l i z e dl i n e a rm o d e l s,at h o r o u g hu n d e r s t a n d i n go ft h et h e o r e t i c a lb a c

5、 k g r o u n da n dc o n s t r u c t i o nm e t h o d si So fb e n e f i tt ot h er e a s o n a b l ea p p l i c a t i o n so ft h e s em o d e l s K e yw o r d s:L o g i s t i cr e g r e s s i o n;g e n e r a l i z e dl i n e a rm o d e l;p r o b a b i l i s t i cm o d e l sO引言L o g i s t i c 回归分析作

6、为一种有效的数据处理方法被广泛应用,尤其在医学、社会调查、生物信息处理等领域。在国内,对L o g i s t i c 回归的研究主要集中在应用方面,但许多研究人员在应用L o g i s t i c回归算法时,很少仔细探究其背后的理论模型和有关假定,因而会出现应用不太合理的情况。例如,在利用L o g i s t i c 回归研究影响初中学生开始吸烟的因素时,采用整群抽样的方法,在城市及郊区的学校各选择初一年级一个班的全部学生进行调查。川该方法没有考虑到学生之间的吸烟行为是互相影响的,即研究个体之间不是独立的。其合理性受到质疑。2】也有少部分研究涉及L o g i s t i c 回归模型的

7、理论问题。文献【3】注意到L o g i s t i c 回归模型中的过度离散现象,提出通过P e a r s o n 和D e v i a n c e 统计量和利用W i l l i a m s 法进行纠正的方法。文献 4】对L o g i s t i c回归模型进行分析,应用B a y e s 观点讨论L o g i s t i c模型中的参数估计问题。近年来,L o g i s t i c 回归的应用研究在继续拓展。国外开始进行将其应用于多实例标签包(1 a b e l e db a go fi n s t a n c e s)分类问题的研究。【5】国内也开始注收稿日期:2 0 0 5

8、0 8 一O l;修回日期:2 0 0 5 0 8-1 3基金项目:上海市重点学科建设项目(T t K 5 0 3)作者简介:施朝健(1 9 5 7 一),男,福建屏南人,教授,博导,研究方向为交通信息工程及控制,一m a i l)c j s h i s h m t u e d u c a 万方数据万方数据第3 期施朝健,等:L o g i s t i c 回归模型分析7 5意应用累积L o g i s t i c 回归尤其是多分类累积L o g i s t i c回归分析和处理的相关问题,但应用还是比较初步的,研究集中在对进行聚类分析后的离散性变量,利用线性系数模型进行累积L o g i s

9、 t i c 回归。1 6 在现有的统计教科书中,一般都有L o g i s t i c 回二归模型的内容,但往往不作为中心内容,缺乏有关该方法的详尽讨论。【8】机器学习的书籍虽然涉及到L o g i s t i c 回归,但没有进行深入讨论。1 9】有关专著在国内外很少。因此有必要对该模型的理论背景和框架进行较为深入的探讨,以便做到合理应用该模型。1 线性回归的概率关联利:用最小二乘法进行线性回归,定义c o s t 函数J(,):要n(y(i)-w T x(i)2(1)这个定义其实隐含着样本点回归误差服从一定概率分布的假定。假设样本数对(一,Y o)间关系由如下线性函数表达:Y=,T x+

10、D(2)其中表示误差值,设该误差值为l I D 随机变量并服从高斯分布,其密度函数为:孵)=志唧卜譬j)这意味着在给定x o 和W D 的条件下,y(D 的概率密度砌h,=志唧(-气竽 x 惯 1 1y 在给定X,w 的条件下,Y 的概率可表示为p(Y 1 X;w),将这个概率看成w 的函数,我们称之为似然函数(1 i k e l i h o o df u n c t i o n),L(,)=L(w;X,y)=p(yX;w)(5)在独立分布的假定下,给定z 的条件下尸独立分布,这样可写成:L(_ I,)=兀P(Y。,):冉i=1 志唧(一学给出表示X n,尸关系的概率模型,根据最大似然原理(p

11、 r i n c i p l eo fm a x i m u ml i k e l i h o o d),为合理拟合数据应选取W 使得L m)最大化,但计算比较烦琐,取L)的对数作为对数似然(1 0 9l i k e l i h o o d)Z)以简化最大值分析,l(w)=l o g L(w)岫g 彝赤唧(一学:扣击唧(一屿掣=舶g 而1 一1 专I 善n(y 一w 7 f)2从对数函数的性质知,当Z )最大时,相应使L(w)最大。由(7)式可以看出,要使Z 伽)达到最大,相当于使i 1 n(),(i)-w T x(1)2二f 哥(8)最小,对照(1)式可知,(8)式即最小二乘法的c o s

12、t 函数以,)。2L o g i s t i c 回归c o s t 函数的分析在回归问题中如果响应Y 为二值性的,便实际成为分类问题,即所谓二分类问题。为了使问题分析得更直观些,假定Y 的取值为0 或l。L o g i s t i c 回归是解决这种二分类问题的有效方法之一。该法也是在一定的概率模型假定下推出的。首先考察函数:(班咖班嘉(9)其中,比)=专称为L o g i s t i c 函数或s i g m o i d 函数。假定在给定x;w 的条件下,y=l 出现的概率服从伯努利分布,并可表示为:P(Y=1 I z;w)=丸(J)P(Y=0 I 工;1,)=1 一J 0(J)如上两式可

13、合并为紧凑形式:p(y I x;w)2 k )(1 一k )h(1 0)其中y o,1)。在m 个独立样本数对情况下,样本数据的似然函数为:L(w)=p(Y I X:w)-H P(Y l X O);,):n(k(川)广(1 一k(n)(1 1)同样,为计算方便,取对数似然:万方数据万方数据7 6计算机辅助工程2 0 0 5 年l(w)=l o g L(w)=Y l o g h w(x)+(1 一Y“)l 0 9 0 一k(z“)f;l(1 2)3L o g i s t i c 回归的推广模型合理回归就是恰当选择I,使得Z )达到最大,即式(1 2)可以作为回归的指标函数。在式(1 2)中令1+

14、Y()Y i5T使Y。-1,1),同时,令:P i=h w(x j)1则容易推出指标函数在Y i 的取值为 一1,1 时的另一种表达方式例:对于式(1 2)的似然函数Z),回归时应使之最大化,上式右边取负值使以,)成c o s t 函数,回归时应使之最小化。下面推导式(1 2)的似然函数z )的梯度,为了运算方便,先考虑一个数对 x】);),=,o)的情况,对该式求,的偏导,啬,=(,志_ h,禹高)毒咖。(,志一。刊去J(1 4)g(w 7 工)(1 一g(w 7 工):生w 工O W=(y(1 一g(w l j)一(1 一y)g(w 7 x)x j=(y J t(j)J,上述推导过程用到s

15、 i g m o i d 函数的导数公式:g,(z)=面b e-2=专(一专)a 5=g(z)O g(z)考虑到微分算子的线性性质,得出对数似然函数的梯度:V f m)=(),“一k 。)如(1 6)l f f i l同样,在式(1 6)中,令1+v(Y i2 亍n=k )则推出对数似然函数的梯度在Y r 的取值为 1,1)时的另一表达【9】:w(w 掣T l+y C O R k(1 7)3 1 广义线性模型为了使推导过程简明清晰,本节只考虑z 为单变量X 的情形,不失一般性,结果可以推广到工为向量的情况。在线性回归中假定概率模型:p(x;,盯2)而在二分类L o g i s t i c 回归

16、中,假定概率模型:p(x;秒)B e r n o u l l i(痧)事实上这些模型可以泛化为一类模型族,称为广义线性模型。广义线性模型可以通过如下指数族概率模型来表达:p(x;1 1)=b(x)e x p(7 7 1 丁(x)-a(r D)(1 8)其中x,r 和丁根据应用情况可以是标量或矢量。线性回归模型和二分类L o g i s t i c 回归模型可以归为广义线性模型的两个特例。对于线性回归模型:烈葛肋2 去e x p(一言。一1)2=去唧吵e x p p 互1 2(,9)对照式(1 8)可知,在广义线性模型中,令扫(J)=(1,磊)e x p(一x 2,2)7=丁(x)=工a(r)=

17、t 2 2便可由广义线性模型得到线性回归模型的概率模型。对于二分类L o g i s t i c 回归模型:p(一咖=妒。(1 一咖1-。2 e x p(x l o g 妒+(I x)l 0 9 0 一工)(2 0)=e d(1 0 9(南 卜s o 卅同样,在广义线性模型中,令卵=l o g(毛)r(x)=Xa(r)=一l o g(1 一妒)=l o g(1 一e 一1)b(x)=I便得到二分类L o g i s t i c 回归的概率模型。还有许多其他分布也属于广义线性模型家族。如伽玛分布,非负二项式分布等,许多累积模型(a d d i t i v em I D d e l)也往往属于这个

18、家族。下面考察多分类L o g i s t i c 回归模型。字誊 万方数据万方数据第3 期施朝健,等:L o g i s t i c 回归模型分析7 73 2 多分类L o g i s t i c 归模型考虑响应变量Y 可以取k 个值之一的多类分类问题。即Y 1,2,忌)对于这类问题需要k 一1 个参数识,晚,纯-l 其中:破=P(Y=f,妒)且P(Y=七)=I-饵i=l注意九并非真正的参数,它可由暖,珐,绒。确定。为方便起见,引入变量扎孙例如:1 2=1+1),1 1+3 -0。利用指示函数,Y 和歹之=卯-露:旌一勘(2 1)啊=其中6(),)=1,珊)=歹。铲l o g 鲁砂=鲁(2

19、2 2 2)嚷(J铲l o g 尝卸(2 3)争。n:堕垒=煎:土织2 而一=I。代入式(2 2)并整理,得:西=曼二:“:;。e(2 4)式(2 4)可以作为多分类回归的通用模型,通过合理设定即并根据最大似然原理进行相关匹配,可解决一般多分类问题。对式(2 4),进一步假定叩。与X 为线性关系。即:吁f=,工(f=1,2,k 一1)其中W。,W 2,W k 一。为多类回归模型参数。定义w k=0,从而使仇=0 以满足式(2 3)定义,于是得到多类L o g i s t i c 回归的概率模型:砌蚓删户参。2 5,由这个概率模型,可用前面所述的最大似然原理进行多类L o g i s t i c

20、 回归。容易看出,在k=2 的情况下,可由式(2 5)导出式(9)即二分类模型。3 3 累积L o g i s t i c 归在二分类L o g i s t i c 回归中采用的概率模型为式(9),该式可以改写为:b g(嵩P 工c 2 6,对照式(2 0),可以看出上式左边就是二分类L o g i s t i c回归表示成广义线性模型中的珂参量。也就是说,在二分类L o g i s t i c 回归中,假设叩与X 成线性关系。即叩=wT x=w o 工o+w l x l+w 2 x 2+w。膏。(2 7)其中x 0=l。将上式的线性项以更一般的函数J;)取代,得到:t=f o(X o)+五(

21、焉)+五(而)+工(矗)=,似)(2 8)代回式(9),则得到二分类累积L o g i s t i c 回归模型:k(工)。p(工)2 南(2 9)或e(x(3 0)P【工)2 丽其中p )为给定工条件下y=l 的概率。事实上,五就是呐,因此式(2 7)也可以构成累积L o g i s t i c 回归模型,可称之为累积L o g i s t i c 回归的线性系数模型。对于多分类累积L o g i s t i c 回归,同样可以用一般函数 万方数据万方数据7 8计算机辅助工程2 0 0 5 年(工)=氐()+。()+:(而)+(2)对于计数即泊松数据,乃,。(x D=,;(薯)(3 1)q=

22、l o g(g)=F(工)=Z(毛)(3 3)l=灯i=0取代式(2 5)中的线性项w j z,从而得到多分类累积L o g i s t i c 回归的概率模型。e()p 忙)2 亨啊(3 2)二J 扫I。这些概率模型可以根据最大似然原理利用牛顿法进行回归计算【1 1 1。函数,;可以灵活选择不同的模式。式(2 7)比较适用于X i 在连续域中取值的情况。对于离散型变量,采用非线性累积函数比较合理。如果回归变量中既有连续域变量五工,又有离散变量Z,z,可以根据不同应用情况选择如下构造类型:(1)对X 进行线性建模,而对Z 取非线性函数,r=W、+g J(z,)y=0(2)对x 和z 采用不同的

23、非线性函数,玎=正(t)+g(z)i=OJ=0(3)利用多变量非线性函数,叩=正(t)+g 心,V)l=0i=0其中V,V 为另一组离散变量。由于可以有灵活多样的构造形式,累积L o g i s t i c回归是处理多维多分类定性数据的较好方法。但要求通过对数据对象进行仔细研究后,选用合适的构造形式,以保证合理的回归效果。国内的一些研究中,由于没有对多分类累积L o g i s t i c 回归模型背后的理论依据做详细研究,为离散二分类型变量定义了一个适合于连续域变量的模型,其合理I 生值得进一步探讨。累积回归的方法也可以方便地应用于其他指数族概率模型,例如:(1)对于常规线性回归,叩2 邓)

24、2 萎工(3 3)其中为高斯分布期望,参见式(1 9);其中为指数分布期望。当然这些并不属于累积L o g i s t i c 回归模型,因此这里不做详细讨论。4结隶浯在L o g i s t i c 回归分析中,回归模型以及c o s t 函数或似然函数的选取往往与某种概率分布或概率模型相关联。模型构造尤其是累积模型构造技巧性很强。应在充分理解模型理论背景、特性和概率假定的前提下,根据应用中实际问题和数据的具体情况,选择恰当模型并进行合理构造,利用有效的c o s t 函数或似然函数进行回归分析,以保证合理的回归效果。本文通过阐述回归分析与概率假定的关系,并把回归模型纳入广义线性模型框架进行

25、推导和分析,便于全面了解回归模型及其理论依据和构造方法,以利于对回归模型的合理应用。参考文献:【1】张庆武,J O H N S O NCA,李燕影响初一学生吸烟的外在因素分析【J】中国公共卫生,1 9 9 9,(1 5):7 1 1-7 1 3【2】金水高L o g i s t i c 回归方法的正确应用及结果的正确解释【J】中华预防医学杂志,2 0 0 3 3 7(3):2 0 4 2 0 6 f 3】3 杨肇,朱凯旋L o g i s t i c 回归分析中的过度离散现象及纠,t -I J 中国卫生统计,2 0 0 3,2 0(4):2 3 9 2 4 0【4】韩俊林,汤秋云L o g i

26、 s t i c 回归模型的B a y e s 分析【J】山西师范大学学报(自然科学版),2 0 0 4,1 8(1):1 6 1 8 5】X UX,F R A N KE L o g i s t i cr e g r e s s i o na n db o o s t i n gf o rl a b e l e db a g so fi n s t a n c e s【J】L e c t u r eN o t e si nC o m p u t e rS c i e n c e,2 0 0 4,30 5 6:2 7 2 2 8 1 6】熊巍,赵海娟,程红莉累积L o g i s t i c 回

27、归在企业竞争力评价中的应用【J】统计与信息论坛,2 0 0 4,1 9(1):8 5 8 8 7】张虎,刘强问卷调查分析中的L o g i s t i c 回归与自变量筛选问题研究【J】中南财经政法大学学报,2 0 0 3,(5):1 2 8 1 3 2【8 C A S E L L AGB E R G E RR S t a t i s t i c a lI n f e r e n c e【M】T h o m s o a nL e a r n i n g 2 0 0 2【9】H O F M A N NtI n t r o d u c t i o nt OM a c h i n eL e a r

28、n i n g【M】D r a f tV e r s i o n1 1 5,2 0 0 3【1 0 H A S T 正T T I B S H I R A N IR G e n e r a l i z e dA d d i t i v eM o d e l s【M】E n c y-c l o p e d i ao fS t a t i s t i c a lS c i e n c e s,1 9 9 6 1 1】F R I E D M A NF,H A S T I ET T I B S H I R A N IR A d d i t i v eL o g i s t i cR e g r e s

29、s i o n:aS t a t i s t i c a lV i e wo f B o o s t i n g M】1 9 9 8 万方数据万方数据Logistic回归模型分析Logistic回归模型分析作者:施朝健,张明铭,SHI Chaojian,ZHANG Mingming作者单位:施朝健,SHI Chaojian(上海海事大学,商船学院,上海,200135;复旦大学,信息工程学院,上海,200433),张明铭,ZHANG Mingming(上海海事大学,商船学院,上海,200135)刊名:计算机辅助工程英文刊名:COMPUTER AIDED ENGINEERING年,卷(期):200

30、5,14(3)被引用次数:7次 参考文献(11条)参考文献(11条)1.金水高 Logistic回归方法的正确应用及结果的正确解释期刊论文-中华预防医学杂志 2003(03)2.张庆武;JOHNSON C A;李燕 影响初一学生吸烟的外在因素分析 1999(15)3.HOFMANN T Introduction to Machine Learning 20034.CASELLA G;BERGER R Statistical Inference 20025.张虎;刘强 问卷调查分析中的Logistic回归与自变量筛选问题研究期刊论文-中南财经政法大学学报 2003(05)6.FRIEDMAN F

31、;HASTIE T;TIBSHIRANI R Additive Logistic Regression:a Statistical View of Boosting 19987.HASTIE T;TIBSHIRANI R Generalized Additive Models Encyclopedia of Statistical Sciences 19968.熊巍;赵海娟;程红莉 累积Logistic回归在企业竞争力评价中的应用期刊论文-统计与信息论坛 2004(01)9.XU X;FRANK E Logistic regression and boosting for labeled ba

32、gs of instances 200410.韩俊林;汤秋云 Logistic回归模型的Bayes分析期刊论文-山西师范大学学报(自然科学版)2004(01)11.杨肇;朱凯旋 Logistic回归分析中的过度离散现象及纠正期刊论文-中国卫生统计 2003(04)引证文献(7条)引证文献(7条)1.林向阳 基于数据挖掘的电信客户流失研究综述期刊论文-移动通信 2010(8)2.陈仕鸿.张英明 二分类Logistic回归分析在税务稽查中的应用期刊论文-华南金融电脑 2009(6)3.吴辉凡.许治 NSFC管理学部资助项目后评估结果的Logistic回归分析期刊论文-科学管理研究 2008(1)4.刘罗曼.张雪岩 曲线估计方法应用期刊论文-沈阳师范大学学报(自然科学版)2007(2)5.李默涵.蔡若松 交通方式预测中Logit模型参数估计方法的应用研究期刊论文-辽东学院学报(自然科学版)2006(2)6.陈欣欣 港口可持续发展中的共生关系研究学位论文硕士 20067.林肖丽 统计方法在税务稽查选案中的应用研究学位论文硕士 2006 本文链接:http:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁