《《广义线性模型》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《广义线性模型》PPT课件.ppt(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、主编:费宇主编:费宇中国人民大学出版社中国人民大学出版社第第3章章 广广义线义线性模型性模型3.1 广广义线义线性模型概述性模型概述3.2 Logistic模型模型3.3 对对数数线线性模型性模型3.1 广广义线义线性模型概述性模型概述第第2章我们研究了多元线性模型章我们研究了多元线性模型,该模型的该模型的一个重要假定是因变量是连续型的变量一个重要假定是因变量是连续型的变量(通通常假定服从正态分布常假定服从正态分布),但在许多情况下但在许多情况下,这这种假定并不合理种假定并不合理,例如下面这两种情况例如下面这两种情况.(1)结果变量可能是类型变量结果变量可能是类型变量.二值分类变二值分类变量和
2、多分类变量量和多分类变量.(比如比如:是是/否否,差差/一般一般/良良好好/优秀等优秀等)显然都不是连续型变量显然都不是连续型变量.3.1 广广义线义线性模型概述性模型概述(2)结果变量可能是计数型变量结果变量可能是计数型变量(比如比如:一周交通一周交通事故的数目事故的数目)这类变量都是非负的有限值这类变量都是非负的有限值,而且它而且它们的均值和方差通常是相关的们的均值和方差通常是相关的(一般线性模型假定一般线性模型假定因变量是正态变量因变量是正态变量,而且相互独立而且相互独立).普通线性回归模型普通线性回归模型(2.3)假定因变量假定因变量y服从正态分服从正态分布布,其均值满足关系式其均值满
3、足关系式:=X,这表明因变量的条这表明因变量的条件均值是自变量的线性组合件均值是自变量的线性组合.本章介绍两种常见的广义线性模型本章介绍两种常见的广义线性模型:Logistic模型与模型与对数线性模型对数线性模型.3.1 广广义线义线性模型概述性模型概述1.广义线性模型的定义:广义线性模型的定义:(1)随机成分随机成分:设设y1,y2,yn是来自于是来自于指数分指数分布族布族的随机样本的随机样本,即即yi的密度函数为的密度函数为其中其中ai(.),b(.),ci(.)是已知函数是已知函数,参数参数i是典则参数是典则参数,是散度参数是散度参数.1.广义线性模型的定义:广义线性模型的定义:(2)联
4、结函数联结函数:设设yi的均值为的均值为i而函数而函数m(.)是是单调可微的联接函数单调可微的联接函数,使得使得其中其中 是协变量是协变量,是是未知参数向量未知参数向量.指数分布族指数分布族正态分布正态分布二项分布二项分布泊松分布泊松分布2.正正态线态线性回性回归归模型模型正态分布属于指数分布族正态分布属于指数分布族,其密度函数为其密度函数为与与(3.1)对照可知对照可知2.正正态线态线性回性回归归模型模型只只要要取取联联结结函函数数为为 ,则则正正态态线线性性回回归归模模型型满满足足广广义义线线性性模模型型的的定定义义.类类似似的的,容容易易验验证证,二二项项分分布布和和泊泊松松分分布布都都
5、属于指数分布族属于指数分布族.下下面面介介绍绍实实际际中中应应用用广广泛泛的的两两种种广广义义线线性性模型模型:Logistic模型和对数线性模型模型和对数线性模型.3.2 Logistic模型模型1.模型定义模型定义设设yi服从参数为服从参数为pi的二项分布的二项分布,则则i=E(yi)=pi 采用逻辑联结函数采用逻辑联结函数,即即这个广义线性模型称为这个广义线性模型称为Logistic模型模型.例例3.1(数据文件数据文件为为eg3.1)表表3.1 某地区某地区45个家庭的调查数据个家庭的调查数据2.模型的参数估模型的参数估计计和和检验检验采用采用R软件中的广义线性模型过程软件中的广义线性
6、模型过程glm()可以完成可以完成回归系数的估计回归系数的估计,以及模型回归系数的显著性检验以及模型回归系数的显著性检验.程序如下:程序如下:#eg3.1广义线性模型广义线性模型:Logistic模型模型#打开数据文件打开数据文件eg3.1.xls,选取选取A1:B46区域区域,然后复制然后复制data3.1-read.table(clipboard,header=T)#将将eg3.1.xls数据读入到数据读入到data3.1中中glm.logit-glm(yx,family=binomial,data=data3.1)#建立建立y关于关于x的的logistic回归回归#模型模型,数据为数据为
7、data3.1summary(glm.logit)#模型汇总模型汇总,给出模型回归系数的估计给出模型回归系数的估计和显著性检验等和显著性检验等yp-predict(glm.logit,data.frame(x=15)p.fit|z|)(Intercept)-21.2802 10.5203 -2.023 0.0431*x 1.6429 0.8331 1.972 0.0486*Signif.codes:0*0.001*0.01*0.05.0.1 1(Dispersion parameter for binomial family taken to be 1)Null deviance:62.361
8、0 on 44 degrees of freedomResidual deviance:6.1486 on 43 degrees of freedomAIC:10.149Number of Fisher Scoring iterations:92.模型的参数估模型的参数估计计和和检验检验 yp p.fit-exp(yp)/(1+exp(yp);p.fit#估计估计x=15时时y=1的概率的概率 1 0.9665418容易看出容易看出:回回归归模型的回模型的回归归系数在系数在5%水平上水平上显显著著,于是得回于是得回归归模型模型为为当当x=15时时,估估计计y=1的概率的概率约为约为0.97,即
9、年收入即年收入为为15万元的家庭有万元的家庭有私家私家车车的可能性的可能性约为约为97%.3.3 对对数数线线性模型性模型1.模型的定义模型的定义设设y服从参数服从参数为为的泊松分布的泊松分布,则则=E(y)=,采采用对数联结函数用对数联结函数,即即这个广义线性模型称为泊松对数线性模型这个广义线性模型称为泊松对数线性模型.例例3.2(数据文件数据文件为为eg3.2)表表3.4 Breslow癫痫数据癫痫数据例例3.2(数据文件数据文件为为eg3.2)这个数据是这个数据是robust包中的包中的Breslow癫痫数据癫痫数据(Breslow,1993).我们讨论在治疗初期的八我们讨论在治疗初期的
10、八周内周内,癫痫药物对癫痫发病数的影响癫痫药物对癫痫发病数的影响,响应响应变量为八周内癫痫发病数变量为八周内癫痫发病数(y),预测变量为预测变量为前八周内的基础发病次数前八周内的基础发病次数(x1),年龄年龄(x2)和和治疗条件治疗条件(x3),其中治疗条件是二值变量其中治疗条件是二值变量,x3=0表示服用安慰剂表示服用安慰剂,x3=1表示服用药物表示服用药物.根据这个数据建立泊松对数线性模型并对根据这个数据建立泊松对数线性模型并对模型的系数进行显著性检验模型的系数进行显著性检验.表表3.2 Breslow癫痫数据癫痫数据Nox1x2x3yNox1x2x3y111310143119201721
11、1300143210301133625011331918119483601334242411156622055353130174284722053581336102976181425912371103038321282.模型的参数估模型的参数估计计和和检验检验采用采用R软件中的广义线性模型过程软件中的广义线性模型过程glm()来来建立泊松对数线性模型并对模型的系数进建立泊松对数线性模型并对模型的系数进行显著性检验行显著性检验.程序如下:程序如下:#eg3.2 广义线性模型广义线性模型:泊松对数线性模型泊松对数线性模型#打开数据文件打开数据文件eg3.2.xls,选取选取A1:E60区域区域,然后复制然后复制data3.2-read.table(“clipboard”,header=T)#将将eg3.2.xls数据读入到数据读入到data3.2中中glm.ln|z|)(Intercept)1.9488259 0.1356191 14.370 2e-16*x1 0.0226517 0.0005093 44.476 exp(coef(glm.ln)(Intercept)x1 x2 x3 7.0204403 1.0229102 1.0230007 0.8583864