第11章 多重线性回归分析1.pdf

上传人:asd****56 文档编号:69679406 上传时间:2023-01-07 格式:PDF 页数:7 大小:499.71KB
返回 下载 相关 举报
第11章 多重线性回归分析1.pdf_第1页
第1页 / 共7页
第11章 多重线性回归分析1.pdf_第2页
第2页 / 共7页
点击查看更多>>
资源描述

《第11章 多重线性回归分析1.pdf》由会员分享,可在线阅读,更多相关《第11章 多重线性回归分析1.pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、11第第11章多重线性回归分析章多重线性回归分析multiple linear regression2医学研究解决什么问题?医学研究解决什么问题?问题提出:问题提出:医学生物现象的形成、发生、发展和变化是多种因素在一定条件下相互影响、相互制约产生的共同结果。如医学生物现象的形成、发生、发展和变化是多种因素在一定条件下相互影响、相互制约产生的共同结果。如年龄、性别、精神紧张、饮食、劳动强度、吸烟状况、家族史年龄、性别、精神紧张、饮食、劳动强度、吸烟状况、家族史等,在影响疾病众多因素中,哪些是主要因素?各个因素作用有多大?是研究者关心的问题。等,在影响疾病众多因素中,哪些是主要因素?各个因素作用有

2、多大?是研究者关心的问题。4由于涉及到的自变量增多变量间的关系变的复杂由于涉及到的自变量增多变量间的关系变的复杂??利用利用多重线性回归多重线性回归方程对医学现象进行推断和预测。方程对医学现象进行推断和预测。5多重线性回归?多重线性回归?6多重线性回归多重线性回归是研究一个因变量和多个自变量之间线性关系的统计学分析方法。是研究一个因变量和多个自变量之间线性关系的统计学分析方法。目的目的是用一组自变量是用一组自变量(X1,X2,,XP)的数值估计一个反应变量(的数值估计一个反应变量(Y)的依存关系及其变异性的分析。)的依存关系及其变异性的分析。211.1 概念及其统计描述概念及其统计描述一、概述

3、一、概述例例1为了研究有关糖尿病患者体内脂联素水平的影响因素,某医师测定了为了研究有关糖尿病患者体内脂联素水平的影响因素,某医师测定了30名患者的体重指数名患者的体重指数BMI(/)、病程、病程DY(年年)、瘦素、瘦素LEP(ng/ml)、空腹血糖、空腹血糖FPG(mmol/L)及脂联素水平,数据如下表所示:及脂联素水平,数据如下表所示:以上数据表可见,除增加了自变量的列数之外,数据结构与简单回归的数据表完全相同。以上数据表可见,除增加了自变量的列数之外,数据结构与简单回归的数据表完全相同。bXaY+=简单线性回归:简单线性回归:XXYXXY+=|回归系数?回归系数?10上一讲我们讲了直线方上

4、一讲我们讲了直线方可求出估计值;可以在散点图上画出它的直线。又提出该直线方程是否成立?建立假设检验,方法有两种:可求出估计值;可以在散点图上画出它的直线。又提出该直线方程是否成立?建立假设检验,方法有两种:XbXaY若已知;+=Y=2)(/XXSbSbtMSMSFXYb残回方差分析方差分析t检验检验程的求法以及根据方程程的求法以及根据方程回顾回顾:Ft=两个结果一致:多重线性回归分析的基本多重线性回归分析的基本目的目的是是用以上的一组用以上的一组自变量(自变量(X1,X2,,XP)的数值估计一个反应变量()的数值估计一个反应变量(Y)及其变异性的统计分析方法。)及其变异性的统计分析方法。多重线

5、性回归的数学模型为多重线性回归的数学模型为:相应的参数由样本估计相应的参数由样本估计PPXXXY+=22110的平均数(11-1)样本多重线性回归方程为:样本多重线性回归方程为:个单位数。的平均值变化量应变改变一个计量单位,反,变量固定不变的条件下的意义为:在其它自的偏回归系数。对自变量称为)(的估计值,为回归的常数项,是其中,jjjjjbYXbXYPjbb,2,100 =PPXbXbXbbY+=22110(11-2)313问题是:问题是:在许多的情况下需要比较自变量对在许多的情况下需要比较自变量对因变量因变量Y贡献的相对大小?由于各自变量测量单位不等,不能直接比较,贡献的相对大小?由于各自变

6、量测量单位不等,不能直接比较,将原始观测数据进行标准化。将原始观测数据进行标准化。计算的计算的偏回归系数偏回归系数称标准化偏回归系数。称标准化偏回归系数。X1体重指数体重指数X2病程病程X3瘦素瘦素Xp等等等等Y脂联素脂联素P个自变量的个自变量的计量单位计量单位以及不同的变异,不能直接用普通偏回归系数的数值大小来反映方程中各个自变量对反应变量以及不同的变异,不能直接用普通偏回归系数的数值大小来反映方程中各个自变量对反应变量Y的贡献大小。可将原始观测数据进行标准化。的贡献大小。可将原始观测数据进行标准化。经标化的偏回归系数,称为标准化偏回归系数。经标化的偏回归系数,称为标准化偏回归系数。标准化偏

7、回归系数越大,表示自变量对反应变量Y的贡献越大。(11-3)15二、偏回归参数的估计二、偏回归参数的估计它的前提条件完全与简单线性回归相同:它的前提条件完全与简单线性回归相同:线性、独立、正态和等方差线性、独立、正态和等方差,即,即LINE。基本原理:基本原理:采用最小二乘法来估计未知参数采用最小二乘法来估计未知参数,利用收集到因变量和自变量的数据建立一个因变量关于自变量的线性函数模型,使得这个模型的理论值和观察值之间的离差平方之和尽可能小。利用收集到因变量和自变量的数据建立一个因变量关于自变量的线性函数模型,使得这个模型的理论值和观察值之间的离差平方之和尽可能小。16计算公式和图示计算公式和

8、图示X2X1YModel SSTotal SSResidual SS2n1)(iiiYYSS=残21)(YYSSnii=回2n1)(YYSSii=总17通过计算机统计软件完成通过计算机统计软件完成本例题的回归方程如下:本例题的回归方程如下:问题:我们能不能根据回归方程下结论?问题:我们能不能根据回归方程下结论?4321579.0811.0132.0030.1199.58XXXXY=?11.2.3 统计推断统计推断一、整体回归效应的假设检验一、整体回归效应的假设检验(方差分析方差分析)对例题对例题1,整体方程进行假设检验,方差分析结见下表所示,建立假设检验:,整体方程进行假设检验,方差分析结见下

9、表所示,建立假设检验:0:43210=H419由上表显示:由上表显示:P0.0001,拒绝,拒绝H0。说明从整体上而言,用这四个自变量构成的回归方程解释糖尿病患者体内脂联素的变化是有统计学意义的。说明从整体上而言,用这四个自变量构成的回归方程解释糖尿病患者体内脂联素的变化是有统计学意义的。用以反映线性回归模型能在多大程度上解释反应变量用以反映线性回归模型能在多大程度上解释反应变量Y的变异性的百分比;以反映回归方程效果优劣。的变异性的百分比;以反映回归方程效果优劣。)411(2=总回SSSSR从方差分析表中可计算确定系数,其定义为:从方差分析表中可计算确定系数,其定义为:21对总体对总体R20的

10、假设完全等价于回归方的假设完全等价于回归方程的整体方差分析程的整体方差分析。R2的值接近于的值接近于 1(01),说明回归方程的效果越好。表示样本数据能较好地拟合了选用的线性回归模型。),说明回归方程的效果越好。表示样本数据能较好地拟合了选用的线性回归模型。22对例对例1,由,由方差分析表方差分析表得知:得知:由由R2可知:用包含体重指数、病程、瘦素与空腹血糖四个变量的回归方程解释脂联素水平的变异的可知:用包含体重指数、病程、瘦素与空腹血糖四个变量的回归方程解释脂联素水平的变异的73.12。7312.0301.2425343.17732=总回SSSSR23复相关系数复相关系数R(multipl

11、e correlation coefficient)定义:定义:意义:表示变量意义:表示变量Y与与p个自变量(个自变量(X1,X2,Xp)的密切相关程度。本例:)的密切相关程度。本例:8551.07312.0=R表示四个变量的复相关关系表示四个变量的复相关关系总回SSSSR=24复相关系数有缺点:复相关系数有缺点:当回归方程中包含有很多自变量,即使其中有一些自变量当回归方程中包含有很多自变量,即使其中有一些自变量(如本例中的(如本例中的X2)对解释反应变量变异的贡献极小,随着回归方程的自变量的增加,对解释反应变量变异的贡献极小,随着回归方程的自变量的增加,R2值表现为只增不减。此时要用调整的确

12、定系数,定义为:值表现为只增不减。此时要用调整的确定系数,定义为:(11-5)见例见例1公式公式(11-5)525偏回归系数偏回归系数的的t检验是在回归方程具有统计学意义的情况下,检验某个总体偏回归系数等于零的假设,以判断是否相应的那个自变量对回归确有贡献。如欲检验检验是在回归方程具有统计学意义的情况下,检验某个总体偏回归系数等于零的假设,以判断是否相应的那个自变量对回归确有贡献。如欲检验0:,0:10=iiHH二、偏回归系数的假设检验二、偏回归系数的假设检验26检验结果见下表检验结果见下表:biibiSbt=(11-7)2711.2.4 变量筛选变量筛选在多重线性回归中,可能有的自变量对应变

13、量的影响很强,而有的影响很弱,甚至完全没有作用。在多重线性回归中,可能有的自变量对应变量的影响很强,而有的影响很弱,甚至完全没有作用。如方程中出现专业和实际上无法解释,要重新考虑,寻找各方面原因。如方程中出现专业和实际上无法解释,要重新考虑,寻找各方面原因。这样就有必要对自变量进行选择,使回归方程中包含对这样就有必要对自变量进行选择,使回归方程中包含对Y变量有统计学意义的自变量,即找出变量有统计学意义的自变量,即找出“最优最优”方程。方程。方法有许多方法有许多,根据实际情况结合专业知识决定。根据实际情况结合专业知识决定。一、自变量筛选的统计学标准一、自变量筛选的统计学标准若某一自变量被引入模型

14、后使若某一自变量被引入模型后使SS残缩小很多,说明该变量对残缩小很多,说明该变量对Y的作用大的作用大,可被引入可被引入;反之反之,说明其对说明其对Y的作用很小的作用很小,不应被引入。另一方面,当某一自变量从模型中剔除后使不应被引入。另一方面,当某一自变量从模型中剔除后使SS残增加很多残增加很多,说明该自变量对说明该自变量对Y的作用大,不应剔除。但因的作用大,不应剔除。但因SS残的大小总是随模型所含自变量个数的增加而减少。残的大小总是随模型所含自变量个数的增加而减少。1.残差平方和(残差平方和(SS残)与决定系数(残)与决定系数(R2)增大)增大29此标准的缺陷?此标准的缺陷?每增加一个自变量,

15、残差平方和总会减少一些,决定系数总会增大,即使增加无统计学意义的自变量,也会如此。每增加一个自变量,残差平方和总会减少一些,决定系数总会增大,即使增加无统计学意义的自变量,也会如此。建议选用所有自变量进入进行分析比较。建议选用所有自变量进入进行分析比较。2.残差均方(残差均方(MS残残)缩小或调整决定系数()缩小或调整决定系数(R2)增大)增大残差均方与残差平方和的关系式为残差均方与残差平方和的关系式为:希望希望MS残愈小愈好,作为选择自变量的准则。事实上,调整决定系数残愈小愈好,作为选择自变量的准则。事实上,调整决定系数R2愈大愈好与愈大愈好与MS残最小化完全等价,分析见教材残最小化完全等价

16、,分析见教材p198中段。中段。1=pnSSMS残残6313.Cp统计量统计量C C即即Criterion,p为所选模型中变量的个数由,p为所选模型中变量的个数由Mallows(1966)提出的)提出的Cp统计量近年来受到了广泛的重视,其定义为统计量近年来受到了广泛的重视,其定义为:模拟多个预测值,选择较小的模拟多个预测值,选择较小的Cp值,相应的回归方程最优。详见下表。值,相应的回归方程最优。详见下表。nPMSSSCP+=)(残,全残,12p(11-9)3233结论:结论:体重指数和瘦素每减少一个单位,脂联素的平均水平改变体重指数和瘦素每减少一个单位,脂联素的平均水平改变1.08和和0.75

17、单位,从标准化回归系数可看出瘦素对脂联素的影响较大。单位,从标准化回归系数可看出瘦素对脂联素的影响较大。34二、自变量筛选的常用方法二、自变量筛选的常用方法1:设为入选标准;:设为入选标准;2设为剔除标准。设为剔除标准。351.向前选择法向前选择法 Forward selection原理:原理:该方法根据入选标准该方法根据入选标准1,对自变量进行筛选,每次引进一个偏回归平方和,对自变量进行筛选,每次引进一个偏回归平方和最大最大且具有统计学意义的自变量,由少到多,直到无可引入的自变量为止。变量一旦选入便始终保留再方程中而不被剔除。且具有统计学意义的自变量,由少到多,直到无可引入的自变量为止。变量

18、一旦选入便始终保留再方程中而不被剔除。局限性:局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。即后续变量的引入可能会使先进入方程的自变量变得不重要。不一定能保证不一定能保证“最优最优”。362.向后剔除法向后剔除法 Backward原理:原理:首先建立一个含所有首先建立一个含所有P个自变量的全回归模型,给定剔除标准个自变量的全回归模型,给定剔除标准2,然后每次剔除一个偏回归平方和,然后每次剔除一个偏回归平方和最小最小且无统计学意义的自变量,直到不能剔除时为止。直到方程中所有自变量都有统计学意义为止。且无统计学意义的自变量,直到不能剔除时为止。直到方程中所有自变量都有统计学意义为止

19、。局限性:局限性:自变量高度相关时,可能得不出正确的结果。自变量高度相关时,可能得不出正确的结果。7373.逐步选择法逐步选择法 Stepwise selection原理:原理:选进入方程选进入方程1和保留在方程中的和保留在方程中的2其本质是取第其本质是取第2、3方法的优点,在向前引入每一个新变量之后,都要重新检验前面已选入的自变量有无需要剔除的。反复进行方法的优点,在向前引入每一个新变量之后,都要重新检验前面已选入的自变量有无需要剔除的。反复进行引入、引入、剔除剔除过程,直到既没有变量被引人,也没有变量被剔除为止。过程,直到既没有变量被引人,也没有变量被剔除为止。双向筛选:双向筛选:引入引入

20、有意义的变量(前进法),有意义的变量(前进法),剔除剔除无意义变量(后退法)。无意义变量(后退法)。38小样本检验水准定为小样本检验水准定为0.10或或0.15,大样本把值定为,大样本把值定为0.05。值越小表示选取自变量的标准越严。值越小表示选取自变量的标准越严。注意:注意:引入变量的检验水准要小于或等于剔除变量的检验水准。引入变量的检验水准要小于或等于剔除变量的检验水准。394.最优子集回归法最优子集回归法根据选择准则,通过比较各子集符合准则的程度,从中选择出一个或几个最优的回归,称为根据选择准则,通过比较各子集符合准则的程度,从中选择出一个或几个最优的回归,称为“最优子集法最优子集法”。

21、或称或称全局择优法。全局择优法。在统计软件中,可事先指定出现在子集中的最小(或最大)自变量个数,然后在限定所有可能的自变量子集范围内实施在统计软件中,可事先指定出现在子集中的最小(或最大)自变量个数,然后在限定所有可能的自变量子集范围内实施“最优最优”子集的选择。这种选择自变量的方式仅适合于自变量个数不太多的情况。子集的选择。这种选择自变量的方式仅适合于自变量个数不太多的情况。40全局择优法的全局择优法的如果自变量个数为4,则所有的回归模型有如果自变量个数为4,则所有的回归模型有2 24 41 15个1 15个;当自变量数个数为10时,所有可能的回归为 2;当自变量数个数为10时,所有可能的回

22、归为 210101 1023个;当自变量数个数为50时,所有可能的回归为21 1023个;当自变量数个数为50时,所有可能的回归为250501101101515个。个。局限性局限性41全局择优法全局择优法根据一些准则建立根据一些准则建立“最优最优”回归模型回归模型调整复相关系数:调整复相关系数:考虑较大考虑较大R2adjCp准则准则(C即(C即criterion,p为所选模型中变量的个数;,p为所选模型中变量的个数;Cp较小模型为最优Cp较小模型为最优)AIC(Akaikes Information Criterion)准则;准则;AIC越小越好AIC越小越好全局择优法全局择优法求出求出所有可能所有可能的回归模型(共有2的回归模型(共有2p p1个)对应的准则值;按上述准则选择最优模型。1个)对应的准则值;按上述准则选择最优模型。42SPSS软件自变量筛选的方法软件自变量筛选的方法1.向前筛选法向前筛选法Forward2.向后剔除法向后剔除法Backward3.逐步法逐步法Stepwise

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁