《多重线性回归与多元逐步回归-统计学.ppt》由会员分享,可在线阅读,更多相关《多重线性回归与多元逐步回归-统计学.ppt(90页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多重线性回归流行病与卫生统计学系流行病与卫生统计学系内 容多重线性回归回归分析中自变量的选择多因素线性回归的应用及注意事项复 习线性回归分析是研究一个变量和另外一些变量间线性关系的统计分析方法。在回归分析中,最简单的情形是模型中只包含两个有“依存关系”的变量,一个变量(反应变量)随另一个变量(自变量)的变化而变化,且呈直线变化趋势,称之为简单线性回归。给定给定X X的数值的数值,Y Y 的数值取在一个平均值的数值取在一个平均值(y|x)附近 对应于不同的对应于不同的X X值值,Y Y 的平均值座落在一条直线上平均值座落在一条直线上 -回归直线回归直线.y|x 和和 X X的关系可用一个线性方程
2、描写的关系可用一个线性方程描写.简单线性回归方程总体样本“Y hat”表示估计值,给定x时y的总体均数总体均数的估计值。直线回归方程的求解:最小二乘原理YX 回归系数及其计算回归系数及其计算找一条直线使残差平方和最小找一条直线使残差平方和最小 利用微积分知识利用微积分知识,容易得到容易得到 这条线一定过两个点这条线一定过两个点 和和线性回归分析的前提条件线性(L Linear)反应变量Y与自变量X呈线性变化趋势独立(I Independent)任意两个观察值相互独立,一个个体的取值不受其他个体的影响给定X时,Y正态分布(N Normal)给定X取值时,Y的取值服从正态分布等方差(E Equal
3、 variance)指对应于不同的X值,Y值的总体变异相同直线回归应用条件LINE示意图回归方程有统计学意义吗 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,这种关系是否有统计学意义,还需要进一步进行假设检验。检验回归模型是否成立:方差分析检验总体回归系数是否为零:t检验例1:某研究者研究大气污染物一氧化氮(NO)的浓度(ppm)与汽车流量(千辆)、气温()、空气湿度(%)、风速(m/s)等因素的关系,结果见表1:单位时间内过往的汽车数(千辆)、气温()、空气湿度(%)、风速(m/s)这四个因素是否都对空气中一氧化氮(NO)的浓度(ppm)有影响?如何定量地描述这些因素对一氧
4、化氮浓度的影响?哪个因素对一氧化氮浓度的影响最大?哪个因素的影响最小?如果利用这些影响因素去预测空气中一氧化氮的浓度,如何预测?效果如何?第一节 多重线性回归多重多重线性回归线性回归(multiple linear regression)因变量因变量:一个一个,Y Y自变量自变量:多个多个,X X1,1,X X2,2,X X3,3,XpXp方程:方程:概概 念念多元多元线性回归线性回归(multi-variate linear regression)简称简称多元多元回归回归(multi-variate regression):因变量因变量:多个多个,Y Y1 1,Y Y2,2,自变量自变量:多
5、个多个,X1,X2,X3,X1,X2,X3,方程:方程:多重线性回归方程多重线性回归方程是简单线性回归方程的扩展其中 表示当所有自变量为0时反应变量Y的总体平均值。为变量Xi 的总体偏回归系数(partial regression coefficient),表示当方程中其他自变量保持常量时,自变量Xi每增加(或减少)一个计量单位,反应变量Y平均变化 个单位。样本回归方程 反应变量Y的总体平均值的估计值。b0的估计。为常数项,又称为截距,是总体参数bi为自变量Xi 的偏回归系数,是总体参数 的估计值。如果要建立由车流量()和风速()预测一氧化氮浓度(Y)的线性回归方程,模型可以写成:表示在车流量
6、不变的情况下,风速每增加一个单位(1m/s),估计空气中一氧化氮的浓度平均改变个单位(ppm)。表13-1 多重线性回归分析数据格式 前提条件(LINE)多重线性多重线性回归分析步骤回归分析步骤(1)(1)求回归方程求回归方程 -最小二乘原则最小二乘原则(2)(2)假设检验假设检验 -检验回归方程是否具有统计学意义,检验回归方程是否具有统计学意义,模型有意义的前提下,再分别对模型有意义的前提下,再分别对各偏回归系数各偏回归系数进行假进行假设检验设检验。(3)(3)变量选择变量选择 -以尽量少的自变量以尽量少的自变量,达到较好地解释达到较好地解释Y Y的目的的目的基本原理:寻找一套适宜的偏回归系
7、数(),建立多重线性回归方程,使得反应变量的观测值 与回归方程的估计值回归系数的估计,求回归方程 采用最小二乘法(least squared method)来估计偏回归系数 之间的残差平方和最小。SPSS实现方法:Analyze-Regression-Linear-y选入Dependent x1、x2、X3.XP选入Independent Method-Enter Stepwise Backward Forward -ok当建立样本回归方程后,首先要考察这个回归方程是否有意义?即在,中,是否至少存在一个自变量与Y的总体均数呈线性关系?回归方程的效果如何?也即是这四个自变量能够解释反应变量的变异
8、的百分比是多少?四个自变量是否都对反应变量有影响?即各个偏回归系数()所对应的总体偏回归系数()是否等于0?考虑:回归的目的回归的目的:估计估计H H0 0成立时成立时,只能用只能用Y Y的均数的均数 来估计来估计残差残差:,:,自由度自由度=H H1 1成立时成立时,给定给定 可以用可以用 来估计来估计残差残差:,自由度自由度=残差减少了残差减少了 统计推断这个回归方程有统计学意义吗这个回归方程有统计学意义吗?-这是回归模型的贡献这是回归模型的贡献 自由度自由度=方差分析的基本思想总变异:把反应变量的观察值的离均差平方和记为 ,它反映了没有利用自变量的信息时的观察值的变异性,即没有考虑车流量
9、、气温、气湿和风速等因素的情况下一氧化氮浓度的变异的大小,其自由度记为 (为样本量)。根据回归方程计算得到的预测值 与实际观察值 之间的差异称为残差,记残差的离均差平方和为 ,它反映了的变异中不能由回归解释的部分,其自由度记为 ,P 为自变量个数。把 与 之差记为回归平方和 ,它反应了回归模型的贡献,即车流量、气温、气湿和风速等因素对一氧化氮浓度的影响,其自由度记为 。表表表表13-2 13-2 方差分析表方差分析表方差分析表方差分析表 表13-3 检验回归方程整体意义的方差分析表变异来源自由度回归40.0640.01617.59.001残差190.0170.001总230.081表中值小于0
10、.001,按照0.05的检验水准,可以拒绝认为所建立的回归方程是有意义的。用这四个自变量构成的回归方程解释空气中一氧化氮浓度的变化是有意义的。回归模型好坏的评价回归模型好坏的评价1)1)拟合的回归方程在总体上有统计学意义拟合的回归方程在总体上有统计学意义2)2)决定系数决定系数R R2 2 R R2 2=1-SS=1-SS残残/SS/SS总总=SS=SS模模/SS/SS总,总,它它表表示示在在因因变变量量y y的的总总变变异异中中可可由由回回归归方方程所解释部分的比例。程所解释部分的比例。0R0R2 21,1,越越接接近近于于1,1,说说明明回回归归方方程程效效果果越越好。好。32复相关系数是
11、随方程中的变量个数增加而增加的,为了克服这一缺点,对它进行校正Adj RAdj R2 2=1-MS=1-MS残残/MS/MS总,总,0AdjR0AdjR2 21,1,越越接接近近于于1,1,说说明明回回归归方方程程效效果果越好。越好。33调整的确定系数调整的确定系数(adjusted R2,)3)3)剩剩余余标标准准差差或或标标准准估估计计误误差差(standard(standard error of estimate)error of estimate)。它它反反映映了了应应变变量量在在扣扣除除自自变变量量的的线线性性影影响后的离散程度;响后的离散程度;剩剩余余标标准准差差越越接接近近于于0
12、,0,说说明明回回归归方方程程效果越好。效果越好。35 4)回归系数估计值的正负号与专业上的含义相吻合,根据回归方程计算的Y的预测值在专业上有意义。36确定系数确定系数 或称决定系数,以反映回归方程的效果好坏。本例 0.79,说明利用车流量、气温、气湿和风速等四个因素可以解释一氧化氮浓度的约80的变异,可以认为回归的效果较好。复相关系数复相关系数(coefficient of multiple correlation)又称多重相关系数又称多重相关系数 回归系数的假设检验回归系数的假设检验 由于存在抽样误差,即使总体偏回归系数为零,也可能得到样本偏回归系数不为零的情形,因此需要对偏回归系数进行假
13、设检验,以推断总体偏回归系数是否为零。检验统计量为其中,是第 个偏回归系数的标准误 车流量、气温、风速对一氧化氮浓度的影响有统计学意义(),但是气湿的影响没有统计学意义()。)。标准偏回归系数标准偏回归系数Standardized partial regression coefficient所有变量标准化后做回归所有变量标准化后做回归,所得系数称为标准偏回归所得系数称为标准偏回归系数系数.注意:注意:一般回归系数一般回归系数有单位,用来解释各自变量对有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,应变量的影响,表示在其它自变量保持不变时,增加或减少一个单位时增加或减少一个单
14、位时Y Y 的平均变化量。的平均变化量。不能用各不能用各 来比较各来比较各 对对 的影响大小。的影响大小。标准化回归系数标准化回归系数无单位,用来比较各自变量对无单位,用来比较各自变量对应变量的影响大小,应变量的影响大小,越大,越大,对对 的影响越大。的影响越大。第二节 回归分析中变量的选择并不是事先考虑的所有的自变量对反应变量的影响都有统计学意义。在许多研究中,多因素线性回归分析的目的是建立一个预测效果最优的回归模型,需要对自变量进行筛选:将对反应变量没有影响的自变量从模型中剔除,将对反应变量的作用有意义的自变量纳入模型当中。残差平方和()缩小或确定系数()增大 越小越好!越小越好!越大越好
15、!越大越好!然而然而,只要增加自变量个数只要增加自变量个数,这个量就会减小这个量就会减小!?!?自变量筛选的统计学标准残差的均方()缩小或调整确定系数()增大 自变量筛选的统计学标准AIC统计量AIC值达到最小,该模型为最佳模型,AIC准则自变量筛选的统计学标准自变量筛选的方法最优子集回归分析法:p个变量有2p1个方程逐步回归分析:向前引入法(forward selection)向后剔除法(backward selection)逐步引入剔除法(stepwise selection)(一)最优子集回归法求出所有自变量可能组合子集的回归方程的模型(共有2p1个),按一定准则选择最优模型,常用的准则
16、有:校正决定系数或残差的均方(考虑了自变量的个数)AIC(Akaikes Information Criterion)准则;AIC AIC 越小越好越小越好最优子集法的局限性 如果自变量个数为4,则所有的回归有24115个;当自变量数个数为10时,所有可能的回归为 2101 1023个;.;当自变量数个数为50时,所有可能的回归为25011015个。前进法(forward selection)后退法(backward elimination)逐步回归法(stepwise regression)。它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回偏回归归平方和平方和的F检验,它
17、表示在原有回归方程基础上引入或剔除某一自变量后所增加或减少的那部分回归平方和.(二)逐步回归分析(1 1)前进法)前进法 自变量从无到有、从少到多自变量从无到有、从少到多 1.将偏回归平方和最大且能使回归系数检验拒绝者入选为第一个自变量;规定一个界值,2.接着将余下的变量中偏回归平方和最大并使检验拒绝者选为第二个自变量;如此不断引入新的自变量,直到再不能拒绝时为止。局限性:只进不出,后续变量的引入可能会使先进入方程的自变量变得不重要。(2 2)后退法)后退法 先将全部自变量放入方程,然后逐步剔除先将全部自变量放入方程,然后逐步剔除 1.首先对全部候选变量作总的回归,每次剔除一个偏回归平方和最小
18、而使回归系数的检验不能拒绝者。2.直到再不能剔除时为止。局限性:只出不进,自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程。(3 3)逐步回归法)逐步回归法 双向筛选(实际应用最多):双向筛选(实际应用最多):在向前引入的每一步之后都要考虑在向前引入的每一步之后都要考虑从已引入方程的变量中剔除相形见绌者从已引入方程的变量中剔除相形见绌者引入引入有意义的变量(前进法)有意义的变量(前进法)剔除剔除无意义的变量(后退法)无意义的变量(后退法)先规定两个阈值P引入和P剔除(P引入P剔除),当候选变量中最大P值 P引入时,引入相应变量;已进入方程的变量最小P
19、值 P剔除时,剔除相应变量。如此交替进行直到无引入和无剔除为止(计算复杂)多重线性回归的应用(1)定量地建立一个反应变量与多个解释变量之间的线性关系。例如,建立肺活量的大小与身高、体重、年龄和性别之间的线性关系。(2)筛选危险因素。例如,筛选高血压的危险因素。(3)通过较易测量的变量估计不易测量的变量。例如,建立婴儿体表面积关于身高、体重、月龄的多因素线性回归方程,可以通过容易测量的身高、体重、月龄等变量估计不易测量的体表面积。(4)通过解释变量预测反应变量。例如,通过风速、汽车流量、气温等指标预测空气中一氧化氮的浓度。(5)通过反应变量控制解释变量。例如,在气温、风速不变的情况下,通过控制汽
20、车流量来实现空气中一氧化氮浓度不超过一定的水平。多重线性回归的应用多重线性回归应用时的注意事项多重线性回归应用时的注意事项 1 1样本含量样本含量 2 2方程方程“最优最优”问题问题 3 3关于逐步回归关于逐步回归 4 4多重共线性多重共线性 5.5.哑变量设定哑变量设定6.6.变量间的交互作用变量间的交互作用7.7.残差分析残差分析多重共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差估计系数方差加大,系数估计不稳,结果分析困难。因此在多因素线性回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断共线性诊断,找出存在共线性且不重要
21、的那些自变量,剔出方程,另行回归分析。对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。剔除某个造成共线性的自变量,重建回归方程;合并自变量;采用逐步回归方法。4 4多重共线性多重共线性 多重共线性的表现在实际应用中主要表现为:多重共线性的表现在实际应用中主要表现为:(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;(2)偏回归系数估计值的方差很大;(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;(4)偏回归系数估计
22、值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释 出现以上表现,提示存在多重共线性问题,应进行多重共线性诊断。方差膨胀因子VIF(2)容忍度(tolerance)以每个自变量作为应变量,对其他自变量进行回归分析时得到的残差比例,大小用1-R2来表示,该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能越严重。如果自变量的容忍度小于0.1,则可能存在共线性问题。5 5 哑变量的设定2分类,可用一个(0,1)变量。如性别 k分类,k-1个(0,1)变量,如血型。多重线性回归分析有时先将有序变量或无序多分类变量转换成为多个二分类变量之后,才能将它们引入回归模型。将有序变量或无序
23、多分类变量转换成为多个二分类变量的过程常被称为“哑元化(dummying)”,得到的多个二分类变量称为“哑变量(dummy variable)”。一般情况下,若某定性变量有k个水平,就需要引入k-1个二值的哑变量。血型是一个无序多分类变量,它的取“值”是A、B、AB、O四种,可以用3个二分类变量来描述。令表11-5 用二分类哑变量描述血型血型变量100010001000(1)无序多分类变量 定量数据格式回归方程 建立回归方程建立回归方程 b1:相当相当A 型相对于型相对于O 型的差别型的差别b2:相当:相当B 型相对于型相对于O 型的差别型的差别b3:相当:相当AB 型相对于型相对于O 型的差
24、别型的差别 (2)等级 定量。一般是将等级从弱到强转换为 (或 )如文化程度分为小学、中学、大学、大学以上四个等级。Y 为经济收入。解释:b(b1)反映X(X1)增加1个单位,增加b个单位(如:500元)。表示中学文化者较小学文化者收入多500,大学较中学多500,余类推。b1,b2,b3分别反映中学、大学、大学以上相对于小分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小学文化程度者经济收入差别的大小也可将K个等级转换为K-1个(0,1)变量为了检验两个自变量是否具有交互作用,为了检验两个自变量是否具有交互作用,普遍的做法是在方程中加入它们的乘积项。普遍的做法是在方程中加入它
25、们的乘积项。6.变量间的交互作用变量间的交互作用例例2 2 某项研究调查了3334名有心脏疾患的妇女,了解血清高密度脂蛋白胆固醇(HDL cholesterol,mg/dl)与体质指数(body mass index,BMI,kg/m2)的关系,考虑到是否患糖尿病(DIABETES)也是影响HDL水平的因素,因此建立了一个以体质指数、是否患糖尿病为自变量,HDL为反应变量的线性回归方程,结果如表13-4所示。表13-4 以体质指数、是否患糖尿病为自变量的线性回归方程变量bSEtP95%CIBMI-0.3910.017-22.5310.000-0.426-0.357DIABETES-4.7830
26、.092-52.2070.000-4.962-4.603CONSTANT67.5510.363185.8470.00066.83968.264F=2441.323,P0.001;R2=0.594,adjR2=0.594,Root MSE=2.02模型假定HDL的平均水平随BMI的变化而变化的规律在糖尿病妇女和非糖尿病组之间是相同的,表现为相同的偏回归系数-0.391在多重线性回归模型中引入一个新的自变量(DMBMI),定义为BMI和DIABETES的乘积,这个乘积项描述的是两个自变量与反应变量之间的关系。由于两个自变量已经在模型中,乘积项就可以解释为交互作用。表13-5 以体质指数、是否患糖尿
27、病为自变量,包含交互作用项的线性回归结果VariablebSEtP95%CIDIABETES-11.3400.965-11.7550.001-13.231-9.448BMI-0.7350.053-13.8220.001-0.839-0.631DMBMI0.2780.0416.8280.0010.1980.358CONSTANT75.5441.22561.6720.00173.14277.945F=1665.379,P=0.000;R2=0.600,adjR2=0.600,Root MSE=2.01所以,对于非糖尿病人,有对于患糖尿病的妇女,有反映了患糖尿病的妇女HDL与BMI的关系 反映了非糖
28、尿病患者HDL与BMI的关系 刻画了糖尿病组和非糖尿病组的妇女HDL与BMI回归关系的差异。7.残差分析残差分析 残差定义为()。通常使用残差图(residual plot)作为一种直观有效的非正式检查方法。绘制残差与反应变量的预测值的散点图考察模型是否满足线性和方差齐性.如果散点随机地分布在以为中心的、与横轴平行的的带状区域内,如图(a)所示,就可以认为基本满足线性和等方差的假定条件。图(b)、(c)的散点呈现曲线趋势,提示资料不满足线性的假定。图(d)、(e)、(f)显示残差随 的变化而变化,提示资料不满足方差齐的前提条件。图(g)、(h)显示残差不仅随 的变化而变化,而且散点呈现曲线趋势
29、,提示资料不满足线性和方差齐性的前提条件。二、多元相关分析(multiple correlation analysis)研究两个变量之间的关系时,所求出的相关系数为简单相关系数。当存在3个(或以上)变量时,且彼此间有联系,就需要作多元相关分析。83 (1)数据形式 设研究问题中有p个指标变量x1、x2、xp,n个观察对象,其数据结构见表1。表1 多元偏相关分析数据结构 编号 X1 X2 .XP 1 x11 x21 x1p 2 x12 x22 x2p 3 x13 x23 x3p n x1n x2n xnp84 (2)偏相关系数 (partial correlation coefficient)研
30、究两个变量之间的关系时,所求出的相关系数为简单相关系数。当存在3个(或以上)变量时,当把其中两个变量以外的其他变量对它们的影响都扣除掉(或平衡掉)以后,求得的相关系数为偏相关系数。85 一般地,设有三个变量X1,X2 和X3,扣除X3 的线性效应后X1 和X2 的偏相关系数记为r12,3,扣除X1 的线性效应后X2 和X3 的偏相关系数记为r23,1,,其绝对值介于0与1之间,可正可负。计算公式为:其中分别代表3个变量的下标。86例1 随机抽查测得9名少年的身高,体重和胸围值见表2。试问身高与胸围的相互关系怎样?表2 9名少年的身高,体重和胸围值 例号 体重X1 胸围X2 身高x3 1 14.
31、0 53.5 95.5 2 13.0 52.0 92.0 3 12.5 53.5 89.0 4 53.5 82.0 168.0 5 11.0 48.0 91.0 6 11.5 47.0 91.0 7 12.5 50.0 91.0 8 55.0 83.0 156.0 9 51.0 79.0 163.0 87若用简单相关:r23=0.98293,P=0.0001 说明身高与胸围呈高度正相关,身高是随胸围增加而增加的。88 身高是随胸围增加而增加这一结果与实际是相矛盾的。理论上说,身高与胸围无关的。造成这一矛盾的主要原因是在考虑胸围与身高的关系时,忽略了体重这一因素的影响。如果需要真正表示这两个变量的相关关系,那么在必须除去其它变量的影响下,计算它们的偏相关系数。89 如:扣除X1计算X2与X3之间的偏相关系数。得到:r23,1=-0.25559,P=0.5412 说明如果没有体重的影响,即假如两个人的体重相同,则其中身高者,相对较瘦(胸围小),身矮者,相对较胖(胸围大)。P值说明身高与胸围的关系无统计学意义,这与实际情况相符合.n操作过程:n Analyze-correlate-partial-X2与X3选入variables-X1选入controlling-OK90