《(5.1.3)--第12章多元线性回归2.ppt》由会员分享,可在线阅读,更多相关《(5.1.3)--第12章多元线性回归2.ppt(95页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第1212章章 多元线性回归分析多元线性回归分析 多元统计分析多元统计分析研究多个变量之间的关系时,所用的统计方法较为复杂,统称为多元统计分析(multivariable statistical analysis),或多因素分析。常用的多元统计分析方法:多元线性回归分析、logistic回归分析、Cox回归分析、判别分析、聚类分析、主成分分析、因子分析、典型相关分析等等。实际应用时,应根据资料类型、设计类型、研究目的等选择适当的方法。uu医学研究中,一种事物或现象往往与多种事物或现象医学研究中,一种事物或现象往往与多种事物或现象有关有关 ,如:,如:l人的体重与身高、胸围有关l心率与年龄、体
2、重、肺活量有关l血压与年龄、性别、体重、饮食习惯、劳动强度、吸烟饮酒状况、锻炼及家族史等有关l糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂有关l射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、照射的时间有关 1 多元线性回归多元线性回归一、基本概念一、基本概念多元线性回归多元线性回归(multiple linear regression):是研究一个因变量(dependent variable)与多个自变量(independent variable)间线性依存关系和数量变化规律的分析方法。二、多元线性回归模型及其参数估计二、多元线性回归模型及其参数估计 1.多元线
3、性回归模型多元线性回归模型 式中,0是常数项,又称截距;1,2,m称为偏回归系数(partial regression coefficient),i(i=1,2,m)的含义为在其它自变量保持不变的条件下,自变量Xi改变一个单位时因变量Y的平均改变量;为随机误差,又称残差(residual),它表示Y的变化中不能由自变量Xi(i=1,2,m)解释的部分。多元线性回归模型多元线性回归模型多元线性回归模型多元线性回归模型应用条件:应用条件:(1)线性:Y与X1,X2,Xm之间具有线性关系;(2)独立:各观测值Yj(j=1,2,n)之间相互独立;(3)正态、等方差:对于任意一组自变量X1,X2,Xm,
4、应变量Y均服从正态分布且方差齐。4、模型的诊断、模型的诊断(diagnosis)数据应满足的假设条件(assumption):a)自变量之间不存在多重共线性;b)自变量与残差独立;c)残差 的均值为零,方差为常数;d)残差之间相互独立;e)残差服从正态分布。不满足条件导致的后果:a)结论不唯一;b)模型中缺少重要自变量;c)参数估计出现偏倚;d)结果失真;e)统计检验结果出现偏倚。多元回归分析数据格式多元回归分析数据格式2.参数估计参数估计即求参数j的估计值bj,并建立多元线性回归方程:式中,是与自变量X1,X2,Xm相对应的因变量Y的估计值,b0为回归方程的常数项。方程中参数的估计可用最小二
5、乘法求得,也就是求出能使估计值 和实际观察值Y的误差平方和 为最小值的一组偏回归系数b1,b2,bm值。为使 最小,解下列方程组 化简得 参数估计参数估计解以上正规方程组可得b1,b2,bm。常数项 n具体计算过程涉及矩阵等线性代数知识,比较麻烦,特别是变量较多时,因此实际应用中一般借助计算机利用统计软件来完成。参数估计参数估计三、多元线性回归方程的假设检验三、多元线性回归方程的假设检验1.多元线性回归方程的假设检验2.偏回归系数的假设检验3.标准偏回归系数及其假设检验1.多元线性回归方程的假设检验多元线性回归方程的假设检验多元线性回归方程的假设检验常用方差分析方差分析进行。(1)建立假设,确
6、定检验水准)建立假设,确定检验水准 H0:12m0 H1:各总体偏回归系数不全等于零 0.05(2)计算检验统计量:Y的总变异分解未引进回归时的总变异:(sum of squares about the mean of Y)引进回归以后的变异(剩余):(sum of squares about regression)回归的贡献,回归平方和:(sum of squares due to regression)多元线性回归方程的假设检验多元线性回归方程的假设检验多元线性回归方程的假设检验多元线性回归方程的假设检验(2)计算检验统计量)计算检验统计量(3)确定)确定P值,作出推断结论值,作出推断结论
7、 根据方差分析结果,若F,按检验水准,不能拒绝H0,即尚不能认为Y与m个自变量间存在线性关系;若FF(m,n-m-1),则P,按水准,拒绝H0,接受H1,即认为回归方程成立,Y与m个自变量间存在线性关系。多元线性回归方程的假设检验多元线性回归方程的假设检验多元线性回归方程的假设检验多元线性回归方程的假设检验2.偏回归系数的假设检验偏回归系数的假设检验偏回归系数的假设检验方法包括 方差分析法方差分析法 t 检验法检验法 (1)建立假设,确定检验水准)建立假设,确定检验水准 H0:第i个自变量的总体偏回归系数等于0,即i=0 Hi:i 0 0.05偏回归系数的假设检验偏回归系数的假设检验偏回归系数
8、的假设检验偏回归系数的假设检验(2)计算检验统计量)计算检验统计量 方差分析法:方差分析法:式中,Ui为第i个自变量Xi的偏回归平方和(sum of squares for partial regression),表示在包含m个自变量的回归方程中剔除第i个自变量以后,使回归平方和减少的量,UiU(m)-U(m-1)。偏回归平方和越大说明自变量Xi越重要。(2)计算检验统计量)计算检验统计量 t 检验法:检验法:式 中 bi是 偏 回 归 系 数 的 估 计 值,SE(bi)是 bi的 标 准 误,;SY123m为剩余标准差,表示扣除了m个自变量的影响后,因变量Y仍然存在的变异,即不能由m个自变
9、量的变化解释的Y的变异;cii为矩阵A的逆矩阵C中对角线上的元素。偏回归系数的假设检验偏回归系数的假设检验偏回归系数的假设检验偏回归系数的假设检验(3)确定)确定P值,作出推断结论值,作出推断结论u方差分析法:方差分析法:如果FF(1,n-m-1),则在给定的水准下拒绝H0,接受H1,认为Xi与Y有线性关系;否则不拒绝H0,认为Xi 与Y无线性关系。u t 检验法:检验法:如果|t|t/2,n-m-1,则在给定的水准下拒绝H0,接受H1,认为Xi与Y有线性关系;反之,如果|t|F0.01(4,22)4.31,P F Model 4 133.71069 33.42767 8.28 0.0003
10、Error 22 88.84117 4.03823 Corrected Total 26 222.55185 Root MSE 2.00954 R-Square 0.6008 Dependent Mean 11.92593 Adj R-Sq 0.5282 Coeff Var 16.85015 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr|t|Intercept 1 5.94327 2.82859 2.10 0.0473 X1 1 0.14245 0.36565 0.39 0.7006 X
11、2 1 0.35147 0.20420 1.72 0.0993 X3 1 -0.27059 0.12139 -2.23 0.0363 X4 1 0.63820 0.24326 2.62 0.0155四、回归效果的评价四、回归效果的评价 常用评价指标决定系数复相关系数校正决定系数剩余标准差1.决定系数决定系数(coefficient of determination)决定系数是指回归平方和占总平方和的比例,反映各自变量对因变量回归贡献的大小,用R2表示。R2SS回归/SS总 R2无单位,取值在01之间。值越大,说明回归平方和在总平方和中所占的比重越大,剩余平方和所占比例越小,回归效果越好。如例1
12、4.1中包含4个自变量的多元线性回归方程的决定系数R2SS回归/SS总133.7107/222.55190.6008,表明血糖含量变异的60%可由总胆固醇、甘油三酯、胰岛素、糖化血红蛋白的变化来解释。2.复相关系数复相关系数(multiple correlation coefficient)复相关系数,亦称多元相关系数,为决定系数的算术平方根,用R表示。用于衡量因变量Y与各个自变量X1,X2,Xm之线性组合间相关关系的密切程度,也即Y与 之间的相关。R的取值介于0与1之间,没有负值。R越接近于1,说明线性关系越密切;R越近于零,则线性关系越微弱。复相关系数的假设检验等同于回归方程的假设检验。例
13、14.1中的复相关系数 。3.剩余标准差剩余标准差(standard deviation of residual)剩余标准差为扣除m个自变量的影响后,因变量Y仍然存在的变异,即不能由m个自变量的变化解释的Y的变异,用SY123m来表示。剩余标准差越小,说明回归效果越好。剩余标准差除与SS剩余有关外,还与自由度有关,因此剩余标准差与决定系数对回归效果优劣的评价结果有时不一致。研究者通常希望用尽可能少的自变量来最大限度地解释因变量的变异,从这个意义上来说,用剩余标准差作为评价回归效果的指标比决定系数更好。4.校正决定系数校正决定系数(adjusted coefficient of(adjusted
14、 coefficient of determination)determination)由于决定系数随方程中自变量数的增加而增大,即使引入无统计学意义的变量,其值也会略有增加,因此决定系数作为衡量回归方程好坏的标准有所欠缺。故计算校正决定系数以消除自变量个数的影响。u校正决定系数 越大,说明回归效果越好,其评价结果与剩余标准差一致。u当方程中加入有显著作用的自变量时,增大,而剩余标准差减小;反之,若方程中引入无显著作用的自变量时,可能减小,而剩余标准差增大。u因此,常以 越大,SY123m越小,作为多元回归方程估计效果评价的指标。2 逐步回归分析逐步回归分析一、基本概念一、基本概念多元回归方程
15、 中,m个自变量是研究者预先确定的,有时,所拟合方程经假设检验不成立;或者虽然方程成立,但方程中有些变量经检验作用不显著。把从众多变量中,挑选出对因变量有显著作用的自变量,拟和所含自变量尽可能的少,而其估计效果和精确度又更好的“最优回归方程”的过程,称为逐步回归分析。二、最优回归方程及其选择方法二、最优回归方程及其选择方法所谓“最优回归方程”是指:对因变量Y有显著作用的自变量,全部选入回归方程;对因变量Y无显著作用的自变量,一个也不引入回归方程。这样就保证了剩余标准差SY123m最小,从而保证了较高的预测精度。选择选择”最优回归方程最优回归方程”的方法的方法 1最优子集回归法 2向前引入法(f
16、orward selection)3向后剔除法(backward selection)4逐步回归法(stepwise selection)逐逐逐逐步步步步选选选选择择择择法法法法1.最优子集回归法最优子集回归法求出全部自变量所有可能组合的子集回归方程中(共有 个方程),按一定准则挑选最优者。(1)R2选择法:选择决定系数R2最大的方程。(2)修正R2选择法:选择校正决定系数最大的方程。(3)Mallows Cp 选择法:C即criterion,p为所选模型 中变量的个数;一般选Cp首次接近p的模型。(4)AIC(Akaikes Information Criterion)准则:AICAIC越小
17、越小越好越好最优子集法的局限性最优子集法的局限性如果自变量个数为4,则所有的回归方程有24115个;当自变量数个数为10时,所有可能的回归方程为 210-1 1023个;.;当自变量数个数为50时,所有可能的回归为25011015个。计算量极大!计算量极大!2.逐步选择法逐步选择法 每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验。逐步选择法逐步选择法-向前引入法向前引入法 向前引入法(backward selection),亦称前进法,“自变量从无到有、从少到多”。(1)Y对每一个自变量作直线回归,对回归平方和最大的自变量作F 检验,有统计学意义(P)则引入。(2)在此基
18、础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F 检验,直到无可引入的自变量为止。局限性:局限性:后续变量的引入可能会使先进入方程的自变量变得不重要。逐步选择法逐步选择法-向后剔除法向后剔除法向后剔除法(backward selection),亦称后退法。先建立一个包含全部自变量的回归方程。(1)对偏回归平方和最小的变量作F检验,无统计学意义则剔除。(2)建立新的回归方程,重复上述过程直到无可剔除的变量为止。局限性:局限性:自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程。逐步选择法逐步选择法-逐步回归法逐步回归法逐步回归法(stepw
19、ise selection),是为达到从一切可能组合方程中,找出最优回归方程而提供的一种简单有效的方法。双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法)。引入和剔除交替进行,直到既无具有统计学意义的新变量可以引入,也无失去其统计学意义的自变量可剔出方程为止。逐步选择法逐步选择法-逐步回归法逐步回归法小样本检验水准 a 一般定为0.10或0.15,大样本可取a0.05。a取值越小表示选取自变量的标准越严。注意:引入变量的检验水准要大于或等于剔除变量的检验水准,否则当各自变量的显著性都不是很大时,可能导致最后没有自变量入选方程。三、逐步回归分析三、逐步回归分析1.逐步回归分析的基本思
20、想逐步回归分析的基本思想在供选择的m个自变量中,按自变量对因变量Y作用的大小,即偏回归平方和的大小,由大到小把自变量依次逐个引入方程。每引入一个自变量,就要对它进行假设检验,当P 时才引入。而当新自变量Xi引入回归方程后,对方程中原有的自变量也要进行假设检验,并把贡献最小且退化为无统计学意义的自变量剔出方程。逐步回归分析的基本思想逐步回归分析的基本思想(续续)因此,逐步回归的每一步(引入一个自变量或从方程中剔除一个自变量都称为一步)前后都要进行假设检验,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。回归结束,最后所得方程即为所求得的“最优”回归方程。假设检验一般用方差分析。2.逐
21、步回归分析的步骤逐步回归分析的步骤(1)整理数据整理数据逐步回归分析的步骤逐步回归分析的步骤 (2)确定检验水准确定检验水准 及剔选界值。及剔选界值。一般选=0.05或=0.10,根据实际情况与要求有时可放宽到=0.20。所取 值越小,方程中入选的自变量个数就越少。(3)逐步回归过程及结果解释逐步回归过程及结果解释 调用SAS软件包中的REG过程,并采用SELECTION=STEPWISE选择项,进行逐步回归分析。例例14.2 14.2 对例对例14.114.1作逐步回归分析。作逐步回归分析。DATA BB14;INPUT X1 X2 X3 X4 Y;CARDS;5.681.904.538.2
22、11.23.841.206.459.610.4;PROC REG;MODEL Y=X1 X2 X3 X4/SELECTION=STEPWISE SLE=0.15 SLS=0.15;RUN;The SAS System 16:19 Wednesday,April 21,2006 11 The REG Procedure Model:MODEL1 Dependent Variable:Y Stepwise Selection:Step 1 Variable X4 Entered:R-Square=0.3717 and C(p)=11.6284 Analysis of Variance Sum of
23、 Mean Source DF Squares Square F Value Pr F Model 1 82.71438 82.71438 14.79 0.0007 Error 25 139.83747 5.59350 Corrected Total 26 222.55185 Parameter Standard Variable Estimate Error Type II SS F Value Pr F Intercept 3.00612 2.36380 9.04635 1.62 0.2152 X4 0.97821 0.25438 82.71438 14.79 0.0007 Stepwis
24、e Selection:Step 2 Variable X1 Entered:R-Square=0.4843 and C(p)=7.4187 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 2 107.79031 53.89515 11.27 0.0004 Error 24 114.76154 4.78173 Corrected Total 26 222.55185 Parameter Standard Variable Estimate Error Type II SS F Value
25、Pr F Intercept 1.30990 2.30766 1.54070 0.32 0.5756 X1 0.67753 0.29586 25.07593 5.24 0.0311 X4 0.73234 0.25855 38.36520 8.02 0.0092Stepwise Selection:Step 3 Variable X3 Entered:R-Square=0.5471 and C(p)=5.9623 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 121.74803 40.
26、58268 9.26 0.0003 Error 23 100.80382 4.38277 Corrected Total 26 222.55185 Parameter Standard Variable Estimate Error Type II SS F Value Pr F Intercept 4.30858 2.77570 10.56017 2.41 0.1343 X1 0.54497 0.29283 15.17974 3.46 0.0756 X3 -0.21859 0.12249 13.95772 3.18 0.0875 X4 0.63533 0.25342 27.54549 6.2
27、8 0.0197 Stepwise Selection:Step 4 Variable X2 Entered:R-Square=0.6008 and C(p)=5.0000 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 4 133.71069 33.42767 8.28 0.0003 Error 22 88.84117 4.03823 Corrected Total 26 222.55185 Parameter Standard Variable Estimate Error Type
28、II SS F Value Pr F Intercept 5.94327 2.82859 17.82798 4.41 0.0473 X1 0.14245 0.36565 0.61285 0.15 0.7006 X2 0.35147 0.20420 11.96265 2.96 0.0993 X3 -0.27059 0.12139 20.06351 4.97 0.0363 X4 0.63820 0.24326 27.79392 6.88 0.0155 Stepwise Selection:Step 5 Variable X1 Removed:R-Square=0.5981 and C(p)=3.1
29、518 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 133.09783 44.36594 11.41 F Intercept 6.49962 2.39615 28.61665 7.36 0.0124 X2 0.40235 0.15405 26.52954 6.82 0.0156 X3 -0.28704 0.11169 25.69041 6.61 0.0171 X4 0.66323 0.23026 32.26867 8.30 0.0084 Summary of Stepwise Se
30、lection Variable Variable Number Partial ModelStep Entered Removed Vars In R-Square R-Square C(p)F Value Pr F 1 X4 1 0.3717 0.3717 11.6284 14.79 0.0007 2 X1 2 0.1127 0.4843 7.4187 5.24 0.0311 3 X3 3 0.0627 0.5471 5.9623 3.18 0.0875 4 X2 4 0.0538 0.6008 5.0000 2.96 0.0993 5 X1 3 0.0028 0.5981 3.1518
31、0.15 0.700 入选变量是X2、X3、X4,一般“最优”方程为:DATA BB14;INPUT X1 X2 X3 X4 Y;CARDS;5.681.904.538.211.23.841.206.459.610.4;PROC REG;MODEL Y=X1 X2 X3 X4/SELECTION=STEPWISE SLE=0.15 SLS=0.15 STB;RUN;Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 133.09783 44.36594 11.41|t|Estimate I
32、ntercept 1 6.49962 2.39615 2.71 0.0124 0 X2 1 0.40235 0.15405 2.61 0.0156 0.35409 X3 1 -0.28704 0.11169 -2.57 0.0171 -0.36013 X4 1 0.66323 0.23026 2.88 0.0084 0.41334最优标准回归方程最优标准回归方程 3 多元线性回归的应用及其注意事项多元线性回归的应用及其注意事项一、多元线性回归的应用一、多元线性回归的应用 1影响因素分析 2估计与预测 3统计控制 1.影响因素分析影响因素分析 影响因素分析是医学研究中经常遇到的问题,大多数疾病都
33、有多种致病原因,疾病的预后也是由多种因素决定的。控制混杂因素的一个简单办法就是将其引入回归方程,与其他主要变量一起分析。多元线性回归的应用多元线性回归的应用多元线性回归的应用多元线性回归的应用2.估计与预测估计与预测 回归方程可以用于估计或预测,如由儿童的心脏横径、心脏纵径和心脏宽径估计心脏的表面积;由胎儿的孕龄、头径、胸径和腹径预测出生儿的体重等。这种情况下由回归方程得到的 值,是对应于一组给定自变量观测值时因变量Y的均值。此时个体Y值的(1-)容许区间为 。用回归方程进行预测时,应选择具有较高R2值的方程。多元线性回归的应用多元线性回归的应用多元线性回归的应用多元线性回归的应用回归系数及其
34、区间估计统计预测3.统计控制统计控制 统计控制是指利用回归方程进行逆估计,即通过控制自变量的值使得因变量Y为给定的一个确切值或者一个波动范围。此时,要求回归方程的R2值要大,回归系数的标准误要小。多元线性回归的应用多元线性回归的应用多元线性回归的应用多元线性回归的应用二、多元线性回归应用时的注意事项二、多元线性回归应用时的注意事项1.样本含量样本含量 2.方程方程“最优最优”问题问题 3.关于逐步回归关于逐步回归 4.多元共线性多元共线性 5.异常值识别与强影响分析异常值识别与强影响分析 1.样本含量样本含量多元线性回归既可用于大样本资料,也可用于小样本资料,但是如果方程中自变量的个数m较多,
35、样本含量 n 相对于m 并不很大时,建立的回归方程会很不稳定,常常有较大的R2值,容易造成一种假象。因此,实际计算时应注意n与m的比例。通常,样本含量至少为变量数的510倍。多元线性回归多元线性回归多元线性回归多元线性回归应用时的注意事项应用时的注意事项2.方程方程“最优最优”问题问题其目的是精选自变量以求得拟合效果最好的多元回归方程。最优子集回归是选择一组使回归方程拟和最好的自变量,而逐步回归则选择对因变量作用有意义的自变量,要根据研究目的选用合适的方法。多元线性回归多元线性回归多元线性回归多元线性回归应用时的注意事项应用时的注意事项3.关于逐步回归关于逐步回归在自变量较多的情况下,使用逐步
36、回归分析常能使问题得到简化。但在进行逐步回归分析时,随剔选变量界值的不同,选得的回归方程不一定相同。方程中引入什么样的变量,应该由研究者结合专业知识以及经验来确定,不加分析的使用逐步回归难以取得好的效果。另外,逐步回归在对大量因素进行分析时,可先进行聚类分析,然后进行逐步回归分析等。多元线性回归多元线性回归多元线性回归多元线性回归应用时的注意事项应用时的注意事项4.多重共线性多重共线性多重共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在多元回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断
37、,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。多元线性回归多元线性回归多元线性回归多元线性回归应用时的注意事项应用时的注意事项常用的共线性诊断指标常用的共线性诊断指标(1)方差膨胀因子方差膨胀因子(variance inflation factors,VIFj)其中,为Xj与其余(m-1)个自变量线性回归的决定系数。VIFj值越大,多重共线程度越严重。当VIFj10时,可认为多重共线性严重存在。常用的共线性诊断指标常用的共线性诊断指标(2)特征根系统特征根系统(system of eigenvalues):主要包括条件指数和方差比。条件指数是最大特征根与每个特征根之比的平方根
38、当hj10且对应的方差比0.5时,可认为多元共线性严重存在。通常把最大的条件指数称为条件数。条件指数与方差比结合起来度量共线性,不仅可以确定存在共线关系的自变量数目及其共线程度,而且可确定各个共线关系对每个系数方差比的贡献。DATA AA14;INPUT X1 X2 X3 X4 Y;CARDS;5.681.904.538.211.23.841.206.459.610.4;proc reg;model y=x1 x2 x3 x4/VIF;run;PROC REG;MODEL Y=X1-X4/SELECTION=STEPWISE SLE=0.15 SLS=0.15 STB;RUN;方差膨胀因子方差
39、膨胀因子 Parameter Estimates Parameter Standard Variance Variable DF Estimate Error t Value Pr|t|Inflation Intercept 1 5.94327 2.82859 2.10 0.0473 0 X1 1 0.14245 0.36565 0.39 0.7006 2.18554 X2 1 0.35147 0.20420 1.72 0.0993 1.77986 X3 1 -0.27059 0.12139 -2.23 0.0363 1.27836 X4 1 0.63820 0.24326 2.62 0.01
40、55 1.26673DATA AA14;INPUT X1 X2 X3 X4 Y;CARDS;5.681.904.538.211.23.841.206.459.610.4;proc reg;model y=x1 x2 x3 x4/collin collinoint;run;PROC REG;MODEL Y=X1-X4/SELECTION=STEPWISE SLE=0.15 SLS=0.15 STB;RUN;collin和和collinoint用用来实现共线性诊断来实现共线性诊断:对对截距未进行校正截距未进行校正,对截对截距进行了校正。当截距项距进行了校正。当截距项无统计学意义时无统计学意义时,结
41、结果差别很小果差别很小;当截距项有当截距项有统计学意义时统计学意义时,用用结果。结果。Collinearity Diagnostics(intercept adjusted)Condition-Proportion of Variation-Number Eigenvalue Index X1 X2 X3 X4 1 2.03653 1.00000 0.08670 0.06704 0.05605 0.08729 2 1.03109 1.40539 0.01613 0.20776 0.35320 0.08944 3 0.64699 1.77418 0.02299 0.01142 0.37427 0
42、.78675 4 0.28539 2.67133 0.87418 0.71378 0.21649 0.036525.异常值识别与强影响分析异常值识别与强影响分析多元回归分析时,常遇到数据包含某些异常值(outlying reading)情况。这些异常观测值远离其它大多数数据,加大了数据的离散度,在线性回归分析中产生较大的残差,影响回归函数的拟合度,所以应进行异常值识别。异常值识别和强影响分析的方法很多,基本的有学生化残差和Cooks距离,另外还有预测残差平方和、杠杆值等。多元线性回归多元线性回归多元线性回归多元线性回归应用时的注意事项应用时的注意事项异常值识别和强影响分析方法异常值识别和强影响
43、分析方法(1)学生化残差学生化残差(studentized residual)学生化残差:ti=ei/s(ei)其中,为因变量的实测值与估计值间的差值,称为残差;s(ei)为残差的方差平方根。当ti 2时,所对应的点可能是异常点(outlier)。异常值识别和强影响分析方法异常值识别和强影响分析方法(2)Cooks距离距离Di 识别出的异常观测点并不能立即剔除,要进一步判断它们是否为严重影响结果的强影响点再决定取舍。强影响度的度量用Cooks距离Di。其中ti为学生化残差,为估计标准误,STDERR(RESID)为剩余标准误,k为包括截距项在内的估计参数个数。当Di0.5时,可认为第i个观测点
44、对回归函数是强影响点。一般的,若第i个观测点的 ti 2且Di0.5,则需考虑剔除该观测点后再作回归分析。DATA AA14;INPUT X1 X2 X3 X4 Y;CARDS;5.681.904.538.211.23.841.206.459.610.4;proc reg;model y=x2 x3 x4/p r;run;异常值识别和强影响分析异常值识别和强影响分析异常值识别和强影响分析异常值识别和强影响分析Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 133.09783 44.36
45、594 11.41|t|Intercept 1 6.49962 2.39615 2.71 0.0124 X2 1 0.40235 0.15405 2.61 0.0156 X3 1 -0.28704 0.11169 -2.57 0.0171 X4 1 0.66323 0.23026 2.88 0.0084 CooksCooks D D 0.000 0.000 0.002 0.002 0.005 0.005 0.000 0.000 0.004 0.004 0.014 0.014 0.003 0.003 0.000 0.000 0.037 0.037 0.013 0.013 0.473 0.473
46、0.017 0.017 0.039 0.039 0.014 0.014 0.017 0.017 0.031 0.031 0.138 0.138 0.000 0.000 0.011 0.011 0.087 0.087 0.037 0.037 0.694 0.694 0.000 0.000 0.242 0.242 0.0510.051 0.005 0.005 0.056 0.056 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 156.10173 52.03391 17.75|t|Intercept 1 4.91254 2.15014 2.28 0.0323 X2 1 0.43825 0.13431 3.26 0.0036 X3 1 -0.29930 0.09705 -3.08 0.0054 X4 1 0.81259 0.20635 3.94 0.0007去掉异常值:去掉异常值:谢谢谢谢 欣赏欣赏