《最新应用统计学多重线性回归模型PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新应用统计学多重线性回归模型PPT课件.ppt(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、应用统计学多重线性回归应用统计学多重线性回归模型模型重庆交通大学管理学院*17 十一月 2022v内内 容容 提提 要要模型简介模型简介简单实例分析简单实例分析逐步回归逐步回归残差分析残差分析模型进一步诊断与修正模型进一步诊断与修正小结小结重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022简单分析实例简单分析实例重庆交通大学管理学院*17
2、十一月 2022简单分析实例简单分析实例重庆交通大学管理学院*17 十一月 2022简单分析实例简单分析实例结果分析结果分析v 给给出出了了自自变变量量进进入入模模型型的的方方式式,此此处处尚尚未未涉涉及及变变量量筛筛选选问问题题,因因为为两两个个变变量量是是被被强强行行纳纳入入模模型型的的(MethodMethod为为EnterEnter),当然就不存在剔除变量的事情了。),当然就不存在剔除变量的事情了。重庆交通大学管理学院*17 十一月 2022简单分析实例简单分析实例结果分析结果分析v 模型拟合优度情况的检验,结果显示,复相关系数为模型拟合优度情况的检验,结果显示,复相关系数为0.840
3、0.840,决定系数为,决定系数为0.7060.706,调整的决定系数为,调整的决定系数为0.6860.686,还,还输出了剩余标准差。输出了剩余标准差。重庆交通大学管理学院*17 十一月 2022简单分析实例简单分析实例结果分析结果分析v 回回归归模模型型的的假假设设检检验验结结果果,显显示示F F34.808,P P 33的观测为异常值。的观测为异常值。探测自变量中强影响点:杠杆值探测自变量中强影响点:杠杆值,hij,hij大于大于2 2或或3 3倍的平均值倍的平均值即为异常;库克距离即为异常;库克距离11为异常;标准化回归系数和标准化为异常;标准化回归系数和标准化预测值的变化;预测值的变
4、化;模型的进一步诊断与修正模型的进一步诊断与修正重庆交通大学管理学院*17 十一月 2022v强影响点的处理强影响点的处理模型的进一步诊断与修正模型的进一步诊断与修正 考虑是否录入错误,如果是,予以改正;否则予以删考虑是否录入错误,如果是,予以改正;否则予以删除强影响点记录;除强影响点记录;进行稳健回归,如最小一乘法和加权最小二乘法;进行稳健回归,如最小一乘法和加权最小二乘法;进行非参数回归及变量变换等。进行非参数回归及变量变换等。重庆交通大学管理学院*17 十一月 2022v多重共线性的识别多重共线性的识别模型的进一步诊断与修正模型的进一步诊断与修正多重共线性:是指自变量间存在相关关系,即一
5、个自变量可以用其他一多重共线性:是指自变量间存在相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。有以下表现形式:个或几个自变量的线性表达式进行表示。有以下表现形式:整个模型的方差分析结果为整个模型的方差分析结果为PP P ;专业上认为应该有统计学意义的自变量检验结果却无统计学意义;专业上认为应该有统计学意义的自变量检验结果却无统计学意义;自变量的偏回归系数取值大小甚至符号明显与实际情况违背,难以自变量的偏回归系数取值大小甚至符号明显与实际情况违背,难以解释;解释;增加或删除一条记录或一个自变量,偏回归系数发生很大变化。增加或删除一条记录或一个自变量,偏回归系数发生很大变化
6、。重庆交通大学管理学院*17 十一月 2022v多重共线性的识别多重共线性的识别模型的进一步诊断与修正模型的进一步诊断与修正可以通过可以通过statistics statistics 子对话框中的子对话框中的Collinearity Collinearity Diagnostics Diagnostics 复选框予以实现。其中提供了以下统计量:复选框予以实现。其中提供了以下统计量:容忍度容忍度 方差膨胀因子方差膨胀因子 条件指数条件指数 变异构成变异构成重庆交通大学管理学院*17 十一月 2022容忍度容忍度(Toli=1-Ri2)(Toli=1-Ri2):Ri2Ri2是自变量是自变量xixi
7、与其他自变量间与其他自变量间的决定系数。的决定系数。方差膨胀因子(方差膨胀因子(VIF=1/ToliVIF=1/Toli)1010,表明共线性严重,表明共线性严重特征根特征根:最大特征根远远大于其他特征根,说明自:最大特征根远远大于其他特征根,说明自变量间有大量的信息重叠。变量间有大量的信息重叠。条件指数条件指数ki=SQRTki=SQRT(m/i m/i):):1010,表明存在,表明存在共线性。共线性。模型的进一步诊断与修正模型的进一步诊断与修正重庆交通大学管理学院*17 十一月 2022v多重共线性的识别(例多重共线性的识别(例2分析结果)分析结果)模型的进一步诊断与修正模型的进一步诊断
8、与修正重庆交通大学管理学院*17 十一月 2022v多重共线性的处理多重共线性的处理模型的进一步诊断与修正模型的进一步诊断与修正增加样本量增加样本量逐步回归(当共线性很严重时,仍然不行)逐步回归(当共线性很严重时,仍然不行);岭回归(岭回归(RidgeRegression,为有偏估计)为有偏估计);主成分回归主成分回归;路径分析。路径分析。重庆交通大学管理学院*17 十一月 2022小小结结v回归模型的建立步骤回归模型的建立步骤回归分析已经被应用的非常广泛,作为一个严肃的统计学模型,它有着自己严格的适用条件,在拟合时需要不断进行这些适用条件的判断。但是,许多使用者往往忽视了这一点,只是把模型做
9、完就好了。这不仅浪费信息,更有可能得出错误的结论。这里给出一个比较合适的回归分析操作步骤,供大家参考。重庆交通大学管理学院*17 十一月 2022小小结结v回归模型的建立步骤回归模型的建立步骤 绘制散点图,观察变量间的趋势。(不能随意省略)考察数据分布,进行必要的预处理。进行直线回归分析。残差分析。(最重要和直观的方法是图示法)强影响点的诊断和多重共线性的判断。重庆交通大学管理学院*17 十一月 2022小小结结建立一个“完美”的多重线性回归模型是一个需要反复进行的过程,不能指望一蹴而就。重庆交通大学管理学院*17 十一月 2022基本操作:Analyze-Regression-LinearD
10、ependent:Dependent:因变量因变量Independent:Independent:自变量自变量Method:Method:自变量筛选方法自变量筛选方法,默认为默认为EnterEnterBlock:Block:不同变量有不同筛选方法时可定义不同变量有不同筛选方法时可定义BlockBlockSelection Variable:Selection Variable:变量值满足条件的样本才参与分析变量值满足条件的样本才参与分析Case Labels:Case Labels:指定图示中数据点的标志变量指定图示中数据点的标志变量重庆交通大学管理学院*17 十一月 2022重庆交通大学管理
11、学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022对于呈非线性关系的变量之间的统计关系进行大体估计对于呈非线性关系的变量之间的统计关系进行大体估计(但经变量变换可转化为线性关系(但经变量变换可转化为线性关系本质线性关系)。本质线性关系)。绘制拟合曲线并进行预测。绘制拟合曲线并进行预测。做为线性回归分析的预分析步骤:选择变量变换的方法。做为线性回归分析的预分析步骤:选择变量变换的方法。曲线估计曲线估计重庆交通大学管理学院*17 十一月 2022
12、常用的几种非线性模型(一)抛物线模型(一)抛物线模型(二次曲线模型二次曲线模型)具体形式为:具体形式为:式中式中00、1 1 和和2 2 为待估计参数。为待估计参数。判断某种现象是否适合应用抛物线,可以利用判断某种现象是否适合应用抛物线,可以利用“差分法差分法”。其步骤如下:首先将样本。其步骤如下:首先将样本观察值按观察值按X X 的大小顺序排列,然后按以下两式计算的大小顺序排列,然后按以下两式计算X X 和和Y Y 的一阶差分的一阶差分XtXt、Yt Yt 以以及及Y Y 的二阶差分的二阶差分Y2tY2t。Xt=Xt-Xt-1;Yt=Yt-Yt-1Xt=Xt-Xt-1;Yt=Yt-Yt-1
13、Y2t=Yt-Yt-1 Y2t=Yt-Yt-1当当Xt Xt 接近于一常数,而接近于一常数,而Y2t Y2t 的绝对值接近于常数时,的绝对值接近于常数时,Y Y 与与X X 之间的关系可以用之间的关系可以用抛物线模型近似加以反映。抛物线模型近似加以反映。重庆交通大学管理学院*17 十一月 2022(二)双曲线模型假如假如Y Y 随着随着X X 的增加而增加(或减少),最初增加(或的增加而增加(或减少),最初增加(或减少)很快,以后逐渐放慢并趋于稳定,则可以选用双减少)很快,以后逐渐放慢并趋于稳定,则可以选用双曲线来拟合。双曲线模型形式是:曲线来拟合。双曲线模型形式是:Y=0+1(1/X)+Y=
14、0+1(1/X)+重庆交通大学管理学院*17 十一月 2022(三)幂函数模型(三)幂函数模型幂函数模型的一般形式是:幂函数模型的一般形式是:这类函数的优点在于:方程中的参数可以直接反映因变量这类函数的优点在于:方程中的参数可以直接反映因变量Y Y 对于某对于某一个自变量的弹性。一个自变量的弹性。所谓所谓Y Y 对于对于Xj Xj 的弹性,是指在其他情况不变的条件下,的弹性,是指在其他情况不变的条件下,Xj Xj 变动变动时所引起时所引起Y Y 变动的百分比。变动的百分比。弹性是一个无量纲的数值,它是经济弹性是一个无量纲的数值,它是经济定量分析中常用的一个尺度。它在生产函数分析和需求函数分析中
15、,定量分析中常用的一个尺度。它在生产函数分析和需求函数分析中,得到了广泛的应用。得到了广泛的应用。重庆交通大学管理学院*17 十一月 2022(四)指数函数模型指数函数模型为:指数函数模型为:这种曲线被广泛应用于描述社会经济现象的变动趋势。例如产值、产这种曲线被广泛应用于描述社会经济现象的变动趋势。例如产值、产量按一定比率增长量按一定比率增长,成本、原材料消耗按一定比例降低。成本、原材料消耗按一定比例降低。重庆交通大学管理学院*17 十一月 2022(五)逻辑曲线模型逻辑曲线的方程式如下:逻辑曲线的方程式如下:逻辑曲线具有以下性质。逻辑曲线具有以下性质。Y Y 是是X X 的非减函数,开始时随
16、着的非减函数,开始时随着X X 的增加,的增加,Y Y 的增长速度也逐渐加快,但是的增长速度也逐渐加快,但是Y Y 达到一定水平之后,达到一定水平之后,其增长速度其增长速度又逐渐放慢。最后无论又逐渐放慢。最后无论X X 如何增加,如何增加,Y Y 只会趋近于只会趋近于L,L,而永远不会超过而永远不会超过L L。重庆交通大学管理学院*17 十一月 2022可拟合的曲线本质线性关系本质线性关系:形式上呈非线性关系,但可通过变量变:形式上呈非线性关系,但可通过变量变换化为线性关系。换化为线性关系。拟合原则:一般来说,涉及的变量越多,变量的幂次越拟合原则:一般来说,涉及的变量越多,变量的幂次越高,计算
17、量就越大,误差也将越大。一般尽量避免采用高,计算量就越大,误差也将越大。一般尽量避免采用多元高次多项式。多元高次多项式。能拟合的曲线见下页能拟合的曲线见下页重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022基本操作:AnalyzeRegressionCurve Estimation重庆交通大学管理学院*17 十一月 2022Independent:X2Dependent Mth Rsq d.f.F Sigf b0 b1 b2 b3 X5 QUA .987 10 382.64 .000 252.698 -.1475 2.5E-05 X5 CUB .994 9
18、 516.46 .000 -41.314 .0754 -2.E-05 2.6E-09 X5 COM .995 11 2086.35 .000 20.9550 1.0004 X5 POW .954 11 229.58 .000 3.6E-05 1.8460重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022例:打开打开年人均消费支出和教育年人均消费支出和教育数据,对居民在数据,对居民在外就餐的趋势进行分析外就餐的趋势进行分析,预测预测20032003年和年和20042004年度年度的居民在外就餐的费用。的居民在外就餐的费用。重庆交通大学管理学院*17 十一月
19、2022操作:GraphsSequence重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022Dependent variable.X4 Method.EXPONENTListwise Deletion of Missing DataMultiple R .96856R Square .93810Adjusted R Square .93501Standard Error .26294 Analysis of Variance:DF Sum of Squares Mean SquareRegression 1 20.956004 20.956004Resid
20、uals 20 1.382742 .069137F=303.10787 Signif F=.0000-Variables in the Equation-Variable B SE B Beta T Sig TTime .153837 .008836 .968556 17.410 .0000(Constant)12.521790 1.751183 7.150 .0000The following new variables are being created:Name Label FIT_6 Fit for X4 from CURVEFIT,MOD_6 EXPONENTIAL1 new cas
21、es have been added.重庆交通大学管理学院*17 十一月 2022二项Logistic 回归适用于进行二分类因变量的影响因素分析适用于进行二分类因变量的影响因素分析用于控制混杂因素,描述自变量对因变量的独立作用于控制混杂因素,描述自变量对因变量的独立作用下的影响程度用下的影响程度用于预测或判别分析用于预测或判别分析重庆交通大学管理学院*17 十一月 2022与线性回归的不同之处被解释变量为被解释变量为0/10/1二分类定性变量时,不适合线性回归模二分类定性变量时,不适合线性回归模型分析:型分析:被解释变量取值范围不一致残差为二值离散型分布而非正态分布等方差性不再满足重庆交通大学
22、管理学院*17 十一月 2022二项Logistic回归将将y yi i=1=1的概率值直接拟合线性回归模型:的概率值直接拟合线性回归模型:P Py=1y=1=0 0+i ix xi i可对概率可对概率P P值做变量变换,使之取值范围为值做变量变换,使之取值范围为-+-+解释变量与被解释变量概率值的实际关系一般呈增长曲线发生比(Odds)=p/(1-p)Logit P转换:ln()=ln(p/(1-p)=0+ixi重庆交通大学管理学院*17 十一月 2022i i为解释变量增加一个单位时为解释变量增加一个单位时,ln(),ln()的变化量的变化量经变换,经变换,=exp(=exp(0 0+i
23、ix xi i)固定其他变量,研究变量x1的作用exp(i)称为固定其他变量的作用时,变量xi增加一个单位引起的发生比之比(Odds Ratio,OR).二项Logistic回归-参数意义重庆交通大学管理学院*17 十一月 2022最大似然估计法,通过最大化对数似然值最大似然估计法,通过最大化对数似然值(log(log likelihood)likelihood)估计参数。估计参数。最大似然估计法是一种迭代算法,它以一个预测估计值最大似然估计法是一种迭代算法,它以一个预测估计值作为参数的初始值,根据算法确定能增大对数似然值的作为参数的初始值,根据算法确定能增大对数似然值的参数的方向和变动。估计
24、了该初始函数后,对残差进行参数的方向和变动。估计了该初始函数后,对残差进行检验并用改进的函数进行重新估计,直到收敛为止(即检验并用改进的函数进行重新估计,直到收敛为止(即对数似然不再显著变化)。对数似然不再显著变化)。二项Logistic回归-参数估计重庆交通大学管理学院*17 十一月 2022-2-2 对数似然值对数似然值(-2Log Likelihood(-2Log Likelihood,-2LL)-2LL)似然(likelihood)即概率,反映该模型能较好地拟合样本数据的可能性。对数似然值(log likelihood,LL)是它的自然对数形式,取值在0 至-之间。对数似然值通过最大似
25、然估计的迭代算法计算而得。LL最大为0,越大意味着回归方程的拟合程度越好。因为数学上较方便,常计算-2LL。二项Logistic回归-检验统计量重庆交通大学管理学院*17 十一月 2022比分检验(比分检验(Score TestScore Test)以未包含某个(或几个)参数的模型为基础,保留模型中参数的估计值,并假设新增加的参数为0,计算似然函数的一阶偏导数及信息矩阵,二者乘积即为比分检验统计量S,样本量大时,S服从卡方分布,比分检验结果一般与似然比检验一致。二项Logistic回归-检验统计量重庆交通大学管理学院*17 十一月 2022回归方程的显著性检验 似然比卡方检验H0:H0:各回归
26、系数同时为各回归系数同时为0 0检验统计量检验统计量:似然比卡方服从近似卡方分布似然比卡方服从近似卡方分布L0L0为解释变量未引入方程时的对数似然函数值为解释变量未引入方程时的对数似然函数值,L,L为解为解释变量引入方程后的对数似然函数值释变量引入方程后的对数似然函数值.重庆交通大学管理学院*17 十一月 2022回归方程的拟合优度检验回归方程能够解释的被解释变量变异程度越高,拟合优度越高.Cox&Snell R2统计量=1-(L0/L)2/nNaglkerke R2=Cox&Snell R2/(1-(L0)2/n),取值01回归方程预测值与实际值之间的吻合程度,总体预测准确率越高,拟合优度越
27、高.错判矩阵Hosmer-Lemeshow统计量服从n-2个自由度的卡方分布:当自变量较多且多为连续性变量时残差分析重庆交通大学管理学院*17 十一月 2022回归系数的显著性检验H0:i=0检验统计量:Wald统计量服从近似卡方分布Waldi=(i/Si)2Wald检验统计量的缺点:它考虑因素的综合作用,当因素间存在多重共线性的时候,结果不可靠,较不宜于拒绝零假设,使得本应保留在方程中的变量未能保留。当回归系数很大时,Wald统计量存在一定偏差。重庆交通大学管理学院*17 十一月 2022虚拟变量回归虚拟变量(哑变量,dummy variable):对于模型中的分类自变量,如有序或无序多分类
28、变量,其值间距离并不相等,因此不能用一个回归系数表示其影响.必须转化为虚拟变量参与分析如变量X分为K类,则生成K-1个虚拟变量原变量原变量X 新的哑变量新的哑变量VxaVxbA10B01C00重庆交通大学管理学院*17 十一月 2022操作:AnalyzeRegression Binary LogisticDependent:Dependent:二分类被解释变量二分类被解释变量 Covariates:Covariates:解释变量解释变量Method:Method:七种解释变量筛选方法七种解释变量筛选方法Enter Enter 所有变量强制进入回归方程所有变量强制进入回归方程Forward:F
29、orward:向前逐步筛选法向前逐步筛选法,变量进入方程依据变量进入方程依据ScoreScore比分检验统计量比分检验统计量,变量剔除出方程依据有三变量剔除出方程依据有三:Backward:Backward:向后筛选法向后筛选法,变量剔除出方程依据有三变量剔除出方程依据有三:Conditional:Conditional:条件参数估计原则下的似然比卡方条件参数估计原则下的似然比卡方LR:LR:极大似然估计原则下的似然比卡方极大似然估计原则下的似然比卡方Wald:Wald Wald:Wald 统计量统计量SelectSelect按钮:选择筛选变量,设定筛选条件按钮:选择筛选变量,设定筛选条件Ru
30、leRule,满足条件的观测,满足条件的观测参与分析。参与分析。重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022IndicatorIndicator:生成传统的虚拟变量,各分类与对照分类比较,为系统生成传统的虚拟变量,各分类与对照分类比较,为系统默认值默认值DeviationDeviation:除参照分类外各分类与总效应比较除参照分类外各分类与总效应比较SimpleSimple:除参照分类外各分类与参照分类比较除参照分类外各分类与参照分类比较DifferenceDifference:逆逆Helmert Helm
31、ert 对照除第一分类外各分类与以前平均分类效对照除第一分类外各分类与以前平均分类效应比较应比较HelmertHelmert:除最后分类外各分类与以后平均分类效应比较除最后分类外各分类与以后平均分类效应比较RepeatedRepeated:除第一分类外各分类与以前分类效应比较:除第一分类外各分类与以前分类效应比较PolynomialPolynomial:假定分类等距,该分类仅用于数值型变量:假定分类等距,该分类仅用于数值型变量重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022重庆交通大学管理学院*17 十一月 2022举例打开打开消费行为消费行为LogisticLogistic回归回归数据,分析数据,分析是否购买的行为与性别、收入水平以及年龄是否购买的行为与性别、收入水平以及年龄的关系。的关系。结束语结束语谢谢大家聆听!谢谢大家聆听!82