《管理统计学》马庆国著_课件7.ppt

上传人:hyn****60 文档编号:70979469 上传时间:2023-01-31 格式:PPT 页数:41 大小:321.50KB
返回 下载 相关 举报
《管理统计学》马庆国著_课件7.ppt_第1页
第1页 / 共41页
《管理统计学》马庆国著_课件7.ppt_第2页
第2页 / 共41页
点击查看更多>>
资源描述

《《管理统计学》马庆国著_课件7.ppt》由会员分享,可在线阅读,更多相关《《管理统计学》马庆国著_课件7.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第十章第十章 线性回归分析线性回归分析 变量之间的关系有两种:变量之间的关系有两种:确定型的函数关系确定型的函数关系 不确定型的函数关系不确定型的函数关系 这里主要研究不确定型的函数关系,如收入这里主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。与受教育程度之间的关系,等等问题。但它们之但它们之间存在明显的相互关系(称为相关关系),又是间存在明显的相互关系(称为相关关系),又是不确定的。不确定的。回归分析是研究随机变量之间相关关系的统计方回归分析是研究随机变量之间相关关系的统计方法。其研究一个被解释变量(因变量)与一个或法。其研究一个被解释变量(因变量)与一个或多个解释变量

2、(自变量)之间的统计关系。多个解释变量(自变量)之间的统计关系。例例:人均收入:人均收入 X 与人均食品消费支出与人均食品消费支出 Y 的散点图的关系的散点图的关系如图。如图。1.一元线性回归是研究一个自变量与一个因变量的统计一元线性回归是研究一个自变量与一个因变量的统计关系。关系。一一.一元线性回归一元线性回归人均收入人均收入X人人均均食食品品支支出出Y这两个变量之间的不确定关系,可以用下式表示:这两个变量之间的不确定关系,可以用下式表示:式式中,人均食品消费支出中,人均食品消费支出Y 是被解释变量,是被解释变量,人均收入人均收入 X 是解释变量,是解释变量,1,2是待估计参数;是待估计参数

3、;u 是随机干扰项,是随机干扰项,且与且与 X 无关,无关,它反映了它反映了 Y 被被 X 解释的不确定性解释的不确定性。如果随机干扰项如果随机干扰项 u 的均值为的均值为 0,对上式求条件均值,对上式求条件均值,有有反映出从反映出从“平均平均”角度看,是确定性关系。角度看,是确定性关系。例:例:地区的多孩率与人均国民收入的散点图如下:地区的多孩率与人均国民收入的散点图如下:人均收入人均收入X多多孩孩率率 Y这两个变量之间的不确定关系,大致可以用下式表示:这两个变量之间的不确定关系,大致可以用下式表示:设设 Z=Ln X,可将上式线性关系为:可将上式线性关系为:线性回归的任务:线性回归的任务:

4、就是用恰当的方法,估计出参就是用恰当的方法,估计出参数数 1,2,并且使估计出来的参数具有良好的统,并且使估计出来的参数具有良好的统计特征,所以,回归问题从某种视角看,视同参计特征,所以,回归问题从某种视角看,视同参数估计问题。数估计问题。如果把如果把X,Y的样本观测值代到线性回归方程中,就得的样本观测值代到线性回归方程中,就得到到i=1,2,n,n为样本容量为样本容量.从从重复抽样的角度看,重复抽样的角度看,Xi,Yi也也可以视为随机变量。可以视为随机变量。2.高斯基本假设高斯基本假设对于线性回归模型对于线性回归模型i=1,2,n,n为样本容量为样本容量.高斯基本假设如下高斯基本假设如下:(

5、1)ui 为随机变量为随机变量(本假设成立本假设成立,因为我们研究就是不因为我们研究就是不确定关系确定关系).(2)E(ui)=0,随机干扰项的期望值等于零随机干扰项的期望值等于零(本假设成立本假设成立,如果其均值不是零如果其均值不是零,可以把它并入到可以把它并入到 1 中中).(3)Var(ui)=2u,随机干扰项的方差等于常数随机干扰项的方差等于常数(本假设本假设有可能不成立有可能不成立,以后讨论不成立时如何处理以后讨论不成立时如何处理).(4)E(uiuj)=0(i j)随机干扰项协方差等于零随机干扰项协方差等于零(本假设本假设有可能不成立有可能不成立,以后讨论不成立时如何处理以后讨论不

6、成立时如何处理).(5)ui 服从服从 N(0,2u)分布分布;(6)E(Xiuj)=0,对对Xi 的性质有两种解释的性质有两种解释:a.Xi 视为随机变量视为随机变量,但与但与uj无关无关,所以所以(6)成立成立.b.Xi 视为确定型变量视为确定型变量,所以所以(6)也成立也成立.3.普通最小二乘法普通最小二乘法(OLS)设线性回归模型设线性回归模型其中其中为为 1,2 的估计值的估计值,则则 Y 的计算值的计算值,可以可以用用下式表达下式表达:所要求出待估参数所要求出待估参数 ,要使要使 Y 与其计算值与其计算值之间之间的的“误差平方和误差平方和”最小最小.即:即:使得使得最小最小.为此为

7、此,分别求分别求Q 对对 的偏导的偏导,并令其为零并令其为零:由上两式由上两式,就可求出待估参数就可求出待估参数 的值的值.4.所求参数的计算公式所求参数的计算公式的的另一个表达式为另一个表达式为:5.几何解释几何解释残差向量残差向量 e=Y =(Y-Y)-(-Y)=y-向量向量 y,e 三者之间关系如图所示三者之间关系如图所示,普通最小二乘法要使残差平方和普通最小二乘法要使残差平方和 e2i 最小最小,也就是也就是要使要使 e 的长度尽可能小的长度尽可能小,等价于在几何上等价于在几何上 e x.或或者说者说,的长度应当是的长度应当是 y 在在 x 上的投影长度上的投影长度.yxe二二.多元线

8、性回归多元线性回归 本节要研究一个被解释变量本节要研究一个被解释变量(因变量因变量),多个解释变量多个解释变量(自变量自变量)的线性模型的线性模型,即即1.基本假设基本假设(1)u 为随机变量向量为随机变量向量;(2)E(u)=0;(3)cov(u)=E(u uT)=2u In(包含了两个其本假设:一包含了两个其本假设:一是不存在序列相关,即是不存在序列相关,即 i j 时时,cov(ui,uj)=E(uiuj)=0;二是具有同方差性二是具有同方差性(齐次方差性齐次方差性),即即Var(ui)=2u).(4)u N(0,2u In)(5)E(XTu)=0,或者或者,X 为确定矩阵为确定矩阵(6

9、)秩秩 (X)=k,(k f(k-1,n-k),就表示回归效果是好的效果是好的,在在 水平下水平下,已解释方差已解释方差(Y的变化中已经解的变化中已经解释的部分释的部分)明显大于未解释方差明显大于未解释方差(Y的变化中尚未解释的部的变化中尚未解释的部分分).8.F与与 R2的关系的关系F 统计量与统计量与R2的统计量的关系的统计量的关系,可以从下式的推演中看到可以从下式的推演中看到:推演中用到勾股定理:推演中用到勾股定理:。9.校正的判定系数(校正的判定系数(Adjusted R2)统计量统计量R2中不含有自由度。所谓校正的判定系数,就是中不含有自由度。所谓校正的判定系数,就是指指“考虑了自由

10、度的判定系数考虑了自由度的判定系数R2adj”。其定义如下:其定义如下:这样,这样,R2adj剔除了自由度的影响。剔除了自由度的影响。10.回归系数的回归系数的 T 检验检验假设假设Ho:j=0;备择假设备择假设H1:j 0(即即 Ho 不成立不成立).用用统计量统计量:服从服从t(n-k),可以完成上述假可以完成上述假设检验设检验.当当 时时,H1成立成立,即即 j 显著异于显著异于0.(n 5 时时,若取若取 =0.05,则当则当 t 2 时时,有有H1 成立成立,即即j显著异于显著异于0)针对回归系数的针对回归系数的 t 统计量的显著性检验统计量的显著性检验,决定了相应的变决定了相应的变

11、量能否作为解释变量进入回归方程量能否作为解释变量进入回归方程.注意注意:11.回归系数的置信区间回归系数的置信区间得到区间得到区间 为为 水平上水平上的置信区间的置信区间.例例:=0.05,则则给定一置信水平给定一置信水平 ,用统计量用统计量即即12.偏相关系数的另一种几何解释偏相关系数的另一种几何解释定义定义:偏相关系数是在其他变量不变的情况下偏相关系数是在其他变量不变的情况下,任意两任意两个变量之间的相关系数个变量之间的相关系数.例如例如:已知已知 偏偏相关系数相关系数表示排除表示排除X3,Xk影响影响后的后的Y和和X2之间的相关关系之间的相关关系,其计算过程如下其计算过程如下:(1)求中

12、心化数据求中心化数据y 对中心化数据对中心化数据x3,xk的的OLS估计值估计值:要求出上式结果要求出上式结果,需经两个步骤需经两个步骤:a.用中心化数据用中心化数据 y 对中心化数据对中心化数据x3,xk 回归回归,求出回求出回归系数归系数b.依托已经求出的回归系数依托已经求出的回归系数 和由样本得和由样本得到的中心化数据到的中心化数据,计算计算 .(2)令令 (从从 yi 中剔除中剔除 x3,xk 的影响的影响).(3)求求 x2 对对x3,xk的最小二乘估计的最小二乘估计值值:要求出上式结果要求出上式结果,同样需经两个步骤同样需经两个步骤:先用先用x2 对对x3,xk回归回归,求出回归系

13、数求出回归系数 ,然后求出然后求出 .(4)令)令 (从从 中剔除中剔除 x3,xk 的影响的影响).(5)求得偏相关系数如下求得偏相关系数如下:偏偏相关系数的几何解释相关系数的几何解释:在下图中在下图中,偏相关系数是图中偏相关系数是图中 角的余弦角的余弦:偏偏相关系数的几何解释相关系数的几何解释x2yx3,xky*x2*注意注意:图中图中,已知从图中左边的虚线已知从图中左边的虚线,平移到右边的虚线平移到右边的虚线.13.复相关系数的另一种几何解释复相关系数的另一种几何解释复相关系数复相关系数 R 是图中是图中y与其投影向量与其投影向量的夹角的夹角 的余弦的余弦.或者说或者说,判定系数是该余弦

14、的平方判定系数是该余弦的平方.x2复相关系数的另一种几何解释复相关系数的另一种几何解释x3,xke y14.标准回归系数标准回归系数 在上述回归方程中在上述回归方程中,自变量的单位对回归系数的数自变量的单位对回归系数的数量级有很大影响量级有很大影响,例如例如:元、百元、千元、万元等。为元、百元、千元、万元等。为了从回归系数的大小中,了从回归系数的大小中,简单比较相应的自变量对因变简单比较相应的自变量对因变量的作用大小,量的作用大小,就应当剔除自变量单位的影响。一般的就应当剔除自变量单位的影响。一般的处理方法是把所有的变量处理方法是把所有的变量“标准化标准化”。所谓标准化就是指对变量所谓标准化就

15、是指对变量Y,X2,Xk进行如下处理进行如下处理:式中式中,于是于是,原始方程原始方程:就就转化为标准方程转化为标准方程:注注:在在SPSS中中,所谓标准回归系数所谓标准回归系数,就是指这一方程就是指这一方程的回归系数的回归系数.三、逐步回归三、逐步回归1.回归系数的回归系数的 F 检验检验 检验回归系数检验回归系数 j 是否显著性异于是否显著性异于 0,除了除了 T 检验外检验外,还有针对回归系数还有针对回归系数(而不是针对总体回归效果而不是针对总体回归效果)的的F检验检验.假设假设Ho:j=0;备择假设备择假设H1:j 0(即即 Ho 不成立不成立).可以证明可以证明,服从服从 2(1)分

16、布分布,且与且与 (也也服服从从 2(n-k)分布分布)相互独立相互独立.若再若再记记:,则有则有Fj=(n-k)Vj/Q 服从服从F(1,n-k)分布分布.把把 Fj 的的显著性概率显著性概率 p 与置信度水平与置信度水平 比较比较,就可以判就可以判断一个变量断一个变量 xj 是否应当成为自变量是否应当成为自变量:P 0.05,接受接受Ho,j与与 0 没有显著性差异没有显著性差异,xj不应不应成自变量成自变量.P 0.05,拒绝拒绝Ho,j与与 0 有显著性差异有显著性差异,xj 应应成自成自变量变量.2.偏解释变差偏解释变差(偏回归平方和偏回归平方和)在一个回归方程中在一个回归方程中,当

17、把当把 xj 从从自变量的队伍中删除以自变量的队伍中删除以后后,我们可以得到一组新的回归系数的估计值我们可以得到一组新的回归系数的估计值:从而得到从而得到 Y 的新的计算值的新的计算值:注意注意:下标不包含下标不包含 j.如果用小写的如果用小写的 y,x 表示中心化的数据表示中心化的数据,就就有有这时这时|*|2是新的是新的(在自变量中不含在自变量中不含xj的的)已解释变差已解释变差(新新的回归平方和的回归平方和).可以肯定地说可以肯定地说,在自变量中删除一个变量之后在自变量中删除一个变量之后,已解已解释变差只可能变小释变差只可能变小(在被删除的解释变量多少有一点解释在被删除的解释变量多少有一

18、点解释作用的情况下作用的情况下,已解释变差变小已解释变差变小),或者已解释变差不变或者已解释变差不变(在被删除的解释变量没有一点解释作用的情况下在被删除的解释变量没有一点解释作用的情况下,已解已解释变差不变释变差不变),即即|2|*|2.于是于是,|2-|*|2 就是就是 xj 对已对已解释变差解释变差(回归平方和回归平方和)的贡献的贡献,因此因此,称称|2-|*|2 为为 xj的偏的偏解释变差解释变差(偏偏回归平方和回归平方和).可以证明可以证明,也就是说也就是说,Vj就就是是xj 的的偏解释变差偏解释变差(偏回归平方和偏回归平方和).从残差从残差(或未解释变差的或未解释变差的)角度来考虑角

19、度来考虑:在自变量中在自变量中删除一个变量之后删除一个变量之后,未解释变差只可能变大未解释变差只可能变大(或者不变或者不变).若记若记,|e*|2是从是从自变量中删除变量自变量中删除变量 xj 之后的未解释变差之后的未解释变差,那么就有那么就有|e|2|e*|2.可以证明可以证明,|e*|2-|e|2=Vj.而而 也就是说也就是说,在删除变量在删除变量 xj 之后的未解释变差的增加之后的未解释变差的增加量量,刚好等于已解释变差的减少量刚好等于已解释变差的减少量,刚好等于刚好等于 xj 的偏解的偏解释变差释变差(偏回归平方和偏回归平方和).以上数量关系的几何解释如下以上数量关系的几何解释如下:y

20、偏解释变差的几何解释偏解释变差的几何解释从图从图中中,显示显示 x2 是从是从自变量中删除的变量自变量中删除的变量,是中心化数据是中心化数据 y 对所有自变量对所有自变量(x2,xk)回归的已解释变差回归的已解释变差(回归平方和回归平方和),由勾股定理由勾股定理,得得|2-|*|2=|e(2)|2。|e(2)|2 就是就是已解释变差的减少部分已解释变差的减少部分,也就是变量也就是变量 x2 的偏的偏解释变差解释变差V2.x2x3,xke*e(2)e从未解释变差从未解释变差(残差平方和残差平方和)角度考虑角度考虑,图中图中|e|2是中心是中心化数据化数据 y 对所有自变量对所有自变量(x2,xk

21、)回归的未解释变差回归的未解释变差(残差平方和残差平方和),|e*|2是中心化数据是中心化数据 y 对自变量对自变量x3,xk(剔除了剔除了x2)回归的未解释变差回归的未解释变差(残差平方和残差平方和).由勾股定由勾股定理理,得得|e*|2-|e|2=|e(2)|2.|e(2)|2就是未解释变差的增就是未解释变差的增加部分加部分,也就是变量也就是变量 x2 的偏解释变差的偏解释变差V2.由此看到由此看到,关于自变量关于自变量 xj 的系数的系数 j 的的 F 检验检验,其统计量其统计量Fj可以理解为可以理解为 xj 的偏的偏回归方差回归方差(偏解释变量偏解释变量/自由度自由度=|e(j)|2/

22、1=Vj/1)与未解释方差与未解释方差(未解释变差未解释变差/自由度自由度=|e|2/n-k)之比之比,也就是也就是,与与统计量统计量 Fj=(n-k)Vj/Q 完全相同完全相同.2、逐步回归法、逐步回归法逐步回归法的基本思想:逐步回归法的基本思想:在考虑在考虑 Y 对已知的一群变量对已知的一群变量(X2,Xk)回归时回归时,从变量从变量X2,Xk中中,逐步选出对已解释变差的贡献逐步选出对已解释变差的贡献 (也就是偏解释也就是偏解释变差变差)最大的变量最大的变量,进入回归方程进入回归方程.而对已解释变差的贡献大而对已解释变差的贡献大小的判别依据小的判别依据,就是包含了偏解释变差的就是包含了偏解

23、释变差的 F 统计量统计量Fj.统计统计量量Fj 的的值值 fj 最大的最大的 xj,先进入方程先进入方程;最后一个进入方程的自最后一个进入方程的自变量变量 xj,也应当满足也应当满足:统计量的值统计量的值 fj 的的显著性概率显著性概率 p 小于等小于等于选定的显著性水平于选定的显著性水平 (即即,要求其系数要求其系数 j 显著异于显著异于 0).逐步回归法也可以按照反过来的顺序进行逐步回归法也可以按照反过来的顺序进行.先把先把 Y 对所有对所有的自变量的自变量 X2,Xk 回归回归,然后逐步把然后逐步把 fj 最小的最小的 xj 剔除出方程剔除出方程.所有剔除出方程的所有剔除出方程的 xj

24、,在剔除时在剔除时,其统计量的值其统计量的值 fj 的的显著性显著性概率概率 p 大于选定的显著性水平大于选定的显著性水平 (即即,要求其系数要求其系数 j 与与 0 没没有显著性差异有显著性差异).注意注意:逐步添加法或逐步剔除法逐步添加法或逐步剔除法,都应当强调都应当强调“逐步逐步”.不能一次按照各个变量的统计量的值不能一次按照各个变量的统计量的值 fj 的显著性概率的显著性概率 p 是是否小于等于选定的显著性水平否小于等于选定的显著性水平 ,来决定是否作为来决定是否作为 Y 的自的自变量变量.因为每添加或剔除一个变量因为每添加或剔除一个变量,都会引起所有回归系都会引起所有回归系数的变化和

25、统计量的值数的变化和统计量的值 fj 的变化的变化.一次处理会造成误判一次处理会造成误判,只有逐步处理只有逐步处理,才是恰当的才是恰当的.逐步回归的第三种方法逐步回归的第三种方法:一边进一边进,一边出一边出.“进进”与与“出出”的判别准则通常是不同的的判别准则通常是不同的.“进进”的的变量的变量的fj 的的显著性概率显著性概率 p 所对照的显著性水平所对照的显著性水平 1 通常取通常取得大一些得大一些,以便能够有更多的以便能够有更多的 fj 的的外侧概率外侧概率(显著性概率显著性概率)小于小于 1,也就是使更多的系数也就是使更多的系数 j 显著异于显著异于 0,从而更多的从而更多的变量进入方程

26、变量进入方程.而而“出出”的变量的的变量的 fj 的的显著性概率显著性概率 p 所对所对照的显著性水平照的显著性水平 2,通常取得小一些通常取得小一些,以便能够有较少的以便能够有较少的 fj 的的显著性概率显著性概率 p 小于小于 2,从而有更少的变量被剔除出方从而有更少的变量被剔除出方程程.6.Durbin-Watson6.Durbin-Watson 统计量统计量统计量统计量 D-W 统计量衡量残差的一阶序列相关性,计算方法如下:统计量衡量残差的一阶序列相关性,计算方法如下:作作为为一一个个规规则则,如如果果DW值值小小于于2,证证明明存存在在正正序序列列相相关关。在在例例1的的结结果果中中,DW值值很很小小,表表明明残残差差中中存存在在序序列列相相关关。关关于于Durbin-Watson统统计计量量和和残残差差序序列列相相关关更更详详细细的的内内容容参参见见“序序列相关理论列相关理论”。对于序列相关还有更好的检验方法。在对于序列相关还有更好的检验方法。在“序列相关的检序列相关的检验验”中,我们讨论中,我们讨论Q统计量和统计量和 LM检验,这些都是比检验,这些都是比DW统计统计量更为一般的序列相关检验方法。量更为一般的序列相关检验方法。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁