《应用回归分析(PPT530)演示教学.ppt》由会员分享,可在线阅读,更多相关《应用回归分析(PPT530)演示教学.ppt(530页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、应用回归分析(PPT530)章 节 目 录第1章 回归分析概述 第2章 一元线性回归 第3章 多元线性回归第4章 违背基本假定的情况 第5章 自变量选择与逐步回归 第6章 多重共线性的情形及其处理 第7章 岭回归 第8章 非线性回归第9章 含定性变量的回归模型 第1章 回归分析概述1.1 变量间的统计关系 1.2 回归方程与回归名称的由来1.3 回归分析的主要内容及其一般模型 1.4 建立实际问题回归模型的过程1.5 回归分析应用与发展述评 思考与练习1.1 变量间的统计关系函数关系商品的销售额与销售量之间的关系 y=px圆的面积与半径之间的关系 S=R2 原材料消耗额与产量(x1)、单位产量
2、消耗(x2)、原材料价格(x3)之间的关系 y=x1 x2 x3 1.1 变量间的统计关系1.1 变量间的统计关系相关关系的例子相关关系的例子子女身高(y)与父亲身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系1.1 变量间的统计关系对变量间对变量间统计依赖关系统计依赖关系的考察主要是通过的考察主要是通过相关相关分析分析(correlation analysis)或或回归分析回归分析(regression analysis
3、)来完成的来完成的注意注意不线性相关并不意味着不相关。有相关关系并不意味着一定有因果关系。回归分析回归分析/相关分析相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。相关分析相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。回归分析构成计量经济学的方法论基础,回归分析构成计量经济学的方法论基础,其主要内容包括:其主要内容包括:(1)根据样本观察值对经济计量模型参数进行估计,求得回归方程;(2)对回归方程、参数估计值进行显著性检验
4、;(3)利用回归方程进行分析、评价及预测。1.2 回归方程与回归名称的由来成年儿子身高父母平均身高英国统计学家F.Galton(1822-1911年)。F.Galton和他的学生、现代统计学的奠基者之一K.Pearson(18561936年)在研究父母身高与其子女身高的遗传问题时,观察了1 078对夫妇,1.3 回归分析的主要内容及其一般模型回归分析的一般形式:随机误差项主要包括下列因素:随机误差项主要包括下列因素:在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其他随机因素的影响。回归模型研究的问题?1.4 建立实际问题回归模型的过程设置指标变量收集整理
5、数据构造理论模型估计模型参数修改 N 模型运用Y经济因素分析经济变量控制 经济决策预测实 际 问 题模型检验1.5 回归分析应用与发展述评 从高斯提出最小二乘法算起,回归分析已经有200年的历史。从1969年设立诺贝尔经济学奖以来,已有近50位学者获奖,其中绝大部分获奖者是统计学家、计量经济学家、数学家。他们对统计学及回归分析方法的应用都有娴熟的技巧。第2章 一元线性回归2.1 一元线性回归模型2.2 参数0、1的估计2.3 最小二乘估计的性质2.4 回归方程的显著性检验2.5 残差分析2.6 回归系数的区间估计2.7 预测和控制2.8 本章小结与评注2.1 一元线性回归模型例例2.1 表2.
6、1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。表表2.1火灾损失表火灾损失表2.1 一元线性回归模型例例2.2 全国人均消费金额记作y(元);人均国民收入记为x(元)表表2.2 人均国民收入表人均国民收入表2.1 一元线性回归模型一元线性回归模型 y=0+1x+回归方程 E(y|x)=0+1x2.1 一元线性回归模型样本模型 yi=0+1xi+i,i=1,2,n回归方程 E(yi)=0+1xi,var(yi)=2,样本观测值(x1,y1),(x2,y2),(xn,yn)经验回归方程 2.2 参数0、1的估计一、普通最小二乘估计 (Ordinary Least Square Es
7、timation,简记为OLSE)最小二乘法就是寻找参数0、1的估计值使离差平方和达极小称为yi的回归拟合值,简称回归值或拟合值 称为yi的残差 2.2 参数0、1的估计2.2 参数0、1的估计经整理后,得正规方程组2.2 参数0、1的估计得OLSE 为记2.2 参数0、1的估计续例2.1回归方程回归方程2.2 参数0、1的估计二、最大似然估计二、最大似然估计 连续型:是样本的联合密度函数:离散型:是样本的联合概率函数。似然函数并不局限于独立同分布的样本。似然函数在假设iN(0,2)时,由(2.10)式知yi服从如下正态分布:2.2 参数0、1的估计二、最大似然估计二、最大似然估计 y1,y2
8、,yn的似然函数为:对数似然函数为:与最小二乘原理完全相同 2.3 最小二乘估计的性质一、线性一、线性 是y1,y2,yn的线性函数:其中用到 2.3 最小二乘估计的性质二、无偏性二、无偏性 2.3 最小二乘估计的性质三、三、的方差的方差 2.3 最小二乘估计的性质三、三、的方差的方差 在正态假设下GaussMarkov条件 2.4 回归方程的显著性检验 一、一、t 检验检验 原假设:H0:1=0对立假设:H1:10 由当原假设H0:1=0成立时有:2.4 回归方程的显著性检验 一、一、t 检验检验 构造t 统计量 其中2.4 回归方程的显著性检验 二、用统计软件计算二、用统计软件计算 1例2
9、.1 用Excel软件计算 什么是P 值?(P-value)P 值即显著性概率值 Significence Probability Value是当原假设为真时得到比目前的 样本更极端的样本的 概率,所谓极端就是与原假设相背离它是用此样本拒绝原假设所犯弃真错误的 真实概率,被称为观察到的(或实测的)显著性水平双侧检验的P 值 /2 2 /2 t t拒绝拒绝拒绝拒绝拒绝拒绝拒绝拒绝H HH0 00值值值临界值临界值临界值计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量
10、计算出的样本统计量计算出的样本统计量临界值临界值临界值1/2 1/2 1/2 P P P 值值值1/2 1/2 1/2 P P P 值值值左侧检验的P 值H HH0 00值值值临界值临界值临界值临界值临界值临界值 样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域抽样分布抽样分布抽样分布抽样分布1-1-1-置信水平置信水平置信水平置信水平计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量P P P 值值值右侧检验的P 值H HH0 00值值值临界值临界值临界值临界值临界值临界值 拒绝域拒绝域
11、拒绝域拒绝域拒绝域拒绝域抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布1-1-1-置信水平置信水平置信水平置信水平置信水平置信水平计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量P P P 值值值利用 P 值进行检验的决策准则若p-值 ,不能拒绝 H0若p-值 ,拒绝 H0双侧检验p-值=2单侧检验p-值2.4 回归方程的显著性检验 二、用统计软件计算二、用统计软件计算2.例2.1用SPSS软件计算2.4 回归方程的显著性检验 二、用统计软件计算二、用统计软件计算2.用SPSS软件计算2.4 回归方程的显著性检验 三、三、F检验检验
12、平方和分解式 SST=SSR+SSE构造F检验统计量 2.4 回归方程的显著性检验 三、三、F检验检验一元线性回归方差分析表一元线性回归方差分析表方差来源自由度平方和均方F值P值回归残差总和1n-2n-1SSRSSESSTSSR/1SSE/(n-2)P(FF值)=P值2.4 回归方程的显著性检验 四、相关系数的显著性检验四、相关系数的显著性检验 2.4 回归方程的显著性检验 四、相关系数的显著性检验四、相关系数的显著性检验 2.4 回归方程的显著性检验 四、相关系数的显著性检验四、相关系数的显著性检验 附表附表1 相关系数相关系数=0的临界值表的临界值表n-25%1%n-25%1%n-25%1
13、%10.9971.000160.4680.590350.3250.41820.9500.990170.4560.575400.3040.39330.8780.959180.4440.561450.2880.37240.8110.947190.4330.549500.2730.35450.7540.874200.4230.537600.2500.32560.7070.834210.4130.526700.2320.30270.6660.798220.4040.515800.2170.28380.6320.765230.3960.505900.2050.26790.6020.735240.3880
14、.4961000.1950.254100.5760.708250.3810.4871250.1740.228110.5530.684260.3740.4781500.1590.208120.5320.661270.3670.4702000.1380.181130.5140.641280.3610.4633000.1130.148140.4970.623290.3550.4564000.0980.128150.4820.606300.3490.44910000.0620.0812.4 回归方程的显著性检验 四、相关系数的显著性检验四、相关系数的显著性检验 用用SPSS软件做相关系数的显著性检验软
15、件做相关系数的显著性检验 2.4 回归方程的显著性检验 四、相关系数的显著性检验四、相关系数的显著性检验 两变量间相关程度的强弱分为以下几个等级:两变量间相关程度的强弱分为以下几个等级:当当|r|0.8时,视为高度相关;时,视为高度相关;当当0.5|r|0.8时,视为中度相关;时,视为中度相关;当当0.3|r|0.5时,视为低度相关;时,视为低度相关;当当|r|0.3时,表明两个变量之间的相关程度极弱,时,表明两个变量之间的相关程度极弱,在实际应用中可视为不相关。在实际应用中可视为不相关。2.4 回归方程的显著性检验 五、三种检验的关系五、三种检验的关系H0:b=0H0:r=0H0:回归无效2
16、.4 回归方程的显著性检验 六、样本决定系数六、样本决定系数 可以证明2.5 残差分析残差分析 一、残差概念与残差图一、残差概念与残差图 残差 误差项 残差ei是误差项ei的估计值。2.5 残差分析残差分析 一、残差概念与残差图一、残差概念与残差图 2.5 残差分析残差分析 一、残差概念与残差图一、残差概念与残差图 图图 2.6 火灾损失数据残差图火灾损失数据残差图2.5 残差分析残差分析 二、残差的性质二、残差的性质 性质性质1 E(ei)=0 证明:2.5 残差分析残差分析 二、残差的性质二、残差的性质 性质性质2其中其中称称为为杠杆杠杆值值 2.5 残差分析残差分析 二、残差的性质二、残
17、差的性质 2.5 残差分析残差分析 二、残差的性质二、残差的性质 性质性质3.残差满足约束条件:2.5 残差分析残差分析 三、改进的残差三、改进的残差 标准化残差学生化残差2.6 回归系数的区间估计回归系数的区间估计 等价于1的的1-置信区间置信区间 2.7 预测和控制预测和控制 一、单值预测一、单值预测 2.7 预测和控制预测和控制 二、区间预测二、区间预测找一个区间(找一个区间(T1,T2),使得),使得 需要首先求出其估需要首先求出其估计值计值的分布 1因变量新值的区间预测因变量新值的区间预测二、区间预测二、区间预测 1 因变量新值的区间预测因变量新值的区间预测以下计算以下计算的方差的方
18、差从而得二、区间预测二、区间预测 1 因变量新值的区间预测因变量新值的区间预测记记于是有 则二、区间预测二、区间预测 1 因变量新值的区间预测因变量新值的区间预测y0的置信概率为1-的置信区间为 y0的置信度为95%的置信区间近似为 二、区间预测二、区间预测 2 因变量平均值的区间估计因变量平均值的区间估计得E(y0)的1-的置信区间为 E(y0)=0+1x0是常数二、区间预测二、区间预测 计算计算 对例2.1的火灾损失数据,假设保险公司希望预测一个距最近的消防队x0=3.5公里的居民住宅失火的损失 点估计值95%区间估计 单个新值:(22.32,32.67)平均值E(y0):(26.19,2
19、8.80)的95%的近似置信区间为=(27.50-22.316,27.50+22.316)=(22.87,32.13)三、控制问题三、控制问题 给定y的预期范围(T1,T2),如何控制自变量x的值才能以1-的概率保证 用近似的预测区间来确定x。如果=0.05,则要求 把带入2.8 本章小结与评注本章小结与评注 一、一元线性回归模型从建模到应用的全过一、一元线性回归模型从建模到应用的全过程程例例2.2 全国人均消费金额记作y(元);人均国民收入记为x(元)表表2.2 人均国民收入表人均国民收入表2.8 本章小结与评注本章小结与评注 二、有关回归假设检验问题二、有关回归假设检验问题 1973年年A
20、nscombe构造了四组数据构造了四组数据,这四组数据所建的这四组数据所建的回归方程是相同的回归方程是相同的,决定系数决定系数,F统计量也都相同统计量也都相同,且均通过显且均通过显著性检验。著性检验。2.8 本章小结与评注本章小结与评注 第三章第三章 多元线性回归多元线性回归 3.1 多元线性回归模型3.2 回归参数的估计3.3 参数估计量的性质3.4 回归方程的显著性检验3.5 中心化和标准化3.6 相关阵与偏相关系数3.7 本章小结与评注 3.1 多元线性回归模型一、多元线性回归模型的一般形式一、多元线性回归模型的一般形式 y=0+1x1+2x2+pxp+3.1 多元线性回归模型一、多元线
21、性回归模型的一般形式一、多元线性回归模型的一般形式 对n组观测数据(xi1,xi2,xip;yi),i=1,2,n,线性回归模型表示为:3.1 多元线性回归模型一、多元线性回归模型的一般形式一、多元线性回归模型的一般形式 写成矩阵形式为:y y=XX+,其中,3.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 1.解释变量x1,x2,xp是确定性变量,不是随机变量,且要求rk(X)=p+1n。表明设计矩阵X中的自变量列之间不相关,X是一满秩矩阵。3.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 2 .随机误差项具有0均值和等
22、方差,即 这个假定称为Gauss-Markov条件 3.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 3.正态分布的假定条件为:用矩阵形式(3.5)式表示为:N(0,s2In)3.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 在正态假定下:yN(X,s2In)E(y y)=XXvar(y)=s2In 3.1 多元线性回归模型三、多元线性回归方程的解释三、多元线性回归方程的解释 y表示空调机的销售量,x1表示空调机的价格,x2表示消费者可用于支配的收入。y=0+1x1+2x2+E(y)=0+1x1+2x2在x2保持不变时,有
23、在x1保持不变时,有3.1 多元线性回归模型三、多元线性回归方程的解释三、多元线性回归方程的解释 考虑国内生产总值GDP和三次产业增加值的关系,GDP=x1+x2+x3现在做GDP对第二产业增加值x2的一元线性回归,得回归方程3.1 多元线性回归模型年份GDP第一产业增加值x1第二产业增加值x2第三第三产业产业增加增加值值x3199018 547.9 5 017.0 7 717.4 5 813.5 199121 617.8 5 288.6 9 102.2 7 227.0 199226 638.1 5 800.0 11 699.5 9 138.6 199334 634.4 6 882.1 16
24、428.5 11 323.8 199446 759.4 9 457.2 22 372.2 14 930.0 199558 478.1 11 993.0 28 537.9 17 947.2 199667 884.6 13 844.2 33 612.9 20 427.5 199774 462.6 14 211.2 37 222.7 23 028.7 199878 345.2 14 552.4 38 619.3 25 173.5 199982 067.5 14 472.0 40 557.8 27 037.7 200089 468.1 14 628.2 44 935.3 29 904.6 200197
25、 314.8 15 411.8 48 750.0 33 153.0 2002105 172.3 16 117.3 52 980.2 36 074.8 2003117 390.2 16 928.1 61 274.1 39 188.0 2004136 875.9 20 768.1 72 387.2 43 720.63.1 多元线性回归模型三、多元线性回归方程的解释三、多元线性回归方程的解释 建立GDP对x1和x2的回归,得二元回归方程=2 914.6+0.607 x1+1.709 x2你能够合理地解释两个回归系数吗?3.2 回归参数的估计回归参数的估计 一、回归参数的普通最小二乘估计一、回归参数的
26、普通最小二乘估计 最小二乘估计要寻找3.2 回归参数的估计回归参数的估计 一、回归参数的普通最小二乘估计一、回归参数的普通最小二乘估计 3.2 回归参数的估计回归参数的估计 一、回归参数的普通最小二乘估计一、回归参数的普通最小二乘估计 经整理后得用矩阵形式表示的正规方程组 移项得存在时,即得回归参数的最小二乘估计为:3.2 回归参数的估计回归参数的估计 二、回归值与残差二、回归值与残差为回归值 称为帽子矩阵,其主对角线元素记为hii,则3.2 回归参数的估计回归参数的估计 二、回归值与残差二、回归值与残差 此式的证明只需根据迹的性质tr(ABAB)=tr(BABA),因而3.2 回归参数的估计
27、回归参数的估计 二、回归值与残差二、回归值与残差 cov(e,e)=cov(cov(e,e)=cov((I-HI-H)Y,Y,(I-HI-H)Y)Y)=(I-HI-H)cov(Y,Y)cov(Y,Y)(I-HI-H)=2 2(I-HI-H)I In n(I-HI-H)=2 2(I-HI-H)得 D(ei)=(1-hii)2,i=1,2,n3.2 回归参数的估计回归参数的估计 二、回归值与残差二、回归值与残差 是2的无偏估计 3.2 回归参数的估计回归参数的估计 三三、回归参数的最大似然估计、回归参数的最大似然估计 y yN(X,X,2I In)似然函数为 等价于使(y y-XX)(y y-XX
28、)达到最小,这又完全与OLSE一样3.2 回归参数的估计回归参数的估计 例例3.13.1国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数
29、据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,数据见表3.1,其中自变量单位为亿元人民币。3.2 回归参数的估计回归参数的估计 3.3 参数估计量的性质参数估计量的性质 性质性质1 是随机向量y的一个线性变换。性性质质2 是是的无偏估的无偏估计计。3.3 参数估计量的性质参数估计量的性质 3.3 参数估计量的性质参数估计量的性质 当p=1时 3.3 参数估计量的性质参数估计量的性质 性质性质4 Gauss-Markov定理预测函数 是 的线性函数 Gauss-Markov定理定理 在假定E(y)=X,D(y)=2In时,的任一线性函数 的最小方差线性无
30、偏估计(Best Lnear Unbiased Estimator简记为BLUE)为c,其中c是任一p+1维向量,是的最小二乘估计。3.3 参数估计量的性质参数估计量的性质 第一,取常数向量c的第j(j=0,1,n)个分量为1,其余分量为0,这时G-M定理表明最小二乘估计是j的最小方差线性无偏估计。第二,可能存在y1,y2,yn的非线性函数,作为 的无偏估计,比最小二乘估计 的方差更小。第三,可能存在 的有偏估计量,在某种意义(例如均方误差最小)下比最小二乘估计 更好。第四,在正态假定下,是 的最小方差无偏估计。也就是说,既不可能存在y1,y2,yn的非线性函数,也不可能存在y1,y2,yn的
31、其它线性函数,作为 的无偏估计,比最小二乘估计 方差更小。3.3 参数估计量的性质参数估计量的性质 性性质质5 cov(,e)=0此性质说明 与e e不相关,在正态假定下等价于与e e独立,从而与 独立。性质性质6 在正态假设(1)(2)3.4 回归方程的显著性检验回归方程的显著性检验 一、一、F检验检验 H0:1=2=p=0SST=SSR+SSE 当H0成立时服从3.4 回归方程的显著性检验回归方程的显著性检验 一、一、F检验检验 方差来源自由度平方和均方F值P值回归残差总和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)P(FF值)=P值3.4 回归方程的显著性检验回归
32、方程的显著性检验 二、回归系数的显著性检验二、回归系数的显著性检验 H0j:j=0,j=1,2,p(,(X)-1)记 (X)-1=(cij)i,j=0,1,2,p构造t统计量 其中3.4 回归方程的显著性检验回归方程的显著性检验 二、回归系数的显著性检验二、回归系数的显著性检验(剔除x1)3.4 回归方程的显著性检验回归方程的显著性检验 二、回归系数的显著性检验二、回归系数的显著性检验 3.4 回归方程的显著性检验回归方程的显著性检验 二、回归系数的显著性检验二、回归系数的显著性检验 从另外一个角度考虑自变量xj的显著性。y对自变量x1,x2,xp线性回归的残差平方和为SSE,回归平方和为SS
33、R,在剔除掉xj后,用y对其余的p-1个自变量做回归,记所得的残差平方和为SSE(j),回归平方和为SSR(j),则 自变量xj对回归的贡献为SSR(j)=SSR-SSR(j),称为xj的偏回归平方和。由此构造偏F统计量3.4 回归方程的显著性检验回归方程的显著性检验 二、回归系数的显著性检验二、回归系数的显著性检验 当原假设H0j:j=0成立时,(3.42)式的偏F统计量Fj服从自由度为(1,n-p-1)的F分布,此F检验与(3.40)式的t检验是一致的,可以证明Fj=tj23.4 回归方程的显著性检验回归方程的显著性检验 三、回归系数的置信区间三、回归系数的置信区间可得j的置信度为1-的置
34、信区间为:3.4 回归方程的显著性检验回归方程的显著性检验四、拟合优度四、拟合优度 决定系数为:y关于x1,x2,xp的样本复相关系数3.5 中心化和标准化中心化和标准化 一、中心化一、中心化 经验回归方程 经过样本中心 将坐标原点移至样本中心,即做坐标变换:回归方程转变为:回归常数项为3.5 中心化和标准化中心化和标准化 二、标准化回归系数二、标准化回归系数 当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性,例如有一回归方程为:其中x1的单位是吨,x2的单位是公斤3.5 中心化和标准化中心化和标准化 二、标准化回归系数二、标准化回归系数 样本数据的标准化公式为:得标准化的回归方程
35、3.5 中心化和标准化中心化和标准化 二、标准化回归系数二、标准化回归系数 标准化标准化回归系数回归系数3.6 相关阵与偏相关系数相关阵与偏相关系数 一、样本相关阵一、样本相关阵自变量样本相关阵 增广的样本相关阵为:3.6 相关阵与偏相关系数相关阵与偏相关系数 一、样本相关阵一、样本相关阵YX1X2X3X4X5X6X7X8X9X10X11X12Y1.0000.2600.3420.5800.4790.5180.5300.7410.3790.5750.6730.2570.038X10.2601.0000.6400.6910.7380.5820.5190.6630.6910.7190.1500.75
36、80.301X20.3420.6401.0000.7730.6580.5020.4640.6020.6600.6860.1180.7600.337X30.5800.6910.7731.0000.9340.7420.7100.8850.8670.8890.3140.8550.457X40.4790.7380.6580.9341.0000.7800.7430.8870.9260.8920.3480.8490.437X50.5180.5820.5020.7420.7801.0000.9890.7400.7900.8500.6300.7050.515X60.5300.5190.4640.7100.74
37、30.9891.0000.7030.7530.8210.6460.6660.493X70.7410.6630.6020.8850.8870.7400.7031.0000.7810.8340.5410.6490.190X80.3790.6910.6600.8670.9260.7900.7530.7811.0000.9310.4040.9060.548X90.5750.7190.6860.8890.8920.8500.8210.8340.9311.0000.5690.8950.533X100.6730.1500.1180.3140.3480.6300.6460.5410.4040.5691.000
38、0.2410.155X110.2570.7580.7600.8550.8490.7050.6660.6490.9060.8950.2411.0000.613X120.0380.3010.3370.4570.4370.5150.4930.1900.5480.5330.1550.6131.0003.6 相关阵与偏相关系数相关阵与偏相关系数 二、偏判定系数二、偏判定系数 当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。偏相关系数可以度量p+1个变量y,x1,x2,xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。3.6 相关阵与偏相关系数
39、相关阵与偏相关系数 二、偏判定系数二、偏判定系数 偏判定系数测量在回归方程中已包含若干个自变量时,再引入某一个新的自变量后y的剩余变差的相对减少量,它衡量y的变差减少的边际贡献。3.6 相关阵与偏相关系数相关阵与偏相关系数 二、偏判定系数二、偏判定系数 以x1表示某种商品的销售量,x2表示消费者人均可支配收入,x3表示商品价格。从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如果你计算出的r12是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r
40、12;3会是个正数。3.6 相关阵与偏相关系数相关阵与偏相关系数 1两个自变量的偏判定系数两个自变量的偏判定系数二元线性回归模型为:yi=0+1xi1+2xi2+i记SSE(x2)是模型中只含有自变量x2时y的残差平方和,SSE(x1,x2)是模型中同时含有自变量x1和x2时y的残差平方和。因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为:此即模型中已含有x2时,y与x1的偏判定系数。3.6 相关阵与偏相关系数相关阵与偏相关系数 1两个自变量的偏判定系数两个自变量的偏判定系数同样地,模型中已含有x1时,y与x2的偏判定系数为:3.6 相关阵与偏相关系数相关阵与偏相关系数 2.一般情
41、况一般情况在模型中已含有x2,xp时,y与x1的偏判定系数为:3.6 相关阵与偏相关系数相关阵与偏相关系数 三、偏相关系数三、偏相关系数 偏判定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。例例3.2 研究北京市各经济开发区经济发展与招商投资的关系,因变量y为各开发区的销售收入(百万元),选取两个自变量,x1为截至1998年底各开发区累计招商数目,x2为招商企业注册资本(百万元)。表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的15个开发区的数据。3.6 相关阵与偏相关系数相关阵与偏相关系数 三、偏相关系数三、偏相关系数 北京开北京开发发区数据区数据x1x2yx1
42、x2y253547.79553.967671.13122.2420896.34208.555322863.3214006750.323.175116046410012087.052815.440862.757.55251639.311052.12187672.99224.188253357.73427122901.76538.94120808.47442.82743546.182442.7928520.2770.123.6 相关阵与偏相关系数相关阵与偏相关系数 三、偏相关系数三、偏相关系数 偏相关系数表偏相关系数表3.6 相关阵与偏相关系数相关阵与偏相关系数 三、偏相关系数三、偏相关系数 用y
43、与x1做一元线性回归时,x1能消除y的变差SST的比例为再引入x2时,x2能消除剩余变差SSE(X1)的比例为因而自变量x1和x2消除y变差的总比例为=1-(1-0.651)(1-0.546)=0.842=84.2%。这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R23.6 相关阵与偏相关系数相关阵与偏相关系数 三、偏相关系数三、偏相关系数 对任意p个变量x1,x2,xp定义它们之间的偏相关系数其中符号ij表示相关阵第i行第j列元素的代数余子式验证3.7 本章小结与评注本章小结与评注 例3.3 中国民航客运量的回归模型。y民航客运量(万人),x1国民收入(亿元),x2消费额(亿元)
44、,x3铁路客运量(万人),x4民航航线里程(万公里),x5来华旅游入境人数(万人)。根据1994年统计摘要获得1978-1993年统计数据 3.7 本章小结与评注本章小结与评注 年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.7019845545652
45、390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.201991217816557109699508155.913335.651992288620223129859969383.663311.501993
46、3383248821594910545896.084152.703.7 本章小结与评注本章小结与评注 3.7 本章小结与评注本章小结与评注 3.7 本章小结与评注本章小结与评注 第四章第四章 违背基本假设的情况违背基本假设的情况 4.1 异方差性产生的背景和原因 4.2 一元加权最小二乘估计4.3 多元加权最小二乘估计4.4 自相关性问题及其处理 4.5 异常值与强影响点 4.6 本章小结与评注 第四章第四章 违背基本假设的情况违背基本假设的情况 Gauss-Markov条件 4.1 异方差性产生的背景和原因异方差性产生的背景和原因 一、异方差产生的原因一、异方差产生的原因 例例4.1 4.1
47、 居民收入与消费水平有着密切的关系。用xi表示第i户的收入量,yi表示第i户的消费额,一个简单的消费模型为:yi=0+1xi+i,i=1,2,n低收入的家庭购买差异性比较小,高收入的家庭购买行为差异就很大。导致消费模型的随机项i具有不同的方差。4.1 异方差性产生的背景和原因异方差性产生的背景和原因 二、异方差性带来的问题二、异方差性带来的问题 当存在异方差时,普通最小二乘估计存在以下问题:(1)参数估计值虽是无偏的,但不是最小方差线性无偏估计;(2)参数的显著性检验失效;(3)回归方程的应用效果极不理想。4.2 一元加权最小二乘估计一元加权最小二乘估计 一、异方差性的检验一、异方差性的检验(
48、一)残差图分析法(一)残差图分析法 图2.5(b)存在异方差4.2 一元加权最小二乘估计一元加权最小二乘估计 一、异方差性的检验一、异方差性的检验(二)等级相关系数法(二)等级相关系数法 等级相关系数检验法又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既可用于大样本,也可用于小样本。进行等级相关系数检验通常有三个步骤。第一步,作y关于x的普通最小二乘回归,求出ei的估计值,即ei的值。4.2 一元加权最小二乘估计一元加权最小二乘估计 (二)等级相关系数法(二)等级相关系数法 第二步,取ei的绝对值,分别把xi和|ei|按递增(或递减)的次序分成等级,按下式计算出等级
49、相关系数:其中,n为样本容量,di为对应于xi和|ei|的等级的差数。4.2 一元加权最小二乘估计一元加权最小二乘估计 (二)等级相关系数法(二)等级相关系数法 第三步,做等级相关系数的显著性检验。在n8的情况下,用下式对样本等级相关系数rs进行t检验。检验统计量为:如果tt/2(n-2)可认为异方差性问题不存在,如果tt/2(n-2),说明xi与|ei|之间存在系统关系,异方差性问题存在。4.2 一元加权最小二乘估计一元加权最小二乘估计 例例4.3 4.3 设某地区的居民收入与储蓄额的历史统计数据如表4.1。(1)用普通最小二乘法建立储蓄y与居民收入x的回归方程,并画出残差散点图;(2)诊断
50、该问题是否存在异方差;序号 储蓄y(万元)居民收入x(万元)1 2 3 3126410590230087779210995438200 4.2 一元加权最小二乘估计一元加权最小二乘估计 序号储蓄y居民收入xxi等级残差ei|ei|ei|等级di126487771169.0169.016-15225210592102-26.626.63-1139099543-104.6104.67-4164131105084-110.5110.58-4165122109795-159.4159.415-101006107119126-253.4253.423-172897406127477-25.125.125