《第五章线性回归的PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第五章线性回归的PPT讲稿.ppt(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五章 线性回归的第1页,共62页,编辑于2022年,星期二线性回归的定式偏差线性回归的定式偏差本章讨论变量关系非线性、存在异常值、本章讨论变量关系非线性、存在异常值、规律性扰动和解释变量缺落等导致的线性规律性扰动和解释变量缺落等导致的线性回归模型前两条假设不成立的定式偏差,回归模型前两条假设不成立的定式偏差,包括它们对线性回归分析的影响、判断和包括它们对线性回归分析的影响、判断和处理的方法等。处理的方法等。第2页,共62页,编辑于2022年,星期二线性回归的定式偏差线性回归的定式偏差第一节第一节 变量关系非线性变量关系非线性第二节第二节 异常值异常值第三节第三节 规律性扰动规律性扰动第四节第
2、四节 解释变量缺落解释变量缺落第五节第五节 参数变化参数变化第3页,共62页,编辑于2022年,星期二第一节第一节 变量关系非线性变量关系非线性(一)问题(一)问题(二)发现和判断(二)发现和判断(三)问题的处理和非线性回归(三)问题的处理和非线性回归 1.1.泰勒级数展开法泰勒级数展开法 2.2.非线性最小二乘法非线性最小二乘法第4页,共62页,编辑于2022年,星期二(一)问题(一)问题例:变量之间的真实关系例:变量之间的真实关系 其中其中 满足满足 和线性回归模型的其和线性回归模型的其他假设。他假设。使用的模型使用的模型 因为因为 所以所以 不可能不可能 始终为始终为0 0。第5页,共6
3、2页,编辑于2022年,星期二例:变量之间的真实关系例:变量之间的真实关系 其中其中 满足满足 和线性回归模型的其和线性回归模型的其他假设。他假设。使用的模型使用的模型 变换变换 后模型为后模型为 因为因为 不可能始终为不可能始终为0 0。回归分析的有效性失去了保障回归分析的有效性失去了保障第6页,共62页,编辑于2022年,星期二(二)发现和判断(二)发现和判断用数理经济分析方法,对模型的关系进行用数理经济分析方法,对模型的关系进行更深入的分析。更深入的分析。根据数据及其分布图形、散点图进行直接根据数据及其分布图形、散点图进行直接判断。判断。非线性变量关系的残差序列图非线性变量关系的残差序列
4、图第7页,共62页,编辑于2022年,星期二(三)问题的处理和非线性回归(三)问题的处理和非线性回归1、模型修正和变换、模型修正和变换 恢复模型的合理非线性形式恢复模型的合理非线性形式 然后再变换成线性模型然后再变换成线性模型第8页,共62页,编辑于2022年,星期二泰勒级数展开法泰勒级数展开法2 2、泰勒级数展开法、泰勒级数展开法 假设一个非线性的变量关系为:假设一个非线性的变量关系为:在在 处对处对 作泰勒级数展开:作泰勒级数展开:第9页,共62页,编辑于2022年,星期二 整理可得:整理可得:若令:若令:可以得到:可以得到:泰勒级数展开的反复迭代泰勒级数展开的反复迭代第10页,共62页,
5、编辑于2022年,星期二 3、非线性最小二乘法、非线性最小二乘法 (非线性最优化等)(非线性最优化等)直接用直接用Eviews软件进行估计。软件进行估计。第11页,共62页,编辑于2022年,星期二例例51:某地总消费和收入两个变量的数据如下表所示。某地总消费和收入两个变量的数据如下表所示。Y为总收入,为总收入,C是消费是消费第12页,共62页,编辑于2022年,星期二散点图散点图C在在Eviews中专门用于表示常数项,因此用中专门用于表示常数项,因此用CC表示消费。表示消费。第13页,共62页,编辑于2022年,星期二线性回归结果线性回归结果第14页,共62页,编辑于2022年,星期二残差序
6、列图残差序列图第15页,共62页,编辑于2022年,星期二非线性回归结果非线性回归结果第16页,共62页,编辑于2022年,星期二第二节第二节 异常值异常值问题问题异常值的发现和判断异常值的发现和判断问题的处理问题的处理第17页,共62页,编辑于2022年,星期二(一)(一)问题问题现实经济中常常存在这样的情况,一些突发事件或变化对现实经济中常常存在这样的情况,一些突发事件或变化对经济活动或经济关系造成短暂的但确实很显著的冲击影响。经济活动或经济关系造成短暂的但确实很显著的冲击影响。这些影响既不能被看作微小的随机扰动,但又不会这些影响既不能被看作微小的随机扰动,但又不会决定或改变长期的经济关系
7、。这种情况在经济数据决定或改变长期的经济关系。这种情况在经济数据中反映出来,就会表现为一个脱离基本趋势的异常中反映出来,就会表现为一个脱离基本趋势的异常值。值。如果所研究的经济问题或者相关数据中存在这种情况,如果所研究的经济问题或者相关数据中存在这种情况,建立线性回归模型时又没有预先处理或剔除这种影响,建立线性回归模型时又没有预先处理或剔除这种影响,就会表现为模型误差项在相应时点存在均值非就会表现为模型误差项在相应时点存在均值非0的问题。的问题。第18页,共62页,编辑于2022年,星期二(一)(一)问题的特征问题的特征例如变量例如变量 和和 在长期的关系中,基本上都满足线性在长期的关系中,基
8、本上都满足线性回归模型的各个假设,但在时刻回归模型的各个假设,但在时刻 有了一个突发有了一个突发情况,如果仍然用线性回归模型情况,如果仍然用线性回归模型这个模型的误差项这个模型的误差项 的均值,实际上就是的均值,实际上就是 第19页,共62页,编辑于2022年,星期二(一)(一)问题的特征问题的特征这种情况如果不作处理,那么线性回归结这种情况如果不作处理,那么线性回归结果就会差强人意。果就会差强人意。因为此时适用普通最小二乘法的前提条件因为此时适用普通最小二乘法的前提条件即模型的第二条假设不成立,参数估计量即模型的第二条假设不成立,参数估计量的性质和相关统计推断都会失效。的性质和相关统计推断都
9、会失效。第20页,共62页,编辑于2022年,星期二(二)发现和判断(二)发现和判断克服异常值对线性回归分析影响的前提,是发现和判断异克服异常值对线性回归分析影响的前提,是发现和判断异常值是否存在和在哪些时点存在。常值是否存在和在哪些时点存在。方法一是分析经济问题的相关背景情况,包括对经济现象、相方法一是分析经济问题的相关背景情况,包括对经济现象、相关社会经济事件、以及数据序列的直接分析。关社会经济事件、以及数据序列的直接分析。方法二是进行残差序列分析。这是从技术角度发现和判断异方法二是进行残差序列分析。这是从技术角度发现和判断异常值问题的基本方法。因为异常值只是个别情况,因此即使常值问题的基
10、本方法。因为异常值只是个别情况,因此即使模型存在异常值问题,最小二乘估计仍是一致估计量,回归模型存在异常值问题,最小二乘估计仍是一致估计量,回归残差仍然能很好的近似得出模型的误差项,回归残差中会包残差仍然能很好的近似得出模型的误差项,回归残差中会包含由于异常值所导致模型误差项均值非含由于异常值所导致模型误差项均值非0的信息。的信息。第21页,共62页,编辑于2022年,星期二(二)发现和判断(二)发现和判断基本方法:回归残差序列分析基本方法:回归残差序列分析具体方法:模型假定成立的前提下,残差服从正态分布具体方法:模型假定成立的前提下,残差服从正态分布根据残差序列计算残差的标准差根据残差序列计
11、算残差的标准差用用 去除各个残差,如果发现某个残差去除各个残差,如果发现某个残差 存在存在 的情况时,应该高度怀疑模型在时点的情况时,应该高度怀疑模型在时点 存在异常值问题存在异常值问题第22页,共62页,编辑于2022年,星期二(二)发现和判断(二)发现和判断异常值的检验异常值的检验注意有经济意义的根据。注意有经济意义的根据。第23页,共62页,编辑于2022年,星期二(三)问题的处理(三)问题的处理问题问题方法:引入一个针对性的虚拟变量,定义式为方法:引入一个针对性的虚拟变量,定义式为 得到一个新的回归模型得到一个新的回归模型第24页,共62页,编辑于2022年,星期二(三)问题的处理(三
12、)问题的处理由于两个模型的误差项之间有关系由于两个模型的误差项之间有关系因此因此第25页,共62页,编辑于2022年,星期二例:例:P66第26页,共62页,编辑于2022年,星期二第27页,共62页,编辑于2022年,星期二第28页,共62页,编辑于2022年,星期二引入虚拟变量后的回归结果引入虚拟变量后的回归结果第29页,共62页,编辑于2022年,星期二引入虚拟变量后的回归残差图引入虚拟变量后的回归残差图第30页,共62页,编辑于2022年,星期二第三节第三节 规律性扰动规律性扰动问题问题问题的发现与判断问题的发现与判断问题的处理问题的处理第31页,共62页,编辑于2022年,星期二一、
13、问题一、问题除了异常值问题以外,周期性或其它规律性扰动,也会使除了异常值问题以外,周期性或其它规律性扰动,也会使线性回归模型的误差项偏离零均值的假设。线性回归模型的误差项偏离零均值的假设。此外,在横截面数据计量经济分析中,观测对象的性别、此外,在横截面数据计量经济分析中,观测对象的性别、年龄、受教育程度等特征差异,也是规律性扰动因素。年龄、受教育程度等特征差异,也是规律性扰动因素。这些问题不影响变量关系的总体趋势,但都会对变量这些问题不影响变量关系的总体趋势,但都会对变量关系产生规律性影响,如果不预先加以处理或排除掉,关系产生规律性影响,如果不预先加以处理或排除掉,就会导致误差项均值非零的问题
14、出现,影响回归分析就会导致误差项均值非零的问题出现,影响回归分析的效果。的效果。第32页,共62页,编辑于2022年,星期二一、问题一、问题例如,变量例如,变量Y的季度数据中,第一季度总会受到一个季节性因的季度数据中,第一季度总会受到一个季节性因素的影响。素的影响。如果我们忽视这种影响,用两变量模型如果我们忽视这种影响,用两变量模型或多元模型或多元模型研究研究Y的规律,就会遇到误差项非的规律,就会遇到误差项非0问题,即问题,即第33页,共62页,编辑于2022年,星期二二、问题的发现和判断二、问题的发现和判断经济问题背景分析经济问题背景分析回归残差序列图分析回归残差序列图分析两种分析相结合,确
15、定其是否属于规律性两种分析相结合,确定其是否属于规律性扰动扰动第34页,共62页,编辑于2022年,星期二三、问题的处理三、问题的处理解决规律性扰动问题的方法之一就是对数据进行统计平解决规律性扰动问题的方法之一就是对数据进行统计平滑处理,消除季节性或其他周期性扰动的影响。但这样滑处理,消除季节性或其他周期性扰动的影响。但这样容易产生两个问题:一是不能区别趋势因素和季节性扰容易产生两个问题:一是不能区别趋势因素和季节性扰动,不能真正确定所研究变量关系的具体变化轨迹,二动,不能真正确定所研究变量关系的具体变化轨迹,二是容易导致误差序列自相关问题。因此,它不是克服规是容易导致误差序列自相关问题。因此
16、,它不是克服规律性扰动对线性回归分析影响的好方法律性扰动对线性回归分析影响的好方法处理规律性扰动的较好方法是引进虚拟变量,有时需处理规律性扰动的较好方法是引进虚拟变量,有时需要引进多个虚拟变量。要引进多个虚拟变量。第35页,共62页,编辑于2022年,星期二例如(例如(1)在上个例子中,第一季度存在季节性因素的影响,在上个例子中,第一季度存在季节性因素的影响,在这个例子中,可使用虚拟变量在这个例子中,可使用虚拟变量把模型改为把模型改为或或那么新模型的误差项就不再存在均值非那么新模型的误差项就不再存在均值非0的问题,回归分析的的问题,回归分析的效果就能得到保证。效果就能得到保证。第36页,共62
17、页,编辑于2022年,星期二例如(例如(2)如果第一季度受到一种季节性因素影响,第三季度受到另一种方向和如果第一季度受到一种季节性因素影响,第三季度受到另一种方向和力度不同的因素的扰动,那么可以引进两个虚拟变量,即力度不同的因素的扰动,那么可以引进两个虚拟变量,即和和将两个虚拟变量引入模型,模型变为将两个虚拟变量引入模型,模型变为或或第37页,共62页,编辑于2022年,星期二对于截面数据计量分析的例子对于截面数据计量分析的例子对于截面数据计量分析中,观测对象特征差异导致的规律性对于截面数据计量分析中,观测对象特征差异导致的规律性扰动,也可以利用虚拟变量加以处理。扰动,也可以利用虚拟变量加以处
18、理。如观测对象的性别是一个影响因素,解决的办法就是在模型中引进如观测对象的性别是一个影响因素,解决的办法就是在模型中引进虚拟变量,即虚拟变量,即n这个虚拟变量就能解决由于观测对象的性别因素所导致的误这个虚拟变量就能解决由于观测对象的性别因素所导致的误差项均值非差项均值非0问题。问题。第38页,共62页,编辑于2022年,星期二注注 意意利用虚拟变量解决扰动问题时,引进虚拟变量是有利用虚拟变量解决扰动问题时,引进虚拟变量是有限度的,因为引进一个虚拟变量就意味着要多估计限度的,因为引进一个虚拟变量就意味着要多估计一个参数和损失一个自由度,对回归分析的效果有一个参数和损失一个自由度,对回归分析的效果
19、有不利影响。不利影响。引进虚拟变量要注意引进虚拟变量要注意“虚拟变量陷阱虚拟变量陷阱”。即属性和类。即属性和类别的个数与虚拟变量个数一致,模型无截距。如上述季别的个数与虚拟变量个数一致,模型无截距。如上述季节性扰动模型同时引进对应全部节性扰动模型同时引进对应全部4个季节的,按照类似规个季节的,按照类似规则定义的四个虚拟变量则定义的四个虚拟变量 那么因为这那么因为这4个虚个虚拟变量相加等于拟变量相加等于1,则当这四个变量同时出现在一个模,则当这四个变量同时出现在一个模型中,必然导致解释变量严格线性相关,导致模型的型中,必然导致解释变量严格线性相关,导致模型的崩溃。同样,在考虑性别因素时,若同时引
20、进男性和崩溃。同样,在考虑性别因素时,若同时引进男性和女性两个虚拟变量也会落入虚拟变量陷阱,所以,引女性两个虚拟变量也会落入虚拟变量陷阱,所以,引进虚拟变量时,应该谨慎。进虚拟变量时,应该谨慎。第39页,共62页,编辑于2022年,星期二例题例题 (考虑性别的一个回归模型)(考虑性别的一个回归模型)性别(性别(1 1为男性、为男性、0 0为女性)为女性)m m教龄教龄x x年薪(千美元)年薪(千美元)y y1 11 123230 01 119.519.51 12 224 24 0 02 221211 13 325250 03 322221 14 426.526.50 04 423.123.10
21、 05 525251 15 528281 16 629.529.50 06 626260 07 727.527.51 17 731.531.50 08 82929第40页,共62页,编辑于2022年,星期二看年薪和教龄之间的散点图看年薪和教龄之间的散点图第41页,共62页,编辑于2022年,星期二 不加虚拟变量的回归结果不加虚拟变量的回归结果第42页,共62页,编辑于2022年,星期二加上虚拟变量后的回归结果加上虚拟变量后的回归结果第43页,共62页,编辑于2022年,星期二第四节第四节 解释变量缺落解释变量缺落问题问题发现与判断发现与判断问题的处理问题的处理第44页,共62页,编辑于2022
22、年,星期二问题问题解释变量缺落,也是引起误差项均值非解释变量缺落,也是引起误差项均值非0问题的常见原因。问题的常见原因。所谓解释变量缺落,就是线性回归模型设所谓解释变量缺落,就是线性回归模型设定的变量关系中,忽略了某些重要的、对定的变量关系中,忽略了某些重要的、对被解释变量有趋势性影响的因素。被解释变量有趋势性影响的因素。被忽略的因素对被解释变量的影响,会从被忽略的因素对被解释变量的影响,会从误差项中表现出来,导致误差不再是纯粹误差项中表现出来,导致误差不再是纯粹的随机扰动。的随机扰动。第45页,共62页,编辑于2022年,星期二例如例如若真实的变量关系为若真实的变量关系为若采用变量关系若采用
23、变量关系第46页,共62页,编辑于2022年,星期二发现和判断:发现和判断:经济背景分析和残差序列分析经济背景分析和残差序列分析e第47页,共62页,编辑于2022年,星期二问题的处理问题的处理根据找到的原因即缺落的解释变量,针对根据找到的原因即缺落的解释变量,针对性的加入该缺落的解释变量,就可以解决性的加入该缺落的解释变量,就可以解决问题。问题。第48页,共62页,编辑于2022年,星期二第五节第五节 参数变化参数变化问题问题发现和判断发现和判断问题的解决问题的解决第49页,共62页,编辑于2022年,星期二问题问题参数改变是指在考察期间(样本数据范围)参数改变是指在考察期间(样本数据范围)
24、,变量关系中的参数发生变化,这种问题,变量关系中的参数发生变化,这种问题也可以被理解为模型的稳定性问题。也可以被理解为模型的稳定性问题。这时实际上不能用同一个线性回归模型研这时实际上不能用同一个线性回归模型研究变量在整个考察期间的关系。究变量在整个考察期间的关系。如果忽视这种模型参数变化,也会导致误如果忽视这种模型参数变化,也会导致误差项均值非差项均值非0问题。问题。第50页,共62页,编辑于2022年,星期二问题问题以两变量线性关系在考察期以两变量线性关系在考察期【0,T】中的中的t时刻参数发生变化为例。时刻参数发生变化为例。这种情况下,真实的变量关系可以用这种情况下,真实的变量关系可以用【
25、0,t】和和【t,T】两个两个时期中的两个模型分别表示,即时期中的两个模型分别表示,即其中,其中,和和 都满足均值为都满足均值为0和线性回归模型的其它假设,且和线性回归模型的其它假设,且如果忽略模型参数的变化,用同一变量关系如果忽略模型参数的变化,用同一变量关系代表代表Y和和X在整个【在整个【0,T】时期的关系,那么在两个时期中的误】时期的关系,那么在两个时期中的误差项就分别为差项就分别为第51页,共62页,编辑于2022年,星期二和和因此,两个时期误差项的均值分别为因此,两个时期误差项的均值分别为和和很显然,除非很显然,除非 和和 同时成立,否则同时成立,否则 的均值不可能在两个时期都始终为
26、的均值不可能在两个时期都始终为0。因此在参数发生改变时,必然导致误差项均值非因此在参数发生改变时,必然导致误差项均值非0的问的问题。题。第52页,共62页,编辑于2022年,星期二二、发现和判断二、发现和判断发现和判断模型参数改变的基本方法,也是经济发现和判断模型参数改变的基本方法,也是经济问题背景分析和残差序列分析相结合。问题背景分析和残差序列分析相结合。如果以如果以i为横轴,残差为横轴,残差e为纵轴的残差序列分布,为纵轴的残差序列分布,存在某个时期附近转折的情况,就应该考虑变量关存在某个时期附近转折的情况,就应该考虑变量关系在该时刻可能存在参数改变。系在该时刻可能存在参数改变。第53页,共
27、62页,编辑于2022年,星期二邹检验邹检验以怀疑发生结构参数变化的时点为界,把观测样本分为两组(每以怀疑发生结构参数变化的时点为界,把观测样本分为两组(每组样本容量必须大于模型的解释变量数),组样本容量必须大于模型的解释变量数),分别为两个分别为两个子样本的样本容量。子样本的样本容量。对两个子样本和全样本分别进行回归,将两组子样本回归的残差对两个子样本和全样本分别进行回归,将两组子样本回归的残差平方和加总得到平方和加总得到 ,称为无约束的残差平方和,它的自由,称为无约束的残差平方和,它的自由度为度为 全样本的回归残差平方和为全样本的回归残差平方和为 ,自由度为,自由度为 称为有约束的残差平方
28、和。用称为有约束的残差平方和。用“有约束的残差平方和有约束的残差平方和”减去减去“无约束的残差平方和无约束的残差平方和”,自由度为,自由度为K+1。第54页,共62页,编辑于2022年,星期二邹检验邹检验 F(K+1,)第55页,共62页,编辑于2022年,星期二左表给出19701991年各年的个人储蓄Y和个人收入X的数据,均以10亿美元计。用邹检验以判明从时期19701980年到时期19811991年储蓄收入关系是否出现显著变化。第56页,共62页,编辑于2022年,星期二第57页,共62页,编辑于2022年,星期二第58页,共62页,编辑于2022年,星期二第59页,共62页,编辑于202
29、2年,星期二F【(19953.781010.8425103.470)/2】/【(1010.842+5103.470)/(22-2-2)】20.362 F的临界值在的临界值在95的置信度下为的置信度下为3.55,在,在99的置信度的置信度下为下为6.01,F的值明显大于的值明显大于F的临界值,所以判定结构不的临界值,所以判定结构不稳定,在稳定,在1981年发生了结构变化。年发生了结构变化。第60页,共62页,编辑于2022年,星期二利用虚拟变量检验结构的稳定性利用虚拟变量检验结构的稳定性引入虚拟变量:引入虚拟变量:模型设定为模型设定为第61页,共62页,编辑于2022年,星期二上述结果表明,截距和斜率均发生显著变化,即结构不稳定。上述结果表明,截距和斜率均发生显著变化,即结构不稳定。第62页,共62页,编辑于2022年,星期二