应用统计学 第六章 回归分析2.ppt

上传人:s****8 文档编号:67343640 上传时间:2022-12-24 格式:PPT 页数:72 大小:827KB
返回 下载 相关 举报
应用统计学 第六章 回归分析2.ppt_第1页
第1页 / 共72页
应用统计学 第六章 回归分析2.ppt_第2页
第2页 / 共72页
点击查看更多>>
资源描述

《应用统计学 第六章 回归分析2.ppt》由会员分享,可在线阅读,更多相关《应用统计学 第六章 回归分析2.ppt(72页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、四、多元线性回归模型的延伸n在实际经济活动中,经济变量的关系是复杂的,直接表现为线性关系的情况并不多见。n如著名的C-D生产函数表现为幂函数曲线形式、宏观经济学中的菲利普斯曲线(Pillips cuves)表现为双曲线形式等。n但是,大部分非线性关系又可以通过一些简单的数学处理,使之化为数学上的线性关系,从而可以运用线性回归模型的理论方法。1 1、倒数模型、多项式模型与变量的直接置换法、倒数模型、多项式模型与变量的直接置换法 例如,例如,描述税收与税率关系的拉弗曲线拉弗曲线:抛物线 s=a+b r+c r2 c0 s:税收;r:税率设X1=r,X2=r2,则原方程变换为 s=a+b X1+c

2、X2 c01010 xy120 xy1平均固定成本与产出水平平均固定成本与产出水平平均固定成本与产出水平平均固定成本与产出水平菲利普斯曲线菲利普斯曲线菲利普斯曲线菲利普斯曲线恩格尔曲线恩格尔曲线恩格尔曲线恩格尔曲线倒数模型的线性化:令倒数模型的线性化:令 原方程变为原方程变为:y=1+2zi+i2、幂函数模型、指数函数模型与对数变换法、幂函数模型、指数函数模型与对数变换法 例如例如,Cobb-Dauglas生产函数:幂函数 Q=AKLQ:产出量,K:投入的资本;L:投入的劳动 方程两边取对数:ln Q=ln A+ln K+ln L对数线性模型测度弹性n n对数线性模型的特点:斜率系数对数线性模

3、型的特点:斜率系数 测度了测度了Q Q对对L L的弹性:的弹性:ln Qi=ln A+ln Ki+ln Li+i例 美国咖啡需求:1970-1980n美国咖啡消费(y)与平均真实零售价格(x)数据如表,(x=名义价格/食品与饮料的消费者价格指数,1967年=100),求咖啡消费函数。n输入数据n建立模型:lny=+lnx+in参数估计:n与线形模型比较线性模型对数线性模型R2=0.663 1=-0.480R2=0.745 1=-0.253哪个模型更好(参数估计的精度、拟合程度)?回归参数的意义?不可比不可比R2的可比性问题n根据判定系数来比较两个模型的时候,一定要注意样本容量n和因变量都必须相

4、同,而解释变量则可取任何形式。n对咖啡需求的两个模型:nyi=+xi+inlnyi=+lnxi+InR2项是不可直接相比的,因为它们是不同尺度的。要比较必须进行处理。不同尺度R2的比较方法n以咖啡需求为例nyi=+xi+i (1)nlnyi=+lnxi+i (2)n方法一:对模型(1)得到的 取对数,然后求其与方程(2)的lnyi之间的R2,此R2与(2)的判定系数有可比性。n(1)转换后的R2=0.677线性模型的R2n两种方法比较结果相同:对数线性模型的拟合程度高于线性模型。半对数模型-测度增长率n假如要求GDP的增长率,有如下公式:nyt=y0(1+r)t 指数函数n其中,yt:时间t的

5、实际GDP;y0:实际GDP的初始值;r:y的复合增长率。n两边取对数:lnyt=lny0+tln(1+r)n令1=lny0,2=ln(1+r),并增加干扰项n方程变为:lnyt=1+2t+i半对数模型n模型特点:2 2:测度了测度了GDPGDP的恒定相对增长率。的恒定相对增长率。例:n用例5数据,求1956-1970年美国个人可支配收入的增长率。X2:个人可支配收入,x3:时间变量n模型:lnx2i=1+2x3i+in求解过程n结果:2=0.04228,说明56-70年间,美国个人可支配收入每年增长4.23%比较线性趋势模型:x2i=b2+b23x3i+ib23=17.13,说明个人可支配收

6、入每年平均增长17亿美元。3、复杂函数模型与级数展开法、复杂函数模型与级数展开法 方程两边取对数后,得到:(1+2=1)Q:产出量,K:资本投入,L:劳动投入 :替代参数,1、2:分配参数例如例如,常替代弹性CES生产函数 将式中ln(1K-+2L-)在=0处展开台劳级数,取关于的线性项,即得到一个线性近似式。如取0阶、1阶、2阶项,可得 五、含虚拟变量的回归n一些影响经济变量的因素是无法定量度量。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。n虚拟变量(定类尺度变量、范畴变量):n用来表示某一“性质”或属性出现或不出现,通常取值0或1,因而也称两值变量或两分变量。

7、n如:x表示性别,0=男性,1=女性n或x=0表示政策实施前,x=1表示政策实施后。n同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-of variance:ANOVA)模型。被赋予0值的类别是基底(基准),1是基底类的截距。1、虚拟变量的性质n例:教授薪金与性别、教龄的关系nYi=1+2Di+Xi+I (1)n其中:Yi=教授的薪金,Xi=教龄,Di=性别教龄X年薪Y0女教授男教授12男教授平均薪金和女教授平均薪金水平相差2,但平均年薪对教龄的变化率是一样的2:级差截距系数薪金与性别:估计结果男教授平均薪金水平比女教授显著高$3.334K(男:21.3,女

8、:17.969)2、含有虚拟变量的回归问题n虚拟变量的设计n对多分定性变量,按照虚拟变量的个数比变量分类数少一的规则设虚拟变量。n例如受教育程度分为:低于中学、中学和大学三类,则应设两个虚拟变量:Yi=1+2D2i+3D3i+Xi+i“低于中学”类为基底为什么不能设三个虚拟变量?为什么不能设三个虚拟变量?为什么不能设三个虚拟变量?为什么不能设三个虚拟变量?2、含有虚拟变量的回归问题n美国制造业的利润-销售额行为季节调整例D2=1,第2季度;D3=1,第3季度;D4=1,第4季度 =0,其他季度;=0,其他季度;=0,其他季度剔除季节影响,销售额增加1美元,利润可望增加4美分3、比较两个回归n比

9、较英国在第二次大战后重建时期和重建后时期的总储蓄-收入关系是否发生变化。数据如表。D=1,重建时期 =0,重建后时期级差截距:区分两个时期的截距级差斜率系数:区分两个时期的斜率级差截距和级差斜率系数都是统计上显著的,表示两个时期的回归是相异的级差截距和级差斜率系数都是统计上显著的,表示两个时期的回归是相异的D=1D=0虚拟变量模型与方差分析n新食品定价和广告策略研究例协变量调整前协变量调整后六、六、模型设定偏误问题模型设定偏误问题 n模型设定偏误的类型模型设定偏误的类型 n模型设定偏误的后果模型设定偏误的后果n模型设定偏误的模型设定偏误的检验检验1、模型设定偏误的类型、模型设定偏误的类型 n模

10、型设定偏误主要有两大类:(1)关于解释变量选取的偏误,主要包括漏选相关变量和多选无关变量,(2)关于模型函数形式选取的偏误。a.相关变量的遗漏(相关变量的遗漏(omitting relevant variables)n例如,如果“正确”的模型为:而我们将模型设定为:即设定模型时漏掉了一个相关的解释变量。这类错误称为遗漏相关变量遗漏相关变量。b.无关变量的误选无关变量的误选 (including irrevelant variables)n例如例如,如果 Y=0+1X1+2X2+仍为“真”,但我们将模型设定为:Y=0+1X1+2X2+3X3+即设定模型时,多选了一个无关解释变量。c.错误的函数形

11、式错误的函数形式(wrong functional form)n例如,如果“真实”的回归函数为:但却将模型设定为:2 2、模型设定偏误的后果、模型设定偏误的后果 n当模型设定出现偏误时,模型估计结果也会与“实际”有偏差。这种偏差的性质及程度与模型设定偏误的类型密切相关。1)遗漏相关变量偏误遗漏相关变量偏误 采用遗漏相关变量的模型进行估计而带来的偏误称为遗漏相关变量偏误(omitting relevant variable bias)。设正确的模型为:Y=0+1X1+2X2+却对 Y=0+1X1+v进行回归,得:将正确模型 Y=0+1X1+2X2+的离差形式:代入得:(1)如如果果漏漏掉掉的的X

12、2与与X1相相关关,则则上上式式中中的的第第二二项项在在小小样样本本下下求求期期望望与与大大样样本本下下求求概概率率极极限限都都不不会会为为零零,从从而而使使得得OLSOLS估估计计量量在在小小样样本本下下有有偏,在大样本下非一致偏,在大样本下非一致。(2)如果如果X2与与X1不相关,则不相关,则 1 1的估计满足无偏性的估计满足无偏性与一致性;但这时与一致性;但这时 0 0的估计却是有偏的。的估计却是有偏的。何时1被高估?由由 Y=0+1X1+v 得得:由由 Y=0+1X1+2X2+得得:如果如果X2与与X1相关,显然有相关,显然有如果如果X2与与X1不相关,也有不相关,也有Why?2)包含

13、无关变量偏误包含无关变量偏误 采用包含无关解释变量的模型进行估计带来的偏误,称为包含无关变量偏误(including irrelevant variable bias)。设设 Y=0+1X1+v (*)为正确模型,但却估计了为正确模型,但却估计了 Y=0+1X1+2X2+(*)如果如果 2=0,则则(*)(*)与与(*)(*)相同,因此,可将相同,因此,可将(*)式视为以式视为以 2=0为约束的为约束的(*)式的特殊形式。式的特殊形式。由于所有的经典假设都满足,因此对由于所有的经典假设都满足,因此对 Y=0+1X1+2X2+(*)式进行式进行OLSOLS估计,可得到估计,可得到无偏无偏且且一致

14、一致的估计量。的估计量。但是,但是,OLS估计量却不具有最小方差性。估计量却不具有最小方差性。Y=0+1X1+v 中中X1的方差的方差:Y=0+1X1+2X2+中中X1的方的方差差:当当X1与与X2完全线性无关时完全线性无关时:否则否则:注意:注意:方程中包含无关变量,OLS估计量的误差增大3)错误函数形式的偏误错误函数形式的偏误 当选取了错误函数形式并对其进行估计时,带来的偏误称错误函数形式偏误(wrong functional form bias)。容易判断,这种偏误是全方位的。例如,如果“真实”的回归函数为:却估计线性式 显然,两者的参数具有完全不同的经济含义,且估计结果一般也是不相同的

15、。3 3、模型设定偏误的检验、模型设定偏误的检验 a.检验是否含有无关变量 可用可用t 检验与检验与F检验完成。检验完成。检验的基本思想检验的基本思想:如果模型中误选了无关变量,则其系数的真值应为零。因此,只须对无关变量系数的显著性进行检验。t t检验检验:检验某1个变量是否应包括在模型中;F检验检验:检验若干个变量是否应同时包括在模型中。b.检验是否有相关变量的遗漏或函数形式设定检验是否有相关变量的遗漏或函数形式设定偏误偏误 残差图示法 残差序列变化图残差序列变化图(a)趋势变化)趋势变化:模型设定时可能遗漏了一随着时间的推移而持续上升的变量(b)循环变化:)循环变化:模型设定时可能遗漏了一

16、随着时间的推移而呈现循环变化的变量 模型函数形式设定偏误时残差序列呈现正负模型函数形式设定偏误时残差序列呈现正负交替变化交替变化 图示:图示:一元回归模型中,真实模型呈幂函数形式,但却选取了线性函数进行回归。七、用回归模型作预测nE(Y0)的置信区间的置信区间nY0的置信区间的置信区间1 1、E(Y0)的置信区间的置信区间于是,得到(1-)的置信水平下E(Y0)的置信区间置信区间:其中,t/2为(1-)的置信水平下的临界值临界值。2 2、Y0的置信区间的置信区间八、线性回归过程选择建立回归方程的方法可以对不同的自变量采用不同的引入方法选择进入回归分析的样本点加权最小二乘法,单击此按钮可输入加权

17、变量Method选择框:n建立回归方程的方法有五种可供选择:nEnter(强迫引入法):定义的全部自变量均引入方程。nRemove(强迫剔除法):定义的全部自变量均剔除。nForward(向前引入法):自变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变量为止。缺点:当两个变量一起时效果好,单独时效果不好,有可能只引入其中一个变量,或两个变量都不能引入。Method选择框:nBackward(向后剔除法):自变量由多到少一个一个从回归方程中剔除,直到不能按检验水准剔除为止。能克服向前引入的缺点。nStepwise(逐步回归):将向前引入法和向后剔除法结合起来,在向前引入的每一步之后

18、都要考虑从已引入方程的变量中剔除作用不显著的变量,直到没有一个自变量能引入方程,也没有一个自变量能从方程中剔除为止。缺点同向前引入法,但选中的变量比较精悍。Statistics对话框D-W检验:检验随机误差项的独立性(序列相关性)个案诊断:特异值或全部样本,显示其标准化残差、实测值、预测值和残差。默认选项共线诊断Plots对话框散点图:输入纵坐标和横坐标。为获得更多散点图,可单击“next”按钮标准化残差图直方图残差的正态概率图DEPENDENT:因变量,*ZPRED:标准化预测值,*ZRESID:标准化残差,*DRESID:删除的残差,*ADJPRED:调整预测值,*SRESID:stude

19、nt氏残差,*SDRESID:student氏删除残差。预测值的标准误预测区间估计:均值的预测区间和个体y值的预测区间Save对话框Option对话框逐步方法准则:以F的概率p值为准则或以F值为准则(均给出引入值和剔除值),当F的p值小于等于引入值时,引入相应变量;当F的p值大于等于剔除值时,剔除相应变量。逐步回归简介n一种选择变量的方法n目的:使最终方程只包含对因变量有显著影响的自变量n基本思想:n根据各变量对方程影响的大小,逐次选入到回归方程中n如果先前被选入方程的变量由于后入的变量而失去了重要性,则从方程中淘汰。n持续上述过程,直到回归方程不再有可淘汰的变量,也没有再可引入的变量时为止。

20、n需解决的问题:如何度量某个变量在回归方程中做出的贡献,如何检验此作用是否显著?一个解释变量的“边际”贡献n例7 1956-1970年美国个人消费PCE(y)和个人可支配收入PDI(x2)数据如表。n做回归:yt=b1+b12x2t+1t (1)n针对可能存在的谬误相关,引入时间趋势变量x3n做新回归:yt=1+2x2t+3x3t+t (2)一个解释变量的“边际”贡献n解释变量的“边际”贡献:指当计量经济模型已存在若干个解释变量时,再新增加一个解释变量,这个解释变量的引入是否相对于SSE来说,“显著地”增加了SSR,从而增加了R2。n例7:美国个人消费支出和个人可支配收入模型,nyt=b1+b

21、12x2t+1t (1)n新增加一个时间趋势变量x3,模型变为:nyt=1+2x2t+3x3t+t (2)n新模型的判定系数R2是否由于新解释变量x3的引入而显著增加了x3的边际贡献问题新变量增量贡献的方差分析表变异来源平方和(SS)df均方和SSR仅由于x2SSR由于x3的加入SSR由于x2和x3SSE总计(TSS)Q2=Q3-Q1Q4=Q5-Q3112n-3n-1Q1/1Q2/1Q3/2Q4/n-3为了评估x3的增量贡献,构造F统计量:例7 时间趋势变量的边际贡献变异来源平方和(SS)df均方和SSR仅由于x2SSR由于x3的加入SSR由于x2和x3SSE总计(TSS)Q1=65898.2

22、354Q2=Q3-Q1=66.866Q3=65965.10098Q4=77.16902Q5=66042.27112121465898.266.86632982.66.43075F F服从服从(1,12)(1,12)的的F F分布,查分布,查F F表可知表可知F F值在值在1%1%水平上显著,水平上显著,时间变量的引入时间变量的引入显著地增大显著地增大SSRSSR,应把时间变量加到模型中来,应把时间变量加到模型中来逐步回归例n29例儿童的血液中血红蛋白(y,g)与钙(x1)、镁(x2)、铁(x3)、锰(x4)及铜(x5)的含量如表。用逐步回归方法筛选对血红蛋白有显著作用的微量元素。nLinear

23、主对话框:血红蛋白-因变量,其它-自变量,Method:stepwisenOption:use probability of F栏中Entry:0.10,Remove:0.11n做残差分析p=0.08F0.05=4.22钙的影响是否显著?如何判断?钙的影响是否显著?如何判断?本章小结 多元回归模型n多元回归模型描述了被解释变量与诸解释变量的依赖关系n偏回归系数i表示其它解释变量不变的条件下,第i个解释变量变化对被解释变量的“净”影响。n偏回归系数的估计方法:最小二乘估计n当经典假设满足时,OLS估计量为最优线性无偏估计量多元回归模型的建模过程n明确所研究的问题,确定因变量n通过定性分析,找到导

24、致因变量变化的主要影响因素,作为解释变量n收集数据,整理数据,数据的初步分析n分析因变量与各解释变量间关系的性质,确定模型的函数形式n建立计量模型,确定各偏回归系数的先验符号多元回归模型的建模过程(续)n用OLS估计模型的参数,并作各种检验n经典假设检验:多重共线、异方差、序列相关n如果存在异方差/序列相关,统计检验无效n统计检验:t检验,F检验,判定系数n经济意义检验:各偏回归系数的符号是否与预期一致n筛选完善模型:设定偏误问题n模型的应用:预测、结构分析、政策建议n注意:不同形式模型偏回归系数的经济含义回归建模示例1:粮食生产模型n根据理论和经验分析,影响粮食生产(Y)的主要因素有:n农业

25、化肥施用量(X1),粮食播种面积(X2),成灾面积(X3),农业机械总动力(X4),农业劳动力(X5)n已知中国粮食生产的已知中国粮食生产的相关数据相关数据,建立中,建立中国粮食生产函数国粮食生产函数:Y=0+1 X1+2 X2+3 X3+4 X4+4 X5+模型估计结果模型估计结果无异方差,无序列相关,无异方差,无序列相关,存在多重共线存在多重共线差分消除共线差分消除共线经检验,无异方差,无序列经检验,无异方差,无序列相关,无多重共线,可剔除相关,无多重共线,可剔除两个不显著变量两个不显著变量剔除两个不显著变量剔除两个不显著变量剔除变量法:先剔除“劳动力”剔除“劳动力”和“机械总动力”可检验

26、无序列相关,无异方差去除常数项过原点回归回归模型示例2:农民收入影响因素分析模型n分析与建模:分析与建模:经过初步数据分析,剔除从直观上看可能对农民收入产生影响但实际上并不显著的变量后,得到如下结论:改革开放以来,影响我国农民收入总量水平的主要因素是从事非农产业的农村劳动者人数、农副产品收购价格和农业生产的发展规模。n用I表示农民纯收入总量水平、Q表示农业生产的发展规模、P表示农副产品收购价格、L表示从事非农产业的农村劳动者人数。收入采用当年价格;农业生产的发展规模以按可比价格计算的、包括种植业、林业、牧业、副业和渔业的农业总产值指数为样本数据;农副产品收购价格以价格指数为样本数据。对数模型多重共线,序列相关,无异方差多重共线,序列相关,无异方差广义差分,一阶=0.519仍序列相关仍序列相关序列相关:二阶1=0.855,2=-0.581

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁