《应用回归分析课后习题参考答案.docx》由会员分享,可在线阅读,更多相关《应用回归分析课后习题参考答案.docx(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第4章 违反根本假设的状况思索及练习参考答案4.1 试举例说明产生异方差的缘由。答:例:截面资料下探讨居民家庭的储蓄行为 Yi=b0+b1Xi+i其中:Yi表示第i个家庭的储蓄额,Xi表示第i个家庭的可支配收入。由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额那么更有规律性,差异较小,所以i的方差呈现单调递增型变更。 例4.2:以某一行业的企业为样本建立企业生产函数模型 Yi=Aib1 Kib2 Lib3ei被说明变量:产出量Y,说明变量:资本K, 劳动L, 技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差
2、项的异方差性。这时,随机误差项的方差并不随某一个说明变量观测值的变更而呈规律性变更,呈现困难型。4.2 异方差带来的后果有哪些?答:回来模型一旦出现异方差性,假如仍接受OLS估计模型参数,会产生以下不良后果:1, 参数估计量非有效2, 变量的显著性检验失去意义3, 回来方程的应用效果极不志向总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预料误差变大,降低预料精度,预料功能失效。4.3 简述用加权最小二乘法消退一元线性回来中异方差性的思想及方法。答:一般最小二乘估计就是找寻参数的估计值使离差平方和达微小。其中每个平方项的权数一样,是一般最小二乘回来参数估计方法。在
3、误差项等方差不相关的条件下,一般最小二乘估计是回来参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中的每一项的地位是不一样的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而一般最小二乘估计的回来线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS求出的照旧是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赐予较小的权数,对较小的残差平方赐予较大的权数。这样对残差所供应信息的重要程度作一番校正,以提高参数估计的精度。加权最小二乘法的方法:简述用加权最小二乘法消退多元线性回来中异方差性的思想及方法。答:运用加权最小二乘法消
4、退多元线性回来中异方差性的思想及一元线性回来的类似。多元线性回来加权最小二乘法是在平方和中参加一个适当的权数 ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为: 2加权最小二乘估计就是找寻参数的估计值使式2的离差平方和达微小。所得加权最小二乘阅历回来方程记做 3 多元回来模型加权最小二乘法的方法:首先找到权数,理论上最优的权数为误差项方差的倒数,即 4误差项方差大的项承受小的权数,以降低其在式2平方和中的作用; 误差项方差小的项承受大的权数,以提高其在平方和中的作用。由2式求出的加权最小二乘估计就是参数的最小方差线性无偏估计。一个须要解决的问题是误差项的方差是未知的,因此无法真正依据式
5、4选取权数。在实际问题中误差项方差通常及自变量的水平有关(如误差项方差随着自变量的增大而增大),可以利用这种关系确定权数。例如及第j个自变量取值的平方成比例时, 即=k时,这时取权数为 5更一般的状况是误差项方差及某个自变量(及|ei|的等级相关系数最大的自变量)取值的幂函数成比例,即=k,其中m是待定的未知参数。此时权数为 6这时确定权数 的问题转化为确定幂参数m的问题,可以借助SPSS软件解决。4.54.5式一元加权最小二乘回来系数估计公式。证明:由得:验证4.8式多元加权最小二乘回来系数估计公式。证明:对于多元线性回来模型 1 ,即存在异方差。设,用左乘1式两边,得到一个新的的模型:,即
6、。因为,故新的模型具有同方差性,故可以用广义最小二乘法估计该模型,得原式得证。4.7 有同学认为当数据存在异方差时,加权最小二乘回来方程及一般最小二乘回来方程之间必定有很大的差异,异方差越严峻,两者之间的差异就越大。你是否同意这位同学的观点?说明缘由。答:不同意。当回来模型存在异方差时,加权最小二乘估计WLS只是一般最小二乘估计OLS的改良,这种改良可能是微小的,不能理解为WLS确定会得到及OLS迥然不同的方程来,或者大幅度的改良。事实上可以构造这样的数据,回来模型存在很强的异方差,但WLS 及OLS的结果一样。加权最小二乘法不会消退异方差,只是消退异方差的不良影响,从而对模型进展一点改良。4
7、.8 对例4.3的数据,用公式计算出加权变换残差,绘制加权变换残差图,依据绘制出的图形说明加权最小二乘估计的效果。解:用公式计算出加权变换残差,分别绘制加权最小二乘估计后的残差图和加权变换残差图见以下图。依据绘制出的两个图形可以发觉加权最小二乘估计没有消退异方差,只是对原OLS的残差有所改善,而经过加权变换后的残差不存在异方差。 参见参考文献2,表4.12P138是用电顶峰每小时用电量y及每月总用电量x的数据。1用一般最小二乘法建立y及x的回来方程,并画出残差散点图。解:SPSS输出结果如下:由上表可得回来方程为:残差图为:2诊断该问题是否存在异方差;解:a由残差散点图可以明显看出存在异方差,
8、误差的方差随着的增加而增大。b用SPSS做等级相关系数的检验,结果如下表所示:得到等级相关系数,P值=0.021,认为残差确定值及自变量显著相关,存在异方差。3假如存在异方差,用幂指数型的权函数建立加权最小二乘回来方程;解:SPSS输出结果如图:Coefficientsa,b.298.026.004.000.812.000(Constant)xModel1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. Weighted Least Squares Regr
9、ession - Weighted by Weight for y from WLS, MOD_2b. 由上述表可得,在时对数似然函数到达最大,那么幂指数的最优取值为。加权后的回来方程为:。计算加权后的残差,并对残差确定值和自变量做等级相关系数分析,结果如下表所示:,P值为0.0190.05,说明异方差已经消退。0 试举一可能产生随机误差项序列相关的经济例子。答:例如,居民总消费函数模型: Ct=b0+b1Yt+ t t=1,2,n由于居民收入对消费影响有滞后性,而且今年消费水平受上年消费水平影响,那么可能出现序列相关性。另外由于消费习惯的影响被包含在随机误差项中,那么可能出现序列相关性往往是
10、正相关 。4.11 序列相关性带来的严峻后果是什么?答:干脆用一般最小二乘法估计随机误差项存在序列相关性的线性回来模型未知参数时,会产生以下一些问题:1. 参数估计量照旧是无偏的,但不具有有效性,因为有自相关性时参数估计值的方差大于无自相关性时的方差。2. 均方误差MSE可能严峻低估误差项的方差3. 变量的显著性检验失去意义:在变量的显著性检验中,统计量是建立在参数方差正确估计根底之上的,当参数方差严峻低估时,简洁导致t值和F值偏大,即可能导致得出回来参数统计检验和回来方程检验显著,但实际并不显著的严峻错误结论。4. 当存在序列相关时, 照旧是的无偏估计,但在任一特定的样本中, 可能严峻歪曲b
11、的真实状况,即最小二乘法对抽样波动变得特殊敏感5. 模型的预料和构造分析失效。4.12 总结DW检验的优缺点。答:优点:1.应用广泛,一般的计算机软件都可以计算出DW值; 2.适用于小样本; 3.可用于检验随机扰动项具有一阶自回来形式的序列相关问题。缺点:1. DW检验有两个不能确定的区域,一旦DW值落入该区域,就无法推断。此时,只有增大样本容量或选取其他方法; 2.DW统计量的上, 下界表要求n15,这是由于样本假如再小,利用残差就很难对自相关性的存在做出比拟正确的诊断; 3.DW检验不适应随机项具有高阶序列相关性的检验。月销售额数据,其中,x为总公司的月销售额万元;y为某分公司的月销售额万
12、元。1用一般最小二乘法建立y及x的回来方程;由上表可知:用一般二乘法建立的回来方程为2用残差图及DW检验诊断序列的相关性; 1.以自变量x为横轴,一般残差为纵轴画残差图如下:从图中可以看到,残差有规律的变更,呈现大致反W形态,说明随机误差项存在自相关性。残差1为横坐标,残差为纵坐标,绘制散点图如下:由残差图可见大局部的点落在第一, 三象限内,说明随机扰动项存在着正的序列相关;下表可知DW值为0.663,查DW表,n=20,k=2,显著性水平=0.05,得=1.20,=1.41,由于0.6631.20,知DW值落入正相关区域,即残差序列存在正的自相关。3用迭代法处理序列相关,并建立回来方程。自相
13、关系数 EMBED Equation.3 令 EMBED Equation.3 , EMBED Equation.3 ,然后用对作一般最小二乘回来可得输出结果如下:可看到新的回来方程的DW=1.360.且1.181.3601.40=,即DW落入不相关区域,可知残差序列不存在自相关,一阶差分法成功地消退了序列自相关。同时得到回来方程为 EMBED Equation.3 ,将=-,=-,代人,复原原始变量的方程=+0.169-5比拟一般最小二乘法所得的回来方程和迭代法, 一阶差分法所建立回来方程的优良性。答:此题中自相关系数0.6685,不接近于1,不适宜用差分法,另外由迭代法的F值及都大于差分法
14、的值,故差分法的效果低于迭代法的效果;而一般最小二乘法的随机误差项标准差为0.09744,大于迭代的随机误差项标准差0.07296,所以迭代的效果要优于一般最小二乘法,所以此题中一次迭代法最好。4.14 某乐队经理探讨其。1用一般最小二乘法建立y及x1, x2的回来方程,用残差图及DW检验诊断序列的自相关性;解:将数据输入SPSS,经过线性回来得到结果如下:Model Summary(b)ModelRR SquareAdjusted R SquareStd. Error of the EstimateDurbin-Watson1.541(a).293.264.745a Predictors:
15、(Constant), x2, x1b Dependent Variable: yANOVA(b)Model Sum of SquaresdfMean SquareFSig.1Regression2.000(a) Residual49 Total51 a Predictors: (Constant), x2, x1b Dependent Variable: y由以上3个表可知一般最小二乘法建立y及x1, x2的回来方程,通过了r, F, t检验,说明回来方程显著。y及x1, x2的回来方程为:y=-+x1+x2残差图ei(et)ei1(et-1)为:从残差图可以看出残差集中在1, 3象限,说明
16、随机误差项存在一阶正自相关。查表得dl=1.46 du=1.63, 0DWdu 所以误差项间无自相关性。回来方程为:yt复原为:yt-y(t-1)= -178.775+211.11*(x1t-x1(t-1) +1.436*( x2t-x2(t-1)(3)用一阶差分法处理序列相关,建立回来方程。Model Summary(c,d)ModelRR Square(a)Adjusted R SquareStd. Error of the EstimateDurbin-Watson1.715(b).511.491a For regression through the origin (the no-in
17、tercept model), R Square measures the proportion of the variability in the dependent variable about the origin explained by regression. This CANNOT be compared to R Square for models which include an intercept.b Predictors: DIFF(x2,1), DIFF(x1,1)c Dependent Variable: DIFF(y,1)d Linear Regression thr
18、ough the Origin0du,所以消退了自相关性,=280.99差分法回来方程为: ytyt-1=217(x1t-x1(t-1)7(x2t-x2(t-1).(4)用最大似然法处理序列相关,建立回来方程。用SPSS软件的自回来功能,analyzetime seriesautoregression: , =, (5)用科克伦-奥克特迭代法处理序列相关,建立回来方程 =0.632, = , 。6用普莱斯-温斯登迭代法处理序列相关,建立回来方程。 =0.632, =2 , 。7比拟以上各方法所建回来方程的优良性。综合以上各方法的模型拟合结果如下表所示:自回来方法DW迭代法差分法0精确最大似然科
19、克伦-奥克特普莱斯-温斯登由上表可看出:DW值都落在了随机误差项无自相关性的区间上,一阶差分法消退自相关最彻底,但因为=0.627,并不接近于1,故得到的方差较大,拟合效果不志向。将几种方法所得到的值进展比拟,就可知迭代法的拟合效果最好,以普莱斯-温斯登法次之,差分法最差。5 说明引起异样值的缘由和消退异样值的方法。答:通常引起异样值的缘由和消退异样值的方法有以下几条,见表4.10:4.16 对第3章习题11做异样值检验。探讨货运总量y万吨及工业总产值x1亿元, 农业总产值x2亿元, 居民非商品支出x3亿元的关系。1利用SPSS建立y及x1,x2,x3的三元回来方程,分别计算一般残差,学生化残
20、差,删除残差,删除学生化残差,中心化杠杆值,库克距离,见下表:从表中看到确定值最大的学生化残差为SRE=2.11556,小于3,但有超过3的个别值,因而依据学生化残差诊断认为存在异样值。确定值最大的删除学生化残差为3.832,对应为第6个数据,因此推断它为为异样值。第6个数据的,位于第一大,大于2=2=0.6,且库克距离为3.21位于第一大,因而从杠杆值看是第6个数据是自变量的异样值,同时库克距离大于1,故第6个数据为异样值的缘由是由自变量异样及因变量异样两个共同缘由引起的。编号yX1X2X3残差学生化残差删除残差删除学生化残差12345678910 160 260 210 265 240 2
21、20 275 160 275 250 70 75 65 74 72 68 78 66 70 65 35 40 40 42 38 45 42 36 44 42 -15.47481 12.82499 5.34434 -00.627670.265170.40935 -0.11351-0.876040.59277 0.24349-0.00396 0.37902 0.166090.031150.006200.000000.408740.501100.289460.015000.221580.354180.140250.160790.099350.24 0.641870.492770.361290.163
22、660.33883 (2) 删除第6组数据,然后做回来分析,编号yX1X2X3残差删除学生化残差学生化残差删除学生化残差12345789101602602102652402751602752507075657472786670653540404238.4236444214.09650.0.712580.62911-0.758310.105660.276550.58638-0.72098-0.602440.094610.249270.363550.033670.071880.029480.578400.007490.037080.179480.443220.346650.142780.222220.109760.384670.617320.548650.292240.33571.由上表可知:删除第六组数据后,发觉学生化残差的确定值和删除化学生残差确定值均小于3,库克距离均小于1,中心化杠杆值的最大值为0.617322= ,说明数据不再有异样值。所以可推断异样值的缘由是由于数据登记或实际问题有突变引起的。