《第三章多元线性回归模型.ppt》由会员分享,可在线阅读,更多相关《第三章多元线性回归模型.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章多元线性回归模型 目 录上一页下一页退 出目 录上一页下一页退 出引子:中国汽车终极保有量会超过中国汽车终极保有量会超过2.4-2.52.4-2.5亿辆吗?亿辆吗?影影响响中中国国汽汽车车行行业业发发展展的的因因素素是是多多方方面面的的:经经济济增增长长、消消费费趋趋势势、市市场场行行情情、业业界界心心态态、内内外外环环境境等等,都都会会使使中中国汽车行业面临机遇和挑战。国汽车行业面临机遇和挑战。应当具体分析这样一些问题:应当具体分析这样一些问题:q中国汽车市场发展的状况如何中国汽车市场发展的状况如何?(用销售量观测)(用销售量观测)q影响中国汽车销量的主要因素是什么?影响中国汽车销量的
2、主要因素是什么?(如:收入、价(如:收入、价 格、费用、道路状况、政策环境等)格、费用、道路状况、政策环境等)q各种因素对汽车销量影响的性质如何?各种因素对汽车销量影响的性质如何?(正、负)(正、负)q各种因素影响汽车销量的具体数量关系是什么?各种因素影响汽车销量的具体数量关系是什么?q所得到的数量结论是否可靠?所得到的数量结论是否可靠?q中中国国汽汽车车行行业业今今后后的的发发展展前前景景怎怎样样?应应如如何何制制定定汽汽车车产产业业政策?政策?很明显,这需要寻求有多个解释变量的回归分析方法很明显,这需要寻求有多个解释变量的回归分析方法目 录上一页下一页退 出第一节 多元线性回归模型及古典假
3、定一、多元线性回归模型的意义一、多元线性回归模型的意义例如:电力供应模型例如:电力供应模型 为各地区电力消费量,为各地区电力消费量,为各地区国民生产总值为各地区国民生产总值 为各地区电力价格变动为各地区电力价格变动 一般形式:对于有一般形式:对于有K K1 1个解释变量的线性回归模型个解释变量的线性回归模型 模型中模型中 是偏回归系数。是偏回归系数。偏回归系数:偏回归系数:控控制制其其它它解解释释变变量量不不变变的的条条件件下下,第第j j个个解解释释变变量量的的单单位变动对因变量平均值的影响。位变动对因变量平均值的影响。目 录上一页下一页退 出多元线性回归:多元线性回归:指指对对各各个个回回
4、归归系系数数而而言言是是”线线性性”的的,对对变变量量则则可可是是线线性的,也可是非线性的。性的,也可是非线性的。例如:生产函数例如:生产函数 取对数:取对数:目 录上一页下一页退 出多元总体回归函数与多元样本回归函数多元总体回归函数多元总体回归函数 Y Y的总体条件均值表示为多个解释变量的函数的总体条件均值表示为多个解释变量的函数注意:注意:Y Y的总体条件均值的轨迹是的总体条件均值的轨迹是K K维空间的一条线维空间的一条线或:或:多元样本回归函数多元样本回归函数 Y Y的样本条件均值表示为多个解释变量的函数的样本条件均值表示为多个解释变量的函数也可表示为:也可表示为:回归残差:回归残差:目
5、 录上一页下一页退 出二、多元总体模型的矩阵表示二、多元总体模型的矩阵表示K K个解释变量的多元线性回归模型的个解释变量的多元线性回归模型的n n个观测样本可表示为:个观测样本可表示为:用矩阵表示:用矩阵表示:Y YX Xn n11n nkkk k11n n11目 录上一页下一页退 出用矩阵表示用矩阵表示或:或:总体回归函数总体回归函数样本回归函数样本回归函数或:或:都是有都是有n n个元素的列向量个元素的列向量其中:其中:是有是有k k个元素的列向量个元素的列向量X X是第一列为是第一列为1 1的的n nk k阶解释变量数据矩阵阶解释变量数据矩阵(截距项可视为解释变量取值为(截距项可视为解释
6、变量取值为1 1)目 录上一页下一页退 出三、多元线性回归中的基本假定三、多元线性回归中的基本假定假定假定1:零均值假定:零均值假定i=1i=1,2 2,nn 或:或:假定假定2和假定和假定3:同方差和无自相关假定:同方差和无自相关假定i=ji=ji ijj假定假定4:随机扰动项与解释变量不相关:随机扰动项与解释变量不相关k=2k=2,3 3,kk假定假定5:无多重共线性假定:无多重共线性假定(多元中)(多元中)假定各解释变量之间不存在线性关系,或各解释变量观测假定各解释变量之间不存在线性关系,或各解释变量观测值之间线性无关。或解释变量观测值矩阵列满秩(值之间线性无关。或解释变量观测值矩阵列满
7、秩(K K列)列)Ran(X)=kRan(X)=kRan(XX)=Ran(XX)=k k即即(XX)(XX)可逆可逆假定假定6:正态性假定:正态性假定目 录上一页下一页退 出第二节第二节 多元线性回归模型的估计多元线性回归模型的估计一、普通最小二乘法(一、普通最小二乘法(OLS)求偏导,令其为求偏导,令其为0 0即:即:原则:残差平方和最小原则:残差平方和最小注:注:目 录上一页下一页退 出用矩阵表示用矩阵表示X X因为样本回归函数为:因为样本回归函数为:两边乘两边乘XX:因为因为XeXe0 0,则正规方程组为:则正规方程组为:目 录上一页下一页退 出uOLS估计式:估计式:正规方程组正规方程
8、组满秩,其逆存在满秩,其逆存在多元回归中多元回归中二元回归中二元回归中满秩,其逆存在满秩,其逆存在注意:注意:x x、y y为为X X、Y Y的离差的离差目 录上一页下一页退 出二、二、OLS估计式的性质估计式的性质1 1、线性特征线性特征是是Y Y的的线性函数,因线性函数,因是非随机或取固定值得矩阵是非随机或取固定值得矩阵2 2、无偏特征无偏特征3 3、最小方差特征最小方差特征在在所有得线性无偏估计中,所有得线性无偏估计中,OLSOLS估计估计具有最小方差具有最小方差结论:结论:在在古典假定下,多元线性回归的古典假定下,多元线性回归的OLSOLS估计量是最佳线性无估计量是最佳线性无偏估计量(
9、偏估计量(BLUEBLUE)目 录上一页下一页退 出三、三、OLS估计的分布性质估计的分布性质基本思想:基本思想:v 是随机变量,必需确定其分布性质才可能进行区间估计和假设检验是随机变量,必需确定其分布性质才可能进行区间估计和假设检验v 是服从正态分布的随机变量,决定了是服从正态分布的随机变量,决定了Y Y也是服从正态分布的随机变量也是服从正态分布的随机变量v 是是Y Y的线性函数,决定了的线性函数,决定了 也是服从正态分布的随机变量也是服从正态分布的随机变量 v 的期望:的期望:(有(有无偏性)无偏性)v 的方差和标准差:的方差和标准差:可以证明,可以证明,的方差的方差协方差阵为:协方差阵为
10、:这里的这里的(其中(其中是是矩阵矩阵中第中第j j行第行第j j列的元素)列的元素)所以所以(J=1,2,k)(J=1,2,k)目 录上一页下一页退 出四、随机扰动项方差四、随机扰动项方差 的估计的估计多元回归中多元回归中 的无偏估计为:的无偏估计为:将将 做标准化变换:做标准化变换:Z Z统计量仍可视为服从正态分布统计量仍可视为服从正态分布或或表示为:表示为:因因 是未知的,可用是未知的,可用 代替代替 去估计参数去估计参数 的标准误差:的标准误差:q当为大当为大样本时,用估计的参数标准误差对样本时,用估计的参数标准误差对 做标准化变换,所得做标准化变换,所得q当为当为小样本时,用估计的参
11、数标准误差对小样本时,用估计的参数标准误差对 做标准化变换,所得做标准化变换,所得t t统计量服从统计量服从t t分布分布:目 录上一页下一页退 出五、回归系数的区间估计五、回归系数的区间估计给定给定由于:由于:差差t t分布表的自由度为分布表的自由度为n-kn-k的临界值的临界值J=1,2,kJ=1,2,k或或:或表示为:或表示为:目 录上一页下一页退 出第三节第三节 多元线性回归模型的检验多元线性回归模型的检验的变差,在的变差,在Y Y的总变差中所占的比重,用的总变差中所占的比重,用R R2 2表示。表示。一、多元回归的拟合优度检验:一、多元回归的拟合优度检验:多重可决系数:在多元回归模型
12、中,由各个解释变量联合解释了的多重可决系数:在多元回归模型中,由各个解释变量联合解释了的Y Y与简单线性回归中的可决系数与简单线性回归中的可决系数r r2 2的区别只是的区别只是 不同,多元回归中不同,多元回归中多重可决系数也可表示为:多重可决系数也可表示为:目 录上一页下一页退 出多重可决系数的矩阵表示多重可决系数的矩阵表示可以证明:可以证明:特点:特点:多重可决系数是模型中解释变量个数的多重可决系数是模型中解释变量个数的不减函数不减函数,这给对比不同,这给对比不同模型的多重可决系数带来缺陷,因此需要修正。模型的多重可决系数带来缺陷,因此需要修正。目 录上一页下一页退 出修正的可决系数修正的
13、可决系数 可决系数只涉及变差,没有考虑可决系数只涉及变差,没有考虑自由度自由度,如果用自,如果用自由度去校正所计算的变差,可纠正解释变量个数由度去校正所计算的变差,可纠正解释变量个数思想:思想:统计量的自由度指可自由变化的样本观测值个数,统计量的自由度指可自由变化的样本观测值个数,等于所用样本观测值的个数减去对观测值的约束等于所用样本观测值的个数减去对观测值的约束自由度:自由度:不同引起的对比困难。不同引起的对比困难。个数。个数。目 录上一页下一页退 出可决系数的修正方法:可决系数的修正方法:总总变差变差解释了的变差解释了的变差剩余平方和剩余平方和修正的可决系数为:修正的可决系数为:自由度为自
14、由度为n-1n-1自由度为自由度为k-1k-1自由度为自由度为n-kn-k目 录上一页下一页退 出修正的可决系数修正的可决系数 与可决系数与可决系数 的关系的关系关系:关系:特点:特点:可决系数可决系数R R2 2必定非负,但修正的可决系数必定非负,但修正的可决系数可能为负值,这时对定可能为负值,这时对定 0 0:目 录上一页下一页退 出二、回归方程的显著性检验(二、回归方程的显著性检验(F检验)检验)在多元回归中有多个解释变量,需要说明所有解释变量联在多元回归中有多个解释变量,需要说明所有解释变量联合合 起来对因变量影响的总显著性,或整个方程总的联合显著起来对因变量影响的总显著性,或整个方程
15、总的联合显著性,对方程总显著性检验需要在方差分析的基础上进行性,对方程总显著性检验需要在方差分析的基础上进行F F检验检验基本思想:基本思想:在在讨论可决系数时已经分析了总变差讨论可决系数时已经分析了总变差TSSTSS的分解及自由度的分解及自由度1 1、方差分析:、方差分析:TSS=ESS+RSSTSS=ESS+RSS显然显然Y Y的方差也可分解为两部分,可用方差分析表分解:的方差也可分解为两部分,可用方差分析表分解:目 录上一页下一页退 出方差分析表方差分析表总总变差变差解释了的变差解释了的变差剩余平方和剩余平方和自由度为自由度为n-1n-1自由度为自由度为k-1k-1自由度为自由度为n-k
16、n-k变差来源变差来源平方和平方和自由度自由度方差方差归于回归模型归于回归模型归于剩余归于剩余总变差总变差k-1n-kn-1目 录上一页下一页退 出2 2、F F检验检验原原假设:假设:备择假设:备择假设:不全为不全为0 0建立统计量(可以证明):建立统计量(可以证明):给定显著性水平给定显著性水平 查查F F分布表中自由度为分布表中自由度为k-1,n-kk-1,n-k的临界值的临界值,并通过样本观测值计算,并通过样本观测值计算F F值。值。v如果计算的如果计算的F F值大于值大于F F临界值临界值(小概率)(小概率)则则拒绝拒绝H H0 0,说明回归模型有显著意义,即:所有解释变量说明回归模
17、型有显著意义,即:所有解释变量联合起来对联合起来对Y Y有显著影响。有显著影响。v如果计算的如果计算的F F值小于值小于F F临界值临界值(大概率)(大概率)则则接受接受H H0 0,说明回归模型没有显著意义,即:所有解释变量说明回归模型没有显著意义,即:所有解释变量联合起来对联合起来对Y Y没有显著影响。没有显著影响。目 录上一页下一页退 出3 3、可决系数的显著性检验、可决系数的显著性检验 由方差分析可以看出,由方差分析可以看出,F F检验与可决系数有密切关系,二检验与可决系数有密切关系,二者都建立在对因变量变差分解的基础上。者都建立在对因变量变差分解的基础上。F F统计量也可统计量也可可
18、以看出:当可以看出:当R R2 20 0时,时,F F0 0通过可决系数计算:通过可决系数计算:当当R R2 2越大时越大时F F值也越大值也越大当当R R2 2=1=1时,时,F F 结论:结论:对方程联合显著性检验的对方程联合显著性检验的F F检验,实际上也是对检验,实际上也是对R R2 2的的显著性检验显著性检验目 录上一页下一页退 出三、各回归系数的假设检验三、各回归系数的假设检验(t t检验)检验)原假设原假设 在多元回归中,分别检验当其它解释变量保持不变时,在多元回归中,分别检验当其它解释变量保持不变时,(j=1,2,k)(j=1,2,k)目的:目的:各个解释变量各个解释变量X X
19、对因变量对因变量Y Y是否有显著影响。是否有显著影响。方法:方法:备择假设备择假设 统计量统计量t t为:为:目 录上一页下一页退 出t t检验的方法检验的方法给定显著性水平给定显著性水平 查自由度为查自由度为n-kn-k的的t t分布表的临界值分布表的临界值如果如果则则拒绝拒绝H H0 0在多元回归中,可分别对每个回归系数逐个进行在多元回归中,可分别对每个回归系数逐个进行t t检验检验。在一元回归中在一元回归中F F检验与检验与t t检验等价,且检验等价,且F=tF=t2 2就接受就接受而而拒绝拒绝则则认为认为所所对应的解释变量对应的解释变量X Xj j对因变量对因变量Y Y的影响不显著。的
20、影响不显著。如果如果或:或:而而接受接受认为认为所所对应的对应的解释变量解释变量X Xj j对因变量对因变量Y Y的影响是显著的。的影响是显著的。注:这里是双尾检验注:这里是双尾检验目 录上一页下一页退 出第四节第四节 多元线性回归模型的预测多元线性回归模型的预测将解释变量预测值代入估计的方程:将解释变量预测值代入估计的方程:一、因变量平均值预测一、因变量平均值预测或:或:1 1、Y Y平均值的点预测平均值的点预测注:预测期的注:预测期的X XF F是是第一个元素为第一个元素为1 1的行向量,不是矩阵,的行向量,不是矩阵,也不是列向量。也不是列向量。目 录上一页下一页退 出由于存在抽样波动,预
21、测的平均值由于存在抽样波动,预测的平均值1 1、Y Y平均值的区间预测平均值的区间预测基本思想基本思想不一定等于不一定等于真实平均值真实平均值,还需要对还需要对做区间估计。做区间估计。对对Y Y做区间预测,必须确定平均值预测值做区间预测,必须确定平均值预测值的抽样分布。的抽样分布。必须找出与必须找出与和和都有关的统计量。都有关的统计量。具体做法具体做法(回顾一元回归)(回顾一元回归)一元回归中已知:一元回归中已知:目 录上一页下一页退 出一元情况:一元情况:代替,这时代替,这时多元情况:多元情况:和和都有关的是偏差都有关的是偏差服从正态分布,可证明:服从正态分布,可证明:未知时,用未知时,用当
22、当多元回归时与多元回归时与用用代替代替可构造可构造t t统计量统计量目 录上一页下一页退 出给定显著性水平给定显著性水平 查自由度为查自由度为n-kn-k的的t t分布表的临界值分布表的临界值则有:则有:或:或:目 录上一页下一页退 出三、因变量个别值预测三、因变量个别值预测基本思想基本思想q 既既是是对对Y Y平平均均值值得得点点预预测测,也也是是对对Y Y个个别别值得点预测。值得点预测。q由由于于存存在在随随机机波波动动u ui i的的影影响响,Y Y的的平平均均值值并不等于并不等于Y Y得个别值。得个别值。q为为了了对对Y Y的的个个别别值值Y YF F做做区区间间预预测测,需需要要寻寻
23、找找与与预预测测值值 和和个个别别值值Y YF F有有关关的的统统计计量量,并要明确其概率分布。并要明确其概率分布。目 录上一页下一页退 出 已已知知剩剩余余项项 是是与与预预测测值值 和和个个别别值值 都都有有关关的的变变量量,并并已已知知 服服从从正正态分布。且可证明态分布。且可证明 当当用用 代代替替 时时,对对 标标准准化化的的变变量量t t为为:t(n-t(n-2)2)具体做法具体做法目 录上一页下一页退 出 给给定定显显著著性性水水平平 ,查查t t分分布布表表得得自自由由度度为为n-2n-2的临界值的临界值 ,则有:,则有:因此,多元回归时因此,多元回归时Y Y的个别值的置信度为
24、的个别值的置信度为 的预测区间上下限为:的预测区间上下限为:目 录上一页下一页退 出第五节第五节 案例分析案例分析改革开放以来,随着经济体制改革的深化和改革开放以来,随着经济体制改革的深化和案例一、中国税收增长的分析案例一、中国税收增长的分析提出问题提出问题 经济的快速增长,中国的财政收支状况发生很大的变化,经济的快速增长,中国的财政收支状况发生很大的变化,为了研究影响中国税收收入增长的主要原因,分析中央和为了研究影响中国税收收入增长的主要原因,分析中央和地方税收收入的增长规律,预测中国税收未来的增地方税收收入的增长规律,预测中国税收未来的增影响中国税收收入的主要因素有:影响中国税收收入的主要
25、因素有:理论分析:理论分析:(1 1)从宏观经济看,经济整体增长是税收增长的基本源泉)从宏观经济看,经济整体增长是税收增长的基本源泉(2 2)社会经济的发展和社会保障等都对公共财政提出要求)社会经济的发展和社会保障等都对公共财政提出要求公共财政的需求对当年的税收收入可能会有一定影响公共财政的需求对当年的税收收入可能会有一定影响(3 3)物价水平。中国的税制结构以流转税为主,以现行价)物价水平。中国的税制结构以流转税为主,以现行价长趋势,需要建立计量经济模型。长趋势,需要建立计量经济模型。格格计算的计算的GDPGDP和经营者的收入水平都与物价水平有关和经营者的收入水平都与物价水平有关(4 4)税
26、收政策因素)税收政策因素目 录上一页下一页退 出以各项税收收入作为被解释变量以各项税收收入作为被解释变量分析分析建立模型:建立模型:税收政策因素较难用数量表示,暂时不予考虑税收政策因素较难用数量表示,暂时不予考虑其中:其中:以财政支出表示对公共财政的需求以财政支出表示对公共财政的需求以商品零售价格指数表示物价水平以商品零售价格指数表示物价水平设定模型为:设定模型为:YY各项税收收入(亿元)各项税收收入(亿元)X X2 2国内生产总值(亿元)国内生产总值(亿元)X X3 3财政支出(亿元)财政支出(亿元)X X4 4商品零售价格指数()商品零售价格指数()目 录上一页下一页退 出数据收集:数据收
27、集:数据来源:数据来源:中国统计年鉴中国统计年鉴YY各项税收收入(亿元)各项税收收入(亿元)X2X2国内生产总值(亿元)国内生产总值(亿元)X3X3财政支出(亿元)财政支出(亿元)X4X4商品零售价格指数()商品零售价格指数()其中:其中:目 录上一页下一页退 出参数估计:参数估计:假定模型中随机项满足基本假定,可用假定模型中随机项满足基本假定,可用OLSOLS法估计其参数。法估计其参数。具体操作:具体操作:用用EviewsEviews软件包。软件包。估计结果:估计结果:目 录上一页下一页退 出模型估计的结果可表示为:模型估计的结果可表示为:模型检验:模型检验:v拟合优度检验:拟合优度检验:可
28、决系数可决系数R R2 2 0.99740.9974,修正的可决系数修正的可决系数0.99710.9971,表明模型拟合较好表明模型拟合较好目 录上一页下一页退 出v显著性检验:显著性检验:F F检验:检验:针对针对H H0 0:取取,查出自由度为,查出自由度为k-1k-13 3和和n-kn-k2121的临界值的临界值由于由于F F2717.2383.0752717.2383.075,应拒绝应拒绝H H0 0,说明说明“国内生产总值国内生产总值”、“财政支出财政支出”、“商品零售物价指数商品零售物价指数”等变量等变量联合起来确实对联合起来确实对“税收收入税收收入”有显著影响。有显著影响。t t
29、检验:检验:取取回归方程显著回归方程显著。即:。即:,查,查t t分布表,自由度为分布表,自由度为n-3n-318-318-31515的临的临界值界值从上述分析结果可知,从上述分析结果可知,X2X2、X3X3、X4X4对应对应系数对应的系数对应的t t统计量比统计量比2.0822.082大,应拒绝大,应拒绝H H0 0,说明每个解释说明每个解释变量对被解释变量都有显著影响变量对被解释变量都有显著影响目 录上一页下一页退 出v经济意义检验:经济意义检验:本本模型中模型中:所估计的参数的符号与应急理论分析一致,说明在其它所估计的参数的符号与应急理论分析一致,说明在其它财政收入将增加财政收入将增加2
30、20.67220.67万元;财政支出每增加万元;财政支出每增加1 1亿元,平均亿元,平均因素不变的情况下,国内生产总值每增加因素不变的情况下,国内生产总值每增加1 1亿元,平均说来亿元,平均说来 说来财政收入将增加说来财政收入将增加7021.047021.04万元;商品零售物价指数每增加万元;商品零售物价指数每增加1 1,平均说来财政收入将增加,平均说来财政收入将增加7021.047021.04万元。万元。目 录上一页下一页退 出第三章第三章 小结小结1 1、多元线性回归模型是将总体回归函数描述为一个被解释变、多元线性回归模型是将总体回归函数描述为一个被解释变2 2、多元线性回归模型中对随机扰
31、动项的假定:、多元线性回归模型中对随机扰动项的假定:通常,多元线性回归模型可以用矩阵形式表示:通常,多元线性回归模型可以用矩阵形式表示:零均值假定、同方差假定、无自相关假定、随机扰动与零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定、无多重共线性假定解释变量不相关假定、正态性假定、无多重共线性假定量与多个解释变量之间线性关系的模型:量与多个解释变量之间线性关系的模型:3 3、多元线性回归模型参数的最小二乘估计式:、多元线性回归模型参数的最小二乘估计式:参数估计式的分布性质及其期望、方差、标准误差:参数估计式的分布性质及其期望、方差、标准误差:目 录上一页下一页退
32、出4 4、在基本假定满足的条件下,多元线性回归模型最小二乘、在基本假定满足的条件下,多元线性回归模型最小二乘5 5、多元线性回归模型中参数区间估计的方法:、多元线性回归模型中参数区间估计的方法:6 6、多重可决系数的意义和计算方法、多重可决系数的意义和计算方法估计式是最佳线性无偏估计。估计式是最佳线性无偏估计。修正可决系数的作用和计算方法修正可决系数的作用和计算方法目 录上一页下一页退 出7 7、F F检验是对多元线性回归模型中所有解释变量联合显著性检验是对多元线性回归模型中所有解释变量联合显著性 8 8、多元回归分析中,为了分别检验当其它解释变量不变时,、多元回归分析中,为了分别检验当其它解释变量不变时,各个解释变量是否对被解释变量有显著影响,需要分别对各个解释变量是否对被解释变量有显著影响,需要分别对的的检验,检验,F F检验是在方差分析基础上进行的。检验是在方差分析基础上进行的。所估计的各个回归系数做所估计的各个回归系数做t t检验检验目 录上一页下一页退 出9 9、利用多元线性回归模型做被解释变量平均值预测和个别值、利用多元线性回归模型做被解释变量平均值预测和个别值预测的方法预测的方法点预测:点预测:平均值预测:平均值预测:个别值预测:个别值预测: