《第三章多元线性回归模型ppt课件.ppt》由会员分享,可在线阅读,更多相关《第三章多元线性回归模型ppt课件.ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 多元线性回多元线性回归模型归模型第三章 多元线性回归模型 本章主要讨论本章主要讨论: : 多元线性回归模型及古典假定多元线性回归模型及古典假定 多元线性回归模型的估计多元线性回归模型的估计 多元线性回归模型的检验多元线性回归模型的检验 多元线性回归模型的预测多元线性回归模型的预测第一节多元线性回归模型及古典假定 本节基本内容本节基本内容: : 一、多元线性回归模型的意义一、多元线性回归模型的意义 二、多元线性回归模型的矩阵表示二、多元线性回归模型的矩阵表示 三、多元线性回归中的基本假定三、多元线性回归中的基本假定 一、多元线性回归模型的一般形式一般形式:对于有一般形式:对于有 个
2、解释变量的线性回归模型个解释变量的线性回归模型 模型中参数模型中参数 是偏回归系数,是偏回归系数,偏回归系数偏回归系数:表示在其他解释变量保持不变的情况:表示在其他解释变量保持不变的情况 下,下,X j每变化每变化1个单位时,个单位时,Y的均值的均值E(Y)的变化的变化; 或者说控制其它解释量不变的条件下,第或者说控制其它解释量不变的条件下,第 个解释变量的单位变动对应变量平均值的影响。个解释变量的单位变动对应变量平均值的影响。k12233.iiikkiiYXXXu(1,2,., )jjkj指对各个回归系数而言是指对各个回归系数而言是“线性线性”的,对变量则的,对变量则可是线性的,也可是非线性
3、的可是线性的,也可是非线性的例如:生产函数例如:生产函数取自然对数取自然对数lnlnlnlnlnYALKuYAL K u多元线性回归多元线性回归 的总体条件均值表示为多个解释变量的函数的总体条件均值表示为多个解释变量的函数 总体回归函数也可表示为总体回归函数也可表示为: : 2312233E(,.,).iiikiiikkiY XXXXXX12233.iiikkiiYXXXu Y多元总体回归函数多元总体回归函数 的样本条件均值表示为多个解释变量的函数的样本条件均值表示为多个解释变量的函数或或其中其中 回归剩余(残差):回归剩余(残差):-iiieYY多元样本回归函数多元样本回归函数12233Y.
4、iiikkiXXX12233.iiikkiiYXXXeYni,2, 1二、多元线性回归模型的矩阵表示 个解释变量的多元线性回归模型的个解释变量的多元线性回归模型的 个观测个观测样本,可表示为样本,可表示为 1122133111.kkYXXXu2122233222.kkYXXXu12233.nnnkknnYXXXunk Y1n用矩阵表示用矩阵表示1n1kn k1211112222222111kknnknknYXXuYXXuYXXuXYu矩阵形式UXY总体回归函数总体回归函数 或或样本回归函数样本回归函数 或或 其中:其中: 都是有都是有 个元素的列向量个元素的列向量 是有是有 个元素的列向量个元
5、素的列向量 是第一列为是第一列为1 1的的 阶解释变量阶解释变量 数据矩阵数据矩阵 ( (截距项可视为解释变量截距项可视为解释变量 取值为取值为1)1)n kknE(Y) = XY = X + uY = XY = X+eY,Y,u,eX,二、多元线性回归中的基本假定 假定假定1 1:零均值假定零均值假定 或或 假定假定2 2和假定和假定3 3:同方差和无自相关假定:同方差和无自相关假定 假定假定4 4:随机扰动项与解释变量不相关:随机扰动项与解释变量不相关 E( ) 0 ( 1,2, , ) iuin Cov(, ) 0 2,3, jiiX ujkCov( , ) E( -E )( -E )
6、E()ijiijjiju uuu uuuu20 () iji=j(E u) = 0假定假定5:5:无多重共线性假定无多重共线性假定 ( (多元特有多元特有) ) 假定各解释变量之间不存在线性关系,或各个假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观解释变量观测值之间线性无关。或解释变量观测值矩阵测值矩阵 列满秩列满秩( ( 列列) )。 即即 可逆可逆假定假定6 6:正态性假定正态性假定X2(0,)iuNk( )RankkX()RankKXXXX第二节 多元线性回归模型的估计 本节基本内容本节基本内容: : 普通最小二乘法(普通最小二乘法(OLSOLS) OL
7、SOLS估计式的性质估计式的性质 OLSOLS估计的分布性质估计的分布性质 随机扰动项方差随机扰动项方差 的估计的估计 回归系数的区间估计回归系数的区间估计 2 一、普通最小二乘法(OLS)最小二乘原则最小二乘原则 剩余平方和最小:剩余平方和最小: 求偏导求偏导, ,令其为令其为0:0:22min( - )iiieY Y2212233min -(.)iiiikkieYXXX 2()0ije 即即 注意到注意到12233-(.) iiikikiiYXXXe0ie 12233-2-(.)0 iiikikiYXXX12233-2-(.)0 kiiiikikiX YXXX212233-2-(.)0 i
8、iiikikiX YXXX20i iX e 0ki iX e 用矩阵表示用矩阵表示因为样本回归函数为因为样本回归函数为 两边乘两边乘 有:有:因为因为 ,则正规方程为:,则正规方程为:XXe=021222221110001in2i ik1kknnki ieeXXXeX e=.XXXeX e X eX X = X YXY = XX+ XeY=X+eXe 由正规方程由正规方程 多元回归中多元回归中 二元回归中二元回归中 注意:注意: 和和 为为 的离差的离差-1=(XX) XY(),k k是满秩矩阵 其逆存在X XXX= XY12233Y - X - X23222332222323()()-()(
9、)()()-()iiiiiiiiiiiy xxy xx xxxx x22332322222323()()-()()()()-()iiiiiiiiiiiy xxy xx xxxx xxyX,Y OLS估计式估计式二、OLS估计式的性质 OLS估计式 1.1.线性特征线性特征: : 是是 的线性函数,因的线性函数,因 是非随机是非随机 或取固定值的矩阵或取固定值的矩阵 2.2.无偏特性无偏特性: : E()kk(-1X X) X-1 = (X X) X YY3. 最小方差特性最小方差特性 在在 所有的线性无偏估计中,所有的线性无偏估计中,OLS估计估计 具有具有最小方差最小方差 结论结论:在古典假
10、定下,多元线性回归的在古典假定下,多元线性回归的 OLS估估计式是最佳线性无偏估计式(计式是最佳线性无偏估计式(BLUE)kk无偏性的证明)()()()()(11UEXXXEUXXXEETTTT估计量 的方差1T21TT1T21TTT1T1TTT1TTT1TT1TT1T)XX()XX(X)XX()XX()(E(UUX)XX()XX(UUX)XX(EU)X)XX(U)(X)XX(E()var(UX)XX()()var(XXXET所以因为 最小方差性(有效性)的证明DUXXXDUUXXXDXUXDXXXYDXXXDXIDXYDEEDYEDYYDXXXTTTTTTTTkTTU)()()()()(0D
11、X)()()()()(E0D0D)(1*111*1*所以,而由无偏性,始终。因此时,只有,因此一般情况下的线性特性由的一个线性无偏估计,为总体参数矩阵设TuTuTuTuTTuTuTuTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTDDDDXXXXDXDXXXDDXXXXXUUEDDUUEXXXDUUEDXXXUUEXXXXXXDUUDUUXXXDDUUXXXUUXXXEDUXXXUDUUXXXEDUUXXXDUUXXXEEEEE22121212212111111111111*)var()()()()()()()()()()()()()()()()()()()()()()
12、()()()()var(的方差最小。即最小二乘估计的相应主对角线元素。不大于的所有主对角线元素所以。大于等于的所有主对角线元素均是半正定矩阵,上式右边第二项)var()var(0DDDD*TT三、OLS估计的分布性质基本思想基本思想 是随机变量,必须确定其分布性质才可是随机变量,必须确定其分布性质才可能进行区间估计和假设检验能进行区间估计和假设检验 是服从正态分布的随机变量是服从正态分布的随机变量, , 决定了决定了 也是服从正态分布的随机变量也是服从正态分布的随机变量 是是 的线性函数,决定了的线性函数,决定了 也是服从也是服从正态分布的随机变量正态分布的随机变量iuiiYiiYi 的期望的
13、期望 ( (由无偏性由无偏性) ) 的方差和标准误差:的方差和标准误差: 可以证明可以证明 的方差的方差- -协方差矩阵为协方差矩阵为 这里这里是是 矩阵矩阵 中第中第 行第行第 列的元素列的元素2-1Var-Cov( )()XXE( )SE()jjj c2Var()jjj cjjc-1()X Xjj2(,) 1,2,.,jjjj N cjk 故有: 四、随机扰动项方差 的估计 多元回归中多元回归中 的无偏估计为:的无偏估计为: 或表示为或表示为 将将 作标准化变换:作标准化变换: 2k-(0,1)SE()kkkkkjjkzN c22-ien k2-n ke e2因因 是未知的,可用是未知的,
14、可用 代替代替 去估计参数去估计参数 的标的标准误差准误差: 当为大样本时,用估计的参数标准误差对当为大样本时,用估计的参数标准误差对 作标作标准化变换,所得准化变换,所得Z统计量仍可视为服从正态分布统计量仍可视为服从正态分布当为小样本时,用估计的参数标准误差对当为小样本时,用估计的参数标准误差对 作标作标准化变换,所得的准化变换,所得的t统计量服从统计量服从t分布:分布: 22- ( - )SE()kkktt n k2五、回归系数的区间估计由于由于给定给定 ,查,查t分布表的自由度为分布表的自由度为 的临界值的临界值或或: :或表示为或表示为: :*22-P-( - )( - )1-SE()
15、jjjtn kttn k2( - )2( - )(-,)jjn kjjjn kjjt ct c22P-1-jjjjjjjt ct c22P-()()1-jjjjjtSE tSE ()SE()jjjj*jjj - - t = t n - kc2( - )tn k(1,., )jknk第三节 多元线性回归模型的检验 本节基本内容本节基本内容: : 多元回归的拟合优度检验多元回归的拟合优度检验 回归方程的显著性检验回归方程的显著性检验(F F检验)检验) 各回归系数的显著性检验(各回归系数的显著性检验(t t检验检验)一、多元回归的拟合优度检验多重可决系数多重可决系数:在多元回归模型中,由各个解释变
16、量联合:在多元回归模型中,由各个解释变量联合解释了的解释了的 的变差,在的变差,在 的总变差中占的比重,用的总变差中占的比重,用 表表示示与简单线性回归中可决系数与简单线性回归中可决系数 的区别只是的区别只是 不同,多元不同,多元回归中回归中多重可决系数也可表示为多重可决系数也可表示为 22313iiikikY = + X+ X +.+ X22222( -)ESSTSS-RSS1-TSS(-)TSSiiiiY YeRYYyiY2R2RYY2ESS-nYXY 特点特点:多重可决系数是模型中解释变量个数的多重可决系数是模型中解释变量个数的不减函数不减函数,这给对比不同模型的多重可决系数带来缺陷,所
17、以这给对比不同模型的多重可决系数带来缺陷,所以需要修正。需要修正。2TSSnYYY222ESS-TSS-nYRnYXYYY232322.iiiikiikix yx yx yRy可以证明:多重可决系数的矩阵表示多重可决系数的矩阵表示思想思想可决系数只涉及变差,没有考虑可决系数只涉及变差,没有考虑自由度自由度。如果用。如果用自由度去校正所计算的变差,可纠正解释变量个自由度去校正所计算的变差,可纠正解释变量个数不同引起的对比困难。数不同引起的对比困难。自由度自由度统计量的自由度指可自由变化的样本观测值个数,统计量的自由度指可自由变化的样本观测值个数,它等于所用样本观测值的个数减去对观测值的约它等于所
18、用样本观测值的个数减去对观测值的约束个数。束个数。修正的可决系数修正的可决系数可决系数的修正方法可决系数的修正方法2211TSS()nniiiiYYY 总变差总变差 自由度为 解释了的变差解释了的变差 自由度为 剩余平方和剩余平方和 自由度为 修正的可决系数为修正的可决系数为 22222( - )-11-1-( -1)-iiiien kenRynn ky22RSS(-)iiiYYe22ESS(- )iiYYy1n-1k-n-k 特点特点 可决系数可决系数 必定非负,但修正的可决系数必定非负,但修正的可决系数 可能为负值,这时规定可能为负值,这时规定 修正的可决系数修正的可决系数 与可决系数与可
19、决系数 的关系:的关系:22-11-(1-)nRRn - k2R2R2R2R20R二、回归方程显著性检验(F检验)基本思想基本思想在多元回归中有多个解释变量,需要说明所有解在多元回归中有多个解释变量,需要说明所有解释变量联合起来对应变量影响的总显著性释变量联合起来对应变量影响的总显著性,或整个或整个方程总的联合显著性。对方程总显著性检验需要方程总的联合显著性。对方程总显著性检验需要在方差分析的基础上进行在方差分析的基础上进行F检验。检验。总变差 自由度 模型解释了的变差 自由度 剩余变差 自由度变差来源变差来源 平方和平方和 自由度自由度 方差方差归于回归模型归于回归模型归于剩余归于剩余总变差
20、总变差方差分析表方差分析表22TSS( - )iiY Yy2ESS(- )iY Y2RSS( - )iiY Y2ESS( - )iY Y1n-1k-n-k2TSS( - )iY Y2RSS( - )iiY YTSS/ -1nESS/ -1kRSS/ n-k1n-1k-n-k 原假设原假设 备择假设备择假设 不全为不全为0 0 建立统计量建立统计量( (可以证明可以证明):): 给定显著性水平给定显著性水平 ,查,查F F分布表得临界值分布表得临界值 并通过样本观测值计算并通过样本观测值计算 值值 F检验检验FESS ( -1) F( -1,)RSS ( - )kFkn-kn k( -1, -
21、)F kn k1H :(12)j j= , ,.,k023H :0k = =.= =如果如果 ( (小概率事件发生了小概率事件发生了) ) 则拒绝则拒绝 ,说明回归模型,说明回归模型有显著意义,即所有解释变量联合起来对有显著意义,即所有解释变量联合起来对 有显著影响。有显著影响。如果如果 ( (大概率事件发生了大概率事件发生了) ) 则接受则接受 ,说明回归模型,说明回归模型没有显著意义,即所有解释变量联合起来对没有显著意义,即所有解释变量联合起来对 没有显著影响。没有显著影响。( -1, - )F F kn k( -1, - )FF kn k023H :0k = =.= =YY023H :0
22、k = =.= =可决系数与F检验关系由方差分析可以看出,由方差分析可以看出,F检验与可决系数有密切联系,二者检验与可决系数有密切联系,二者都建立在对应变量变差分解的基础上。都建立在对应变量变差分解的基础上。F统计量也可通过可统计量也可通过可决系数计算:决系数计算:可看出:当可看出:当 时,时, 越大,越大, 值也越大值也越大 当当 时,时, 结论:结论:对方程联合显著性检验的对方程联合显著性检验的F检验,实际上也是对检验,实际上也是对 的的显著性检验显著性检验。 22( -1)(1-) ( - )RkFRn k20R 2R21R F 0F =F2R三、各回归系数的显著性检验 (t 检验) 目
23、的:目的: 在多元回归中,分别检验当其他解释变量保持不在多元回归中,分别检验当其他解释变量保持不变时,各个解释变量变时,各个解释变量 对应变量对应变量 是否有显著影是否有显著影响。响。 方法:方法: 原假设原假设 备择假设备择假设 统计量为:统计量为: *- ( - )SE()jjjjjjtt n kc0H :0=1 2jj,.,k ,1H :0j X Y t检验的方法检验的方法 给定显著性水平给定显著性水平 ,查自由度为,查自由度为 时时t分布表的分布表的临界值为临界值为 如果如果 就不拒绝就不拒绝 而拒绝而拒绝 即认为即认为 所对应的解释变量所对应的解释变量 对应变量对应变量 的影的影响不
24、显著。响不显著。 *22-( - )( - )tn kttn k1H :0j 0H :0j 2( - )tn kjXjn-kY 如果如果 就拒绝就拒绝 而不拒绝而不拒绝 即认为即认为 所对应的解释变量所对应的解释变量 对应变量对应变量 的影响的影响 是显著的。是显著的。 在多元回归中,可分别对每个回归系数逐个地进在多元回归中,可分别对每个回归系数逐个地进 行行t检验。检验。 注意注意:在一元回归中在一元回归中F检验与检验与t检验等价检验等价,且且 但在多元回归中但在多元回归中F检验与检验与t检验作用不同。检验作用不同。0H*22-( - )( - )ttn kttn k或jXj2Ft1H0j:
25、Y第四节 多元线性回归模型的预测 本节基本内容本节基本内容: : 应变量平均值点预测应变量平均值点预测 应变量平均值区间预测应变量平均值区间预测一、应变量平均值预测 1. 1. 平均值的点预测平均值的点预测 将解释变量预测值代入估计的方程:将解释变量预测值代入估计的方程: 多元回归时:多元回归时: 或或 注意注意: :预测期的预测期的 是第一个元素为是第一个元素为1 1的行向量的行向量, ,不是矩阵不是矩阵, ,也不是列向量也不是列向量 FYFX22331.FFFkFkY X X XFXY 基本思想:基本思想: 由于存在抽样波动,预测的平均值由于存在抽样波动,预测的平均值 不一定不一定 等于真
26、实平均值等于真实平均值 ,还需要对,还需要对 作区间估计。作区间估计。 为对为对 作区间预测,必须确定平均值预测值作区间预测,必须确定平均值预测值 的抽样分布。必须找出与的抽样分布。必须找出与 和和 都有都有 关的统计量关的统计量 。 2. 2. 平均值的区间预测平均值的区间预测E()FFYXFYFYE()FFYXFYE()FFYXYY 具体作法具体作法 ( (回顾一元回归回顾一元回归) )当当 未知未知 时,只得用时,只得用 代替,代替,这时这时一元中已知一元中已知222( -2)ien12E()E()FFFFYYX X22(-)1SE()FFiXXYnx222(-)1Var()FFiXXY
27、nx222(-)1Var()FFiXXYnx多元回归时多元回归时, ,与与 和和 都有关的是偏差都有关的是偏差 从正态分布从正态分布, ,可证明可证明用用 代替代替 , ,可构造可构造t统计量统计量 *-E()-E() ( - )SE()FFFFFYYwwtt n kwF-1FFXX (X X) X2Var()Fw-1FFX (XX) X-E()FFFwYYFX2E()FYFX22( - )ien kE()0FwFwFYFw 则给定显著性水平则给定显著性水平 ,查,查t分布表,得自由度分布表,得自由度的临界值的临界值 ,则,则或或22-E() 1FFFP YtYYt -1FF-1FFX (XX
28、) XX (XX) X22P(-SE()E()(SE()FFFFFYtYYYtY2()tnk1-n-k举例:新股发行溢价的实证研究 1.1.多元线性回归模型是将总体回归函数描述为一多元线性回归模型是将总体回归函数描述为一 个被解释变量与多个解释变量之间线性关系的个被解释变量与多个解释变量之间线性关系的 模型。模型。 通常多元线性回归模型可以用矩阵形式表示:通常多元线性回归模型可以用矩阵形式表示: 2.2.多元线性回归模型中对随机扰动项多元线性回归模型中对随机扰动项u u的假定的假定: :零零 均值假定、同方差假定、无自相关假定、随机均值假定、同方差假定、无自相关假定、随机 扰动与解释变量不相关
29、假定、正态性假定、无扰动与解释变量不相关假定、正态性假定、无 多重共线性假定。多重共线性假定。 01122.iiippiiYX X Xu 第三章第三章 小结小结Y = X + u3.3.多元线性回归模型参数的最小二乘估计式及期多元线性回归模型参数的最小二乘估计式及期 望、方差和标准误差:望、方差和标准误差: 4.4.在基本假定满足的条件下,多元线性回归模型在基本假定满足的条件下,多元线性回归模型 最小二乘估计式是最佳线性无偏估计式。最小二乘估计式是最佳线性无偏估计式。-1=(XX) XYE()= SE()jjj C22Var()()-ijjjjje CCn k5. 多元线性回归模型中参数区间估
30、计的方法。多元线性回归模型中参数区间估计的方法。6. 多重可决系数的意义和计算方法:多重可决系数的意义和计算方法: 修正可决系数的作用和方法:修正可决系数的作用和方法:222RSS1-1-TSS( - )iieRY Y22222( - )-11-1-( - ) ( -1)-( - )iiiien kenRY Ynn kY Y22-1 -jjjjjjjP tctc7. F检验是对多元线性回归模型中所有解释变量检验是对多元线性回归模型中所有解释变量联联 合显著性的检验,合显著性的检验,F检验是在方差分析基础上进检验是在方差分析基础上进 行的。行的。ESS (-1)(-1,-)RSS (-)kFF
31、knknk8. 多元回归分析中,为了分别检验当其它解释变多元回归分析中,为了分别检验当其它解释变量不变时,各个解释变量是否对被解释变量有量不变时,各个解释变量是否对被解释变量有显著影响,需要分别对所估计的各个回归系数显著影响,需要分别对所估计的各个回归系数作作t检验。检验。*- (-)SE()jjjjjjjtt n kc9.9.利用多元线性回归模型作被解释变量平均值预利用多元线性回归模型作被解释变量平均值预 测与个别值预测的方法。测与个别值预测的方法。 点预测点预测: 平均值平均值: 个别值个别值:fY FX 22-E( )FFFY tYYt -1-1FFFFX (XX) XX (XX) X22-11FFFY t YYt -1FFX (XX) X-1FFX (XX) X第三章 结束了!