《第四章 多元线性回归分析.ppt》由会员分享,可在线阅读,更多相关《第四章 多元线性回归分析.ppt(47页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章第四章 多元线性回归分析多元线性回归分析1第四章第四章 多元线性回归分析多元线性回归分析第一节 多元线性回归模型第二节 最小二乘参数估计第三节 回归拟合度评价和决定系数第四节 统计推断和预测2第一节第一节 多元线性回归模型多元线性回归模型一、模型的建立二、多元线性回归模型的向量、矩阵表 示法三、模型的假设3一、模型的建立一、模型的建立模型形式例4二、多元线性回归模型的向量、矩阵二、多元线性回归模型的向量、矩阵表示法表示法5三、模型的假设三、模型的假设变量 和 之间存在多元线性随机函数关系 对任意 都成立 与 无关当 时,解释变量都是确定性的而非随机变量,而且解释变量之间不存在线性关系解释
2、变量之间不存在线性关系 服从正态分布6第二节第二节 最小二乘参数估计最小二乘参数估计一、最小二乘法和正规方程组二、最小二乘估计的向量、矩阵形式7一、最小二乘法和正规方程组一、最小二乘法和正规方程组样本回归方程回归残差平方和当 对 的一阶偏导数都等于0,得到正规方程组那么 89二、最小二乘估计的向量、矩阵形式二、最小二乘估计的向量、矩阵形式向量表示回归方程的向量表示回归残差向量 残差平方和10第一种方法求B11第二种方法求第二种方法求B当 对 的一阶偏导数都等于012对于三变量线性回归模型13 最小二乘估计的性质最小二乘估计的性质一、线性性二、无偏性三、最小二乘估计量的方差和最小方差性14一、线
3、性性一、线性性各个参数的最小二乘估计量因为是非随机取固定值的矩阵,所以B是Y的线性函数 15二、无偏性二、无偏性证明:16三、最小二乘估计量的方差和最小方三、最小二乘估计量的方差和最小方差性差性最小二乘估计量的方差 17三、最小二乘估计量的方差和最小方三、最小二乘估计量的方差和最小方差性差性最小方差性:证明18三、最小二乘估计量的方差和最小方三、最小二乘估计量的方差和最小方差性差性因为所以19对于三变量线性回归模型方差估计20回归残差和误差方差的估计回归残差和误差方差的估计多元线性回归分析的残差序列向量表示21回归残差和误差方差的估计回归残差和误差方差的估计残差平方和的数学期望误差项方差的无偏
4、估计:残差的标准差22误差方差估计误差方差估计对于三变量回归模型,误差方差的估计:对于有K个解释变量的多元回归模型即(K+1)变量回归模型误差方差的估计:23样本容量问题样本容量问题 最小样本容量最小样本容量 所谓“最小样本容量”,即从最小二乘原理和最大似然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。样本最小容量必须不少于模型中解释变量样本最小容量必须不少于模型中解释变量的数目(包括常数项)的数目(包括常数项),即 n k+1因为,无多重共线性要求:秩(X)=k+1242、满足基本要求的样本容量、满足基本要求的样本容量 从统计检验的角度从统计检验的角度:n30 时,Z检
5、验才能应用;n-k8时,t分布较为稳定 一般经验认为一般经验认为:当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。模型的良好性质只有在大样本下才能模型的良好性质只有在大样本下才能得到理论上的证明得到理论上的证明25第三节第三节 回归拟合度评价和决定系数回归拟合度评价和决定系数两变量回归决定系数的公式多重可决系数:在多元回归模型中,由各个解释变量联合解释了的Y的离差,在Y的总离差中占的比重。26多重可决系数可以表示为:可以证明多重可决系数是模型中解释变量个数的不减函数,这给对比不同模型的多重可决系数带来缺陷,所以需要修正。27调整的可决系数调整的可决系数思想:可决系数只涉及到离差
6、,没有考虑自由度。如果用自由度去校正所计算的离差,可纠正解释变量个数不同引起的对比困难。调整的决定系数:28总离差TSS自由度为n-1回归平方和ESS=自由度为k残差平方和RSS自由度为n-k-1所以调整的可决系数为:29第四节第四节 统计推断和预测统计推断和预测一、参数估计量的分布和标准化一、参数估计量的分布和标准化二、统计推断和检验二、统计推断和检验三、预测三、预测30一、参数估计量的分布和标准化一、参数估计量的分布和标准化参数估计量服从以下的正态分布:参数估计量服从以下的正态分布:或表示为或表示为转化为标准正态分布的统计量转化为标准正态分布的统计量31二、统计推断和检验二、统计推断和检验
7、(一)单个参数的显著性和置信区间一)单个参数的显著性和置信区间(二)参数的显著性检验(二)参数的显著性检验(三)回归显著性检验(三)回归显著性检验32(一)单个参数的显著性和置信区间(一)单个参数的显著性和置信区间给定置信度要求,下面的不等式应该成立:给定置信度要求,下面的不等式应该成立:显著性检验:令显著性检验:令 为为0 0,根据,根据t t 统计量水平进统计量水平进行判断。行判断。因此参数因此参数 置信度为置信度为 的置信区间的置信区间(或称区间估计)为:(或称区间估计)为:33(二)模型总体显著性检验(二)模型总体显著性检验多元回归模型每个参数的显著性与模型总体的多元回归模型每个参数的
8、显著性与模型总体的显著性并不一定一致,也就是全体解释变量总显著性并不一定一致,也就是全体解释变量总体对被解释变量是否存在明显影响的检验,称体对被解释变量是否存在明显影响的检验,称为为回归显著性检验。回归显著性检验。回归显著性检验回归显著性检验的基本方法,是检验模型常数的基本方法,是检验模型常数项以外所有参数同时为项以外所有参数同时为0的假设。的假设。原假设:原假设:34回归显著性检验方法回归显著性检验方法对方程总体显著性检验需要在方差分析的基础上进行对方程总体显著性检验需要在方差分析的基础上进行F检验。检验。1、方差分析、方差分析在讨论可决系数时已经分析了总离差在讨论可决系数时已经分析了总离差
9、TSS的分解及自的分解及自由度:由度:TSSESS+RSSY的样本方差为:总离差的样本方差为:总离差/自由度自由度 即即显然,显然,Y的方差也可以分解为两部分,可用方差的方差也可以分解为两部分,可用方差分析表分解分析表分解35方差分析表方差分析表离差来离差来源源平方和平方和自由自由度度方差方差归于回归于回归模型归模型KESS/K归于残归于残差差n K-1RSS/(n-K-1)总离差总离差n-1TSS/(n-1)36F检验检验原假设备选假设:备选假设:不全为0建立建立F统计量(可以证明):统计量(可以证明):给定显著性水平给定显著性水平 ,查,查F分布表中自由度分布表中自由度为为K和和n-K-1
10、的临界值的临界值 ,并通,并通过样本观测值计算过样本观测值计算F值值37F检验检验如果计算的如果计算的F值大于值大于F的临界值的临界值 ,(小概率),则拒绝原假设,说明回归模型(小概率),则拒绝原假设,说明回归模型有显著意义,即所有的解释变量联合起来有显著意义,即所有的解释变量联合起来对对Y有显著影响。有显著影响。如果计算的如果计算的F值小于值小于F的临界值的临界值 ,则接受原假设,说明回归模型没有显著意义,则接受原假设,说明回归模型没有显著意义,即所有解释变量联合起来对即所有解释变量联合起来对Y没有显著影没有显著影响。响。38可决系数的显著性检验可决系数的显著性检验由方差分析可以看出,由方差
11、分析可以看出,F检验与可决系数检验与可决系数有密切联系,二者都建立在对应变量离差有密切联系,二者都建立在对应变量离差分解的基础上。分解的基础上。F统计量的值也可通过可统计量的值也可通过可决系数计算:决系数计算:结论:对方程联合显著性检验的结论:对方程联合显著性检验的F检验,检验,实际上也是对实际上也是对 的显著性检验。的显著性检验。39四、预测四、预测点预测点预测区间预测区间预测t统计量统计量40四、预测四、预测置信度为置信度为 的区间预测的区间预测41案例分析案例分析中国税收增长的分析中国税收增长的分析提出问题:改革开放以来,随着经济体制提出问题:改革开放以来,随着经济体制改革的深化和经济的
12、快速增长,中国的财改革的深化和经济的快速增长,中国的财政收支状况发生了很大变化,为了研究影政收支状况发生了很大变化,为了研究影响中国税收收入增长的主要原因,分析中响中国税收收入增长的主要原因,分析中央和地方税收收入的增长规律,预测中国央和地方税收收入的增长规律,预测中国税收未来的增长趋势,需要建立计量经济税收未来的增长趋势,需要建立计量经济模型。模型。42理论分析:影响中国税收收入增长的主要因素理论分析:影响中国税收收入增长的主要因素可能有:可能有:(1)从宏观经济看,经济整体增长是税收增长)从宏观经济看,经济整体增长是税收增长的基本源泉。的基本源泉。(2)社会经济的发展和社会保障等都对公共财
13、)社会经济的发展和社会保障等都对公共财政提出要求,公共财政的需求对当年的税收收政提出要求,公共财政的需求对当年的税收收入可能会有一定的影响。入可能会有一定的影响。(3)物价水平。中国的税制结构以流转税为主,)物价水平。中国的税制结构以流转税为主,以现行价格计算的以现行价格计算的GDP和经营者的收入水平都和经营者的收入水平都与物价水平有关。与物价水平有关。(4)税收政策因素)税收政策因素43建立模型建立模型分析:以各项税收收入作为被解释变量分析:以各项税收收入作为被解释变量 以以GDP表示经济整体增长水平表示经济整体增长水平 以财政支出表示对公共财政的需求以财政支出表示对公共财政的需求 以商品零
14、售价格指数表示物价水平以商品零售价格指数表示物价水平 税收政策因素较难用数量表示,就暂时不予考虑税收政策因素较难用数量表示,就暂时不予考虑模型设定为:模型设定为:44数据来源:中国统计年鉴 其中:Y各项税收收入(亿元)X1国内生产总值(亿元)X2财政支出(亿元)X3商品零售价格指数()4546模型估计的结果:模型估计的结果:模型检验:模型检验:拟合优度:可决系数拟合优度:可决系数 较较高,调整的可决系数高,调整的可决系数 也也很高,表明模型拟合较好。很高,表明模型拟合较好。(940.5953)(0.005577)(0.033236)(8.738139)t=-2.745784 3.956634 21.12505 2.744800F=2717.332 df=2147