《多元线性回归模型及其应用.docx》由会员分享,可在线阅读,更多相关《多元线性回归模型及其应用.docx(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元线性回归模型及其应用摘要 本文介绍了多元线性回归模型,其过程分为模型构建、模型参数估计、模型检验和模型预测等几个方面。通过对与我国物价指数CPI相关的几个因素建立初始多元线性回归模型,分析CPI的影响因素,之后对该模型进行各种统计检验,在模型检验中发现初始模型中有部分变量的系数不能通过检验,可能存在多重共线性的问题,最后采用逐步回归分析法来进行去除显著性不高的变量,并且建立新的模型,最终找出了影响CPI的关键要素是农业生产资料价格和人均GDP,通过最终确定的CPI与其影响因素之间的线性回归方程可以清晰地得到各个指标对CPI的影响大小,进而为我国控制CPI提供方向性的建议指导。关键词 多元线
2、性回归 CPI影响因素 逐步回归 Multiple linear regression model and its applicationAbstract This article introduces the multiple linear regression model, and its process is divided into several aspects: model construction, model parameter estimation, model testing and model prediction. By establishing an initial
3、multiple linear regression model on several factors related to Chinas price index CPI, analyzing the influencing factors of CPI, and then carrying out various statistical tests on the model, it is found in the model test that the coefficients of some variables in the initial model cannot pass Test,
4、there may be a problem of multicollinearity, and finally use a stepwise regression analysis method to remove less significant variables, and establish a new model, and finally find out that the key factors affecting CPI are agricultural production materials prices and GDP per capita, Through the fin
5、al linear regression equation between the CPI and its influencing factors, we can clearly get the impact of various indicators on the CPI, and then provide directional recommendations for the control of CPI in China.Key words Multiple linear regression CPI influencing factors stepwise regression目 录引
6、 言11.多元线性回归分析基本理论21.1多元线性回归模型的一般形式21.2多元线性回归模型的基本假设21.3参数估计21.3.1回归系数的估计21.3.2样本方差的估计31.4模型检验31.4.1回归方程的显著性检验41.4.2回归系数的显著性检验41.4.3回归方程的拟合优度检验41.5模型预测51.6自变量的筛选方法52.多元线性回归在CPI影响因素中的应用62.1数据筛选62.1.1指标选取62.1.2数据收集62.2实证分析72.1.3建立模型72.1.4参数估计82.1.5模型检验82.1.6模型优化92.1.7残差检验11结论与建议13参考文献14致 谢15引 言在大学课程的学习
7、中我们接触到了应用数理统计方法,比较常用的方法有方差分析、回归分析、聚类分析等,然而,多元统计分析Error! Reference source not found.p64-65中的重要方法之一就是多元线性回归分析Error! Reference source not found.,在人文科学和自然科学的许多领域都有应用。多元线性回归模型是研究一个随机变量与两个或两个以上一般变量之间相依关系的模型,它的基本步骤大致分为模型的建立、模型求解、模型的检验与模型的预测。 我们对居民消费价格指数(CPI) Error! Reference source not found.波动的理解是基于商品价格浮动
8、的直观认识,但在现实生活中商品价格的变化也会受到各类商品的市场供求关系、产业发展、收入变化、人民生活水平以及经济发展水平等诸多因素的影响。为了能够进一步解释研究影响CPI的主要因素,通过翻阅相关文献可以看出,国内有关CPI影响因素的研究较多,为了分析辽宁省的CPI,刘茹玉选取了固定资产投资、CPI的构成、工业的产出量以及农业生产资料价格这几个指标作为自变量Error! Reference source not found.p23-24;董荣花从生产者价格指数、实际产出、货币供应量这几个方面研究了与CPI的相干关系Error! Reference source not found.p34-35;
9、刘懿枞、李明洋、王虹博选取了货币和准货币供应量(M2)社会商品消费零售总额、固定资产投资(FAI)、国内生产总值(GDP)和进出口总额作为相关指标,研究了这些指标对我国CPI的影响Error! Reference source not found.。从分析上述研究文献可以发现,虽然研究指标选取范围很广,但是没有用不同方法地对我国CPI影响因素进行多元线性回归研究。因此,本文将用不同的回归方法来研究我国CPI的主要影响因素。本文在此背景下,分析借鉴了前人的研究和经验,依据多元线性回归模型的构建,初步筛选了6项与CPI有关的宏观经济指标作为影响变量,并在多元线性回归分析中采用不同的回归方法进行比较
10、分析,以此来构建CPI及其影响因素之间的线性回归方程,我们可以清晰地看到各个指标对CPI的影响,从而找出了影响CPI的关键要素是农业生产资料价格和人均GDP,进而为我国经济发展提供方向性的建议指导。1. 多元线性回归分析基本理论一个被解释变量与多个解释变量形成的线性关系模型就是多元线性回归模型。1.1 多元线性回归模型的一般形式设随机被解释变量与一般解释变量线性回归模型的标准形式如下:式中,是被解释变量的第个观测值;是第个解释变量的第个观测值;表示模型的回归系数;为随机误差项。1.2 多元线性回归模型的基本假设为了能够在统计学上很好地描述参数估计的特性,模型必须符合下面几个假设:1. 解释变量
11、非随机或固定,且各之间不存在严格线性关系。2. 样本中获得的每个解释变量都具有差异性,并且每个的均约等于一个不等于零的常数。3. 期望为0的,相等并且没有序列相关性。4. 与之间没有关联。5. 。1.3 参数估计1.3.1 回归系数的估计在确定回归理论模型后,将基于收集的样本数据估算模型中的未知参数。回归系数和总体方差属于该模型的未知参数。目前应用最广泛的方法是普通最小二乘法,也就是经典的估计方法。 求多元线性回归模型中的回归系数,最小二乘法是目前应用最广泛的估计方法,不过这个方法必须是基于模型的基本假定之上的,因为有一些因此方法而导致模型不符合基本假设,所以一些新的方法就被人们所提出来了,比
12、如偏最小二乘估计、主成分回归、岭回归Error! Reference source not found.p66-67等,但是这一切都基于普通最小二乘法这一估计方法。 最小二乘法就是使残差平方和取得最小值。因为是的非负二次式,所以最小值一定存在。依据数学分析的极值原理,应满足下述方程:称为标准回归方程组,将代入式中整理得:由此可求得的值。1.3.2 样本方差的估计多元线性回归模型中随机误差项的样本方差计算公式如下:其中,为样本观测值的个数,为回归系数的个数,为残差平方和,为总体方差的无偏估计。又被称为回归估计的标准误差,越小说明回归方程的代表性越强。1.4 模型检验回归方程被建立之后,还必须进行
13、各类统计检验,回归方程的R2检验、回归方程的F检验、回归系数的t检验都包含在模型的检验之中。1.4.1 回归方程的显著性检验模型假设为:。检验统计量:是解释变量的个数,统计量服从自由度的分布。用统计软件会自动计算出检验统计量的观测值及相应的概率值,假如,则应拒绝原假定,认为回归系数不全为0,表明回归方程具有显著意义;若,则反之。1.4.2 回归系数的显著性检验模型假设为:。构造检验统计量:服从自由度为的分布。假如,则拒绝原假定,认为某一个回归系数不为0;若,则反之。1.4.3 回归方程的拟合优度检验在线性回归模型中,用判定系数表示拟合程度, 记为:其中表示总离差平方和,表示回归平方和, 表示残
14、差平方和。为了避免由于添加自变量而导致高估。通常也采用调整过的多重判定系数来进行拟合优度检验,其中:或的值越接近1,说明拟合度越高,相反或越接近0,拟合效果越差。1.5 模型预测如果回归模型顺利通过了前面的各种统计检验,那么还可以利用模型对被解释变量进行预测。在当期各解释变量的样本量被提供之后,则可以通过最优回归模型来求解解释变量。基本公式如下:其中,是给定的在预测期的具体数值,为已经估计出来的样本回归系数,为给定时的预测值。标准误差的计算方法如下:在给定显著性水平之下的置信区间如下:是显著性水平的分布双侧临界值。1.6 自变量的筛选方法在多元线性回归模型中,引入自变量的选择直接影响到模型的质
15、量。在模型中,重要的自变量不能被忽略,而且还要避免太多变量引起的诸多负面影响,例如,一方面加大计算量,进而增加了误差,另一方面,还有可能会出现多重共线性的问题,因此我们要对变量进行筛选处理。利用SPSS软件Error! Reference source not found.p27-29可以通过以下几种方法选择自变量进入回归方程:逐步回归法、向后剔除法和向前引入法。向前引入法(Forward),它是一种只选不剔、自变量从无到有的筛选方法。首先,将每个自变量与因变量进行线性回归,并分析其相关性,将相关性最强或者P值最小的自变量放入回归模型中,接下来就是在此基础上,再检验剩余自变量与因变量之间的相关
16、性,继续选择相关性最强或者P值最小的自变量进入模型中,并重复执行这个过程,直至模型外自变量的P0.05为止。向后剔除法(Backward),它是一种只剔不选的自变量筛选方法。首先将自变量框中的所有自变量选入方程,之后将P值最大的自变量剔除,然后使用剩余的自变量建立新的回归方程,重复此过程,直到无法剔除方程中不显著的自变量。逐步回归法(Stepwise),它是一种先选后剔、双向筛选的方法。这个方法首先用向前引入法的方法引入自变量,在每引入一个自变量之后,同时用向后剔除法的方法对自变量逐个检验并剔除不显著变量,重复这个过程,直到无法从模型外引入自变量,并且模型中也无法消除自变量。从逐步回归法的过程
17、来看,这个方法是一种瞻前顾后的方法,每当将新的自变量引入模型时,都有必要考虑一下之前引入的自变量还是不是依然有统计学意义,这也是我们在筛选自变量的时候最经常用到的一种方法。2. 多元线性回归在CPI影响因素中的应用2.1 数据筛选2.1.1 指标选取在本文中,我们选择居民消费价格指数作为因变量,以社会商品零售价格指数、农业生产资料价格指数、固定资产投资价格指数、工业生产者出厂价格指数、人均GDP指数和进出口总额指数作为自变量,这些数据都是定量变量,它们的符号和经济意义见下表:表1变量的经济意义变量符号经济意义居民消费价格指数居民消费水平商品零售价格指数商业发展水平农业生产资料价格指数农业发展水
18、平固定资产投资价格指数固定资产支出水平工业生产者出厂价格指数工业发展水平人均GDP指数居民收入水平进出口总额指数贸易发展水平2.1.2 数据收集为了便于进行回归分析以及比较研究,本文基于中国统计年鉴2019Error! Reference source not found.,收集了自新世纪初以来2001至2018年各项经济指标的数据,对原始数据进行简单分析我们可以看出,作为因变量的我国居民消费价格指数呈现出逐年上升的趋势, 作为自变量的六个指标中,除了进出口总额和农业生产资料价格在2010年前后变化幅度较大以外,其他指标均呈现线性关系。商品零售价格、固定资产投资价格和工业生产者出厂价格增长缓慢
19、,而人均GDP与进出口总额增长速度最快。图1 各变量逐年变化折线图2.2实证分析2.1.3 建立模型在建立回归方程之前,需要定量地分析变量之间是否相关,通过计算得到表2。表2 Pearson相关系数1.0000000.9843880.9820460.8299270.9838930.9593050.9949330.9843881.0000000.9803540.8878180.9467020.9786220.9718050.9820460.9803541.0000000.9011740.9586950.9704010.9754510.8299270.8878180.9011741.0000000
20、.7523500.9152450.8001950.9838930.9467020.9586950.7523501.0000000.9244140.9952110.9593050.9786220.9704010.9152450.9244141.0000000.9500470.9949330.9718050.9754510.8001950.9952110.9500471.000000从上述表2中,我们可以看出,每个指标变量的pearson相关系数基本都大于0.8,表明这些自变量和因变量的相关性很强Error! Reference source not found.p31-34,适合与6个自变量做多
21、元线性回归。根据以上因变量和自变量 、 的选择,建立多元线性回归模型:其中为选取的影响因素经济指标,为相应的系数,表示随机误差,且服从期望为0,方差为的正态分布。2.1.4 参数估计在本文中,我们的统计分析工具是SPSS.22.0软件Error! Reference source not found.p35-38,下面将我们收集到的各项数据输入到该软件中,设置默认的显著性水平为 0.05,得到如下结果:表3 回归系数模型非标准化系数标准系数t显著性B标准错误贝塔1(常量)281.36067.5324.166.002商品零售价格指数.255.255.1421.000.339农业生产资料价格指数.
22、111.057.1911.966.075固定资产投资价格指数-.039.335-.017-.117.909工业生产者出厂价格指数.026.170.012.152.882人均GDP指数.227.041.6695.533.000177进出口总额指数.006.026.014.212.836根据表3可得初步的多元线性回归模型为:2.1.5 模型检验1. 拟合优度检验。表4 拟合优度表模型RR平方调整后的R平方标准估算的错误Durbin-Watson(U)11.000a.999.9982.953521.484从表4的数据中可以看出,调整后的可决定系数为,两项数据接近1,表示该模型的拟合程度非常好。2.
23、回归方程的检验。在检验时,首先提出假设表5 方差分析模型平方和自由度均方F显著性1回归97139.027616189.8381855.933.000b残差95.956118.723总计97234.98317在给定的显著性水平下,可以得到自由度为和对应的临界值为,而,因为,所以拒绝原假设,表明回归方程显著。3. 回归系数的检验。在检验时,首先提出假设,根据表3可得初步多元线性回归模型中各个自变量系数的检验统计量值:在给定的显著性水平下,只有所对应的概率值小于给定的显著水平,所以拒绝原假设,表明在该模型中只有“人均GDP指数”回归系数显著。从回归方程中可以看到,对CPI起正影响,对CPI起负影响。
24、从实际社会生活来看,一般固定资产投资价格上涨,居民消费价格也应随之上涨,因此应和CPI呈现出正相关性,而非负相关性。为此,我们认为方程中可能出现多重共线性问题,应该继续优化模型Error! Reference source not found.。2.1.6 模型优化逐步回归分析法是解除多重共线性问题的有效途径之一,它包含了向前引入法、向后剔除法、逐步回归法等几种常用的方法,下面就使用这几种方法来进行比较分析:(a)向前引入法检验选择自变量。设置引入自变量的显著水平,剔除变量的显著水平,输出结果如表6所示:从表中能够看出,用向前引入法筛选自变量的过程为第一步引入,第二步引入,形成一个符合要求的线
25、性回归模型。表6 前进逐步回归输出结果模型非标准化系数标准系数t显著性B标准错误贝塔1(常量)403.4393.718108.498.000人均GDP指数.338.008.99540.726.0002(常量)348.3215.26866.122.000人均GDP指数.246.009.72527.394.000农业生产资料价格指数.167.015.28610.795.000(b)向后剔除法检验筛选自变量。设置引入自变量的显著水平,剔除变量的显著水平,输出结果如表7所示:表7 后退逐步回归输出结果模型非标准化系数标准系数t显著性B标准错误贝塔1(常量)281.36067.5324.166.002商
26、品零售价格指数.255.255.1421.000.339农业生产资料价格指数.111.057.1911.966.075固定资产投资价格指数-.039.335-.017-.117.909工业生产者出厂价格指数.026.170.012.152.882人均GDP指数.227.041.6695.533.000进出口总额指数.006.026.014.212.8362(常量)281.00964.6334.348.001商品零售价格指数.249.240.1391.039.319农业生产资料价格指数.111.054.1912.051.063工业生产者出厂价格指数.008.068.003.113.912人均GD
27、P指数.224.027.6598.206.000进出口总额指数.007.022.018.321.7543(常量)281.59361.9304.547.001商品零售价格指数.254.228.1411.114.286农业生产资料价格指数.112.052.1922.149.051人均GDP指数.222.023.6559.503.000进出口总额指数.008.017.022.506.6214(常量)285.11559.8814.761.000商品零售价格指数.230.217.1281.060.307农业生产资料价格指数.129.039.2203.292.005人均GDP指数.224.022.6611
28、0.022.0005(常量)348.3215.26866.122.000农业生产资料价格指数.167.015.28610.795.000人均GDP指数.246.009.72527.394.000从表中能够看出,用向后剔除法选择自变量的过程为第一步引入所有变量,第二步剔除,第三步剔除,第四步剔除,第五步剔除,最终形成一个符合要求的方程。(c)逐步回归法检验筛选自变量。设置引入自变量的显著水平,剔除变量的显著水平,输出结果如表8所示:表8 组合逐步回归输出结果模型非标准化系数标准系数t显著性B标准错误贝塔1(常量)403.4393.718108.498.000人均GDP指数.338.008.995
29、40.726.0002(常量)348.3215.26866.122.000人均GDP指数.246.009.72527.394.000农业生产资料价格指数.167.015.28610.795.000从表中能够看出,采用逐步回归法进行筛选自变量的过程为第一步引入,第二步引入。综上输出结果可知,向后剔除法步骤比较繁琐,没有向前引入法和逐步回归法简便,然而最终得到的自变量均是“人均GDP指数”和“农业生产资料价格指数”,新的多元线性回归模型为:虽然所获得的回归模型具有比较高的判定系数并通过了显著性检验,然而这还是不能称之为一个好模型。为了知道生成的模型是否为一个好模型,我们就必须要检验模型的基本假设真
30、不真,这就要用到残差检验了,下面就将对新得到的模型进行残差检验。2.1.7 残差检验针对得到的新模型进行残差分析,以确定它是否符合模型的基本假设,得到结果见表9和图2:表9 残差检验表最小值最大值(X)平均值标准偏差数字预测值434.1052650.5457536.038975.5875218残差-3.340285.54797.000002.4963318标准预测值-1.3491.515.0001.00018标准残差-1.2572.088.000.93918从表中可知,标准残差的绝对值最大为2.088,没有超过默认值3,表明数据没有奇异值,从而说明标准化残差与标准正态分布Error! Refe
31、rence source not found.相对应。图2 标准残差的直方图和P-P图从左边的直方图中能够看出,曲线和柱子都呈中间较高,两边较低的状态,这说明该模型符合标准正态分布。从右边的P-P图中能够看出,各点近似呈一条直线且点都围绕在线的周围,表示数据具有较好的正态性。综合表9和图2可以看出,得到的新模型基本服从正态分布,期望为0,所以我们得到的新线性回归模型是有意义的。18结论与建议1、研究结论本文主要研究了多元线性回归模型的基本理论,在现实应用中,不能随意使用线性回归模型,当我们研究某个问题的时候,我们必须要保证每个指标因素都适用于模型,并且确定模型的基本假设是否都被满足。只有满足了
32、适用线性回归模型的基本假定原则下才能进行线性回归模型的建立,在构建模型的过程中,除了要估计未知参数以外,还必须对得到的模型进行各种统计检验,检验模型的拟合效果,以及回归方程的显著性和回归系数的显著性。当我们设计模型的时候,如果没有通过检验,那么我们就必须得重新检查变量,构建新的模型,然后再次对新的模型进行统计检验,如果这样做不成功,那么循环以上步骤。直到我们建立合适的模型为止。只有建立合适的模型,才能解决我们最初的问题。本文通过建立多元线性回归模型来确定影响CPI的主要因素,最后得出结论,CPI与农业生产资料价格和人均GDP指数呈线性关系Error! Reference source not
33、found.p24-28,且均呈正相关。农业生产资料价格指数是一个相对数字,反映了一段时间内农产品价格变动趋势。随着我国农业现代化程度的日益提高,农业生产越来越依赖于农业生产资料。农产品的生产成本将随着农业投入物价的增加而上涨,只有不断提高农产品价格,农业才能维持其最初的利润率。因此,农业投入的价格会影响农产品的价格,继而也影响到居民消费价格指数的变化。GDP是反映一个国家的国力和财富的数据,所有国家都认为它是衡量该国经济状况的最佳指标,因此,人均GDP指数会影响居民CPI的波动。在选择变量的过程,我们可以发现,虽然利用向前引入法、向后剔除法和逐步回归法得到的模型相同,并且这三个方法的每一步都
34、只能引入或者消除一个变量,但是向后剔除法的剔除变量过程相对比较繁琐,没有另外两种方法简洁。2、政策建议结合上文的回归分析,为中国CPI宏观调控提出以下建议:(1)随着人们生活水平的提高,娱乐文化的水平和质量也在提高,对于中国而言,它可以加快中国服务业的发展,增加中国的GDP并优化中国的产业结构。针对我国国内生产总值的增速持续放缓的情况,我们必须积极地开展供给侧改革,促进产业结构优化升级,缓解供给过剩的压力,从而实现对CPI的稳定。(2)为了抑制物价的过快增长和避免通货膨胀,政府首先应该严控农产品价格,监测价格变化,对突然的价格变化做出反应,加强对消费品市场的监管并继续改革资源定价机制,再者我们
35、应当继续改革开放,增加国内需求,建设一个创新的国家,提高科技贡献率,增加居民收入,健全社会保障体系。 参考文献1 吴密霞 刘春玲. 多元统计分析M.北京:科学出版社,2014.2 彬彬. 多元线性回归分析及其应用J.中国科技信息,2010(9).3 冯朝军. 基于多元回归分析的我国CPI影响因素识别J.统计与决策,2017(24).4 刘茹玉. 辽宁省居民消费价格指数影响因素与预测分析D.东北财经大学,2018.5 董荣花. CPI与其影响因素的波动相干关系研究D.内蒙古大学,2019.6 刘懿枞,李明洋,王虹博.我国居民消费价格指数(CPI)影响因素的分析J.商场现代化,2019(17).7
36、 杨小平. 统计分析方法与SPSS应用教程M.北京:北京清华大学出版社,2008.8 黄润龙. 数据统计分析与分析技术-SPSS软件使用教程M.北京:北京高等教育出版社,2007.9 国家统计局. 中国统计年鉴J.中国:中国统计出版社,2019.10 谢宇. 回归分析M.北京:社会科学文献出版社,2010.11 李志辉,罗平. 常用统计分析教程-SPSS 22.0中英文版(第4版)M.北京:电子工业出版社,2015.12 吴小丹,吴雪媚,陈雪丽. 基于多元线性回归模型的我国CPI主要影响因素分析J.当代经济,2020(01).13 王宁. 基于多元线性回归模型的山东省经济增长影响因素研究J.现代商业,2018(8).