《多元统计分析实例剖析(共10页).doc》由会员分享,可在线阅读,更多相关《多元统计分析实例剖析(共10页).doc(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上交通学院小组作业从2010年统计摘要上获得了民航客运量和它的影响因素的数据。若以Y表示民航客运量(万人),X1表示国民收入总值(亿元),X2表示消费金额(亿元),X3表示铁路承载量(万人)X4 表示民航航线距离(万公里),X5表示境外旅客人数(万人),则可以得到下表:年份YX1X2X3X4X519952773162226697789182171996358402026341950419974124426303723684199848147293359269321999534511036652895120004695683403027113720016656782468
2、63115422002893842458553321402003119694316662392738200415721117676634732282005173014086964645380320061540158111080657294020071992172611159661329520082614198681316367400320093463242681558210039742010406029858191391154983参数估计通过SPSS软件的处理可以得到以下的结果CoefficientsaModelUnstandardized CoefficientsStandardized
3、CoefficientstSig.BStd. ErrorBeta1(Constant)714.040213.3783.346.007x1.396.0972.7514.106.002x2-.618.141-2.735-4.391.001x3-.008.002-.094-4.028.002x419.7294.541.4854.345.001x5.429.054.5567.968.000a. Dependent Variable: y由以上的表格可以行到各个参数的估计值,从而可以得到:回归系数的解释1、常系数表示,当时的值。2、回归系数有两种解释。一种是,当变化一个单位而其他预测变量固定取常数时,的
4、该变量,这个该变量与其他预测变量固定取什么常数无关。在实际中,预测变量间往往是有关联的,可能无法做到固定某些预测变量的值而改变其他变量的值。这是这种解释的弱点。另一种表示,经过其他预测变量的“调整”后,对响应变量的贡献。现以回归系数的估算为例来说明这种解释。1)拟合对,的回归模型。记此回归的残差为,拟合的回归方程为2)拟合对,的回归模型。记此回归的残差为,拟合的回归方程为残差和的值见下表。偏残差表行号1-62.66337.2112316.50660.955397.96117.3474-97.800-47.6435-167.50313.5896-2.95312.2297116.31214.762
5、8101.26129.3469-212.794-102.43610-63.323-70.70711238.516171.78112-247.931-130.82213-205.675-157.6961435.24666.20615-18.57651.48616173.41634.3913)拟合残差对的简单回归模型的回归方程为在此回归方程中的系数与全模型拟合的方程中的系数是一样的,都是0.396。由上述计算过程可以看出这种解释比第一种解释统计意义更深刻一些。中心化和规范化中心化:年份yX1X2X3X4X51995-1114-8343.94-5470.81-25002.31-28-2099.941
6、996-1033-7485.94-5102.81-19124.31-27-1812.941997-979-7079.94-4699.81-12146.31-23-1632.941998-910-6776.94-4377.81-8431.31-20-1384.941999-857-6395.94-4071.81-2885.31-18-1365.942000-922-5822.94-3706.814461.69-19-1179.942001-726-4723.94-3050.819632.69-15-774.942002-498-3081.94-1881.8111740.69-13-176.942
7、003-195-2074.94-1074.817503.69-7421.062004181-329.94-73.8112123.691911.0620053392580.061909.1924382.69-11486.0620061494305.063069.1913776.6911623.0620076015755.063859.19-7937.3115978.06200812238362.065426.19-8694.31211686.062009207212762.067845.19-3159.31541657.062010266918352.0611402.193758.6969266
8、6.06单位化:年份yX1X2X3X4X51995-0.2495-0.2692-0.2768-0.4886-0.2552-0.36321996-0.2314-0.2415-0.2582-0.3737-0.2461-0.31361997-0.2193-0.2284-0.2378-0.2374-0.2096-0.28241998-0.2038-0.2186-0.2215-0.1648-0.1823-0.23951999-0.1919-0.2064-0.2060-0.0564-0.1641-0.23632000-0.2065-0.1879-0.18760.0872-0.1732-0.20412001
9、-0.1626-0.1524-0.15440.1882-0.1367-0.13402002-0.1115-0.0994-0.09520.2294-0.1185-0.03062003-0.0437-0.0669-0.05440.1466-0.06380.072820040.0406-0.0107-0.00370.23700.00910.157620050.07590.08320.09660.4765-0.0090.257020060.03340.13890.15530.26920.10030.107820070.13460.18570.19529-0.15510.13610.169120080.
10、27390.26980.2746-0.16990.19140.291620090.46410.41180.3970-0.06170.49220.286620100.59780.59210.57700.07350.62890.4611对经过中心化和单位化后的数据进行回归分析,得到下面的结果系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)4.017E-5.003.012.991X12.736.6712.7364.075.002X2-2.722.624-2.722-4.362.001X3-.094.023-.094-4.039.002X4.487.112.4874.360.001
11、X5.556.070.5567.965.000a. 因变量: y复相关系数由SPSS运行数据得:ANOVAbModelSum of SquaresdfMean SquareFSig.1Regression.9125.9821024.771.000aResidual38832.088103883.209Total.00015a. Predictors: (Constant), x5, x3, x4, x2, x1b. Dependent Variable: yModel SummarybModelRR SquareAdjusted R SquareStd. Error of the Estima
12、te1.999a.998.99762.315a. Predictors: (Constant), x5, x3, x4, x2, x1b. Dependent Variable: y则复相关系数:修正的:由以上结果可以看出,=0.998,表示民航客运量中的99.8%的变差可有5个变量解释。同时可以看出的值接近,此时观测值和预测值离得很近,模型较好地所合了数据。单个回归系数的推断(1)假设(自变量与因变量没有线性关系)备择假设(自变量与因变量有线性关系)计算检验的统计量利用SPSS软件对数据进行多元回归分析,得到的结果如下:系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间B标
13、准误差试用版下限上限1(常量)714.040213.3783.346.007238.6041189.477X1.396.0972.7514.106.002.181.611X2-.618.141-2.735-4.391.001-.931-.304X3-.008.002-.094-4.028.002-.013-.004X419.7294.541.4854.345.0019.61129.847X5.429.054.5567.968.000.309.550a. 因变量: y临界值查表得我们知道当时,则表示在显著性水平0.05下拒绝,接受。观察t检验的统计表,发现(国民收入总值)、(消费金额)、(铁路承
14、载量)、(民航航线距离)、(境外旅客人数)的回归系数是显著不为0的(拒绝,接受),即说明、对经过其他预测变量调整后的响应变量y的预测效果在统计上是显著的。(2)区间估计,其95% 的置信区间为,计算得到单个参数的置信区间:检验某些回归系数相等(1)在假设的情况下检验假设根据单个系数的t检验,和是显著的,因此原假设为因此全模型为:。根据软件输出结果为:系数表模型非标准化系数tB标准 误差1(常量)-253.0185.156-2.9710.979X10.140.0168.743X50.0130.0860.154a. 因变量: Y在原假设下,设,则简化模型为:,令变量,则简化模型为:根据软件输出结果
15、为:系数表模型非标准化系数tB标准 误差1(常量)-282.32383.569-3.3780.976W0.1210.00523.981a. 因变量: YF统计量为查表得;,易见F4.679.07,因此结果是不显著的,所以不能拒绝原假设。 假设检验的结果告诉我们,方程与数据并未出现不一致。所以我们得出结论,在确定民航客运量时,有相同的正影响。预测查询2011年全国统计年鉴可得到2011年国民生产总值为亿元,消费金额为37532亿元,铁路承载量为万人,民航航线距离为339.06万公里,境外旅客人数为13542万人。(1)即给定在本文中取0.05,因为=0.05这个精度已经可以满足本文的研究。,用E
16、xcel计算得到计算可得:(2) 即给定设其响应均值为,其估计值即为:,意义本文分析了国民生产总值、国民消费金额、铁路承载量、民航航线距离、境外游客人数五个影响因素对民航客运量的影响。通过软件分析可得=0.998,即民航客运量与几个影响因素之间的线性关系非常强,通过分析每个影响因素与民航客运量的关系,可得以下结论:(1) 民航客运量与国民生产总值成正相关,随着国民生产总值增加,民航客运量也随之增加,因为随着国民经济能力的增强,出行、旅游的也增多了,而经济能力的增强也使得人们出行更偏好选择舒适快捷的飞机作为出行工具,(2) 民航客运量与铁路承载量呈负相关,这是因为,铁路与航空存在着竞争,尤其是近
17、些年高铁的发展,使得铁路与航空在中长途旅客运输方面的竞争更加激烈,因此,随着铁路承载量的增加民航客运量会出现减少趋势。(3) 民航客运量与民航航线距离呈正相关,这是因为,随着民航航线距离的增加,民航覆盖面积的增加,不但为很多以前不通民航地区的人们多提供了一种出行方式,更会因为它的完整性而吸引跟多乘客。(4) 民航客运量与境外旅客人数呈正相关,这是因为,境外游客一般生活条件较好,且由于出境旅游一般路途较远,因此大多数境外游客会选择飞机作为交通工具入境。本文研究的意义在于通过研究这些因素与民航客运量的关系,从而预测以后的民航客运量,为航空公司制定当年的运输计划,编排航班提供一个有力依据。专心-专注-专业