《西华大学统计学实验报告.doc》由会员分享,可在线阅读,更多相关《西华大学统计学实验报告.doc(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课 程 实 验 报 告 题 目: 社会经济统计学 学生姓名: 学 号: 专 业: 年 级: 学 院: 指导教师: 教务处制实验一:EXCEL的数据整理与显示一、实验目的及要求:(一)目的1了解EXCEL的基本命令与操作、熟悉EXCEL数据输入、输出与编辑方法;2熟悉EXCEL用于预处理的基本菜单操作及命令;3熟悉EXCEL用于整理与显示的基本菜单操作及命令。(二)内容及要求 1根据下面的数据。1.1用Excel制作一张组距式次数分布表,并绘制一张条形图(或柱状图),反映工人加工零件的人数分布情况。从某企业中按随即抽样的原则抽出50名工人,以了解该企业工人生产状况(日加工零件数):117 108
2、 110 112 137 122 131 118 134 114 124 125 123 127 120 129 117 126 123 128 139 122 133 119 124 107 133 134 113 115 117 126 127 120 139 130 122 123 123 128 122 118 118 127 124 125 108 112 135 1161.2整理成频数分布表,并绘制直方图。1.3 假设日加工零件数大于等于130为优秀。二、仪器用具硬件:计算机(安装Windows2003 、Windows2007 或Windows XP或以上)软件:EXCEL三、实
3、验原理 统计中数据整理与显示的相关理论。四、实验方法与步骤1点击“数据”“透视图” ,选定区域为日加工零件数一列,输出区域为空白地方,完成,修改一下形成。2点击“图表向导” “条形图”,数据区域为复制的数据,再修改系列、名称、X轴、Y轴,完成,再修改一下图表。3分组后,点击“工具” “数据分析” “直方图”,输入区域为体育一列,接受区域为分好的组,标志打钩,输出区域为空白地方,累计百分比和图表输出打钩,完成,在对表和图进行一系列的修改,形成所需要的表和图。五、实验结果与数据处理1.1工人加工零件的人数分布情况。1.2整理成频数分布表,并绘制直方图1.3 假设日加工零件数大于等于130为优秀六、
4、讨论与结论 统计学是一门收集,整理,显示和分析统计数据,研究统计方法论的学科。本实验中,已经随机抽样出企业50名工人的日加工零件数以了解企业工人生产状况,所以我们要做的便是分析统计数据。 首先,观察数据,对数据进行组距式分组。在分组过程中我了解到组距式分组需要满足保持组内总体单位的同质性和组间总体单位的差异性原则、穷举性原则、互斥性和上限不在内原则。确定组距后,统计每组数据出现的次数,这是一个需要耐心的工作,要保证每个数据都有归属的组。然后,把整理好的数据输入EXCEL中。最后利用EXCEL功能绘制条形图。不可否认,EXCEL对统计工作提供了有力的帮助。这也告诉我们统计学是一门与实践紧密结合的
5、科学,要学好统计学还必须把理论用于实践,掌握EXCEL的相关功能。 通过条形图,可以清晰的反映日加工零件数在某个范围内人数的多少。我们可以看到日加工零件在120125件的人数最多达到14个;其次是115120和125130,人数分别为9个和10个;居于105110和135140范围的人数较少。且50个工人的日加工零件数分布较为分散,说明每个工人的日加工零件数差异较大。直方图就是对数据进行统计分析,得到频数的分布表,最后画出统计图,以便更加直观的反应出数据之间的关系和规律。通过直方图,可以清晰反映日加工零件数在某个范围内的人数占总人数的比重,可以帮助我们了解工人的一般水平集中在什么范围内。假设日
6、加工零件数在大于等于130的为优秀,在图形中得到了很好的反映,达到优秀水平的工人为9个,占样本比例的18%。说明该企业工人生产水平达到优秀水平的比例较小,大部分工人生产水平位于一般水平。实验二:EXCEL的数据特征描述、抽样推断一、实验目的及要求:(一)目的熟悉EXCEL用于数据描述统计、列联分析、多元回归的基本菜单操作及命令。(二)内容及要求根据实验1的数据,(1)计算特征值;(2)判断该企业职工的平均日加工零件数及优秀率的区间;(3)假设检验(如果以往该企业的工人日加工零件数为115,优秀率为5%,显著性水平为5%)。二、仪器用具硬件:计算机(安装Windows2003 、Windows2
7、007 或Windows XP或以上)软件:EXCEL三、实验原理 统计中数据整理与显示的相关理论。四、实验方法与步骤1、 在相应方格中输入命令,得到各特征值。COUNT(B4:B53)并回车,得到50个数据中的单位总量。SUM(B4:B53)并回车,得到50个数据中的标志总量。MAX(B4:B53)并回车,得到50个数据中的最大值。MIN(B4:B53)并回车,得到50个数据中的最小值。AVERAGE(B4:B53)并回车,得到50个数据中的平均值。MEDIAN(B4:B53)并回车,得到50个数据中的中位数。GEOMEAN(B4:B53)并回车,得到50个数据中的几何平均数。HARMEAN
8、(B4:B53)并回车,得到50个数据中的调和平均数。AVEDEV(B4:B53)并回车,得到50个数据中的变异统计的平均差。STDEV(B4:B53)并回车,得到50个数据中的变异统计的标准差。VAR(B4:B53)并回车,得到50个数据中的变异统计中的方差。KURT(B4:B53)并回车,得到50个数据中的变异统计中的峰度。SKEW(B4:B53)并回车,得到50个数据中的变异统计中的偏度。2、 抽样推断在单元格中输入CONFIDENCE(所在单元格,标准差所在单元格,样本容量单元格),点得到极限误差,从而得到日价格零件数和优秀率的置信区间。单元格中键入“=(样本均值单元格-115)/(样
9、本标准差单元格/SQRT(样本容量单元格))”,得到t值;单元格中键入“=TINA(0.05,49)”得到=0.05,自由度为49的临界值。五、 实验结果与数据处理所以置信区间为120.64,125.12=6.894六、 讨论与结论 把实验一的数据依次输入EXCEL表格中,利用其函数计算功能分别计算样本数据的特征值。通过对特征值的计算,我学会了函数计算功能的使用和各个函数的具体功能,为统计数据的分析提供了便捷的渠道。从实验结果可以得到,该企业50名员工日加工零件数的总额为6149件,平均日加工零件数122.88与日加工零件数的最大值139和最小值107差距较大,说明该组数据波动幅度较大。变异统
10、计的平均差6.3696表示数据与其均值的绝对偏差的平均值,方差65.33和标准差8.082是测度数据变异程度最重要、最常用的指标,这三个数值表明数据相对离散。峰值-0.472反映与正态分布相比某一分别的尖锐度或平坦度。偏斜度0.025反映以平均值为中心的分布的不对称程度。峰值和偏斜度表明数据分布较为不对称。 了解完特征值后,我们对数据进行进一步的分析。运用点估计的思想可以用样本均值估计总体均值得到企业职工日平均加工零件数,然后算得极限误差,进而得到优秀率的置信区间。运用区间估计的思想进行假设检验。假设检验是抽样推断的继续和必要补充,在推断统计中起着重要作用。所谓假设检验,也称显著性检验,是事先
11、对总体参数做出一个假设,然后利用样本信息来判断该假设是否合理,即判断样本信息与原假设是否有显著差异。 通过此次实验,我学会了数据特征值和假设检验在EXCEL中的应用,大大简化了计算工作,同时巩固了关于特征值的含义和假设检验的相关知识。还让我增长了新的知识,比如峰度和偏斜度便是课本外的知识。 实验三:时间序列分析一、实验目的及要求:(一)目的掌握EXCEL用于移动平均、线性趋势分析的基本菜单操作及命令。(二)内容及要求 综合运用统计学时间序列中的移动平均、季节指数运算、时间序列因素分解、图形展示等知识,对某小区居民用电量(千度)季节数据的构成要素进行分解,并作出图形进行分析。月度第一年第二年第三
12、年第四年151657458554224474694554383345366352341435432734142753744123883586359353332355736538139237684374604294419353344361382102953112913771145445339539812457486491428二、仪器用具硬件:计算机(安装Windows2003 、Windows2007 或Windows XP或以上)软件:EXCEL三、实验原理 时间序列分析中的移动平均分析原理、季节指数原理等。四、实验方法与步骤1(1)输入“年/月度”、 “时间标号”,复制各月度销售额到“用电
13、量”。(2)点击“数据分析”“移动平均”,输入区域为“销售额”,间隔4,输出“移动平均值”;同样的办法对“移动平均值”进行2步平均,输出“中心化后的移动平均值”。(3)对称一下 “移动平均值”和“中心化后的移动平均值”,然后用“用电量”除以“中心化后的移动平均值”求出“比值”。(4)将“比值”中的数据复制到“季节指数计算表”中,计算完成表。(5)点击“图标向导”“折线图”,输入区域为季节指数中的数值,修改完成图表。 2(1)完善“用电量”和“季节指数”并计算“用电量”/“季节指数”,完成季节分离后的时间序列。(2)点击“数据分析”“回归”,Y值输入区域为季节分离后的时间序列,X值输入区域为时间
14、标号,输出。(3)利用计算出的趋势模型和季节比率,对该小区第五年用电量数据进行预测。3点击“图表向导”“折线图”,数据区域为“用电量”、“季节分离后的时间序列”和“回归后的趋势”,系列产生在“列”,完善标题、X轴、Y轴,完成,再修改完成图。4用与图3相同的方法绘制销售额预测图。五、实验结果与数据处理 年/月度用电量销售额中心化的移动平均比值第一年559447400.54166671.115989345402.08333330.858031354403.8750.876509374403.6250.926603359404.08333330.888431365405.41666670.90030
15、8437405.83333331.076797353407.45833330.866346295408.04166670.722965454408.33333331.111837457399.9167408.95833331.117473第二年574401.1667410.1251.399573469403411.79166671.138925366404.75411.66666670.889069327402.5410.50.79659412405.6667410.51.003654353405.1667410.08333330.860801381406.5408.20833330.9333
16、47460408.4167407.79166671.128027344407.6667406.95833330.845295311409406.3750.765303453408.9167406.251.115077486411.33334031.205955第三年585412.25400.79166671.459611455411.0833399.20833331.139756352409.9167396.70833330.887302341411.0833395.54166670.862109388409.0833398.66666670.973244332407.33334010.827
17、93392408.25400.70833330.978268429405.66674011.069825361407.0833400.83333330.900624291405.4167402.20833330.723506395400.5833406.66666670.971311491401410.3751.196467第四年542397.4167407.3751.330469438396341395.0833427402.25358399.75355401.6667376400.3333441401.3333382403.0833377410.25398410.5416404.25编号季
18、节指数210.76530311.115989221.11507720.858031231.20595530.876509241.45961140.926603251.13975650.888431260.88730260.900308270.86210971.076797280.97324480.866346290.8279390.722965300.978268101.111837311.069825111.117473320.900624121.399573330.723506131.138925340.971311140.889069351.196467150.79659361.3304
19、69161.003654170.860801180.933347191.128027200.845295SUMMARY OUTPUT回归统计Multiple R0.036508R Square0.001333Adjusted R Square-0.02363标准误差29.38573观测值42方差分析dfSSMS回归分析146.0982146.09821残差4034540.85863.5213总计4134586.95Coefficients标准误差t StatIntercept399.627910.2255139.08145X Variable 10.0864330.374090.23105RE
20、SIDUAL OUTPUT观测值预测 Y残差标准残差1399.9736-18.1613-0.625712400.0601-28.8726-0.994743400.1465-29.3339-1.010644400.2329-28.2956-0.974865400.3194-22.9443-0.79056400.4058-21.5309-0.74187400.4922-4.99209-0.171998400.578726.421270.9102899400.665146.772261.61143910400.751557.748611.98960511400.83844.787211.543048
21、12400.924413.700760.47203113401.0108-10.9482-0.377214401.0973-19.1599-0.6601115401.1837-21.4962-0.7406116401.2701-19.2076-0.6617617401.3566-13.3566-0.4601718401.443-14.193-0.4889919401.52944.2829420.1475620401.615934.384051.18462921401.702353.672811.84918222401.788762.273782.14551123401.875243.49983
22、1.49869424401.96168.0381960.27693925402.048-18.6107-0.6411926402.1345-30.6969-1.057627402.2209-32.1585-1.1079528402.3073-28.4948-0.9817329402.3938-27.1438-0.9351830402.4802-27.4176-0.9446231402.5666-14.6918-0.5061732402.65319.7843690.337133402.739530.697841.05762934402.825943.736521.50684935402.9124
23、33.962671.17011236402.99889.8136310.33810837403.0852-8.77258-0.3022438403.1717-22.4842-0.7746539403.2581-23.1956-0.7991640403.3445-17.3444-0.5975741403.431-12.3061-0.4239842403.5174-7.76747-0.26761折线图用电量预测销售额预测六、讨论与结论 一个时间序列中包含四种变动因素:长期趋势变动、季节性变动、循环变动和偶然变动。也就是说,任何一个时间序列通常是上述四种变动因素综合作用的结果。长期趋势是是时间序列的
24、注要构成因素,要对时间序列进行分析就要采取一定的方法来消除季节性和偶然性因素的影响来掌握现象的规律性。移动平均法是趋势变动分析的一种比较简单的常用方法。该方法通过扩大原时间序列的时间间隔,并按一定时间间隔长度逐期移动,分别计算出一系列移动平均数,这些平均数形成的新的时间序列对原时间序列的波动起到一定的修匀作用,削弱了原时间序列中短期偶然因素的影响,从而呈现出现象发展的变动趋势。首先我利用EXCEL数据分析功能计算了移动平均和中心化后的移动平均,与此同时,我们得到两张移动平均和中心化后的移动平均图表,通过对图表的分析我们可以看到预测值的浮动相对平稳,但与其相反的是实际值波动幅度较大,而且还和预测
25、值相比波动较大。在本次实验中,我还利用了季节指数法对用电量的未来发展趋势作出预测。节指数法是一种时间序列预测技术,来源于经济活动中销售量的预测。它是以市场的循环周期为特征,通过计算历史销售量变化的季节性系数达到预测目的的一种方法简单季节指数法是指反映季节变化对销售量影响的一种简便方法。其实质就是计算各个季节的不同销售。在用电量和销售量的预测图表中,我们可以看到用电量、季节分离的时间序列和回归后的趋势三条曲线,用电量的波动范围较小。第五年各月的用电量预测大约在350500之间,在400左右波动。前两个实验都是EXCEL的基础操作,而在本次试验,我接触到了EXCEL数据分析、数据整理的高级功能。能
26、够对原始数据进行分析并对其发展趋势进行预测,这对管理工作是相当有益的。实验四:一元线性回归分析一、实验目的及要求:(一)目的掌握SPSS用于相关与回归分析的基本操作及命令。(二)内容及要求 综合运用统计学中相关与回归分析的内容,根据下列数据作出一个。我国19902005年国民生产总值和财政收入资料年份国内生产总值财政收入199018667.822937.1199121781.53149.48199226923.483483.37199335333.924348.95199448197.865218.1199560793.736242.2199671176.597407.99199778973.
27、048651.14199884402.289875.95199989677.0511444.08200099214.5513395.232001109655.216386.042002120332.718903.642003135822.821715.252004159878.326396.472005183084.831649.29二、仪器用具硬件:计算机(安装Windows2003 、Windows2007 或Windows XP或以上)软件:SPSS三、实验原理 相关与回归分析的原理等。四、实验方法与步骤按照附件中的一元线性回归方程的建立与检验方式利用上述数据运行程序。五、实验结果与数据
28、处理Regression表1Descriptive Statistics均数(Mean)标准差(Std. Deviation)N国 内生产总值8.3995E449179.0132216财政收入1.1950E48810.4166016表2相关性(Correlations)国内生产总值财政收入皮尔逊相关(Pearson Correlation)国内生产总值1.000.981财政收入.9811.000Sig. (1-tailed)国内生产总值.000财政收入.000.N国内生产总值1616财政收入1616表3Variables Entered/RemovedbModelVariables Enter
29、edVariables RemovedMethod1财政收入a.Entera. All requested variables entered.b. Dependent Variable: 国内生产总值表4Model SummarybModelRR SquareAdjusted R SquareStd. Error of the EstimateChange StatisticsDurbin-WatsonR Square ChangeF Changedf1df2Sig. F Change1.981a.963.9609840.64758.963360.631114.000.186a. Predi
30、ctors: (Constant), 财政收入b. Dependent Variable: 国内生产总值表5ANOVAbModelSum of SquaresdfMean SquareFSig.1Regression3.492E1013.492E10360.631.000aResidual1.356E9149.684E7Total3.628E1015a. Predictors: (Constant), 财政收入b. Dependent Variable: 国内生产总值表6CoefficientsaModelUnstandardized CoefficientsStandardized Coef
31、ficientstSig.95% Confidence Interval for BCorrelationsCollinearity StatisticsBStd. ErrorBetaLower BoundUpper BoundZero-orderPartialPartToleranceVIF1(Constant)18547.5884234.3504.380.0019465.81127629.365财政收入5.477.288.98118.990.0004.8586.095.981.981.9811.0001.000a. Dependent Variable: 国内生产总值表7Coefficie
32、nt CorrelationsaModel财政收入1Correlations财政收入1.000Covariances财政收入.083a. Dependent Variable: 国内生产总值表8Collinearity DiagnosticsaModelDimensionEigenvalueCondition IndexVariance Proportions(Constant)财政收入111.8141.000.09.092.1863.122.91.91a. Dependent Variable: 国内生产总值表9Residuals StatisticsaMinimumMaximumMeanS
33、td. DeviationNPredicted Value3.4633E41.9188E58.3995E448251.3511316Std. Predicted Value-1.0232.236.0001.00016Standard Error of Predicted Value2464.4896190.8303.350E3969.91716Adjusted Predicted Value3.7067E41.9764E58.4569E448936.6744416Residual-1.59652E41.30464E4.000009506.9687716Std. Residual-1.6221.
34、326.000.96616Stud. Residual-1.7421.376-.0261.03316Deleted Residual-1.83988E41.40563E4-5.73803E210937.3890816Stud. Deleted Residual-1.8961.426-.0361.06816Mahal. Distance.0034.999.9381.27116Cooks Distance.001.433.080.11416Centered Leverage Value.000.333.062.08516a. Dependent Variable: 国内生产总值六、讨论与结论 回归
35、分析是对具有相关关系现象间数量变化的规律性进行计算和测定的理论和方法,即通过建立一个回归方程式,并对所建立的回归方程进行估计、分析、判断其有效性,以便进一步进行估计和预测。本次实验中SPSS作为专业的数据分析软件便为我们提供了一个便捷的相关与回归的途径。 通过本次实验,我掌握了回归分析的相关概念和建立回归分析模型的步骤。首先根据理论和对问题的分析判断,将变量分为自变量和因变量,即数据中的国内生产总值和财政收入;其次,设法找到合适的数学方程式描述变量间的关系,并应用一定的方法对回归模型中的有关参数进行估计。由于涉及的变量具有不确定性,必须对所估计的参数和回归模型进行统计检验;统计检验后,最后利用
36、回归模型,根据自变量估计、预测因变量的平均变化情况。当然这是理论上建立回归模型的方法,当将其运用到SPSS程序中就相对简单得多。已知回归模型为Y=a+bx+。通过建立全回归模式,模型编号为1,把国民收入作为自变量,财政收入作为因变量。R 是相关系数;R Square 被称为判定系数,它的意义是判断线性回归的拟合程度。Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计标准误差。由实验结果可知F值为360.631,显著性概率是0.0001,表明回归不显著。用T检验结果。相关系数为0.981,并且可以根据回归系数表写出回归方程:Y=18547.588+5.477x,预测值的回归误差可以用剩余均方估计为=9841 对于相关与回归分析,在理论课程中便是学习的一个难点,且对于SPSS的功能也更是不熟悉,于是便加大了在实验过程中的难度。本次主要运用数据分析回归中的一元线性回归分析从1990年到2005年的国内生产总值和财政收入的关系。在本次试验中我将国内生产总值作为自变量,将财政收入作为了因变量。相关系数R=0.981;拟合优度R方=0.963;调整后的拟合优度=0.960;标准估计的误差=1762.95129。因此实验所采用的这个回归模型是有效。