《沈阳建筑大学统计学实验报告超级完整版.doc》由会员分享,可在线阅读,更多相关《沈阳建筑大学统计学实验报告超级完整版.doc(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、学号:实验报告课程名称: 统计学 学年、学期:2014年秋季实验学时:16 实验项目数:四实验人姓名:专业班级:实验一:统计软件Spss、Excel介绍;数据的图表展示实验日期:2014年11 月20日第十三教学周主要实验内容统计软件Spss、Excel的应用介绍;利用软件进行统计数据的整理和绘制各种统计图表。作业:练习题2.1、2.2、2.3、2.4实验操作记录:2.1(1)用Excel绘制频数分布表:选择【插入】菜单中的【数据透视表或数据透视图】 (2)用Excel绘制条形图:绘制好频数分布表,选择表中数据,然后选择【插入】中的【条形图】 (3)用Excel绘制帕累托图:绘制好条形图,然后
2、将条形图中的数据按升序或降序顺序重新排列 (4)用Spass绘制饼图:【Graphs】【Interactive-Pie-Clustered】,第2步将某个分类变量选入【Slice】点击【Pies】2.2(1)用Excel生成定量数据的频数分布表:【数据】【数据分析】【直方图】,选择【图表输出】单击【确定】 (2)用Excel绘制直方图:输入输出区域,然后选择【数据】【数据分析】【直方图】 (3)用Spass绘制茎叶图:【Analyze】【Descriptive statistics-Explore】第2步:将变量选入【Variables】2.3(1)用Excel绘制环形图:绘制好频数分布表,选
3、择表中数据,然后选择【插入】中的【环形图】再选【环形图】 (2)用Excel绘制雷达图:绘制好频数分布表,选择表中数据,然后选择【插入】中的【其他图表】再选【雷达图】2.4 用Excel绘制箱线图:绘制好频数分布表,选择表中数据,然后选择【插入】中的【其他图表】再选【箱线图】实验总结:通过此次试验,加深了我对Excel和Spass操作软件的应用了解,同时能更好的把实践及理论相结合。首先进行的就是对统计数据的输入及分析。这个输入过程,既要细心也要用心。画图时,不仅是仔细的输入一组数据就可以,还要考虑到整个数据模型的要求,合理而正确的分配输入数据。教师评语:本次实验成绩项目预习实验过程 作业报告书
4、写出勤和课堂纪律其他得分成绩合计:教师签字:批改日期:2.1为评价家电行业售后服务的质量,随机抽取由100个家庭构成的一个样本。质量服务的等级分别表示为:A.好;B.较好;C.一般;D.较差;E.差。调查结果如下:(数据略)(1)制作一张频数分布表。家电行业售后服务质量评价等级频数表评价等级频数频率A1414%B2121%C3232%D1818%E1515%总计1001(2)制作一张条形图,反映评价等级的分布。(3)绘制评价等级的帕累托图。(4)制作一张饼图,反映评价等级的构成。2.2为确定灯泡的使用寿命(单位:小时),在一批灯泡中随机抽取100只进行测试,所得数据如下:(数据略) (1)以组
5、距为10进行分组,整理成频数分布表。灯泡使用寿命频数分布表按销售额分组(万元)频数频率650-66020.02 660-67050.05 670-68060.06 680-690140.14 690-700260.26 700-710180.18 710-720130.13 720-730100.10 730-74030.03 740-75030.03 合计1001.00 答:从直方图可以直观地看出,灯泡使用寿命的分布基本上是对称的,右边的尾部稍长一些,灯泡使用寿命接近正态分布。(3)制作茎叶图,并及直方图作比较。使用寿命 Stem-and-Leaf Plot Frequency Stem &
6、 Leaf 1.00 Extremes (=749) Stem width: 10 Each leaf: 1 case(s)答:比较直方图及茎叶图:直方图的数据分布很方便,但原始数据看不到了,茎叶图则不同,不仅可以看出数据的分布,还能保留原始数据的信息。2.3甲、乙两班有40名学生,期末统计学考试成绩的分布如下:(1)画出两个班考试成绩的环形图,比较它们的构成。(2)画出雷达图,比较两个班考试成绩的分布是否相似。答:从图中可以看出甲、乙两班的成绩分布不相似,没有相似性。2.4下表是我国10个城市2006年各月份的气温(C)数据:(数据略)绘制各城市月气温的箱线图,并比较各城市气温分布的特点答:
7、从箱线图可看出,这10个城市的月气温存在较大差异,离散程度高的城市为沈阳、北京、郑州、武汉;离散程度低的为海口、昆明、广州。月气温较高的城市主要为中位数较大的海口、广州,月气温较低的为城市中位数较小的沈阳;月气温分布较对称的城市主要有北京、沈阳;月气温分布不对称的城市主要有:海口;月气温存在极值的城市有沈阳、北京、重庆。实验二:用统计量描述数据;概率分布;参数估计实验日期:2014年11月27日第十四教学周主要实验内容利用Spss、Excel软件对数据进行概括性度量、计算概率分布的概率及概率值,进行参数估计。作业:练习题3.5、4.4、5.3、5.7实验操作记录:3.5 用Excel计算描述统
8、计量:【工具】【数据分析】【描述统计】【确定】【输入区域】【输出选项】【汇总统计】4.4 用Spass绘制正态概率图:第1步:【Analyze】【Descrictive Statistics】【P-P Plot】或【Q-Q Plot】5.3 用Spass求置信区间:第1步:选择【Analyze】然后选择 【Descriptive statistics-Explore】选项进入主对话框5.7 用Spass求两个总体均值之差的区间估计:【Analyze】【Compare MeansPaired- Samples TTest】将两个样本同时选入【Paired Variables】实验总结:实验二主要
9、是对描述统计量的计算,像众数,中位数,标准误差,方差,峰度,偏度,置信度等等。通过这次试验,我进一步熟悉了这些描述统计量的计算公式,懂得了该怎么算这些描述统计量,此外,我还掌握了一些数据统计方面的技能:利用EXCEL进行数据处理、描述性统计及区间估计。在具体的操作过程中,我感受到,合理并充分利用EXCEL对我们进行数据统计具有很大的作用,能够使我们更加直观地看到数据,一目了然。教师评语:本次实验成 绩项目预习实验过程练习题报告书写出勤和实验纪律其他得分成绩合计:教师签字:批改日期:3.5一种产品需要人工组装,现有3种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用3种方
10、法组装。列1列2列3平均165.6平均128.7333平均125.5333标准误差0.550325标准误差0.452155标准误差0.716251中位数165中位数129中位数126众数164众数128众数126标准差2.131398标准差1.75119标准差2.774029方差4.542857方差3.066667方差7.695238峰度-0.1345峰度0.454621峰度11.66308偏度0.351371偏度-0.17448偏度-3.23793区域8区域7区域12最小值162最小值125最小值116最大值170最大值132最大值128求和2484求和1931求和1883观测数15观测数1
11、5观测数15答:(1)从集中度,离散度和分布形状三个角度统计量来评价。从集中度看,方法A的平均水平最高,方法C最低;从离散程度看,方法A离散系数最小方法C最大;从分布形状看,方法A和方法B偏斜程度都不大,方法C则较大。 (2)综合来看,应选择方法A,因为平均水平较高且离散程度小。4.4由30辆汽车构成的一个随机样本,绘制正态概率图。答:由正态概率图可以看出,汽车耗油量基本服从正态分布。5.3某大学为了解学生每天上网的时间,在全校学生中随机抽取36人,调查他们每天上网的时间(单位:小时),得到数据如下:(数据略)求该校大学生平均上网时间的置信区间,置信水平分别为90%,95%和99%。One-S
12、ample StatisticsNMeanStd. DeviationStd. Error Mean加班时间1813.567.8011.839One-Sample TestTest Value = 0 tdfSig. (2-tailed)Mean Difference95% Confidence Interval of the DifferenceLowerUpper加班时间7.37317.00013.5569.6817.43平均数方差标准差置信水平置信下限置信上限3.322.591.6190%2.883.7695%2.793.8499%2.634.015.7一家人才测评机构对随机抽取的10名
13、小企业的经理人用两种方法进行自信心测试,得到自信心测试分数如下:(数据略)构建两种方法平均自信心得分之差d=1-2的95%的置信区间。Paired Samples StatisticsMeanNStd. DeviationStd. Error MeanPair 1方法172.601014.0734.450方法261.601014.7594.667Paired Samples CorrelationsNCorrelationSig.Pair 1方法1 & 方法210.898.000Paired Samples TestPaired DifferencestdfSig. (2-tailed)Mea
14、nStd. DeviationStd. Error Mean95% Confidence Interval of the DifferenceLowerUpperPair 1方法1 - 方法211.0006.5322.0666.32715.6735.3259.000答:从表中可以看出两种方法平均自信心得分之差d=1-2的95%的置信区间为(6.327,15.673)实验三:假设检验; 分类变量的推断;方差分析及实验设计实验日期: 2014年12月4日第十五教学周主要实验内容利用Spss、Excel软件对数据进行假设检验、分类变量的推断、方差分析及实验设计。作业:练习题6.9、7.2、7.4、8
15、.3、8.6实验操作记录:6.9(1)1)用Excelt-检验:双样本等方差假设:第1步:将原始数据输入到Excel工作表格中, 选【工具】【数据分析】【t-检验:双样本等方差假设】 2) 用Excelt-检验:双样本异方差假设:第1步:将原始数据输入到Excel工作表格中, 选【工具】【数据分析】【t-检验:双样本异方差假设】 (2)用Excelt-检验:F检验双样本方差:第1步::【工具】 【数据分析】【F检验双样本方差】7.2Spass期望频数不等拟合优度:先指定“频数”变量,【Analyze】【NonparametricTest】【Chi Square】将频数变量选入【Test Var
16、iable List】7.4 Spass独立性检验:将列联表中的数据转换为原始数据形式,【Analyze】【Descriptive Statistics-Crosstabs】,行变量【Row(s)】,列选入【Column(s)】8.3 Excel单因素方差分析:选择“工具 ”下拉菜单,【数据分析】,然后选择【单因素方差分析】选择【确定】,出现对话框8.6 Excel: 可重复双因子分析:选择“工具”下拉菜单,并选择【数据分析】选项,在分析工具中选择【方差分析:可重复双因子分析】 Spass:可重复双因子分析:选择【Analyze】,并选择【General Linear Model-Univai
17、ate】进入主对话框。实验总结:实验三是对正态整体的均值,比例和方差进行假设检验,在实验过程中,许多地方让我卡住了,后来通过及老师的交流得知了正确的方法,这才知道是课本知识掌握的不够好。除此之外,实验三还进行了方差分析, 这及之前的实验比较相似,都是用到数据分析这个工具,主要的工作量集中在数据的输入和数据的分析方面,比较难的就是就是在根据输入的数据作出数据表,然后要进行数据分析。教师评语:本次实验成 绩项目预习实验过程练习题报告书写出勤和实验纪律其他得分成绩合计:教师签字:批改日期:6.9为比较新旧两种肥料对产量的影响,以便决定是否采用新肥料。研究者选择了面积、土壤等条件相同的40块田地,分别
18、施用新旧两种肥料,得到的产量数据如下:(数据略)去显著性水平=0.05,检验:(1)新肥料获得的平均产量是否显著地高于旧肥料?假设条件为:1)两种肥料产量的方差未知但相等,即1=2。 2)两种肥料产量的方差未知且不相等,即12。解:(1)设1=新肥料,2=旧肥料。H0:1-20;H1:1-20。t-检验: 双样本等方差假设变量 1变量 2平均100.7109.9方差24.1157894733.35789474观测值2020合并方差28.73684211假设平均差0df38t Stat-5.427106029P(T=t) 单尾1.73712E-06t 单尾临界1.68595446P(T=t) 双
19、尾3.47424E-06t 双尾临界2.0243941641)t=-5.427,P=1.73712E-06,拒绝原假设,新肥料获得的平均产量显著地高于旧肥料。t-检验: 双样本异方差假设变量 1变量 2平均100.7109.9方差24.1157894733.35789474观测值2020假设平均差0df37t Stat-5.427106029P(T=t) 单尾1.87355E-06t 单尾临界1.68709362P(T=t) 双尾3.74709E-06t 双尾临界2.0261924632)P=1.87355E-06,拒绝原假设,新肥料获得的平均产量显著地高于旧肥料F-检验 双样本方差分析变量
20、1变量 2平均100.7109.9方差24.1157894733.35789474观测值2020df1919F0.722940991P(F0.025,不拒绝原假设,没有证据表明两种肥料的方差有显著差异。7.2一家电视台为了解观众对某档娱乐节目的喜欢程度,对不同年龄段的男女观众进行了调查。男性Observed NExpected NResidual557.0-2.06628.1-22.1121213.2-1.2161610.55.525255.319.7Total64Test Statistics男性Chi-Square94.942adf4Asymp. Sig.000a. 0 cells (.0
21、%) have expected frequencies less than 5. The minimum expected cell frequency is 5.3.解:提出假设:H0:男性观众喜欢该档娱乐节目的比例和女性一致;H1:男性观众喜欢该档娱乐节目的比例和女性不一致由于P=0.8580.05,不拒绝原假设,表明男性观众喜欢该档娱乐节目的比例和女性一致。7.4为分析不同地区的消费者及所购买的汽车价格是否有关,一家汽车企业的销售部门对东部地区、中部地区和西部地区的四百个消费者做抽样调查,检查地区及 所购买的汽车价格是否有关。Case Processing SummaryCasesVa
22、lidMissingTotalNPercentNPercentNPercent汽车价格 * 地区400100.0%0.0%400100.0%ValuedfAsymp. Sig. (2-sided)Pearson Chi-Square29.991a6.000Likelihood Ratio30.6836.000N of Valid Cases400a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 21.00.汽车价格 * 地区 Crosstabulation地区Total东部地区西部地区
23、中部地区汽车价格1020万元Count505060160Expected Count56.048.056.0160.010万元以下Count204040100Expected Count35.030.035.0100.02030万元Count30202070Expected Count24.521.024.570.030万元以上Count40102070Expected Count24.521.024.570.0TotalCount140120140400Expected Count140.0120.0140.0400.0解:提出假设:H0:地区及所购买的汽车价格独立;H1:地区及所购买的汽车
24、价格不独立由于P值接近于0,拒绝原假设,表明地区及所购买的汽车价格不独立。8.3某家电制造公司准备购进一批5#电池,现有A、B、C三个电池生产企业愿意供货,为比较它们生产的电池质量,从每个企业各随机抽取5只电池,经试验得其寿命(单位:h)数据如下。试分析三个企业生产的电池的平均寿命之间有无显著差异( =0.05)。如果有差异,试用多重比较检验哪些企业之间有差异?解:单因素方差分析:提出假设:H0:m1=2=3;H1: 1,2,3不全为0SUMMARY组观测数求和平均方差列 1522244.428.3列 251503010列 3521342.615.8方差分析差异源SSdfMSFP-valueF
25、 crit组间615.62307.817.068390.000313.885294组内216.41218.03333总计83214由于F=17.07F0.05(2,12)=3.89,因此拒绝原假设H0,即三个企业生产的电池的平均寿命之间有显著差异。 多重比较检验:一:提出假设:检验1:H0:1=2H1:12检验2:H0:1=3H1:13检验3:H0:2=3H1:23二:计算检验的统计量:y1-y2=14.4y1-y3=1.8y2-y3=12.6三:计算LSD根据方差分析表可知,MSE=18.03333。t分布的自由度为n-k=12,根据LSD计算公式计算LSD=5.85四:做出决策y1-y2=
26、14.45.85,拒绝H0,A企业和B企业的电池的平均寿命之间有显著差异y1-y3=1.85.85拒绝H0,B企业和C企业的电池的平均寿命之间有显著差异。8.6城市道路交通管理部门为研究不同的路段和不同的时段对行车时间的影响,让一名交通警察分别在 3 个路段的高峰期及非高峰期亲自驾车进行试验,通过试验共获得 30 个行车时间的数据单位:分。试分析路段、时段以及路段和时段的交互作用对行车时间的影响 =0.05。Exel:方差分析:可重复双因素分析SUMMARY路段1路段2路段3总计高峰期观测数55515求和181.4151.8172.2505.4平均36.2830.3634.4433.69333
27、方差2.2672.5182.7238.702095非高峰期观测数55515求和150121141.4412.4平均3024.228.2827.49333方差5.2656.0255.79711.22067总计观测数101010求和331.4272.8313.6平均33.1427.2831.36方差14.3026714.3373314.32711方差分析差异源SSdfMSFP-valueF crit行355.7787939.5309623.008884.18E-082.456281列180.5147290.2573352.534023.06E-083.554557误差30.92533181.718
28、074总计567.218729解:H0:无影响 H1:有影响1.路段对行车时间的影响P=4.18E-08=0.05,表明路段对行车时间的影响显著。2.时段以对行车时间的影响P=3.06E-08=0.05,表明时段以对行车时间的影响显著。3.路段和时段的交互作用对行车时间的影响F=0.026956F,拒绝原假设,即线性关系显著。(5)y =734.6928+0.308683x=734.6928+0.3086835000=2278.1078(元)(6)置信区间为(1990.74915,2565.46399)9.3随机抽取10家航空公司,对其最近一年的航班正点率和顾客投诉次数金子那个调查,所得数据如下:(数据略)(1)用航班正点率作自变量,顾客投诉次数作因变量,求出估计的回归方程,并解释其意义。(2)检验回归系数的显著性。(=0.05)(3)如果航班的正点率为80%,估计顾客的投诉次数。Model SummarybModelRR SquareAdjusted R SquareStd. Error of the Estimate1.869a.755.72418.887a. Predictors: (Constant), 航班正点率(%)b. Dependent Va