《统计学 各章练习题答案 贾俊平.doc》由会员分享,可在线阅读,更多相关《统计学 各章练习题答案 贾俊平.doc(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、优质文本附录1:各章练习题答案第1章 统计和统计数据1.1 1数值变量。2分类变量。3数值变量。4顺序变量。5分类变量。1.2 1总体是“所有IT从业者,样本是“所抽取的1000名IT从业者,样本量是1000。2数值变量。3分类变量。1.3 1总体是“所有的网上购物者。2分类变量。第2章 数据的图表展示2.1 1 属于顺序数据。数分布表如下:2频数分布表如下:效劳质量等级评价的频数分布效劳质量等级家庭数频率频率%A1414B2121C3232D1818E1515合计100100 3条形图如下:4帕累托图如下:2.2 1频数分布表如下:40个企业按产品销售收入分组表按销售收入分组万元企业数个频率
2、%向上累积向下累积企业数频率企业数频率100以下100110110120120130130140140以上591274312.522.530.017.510.07.55142633374012.535.065.082.592.5100.04035261473100.087.565.035.017.57.5合计40100.0 2 某管理局下属40个企分组表按销售收入分组万元企业数个频率%先进企业良好企业一般企业落后企业11119927.527.522.522.5合计40100.02.3 频数分布表如下:某百货公司日商品销售额分组表按销售额分组万元频数天频率%2530303535404045455
3、046159610.015.037.522.515.0合计40100.0 直方图如下:2.4 1频数分布表如下: 100只灯泡使用寿命非频数分布按使用寿命分组小时灯泡个数只频率%650660226606705567068066680690141469070026267007101818710720131372073010107307403374075033合计100100 2直方图如下: 从直方图可以看出,灯泡使用寿命的分布根本上是对称的。3茎叶图如下:65186614568671346796811233345558899690011112223344556667788889970001122
4、3456667788897100223356778897201225678997335674147茎叶图及直方图所反映的数据分布是一致的,不同的是茎叶图中保存了原始数据。2.5 1食品重量的频数分布表如下:按重量分组频率包404224244344467464816485017505210525420545685658105860460623合计100 2食品重量的频数分布的直方图如下:3从直方图可以看出,食品重量的分布根本上是对称分布。2.6 1频数分布表如下:按重量误差分组频数/个10202203033040840507506013607097080680902合计502直方图如下:从直方图
5、可以看出,零件重量误差的分布根本上是对称的。2.7 1属于数值型数据。2为绘制直方图,首先对数据进行分组,将数据用5作为组距进行分组,得到的频数分布表如下:分组天数天-25-206-20-158-15-1010-10-513-50120545107合计603根据分组数据绘制的直方图如下:从直方图可以看出,该城市12月份气温的分布根本上是对称的,温度在-10-5度之间的天数最多。2.8 1成人自学考试年龄分布的直方图如下:2从直方图可以清楚地看出,成人自学考试人员年龄的分布为右偏,也就是年龄在21岁24岁的人占绝大比例,而年龄在40岁以上的人所占的比例很小。2.9 1两个班考试成绩的茎叶图如下:
6、A班树茎B班数据个数树 叶树叶数据个数035921440448429751224566777891211976653321106011234688923988777665555544433321007878123345666322209011456601000032中茎叶图可以看出,A班考试成绩的分布比拟集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低。2.10 散点图如下:2.11 1比照条形图如下:环形图如下内环为甲班的成绩:2从比照条形图可以看出,甲班考试成绩在中等水平的人数较多,而优秀和良好的人数那么较少,不及格的人数也比乙班要多。乙班那么不同,考试成绩为优秀和良
7、好的人数较多,而中等以下的人数那么较少。这说明乙班学生的平均成绩比甲班要好。从环形图的百分比中也可以清楚地看出这一点。3两个班考试成绩的雷达图如下:从雷达图的形状可以看出,两个班考试成绩没有相似性。2.12 1国产车和进口车销售量的比照条形图如下:2国产车和进口车销售量的环形图如下:2.13 1国内生产总值的线图如下:2第一、二、三产业国内生产总值的线图如下:2004年国内生产总值构成的饼图如下:2.14 各城市各月份的平均相对湿度的箱线图如下:从箱线图可以看出,各城市的月平均相对湿度有较大差异。离散程度较大的城市主要是北京和长春箱子较大;离散程度较小的是成都、广州和武汉箱子较小;相对湿度最大
8、的城市主要有成都、广州、南京和武汉中位数较大;相对湿度最小的城市是兰州中位数较小;相对湿度分布比拟对称的城市主要是北京、武汉、广州和兰州等中位数大体上在箱子中间,最大值和最小值及箱子的距离大体相等;相对湿度不对称的城市主要有南京、郑州等。相对湿度存在极值的城市主要是长春和西安。第3章 数据的概括性度量3.1 1众数:。中位数:,。平均数:。2 ,。,。34由于平均数小于中位数和众数,所以汽车销售量为左偏分布。3.2 1从表中数据可以看出,年龄出现频数最多的是19和23,所以有两个众数,即和。将原始数据排序后,计算的中位数的位置为:,第13个位置上的数值为23,所以中位数。2,。,。3平均数。4
9、偏态系数:。峰态系数:。5分析:从众数、中位数和平均数来看,网民年龄在2324岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏,由于偏态系数大于1,所以偏斜程度很大。由于峰态系数为正值,所以为尖峰分布。3.3 1茎叶图如下:茎叶数据个数55166 7 8371 3 4 8 852。3由于两种排队方式的平均数不同,所以用离散系数进行比拟。第一种排队方式:;。由于,说明第一种排队方式的离散程度大于第二种排队方式。4选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。3.4 1。,。2 ,。,。3。3.5 1。.原因:尽管两个企业的
10、单位本钱相同,但单位本钱较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均本钱。3.6 1平均数计算过程见下表:按利润额分组组中值企业数20030025019475030040035030105004005004504218900500600550189900600以上650117150合计12051200。标准差计算过程见下表:按利润额分组组中值企业数2003002501931212.3593033.5300400350305878.3176348.740050045042544.322860.15006005501815210.3273785.2600以上6501149876.354
11、8639.2合计120102721.51614666.7。2偏态系数和峰态系数的计算过程见下表:按利润额分组组中值企业数20030025019-104771226.5 18509932589.2 30040035030-13520652.3 1036628411.8 40050045042533326.9 12442517.1 5006005501833765928.7 4164351991.6 600以上65011122527587.6 27364086138.8 合计12038534964.4 51087441648.4 偏态系数:。峰态系数:。3.7 1两位调查人员所得到的平均身高应该差
12、不多相同,因为均值的大小根本上不受样本大小的影响。2两位调查人员所得到的身高的标准差应该差不多相同,因为标准差的大小根本上不受样本大小的影响。3具有较大样本的调查人员有更大的时机取到最高或最低者,因为样本越大,变化的范围就可能越大。 3.8 1要比拟男女学生体重的离散程度应该采用离散系数。女生体重的离散系数为,男生体重的离散系数为,所以女生的体重差异大。2男生:磅,磅; 女生:磅,磅;3假定体重为对称分布,根据经验法那么,在平均数加减1个标准差范围内的数据个数大约为68%。因此,男生中大约有68%的人体重在55kg到65kg之间。4假定体重为对称分布,根据经验法那么,在平均数加减2个标准差范围
13、内的数据个数大约为95%。因此,女生中大约有95%的人体重在40kg到60kg之间。3.9 通过计算标准分数来判断:;。该测试者在A项测试中比平均分数高出1个标准差,而在B项测试中只高出平均分数0.5个标准差,由于A项测试的标准分数高于B项测试,所以A项测试比拟理想。3.10 通过标准分数来判断,各天的标准分数如下表:日期周一周二周三周四周五周六周日标准分数Z3-0.6-0.20.4-1.8-2.20周一和周六两天失去了控制。3.11 1应该采用离散系数,因为它消除了不同组数据水平上下的影响。2成年组身高的离散系数:; 幼儿组身高的离散系数:;由于幼儿组身高的离散系数大于成年组身高的离散系数,
14、说明幼儿组身高的离散程度相对较大。3.12 1应该从平均数和标准差两个方面进行评价。在对各种方法的离散程度进行比拟时,应该采用离散系数。2下表给出了用Excel计算一些主要描述统计量。方法A方法B方法C平均165.6平均128.73平均125.53中位数165中位数129中位数126众数164众数128众数126标准差2.13标准差1.75标准差2.77极差8极差7极差12最小值162最小值125最小值116最大值170最大值132最大值128从三种方法的集中趋势来看,方法A的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为:,。方法A的离散程度最小。因
15、此应选择方法A。3.13 1用方差或标准差来评价投资的风险。2从直方图可以看出,商业类股票收益率的离散程度较小,说明投资风险也就较小。3从投资风险角度看,应该选择风险较小的商业类股票。当然,选择哪类股票还及投资者的主观判断有很大关系。第4章 抽样及参数估计4.1 1:,。样本均值的抽样标准差。2估计误差。4.2 1:,。样本均值的抽样标准差。2估计误差。3由于总体标准差,所以总体均值的95%的置信区间为:,即115.8,124.2。4.3 :,。由于总体标准差,所以总体均值的95%的置信区间为:,即87818.856,121301.144。4.4 1:,。由于为大样本,所以总体均值的90%的置
16、信区间为:,即79.026,82.974。2:,。由于为大样本,所以总体均值的95%的置信区间为:,即78.648,83.352。3:,。由于为大样本,所以总体均值的99%的置信区间为:,即77.940,84.096。4.5 1:,。由于总体标准差,所以总体均值的95%的置信区间为:,即24.11,25.89。2:,。由于为大样本,所以总体均值的98%的置信区间为:,即113.17,126.03。3:,。由于为大样本,所以总体均值的90%的置信区间为:,即3.136,3.702。4.6 1:总体服从正态分布,。由于总体服从正态分布,所以总体均值的95%的置信区间为:,即8646.97,9153
17、.03。2:总体不服从正态分布, ,。虽然总体不服从正态分布,但由于为大样本,所以总体均值的95%的置信区间为:,即8734.35,9065.65。3:总体不服从正态分布,未知,。虽然总体不服从正态分布,但由于为大样本,所以总体均值的90%的置信区间为:,即8760.97,9039.03。4:总体不服从正态分布,未知,。虽然总体不服从正态分布,但由于为大样本,所以总体均值的99%的置信区间为:,即8681.95,9118.05。4.7 :,当为0.1、0.05、0.01时,相应的、。根据样本数据计算得:,。由于为大样本,所以平均上网时间的90%的置信区间为:,即2.88,3.76。平均上网时间
18、的95%的置信区间为:,即2.79,3.85。平均上网时间的99%的置信区间为:,即2.63,4.01。4.8 :总体服从正态分布,但未知,为小样本,。根据样本数据计算得:,。总体均值的95%的置信区间为:,即7.11,12.89。4.9 :总体服从正态分布,但未知,为小样本,。根据样本数据计算得:,。从家里到单位平均距离的95%的置信区间为:,即7.18,11.57。4.10 1: ,。由于为大样本,所以零件平均长度的95%的置信区间为:,即148.87,150.13。2在上面的估计中,使用了统计中的中心极限定理。该定理说明:从均值为、方差为的总体中,抽取容量为的随机样本,当充分大时通常要求
19、,样本均值的抽样分布近似服从均值为、方差为的正态分布。4.11 1:总体服从正态分布,但未知,为大样本,。根据样本数据计算得:,。该种食品平均重量的95%的置信区间为:,即100.87,101.77。2根据样本数据可知,样本合格率为。该种食品合格率的95%的置信区间为:,即0.82,0.98。4.12 :总体服从正态分布,但未知,为小样本,。根据样本数据计算得:,。总体均值的99%的置信区间为:,即15.64,16.62。4.13 :总体服从正态分布,但未知,为小样本,。根据样本数据计算得:,。网络公司员工平均每周加班时间的90%的置信区间为:,即10.36,16.76。4.14 1:,。总体
20、总比例的99%的置信区间为:,即0.32,0.70;2:,。总体总比例的95%的置信区间为:,即0.78,0.86;3:,。总体总比例的90%的置信区间为:,即0.46,0.50。4.15 :,为0.1和0.05时,相应的,。总体总比例的90%的置信区间为:,即0.18,0.28。总体总比例的95%的置信区间为:,即0.17,0.29。4.16 :,估计误差,。应抽取的样本量为:。4.17 1:,。应抽取的样本量为:。2:,未知,。由于未知,可用使用0.5。应抽取的样本量为:。3:,。应抽取的样本量为:。4.18 1:,。总体中赞成该项改革的户数比例的95%的置信区间为:,即0.51,0.77
21、。2:,。应抽取的样本量为:。第5章 假设检验5.1 1研究者想要寻找证据予以支持的假设是“新型弦线的平均抗拉强度相对于以前提高了,所以原假设及备择假设应为:,。 2如果不能拒绝原假设,表示没有充分的统计证据支持该开发小组认为新型弦线的抗拉强度得到了提高。3如果有充足的理由拒绝原假设,表示开发小组可以相信新型弦线的抗拉强度超过了1035Mpa,因此可以进一步采取推广措施。5.2 1该组织想要证实的假设是“每个月平均销售的汽车数量缺乏14辆,所以提出的假设形式为,。2当不能拒绝原假设时,该组织认为没有充分的理由疑心汽车销售管理者的说法。3当可以拒绝原假设时,该组织有充分的统计证据断定汽车销售管理
22、者的声明不真实。5.3 1,。2样本数据说明应该拒绝原假设时,意味着该生产线生产的玻璃纸平均横向延伸率不符合规格,必须对生产线进行调整。3样本数据无法支持拒绝原假设时意味着质量控制监督人员没有充分的理由认为该生产线所处状态不正常,无需停产调整。5.4 1发生第一类错误指的是实际上奖励方案并未提高销售人员的平均销售额,而公司董事长却认为它提高了销售人员的平均销售额,这将导致公司错误的推行新的奖励方案,却无法获得更高的销售额。2发生第二类错误指的是实际上奖励方案提高了销售人员的平均销售额,公司董事长却没有意识到,这将使公司错过推行新的奖励方案的时机,也就无法进一步提高销售额。5.5 1检验的临界值
23、是,拒绝法那么是:如果1.645,就拒绝。2检验统计量,所以拒绝原假设,认为新纤维的平均强力超过了6克。5.6 1。22.0时,检验统计量,不拒绝原假设。323.5时,检验统计量,不拒绝原假设。422.8时,检验统计量,不拒绝原假设。5.7 1拒绝规那么是:如果1.96或-1.96,那么拒绝。2检验统计量。3在5%的显著性水平下,不能拒绝原假设。5.8 建立原假设及备择假设为:,;检验统计量-2.33,拒绝原假设,认为该厂机器的平均开工本钱确实有所下降。5.9 建立原假设及备择假设为:,;,所以不拒绝原假设,也就是没有充分的理由疑心该厂生产的工艺品框架宽及长的平均比例不是0.618。5.10
24、1 。如果和都大于等于5。21.96,所以拒绝原假设,认为该医生的声明并不属实。第6章 相关及回归分析6.1 1散点图如下:从散点图可以看出,产量及生产费用之间为正的线性相关关系。2利用Excel的“CORREL函数计算的相关系数为。3首先提出如下假设:,。计算检验的统计量 当时,。由于检验统计量,拒绝原假设。说明产量及生产费用之间的线性关系显著。6.2 1散点图如下:从散点图可以看出,复习时间及考试分数之间为正的线性相关关系。2利用Excel的“CORREL函数计算的相关系数为。相关系数,说明复习时间及考试分数之间有较强的正线性相关关系。6.3 1表示当时的期望值为10。2表示每增加一个单位
25、,平均下降0.5个单位。3时,。6.4 1。表示,在因变量取值的变差中,有90%可以由及之间的线性关系来解释。2。表示,当用来预测时,平均的预测误差为0.5。6.5 1散点图如下:从散点图可以看出,运送距离及运送时间之间为正的线性相关关系。2利用Excel的“CORREL函数计算的相关系数为。相关系数,说明运送距离及运送时间之间有较强的正线性相关关系。3由Excel输出的回归结果如下表:回归统计Multiple R0.948943R Square0.900492Adjusted R Square0.888054标准误差0.480023观测值10方差dfSSMSFSignificance F回归
26、分析116.6816216.6816272.395852.79E-05残差81.8433790.230422总计918.525Coefficients标准误差t StatP-valueIntercept0.1181290.3551480.332620.74797X Variable 10.0035850.0004218.5085752.79E-050.002613得到的回归方程为:。回归系数表示运送距离每增加1公里,运送时间平均增加0.003585天。6.6 1散点图如下:从散点图可以看出,人均GDP及人均消费水平为正的线性相关关系。2利用Excel的“CORREL函数计算的相关系数为。相关系
27、数接近于1,说明人均GDP及人均消费水平之间有非常强的正线性相关关系。3由Excel输出的回归结果如下表: 回归统计Multiple R0.998128R Square0.996259Adjusted R Square0.995511标准误差247.3035观测值7方差分析dfSSMSFSignificance F回归11331.6922.91E-07残差530579561159.01总计6Coefficients标准误差t StatP-valueIntercept734.6928139.54035.2650940.003285X Variable 10.3086830.00845936.49
28、2362.91E-07得到的回归方程为:。回归系数表示人均GDP每增加1元,人均消费水平平均增加0.308683元。4判定系数。说明在人均消费水平的变差中,有99.6259%是由人均GDP决定的。.5首先提出如下假设:,由于Significance F,拒绝原假设,说明人均GDP及人均消费水平之间的线性关系显著。6元。7当时,。置信区间为:即1990.7,2565.5。预测区间为: 即1580.3,2975.9。6.7 1 散点图如下:从散点图可以看出,航班正点率及被投诉次数之间为负的线性相关关系。2由Excel输出的回归结果如下表:回归统计Multiple R0.868643R Square
29、0.75454Adjusted R Square0.723858标准误差18.88722观测值10方差分析dfSSMSFSignificance F回归分析18772.5848772.58424.591870.001108残差82853.816356.727总计911626.4Coefficients标准误差t StatP-valueIntercept430.189272.154835.9620290.000337X Variable 1-4.700620.947894-4.959020.001108得到的回归方程为:。回归系数表示航班正点率每增加1%,顾客投诉次数平均下降4.7次。3回归系数
30、检验的P-Value=0.001108,拒绝原假设,回归系数显著。4次。5当时,。置信区间为:即37.7,70.7。预测区间为: 即7.6,100.8。6.8 Excel输出的回归结果如下:Multiple R0.7951R Square0.6322Adjusted R Square0.6117标准误差2.6858观测值20方差分析dfSSMSFSignificance F回归1223.1403223.140330.93322.79889E-05残差18129.84527.2136总计19352.9855Coefficients标准误差t StatP-valueIntercept49.3177
31、3.805012.96120.0000X Variable 10.24920.04485.56180.0000由上表结果可知,出租率及月租金之间的线性回归方程为:。回归系数表示:月租金每增加1元,出租率平均增加0.2492%。,说明在出租率的变差中被出租率及租金之间的线性关系所解释的比例为63.22%,回归方程的拟合程度一般。估计标准误差表示,当用月租金来预测出租率时,平均的预测误差为2.6858%,说明预测误差并不大。由方差分析表可知,Significance F=2.79889E-05回归方程的线性关系显著。回归系数检验的P-value=0.0000,说明回归系数显著,即月租金是影响出租率
32、的显著性因素。6.9 1方差分析表中所缺的数值如下 方差分析表如下:变差来源dfSSMSFSignificance F回归11422708.61422708.6354.2772.17E-09残差1040158.074015.807总计111642866.672根据方差分析表计算的判定系数。说明汽车销售量的变差中有86.60%是由于广告费用的变动引起的。3相关系数可由判定系数的平方根求得:。4回归方程为:。回归系数表示广告费用每增加一个单位,销售量平均增加1.420211个单位。5由于Significance F2.17E-09,说明广告费用及销售量之间的线性关系显著。6.10 Excel输出的
33、回归结果如下:回归统计Multiple R0.968167R Square0.937348Adjusted R Square0.916463标准误差3.809241观测值5方差分析dfSSMSFSignificance F回归分析1651.2691651.269144.883180.006785残差343.5309414.51031总计4694.8Coefficients标准误差t StatP-valueIntercept13.625414.3994283.0970860.053417X Variable 12.3029320.3437476.6994910.006785由上述结果可知:回归方
34、程为,回归系数说明,每增加一个单位平均增加2.3029个单位;判定系数,说明回归方程的拟合程度较高;估计标准误差,说明用来预测时平均的预测误差为3.8092。6.11 1检验统计量:。2。3由于,所以拒绝原假设。4根据相关系数及判定系数之间的关系可知,。5提出假设:,由于,拒绝,线性关系显著。 6.12 1当时,。当,。的平均值的95%的置信区间为:即15.95,18.05。2预测区间为: 即14.65,19.35。6.13 Excel输出的回归结果如下:回归统计Multiple R0.947663R Square0.898064Adjusted R Square0.881075标准误差108
35、.7575观测值8方差分析dfSSMSFSignificance F回归分析1625246.3625246.352.860650.000344残差670969.211828.2总计7696215.5Coefficients标准误差t StatP-valueIntercept-46.291864.89096-0.713380.502402X Variable 115.239772.0961017.2705330.000344得到的线性回归方程为:。当时,。当,。2销售收入95%的置信区间为: 即270.65,685.04。第7章 时间序列分析和预测7.1 1时间序列图如下:从时间序列图可以看出,国家财政用于农业的支出额大体上呈指数上升趋势。2年平均增长率为:。3。7.2 1时间序列图如下:22001年的预测值为:3由Excel输出的指数平滑预测值如下表:年份单位面积产量指数平滑预测误差平方指数平滑预测误差平方19811451198213721451.06241.01451.06241.0198311681427.367236.51411.559292.31984