《《统计学A》主观题作业.doc》由会员分享,可在线阅读,更多相关《《统计学A》主观题作业.doc(166页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date统计学A主观题作业统计学A主观题作业统计学A第一次作业二、主观题(共4道小题)6.指出下面的数据类型:(1)年龄(2)性别(3)汽车产量(4)员工对企业某项改革措施的态度(赞成、中立、反对)(5)购买商品时的支付方式(现金、信用卡、支票)参考答案: (1)年龄:离散数值数据(2)性别:分类数据(3)汽车产量:离散数值数据(4)员工对企业某项改革措施的态度(赞成、中立、
2、反对):顺序数据(5)购买商品时的支付方式(现金、信用卡、支票):分类数据7.某研究部门准备抽取2000个职工家庭推断该城市所有职工家庭的年人均收入。要求:(1)描述总体和样本。(2)指出参数和统计量。参考答案:(1)总体:全市所有职工家庭;样本:2000个职工家庭(2)参数:全市所有职工家庭的人均收入;统计量:2000个职工家庭的人均收入。8.一家研究机构从IT从业者中随机抽取1 000人作为样本进行调查,其中60回答他们的月收入在5 000元以上,50的人回答他们的消费支付方式是用信用卡。要求:(1)这一研究的总体是什么?(2)月收入是分类变量、顺序变量还是数值型变量?(3)消费支付方式是
3、分类变量、顺序变量还是数值型变量?(4)这一研究涉及截面数据还是时间序列数据?参考答案:(1)所有IT从业者。(2)月收入十数值型变量(3)消费支付方式是分类变量(4)涉及截面数据9.一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。要求:(1)这一研究的总体是什么?(2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量?(3)研究者所关心的参数是什么?(4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量?(5)研究者所使用的主要是描述统计方法还是推断统计方法?参考答案:(1)网上购物的所有消费者(2)分类变量(3)所
4、有消费者网上购物的平均花费、所有消费者选择网上购物的主要原因(4)统计量(5)描述统计统计学A第二次作业二、主观题(共1道小题)31.自填式、面访式、电话式各有什么长处和弱点?参考答案:自填式优点:调查成本最低;适合于大范围的调查;适合于敏感性问题的调查。自填式缺点:较低的回收率;不适用于较复杂的问题的调查;调查中回答问题的情况不受控制(比如多人采用相同的回答);调查周期长。面访式优点:较高的回答率;调查员可以对回答进行解释、确认、澄清,避免含混不清的回答。面访式缺点:调查成本高;不适用于敏感性问题;调查员的素质会影响调查质量。电话式优点:速度快;便于调查控制;适合于大范围的调查。电话式缺点:
5、受电话安装情况的限制;在涉及复杂问题,或问题较多时,容易被拒绝回答。统计学A第三次作业(注意:若有主观题目,请按照题目,离线完成,完成后纸质上交学习中心,记录成绩。在线只需提交客观题答案。)二、主观题(共5道小题)16.为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。服务质量的等级分别表示为:A好;B较好;C一般;D较差;E.差。调查结果如下:BECCADCBAEDACBCDECEEADBCCAEDCBBACDEABDDCCBCEDBCCBCDACBCDECEBBECCADCBAEBACEEABDDCADBCCAEDCBCBCEDBCCBC要求:(1)指出上面的数据属于什
6、么类型。(2)用Excel制作一张频数分布表。(3)绘制一张条形图,反映评价等级的分布。(4)绘制评价等级的帕累托图。参考答案:(1)顺序数据(2)用数据分析直方图制作:接收频率E16D17C32B21A14(3)用数据分析直方图制作:(4)逆序排序后,制作累计频数分布表:接收频数频率(%)累计频率(%)C323232B212153D171770E161686A141410017.某行业管理局所属40个企业2002年的产品销售收入数据如下:152124129116100103929512710410511911411587103118142135125117108105110107137120
7、1361171089788123115119138112146113126要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。(2)按规定,销售收入在125万元以上为先进企业,115125万元为良好企业,105115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。参考答案:(1)1、确定组数:,取k=62、确定组距:组距(最大值-最小值)组数=(114-42)6=10.83,取103、分组频数表销售收入频数频率%累计频数累计频率%80.00 - 89.0025.025.090.00 - 99.0037.5512.51
8、00.00 - 109.00922.51435.0110.00 - 119.001230.02665.0120.00 - 129.00717.53382.5130.00 - 139.00410.03792.5140.00 - 149.0025.03997.5150.00+12.540100.0总和40100.0(2)频数频率%累计频数累计频率%先进企业1025.01025.0良好企业1230.02255.0一般企业922.53177.5落后企业922.540100.0总和40100.018.一种袋装食品用生产线自动装填,每袋重量大约为50g,但由于某些原因,每袋重量不会恰好是50g。下面是随机
9、抽取的100袋食品,测得的重量数据如下:单位:g57464954555849615149516052545155605647475351485350524045575352514648475347534447505253474548545248464952595350435346574949445752424943474648515945454652554749505447484457475358524855535749565657534148要求:(1)构建这些数据的频数分布表。(2)绘制频数分布的直方图。(3)说明数据分布的特征。参考答案:解:(1)根据上面的数据进行适当的分组,编制频数分
10、布表,并计算出累积频数和累积频率。1、确定组数:,取k=6或72、确定组距:组距(最大值-最小值)组数=(61-40)6=3.5,取3或者4、5组距(最大值-最小值)组数=(61-40)7=3,3、分组频数表组距3,上限为小于频数百分比累计频数累积百分比有效40.00 - 42.0033.033.043.00 - 45.0099.01212.046.00 - 48.002424.03636.049.00 - 51.001919.05555.052.00 - 54.002424.07979.055.00 - 57.001414.09393.058.00+77.0100100.0合计100100.
11、0直方图:组距4,上限为小于等于频数百分比累计频数累积百分比有效= 40.0011.011.041.00 - 44.0077.088.045.00 - 48.002828.03636.049.00 - 52.002828.06464.053.00 - 56.002222.08686.057.00 - 60.001313.09999.061.00+11.0100100.0合计100100.0直方图:组距5,上限为小于等于频数百分比累计频数累积百分比有效= 45.001212.012.012.046.00 - 50.003737.049.049.051.00 - 55.003434.083.083
12、.056.00 - 60.001616.099.099.061.00+11.0100.0100.0合计100100.0直方图:分布特征:左偏钟型。19.甲乙两个班各有40名学生,期末统计学考试成绩的分布如下:考试成绩人数甲班乙班优良中及格不及格361894615982要求:(1)根据上面的数据,画出两个班考试成绩的对比条形图和环形图。(2)比较两个班考试成绩分布的特点。(3)画出雷达图,比较两个班考试成绩的分布是否相似。参考答案:(1)(2)甲班成绩中的人数较多,高分和低分人数比乙班多,乙班学习成绩较甲班好,高分较多,而低分较少。(3)分布不相似。20.已知19952004年我国的国内生产总值
13、数据如下(按当年价格计算):单位:亿元年份国内生产总值第一产业第二产业第三产业199519961997199819992000200120022003200458478.1678846744626783452820675894681973148105172.3117390213687591199313844.2142112145524144719614628215411816117316928120768072853833613372233861940558449354875052980612747238717947204282302925174270382990533153360753918
14、843721要求:(1)用Excel绘制国内生产总值的线图。(2)绘制第一、二、三产业国内生产总值的线图。(3)根据2004年的国内生产总值及其构成数据绘制饼图。参考答案:(1)(2)(3)统计学A第四次作业二、主观题(共7道小题)18.随机抽取25个网络用户,得到他们的年龄数据如下:单位:周岁19152925242321382218302019191623272234244120311723要求;(1)计算众数、中位数: (2)根据定义公式计算四分位数。(3)计算平均数和标准差;(4)计算偏态系数和峰态系数:(5)对网民年龄的分布特征进行综合分析:参考答案:(1)1、排序形成单变量分值的频数
15、分布和累计频数分布:网络用户的年龄频数频率累计频数累计频率Valid1514.014.01614.028.01714.0312.01814.0416.019312.0728.02028.0936.02114.01040.02228.01248.023312.01560.02428.01768.02514.01872.02714.01976.02914.02080.03014.02184.03114.02288.03414.02392.03814.02496.04114.025100.0Total25100.0从频数看出,众数Mo有两个:19、23;从累计频数看,中位数Me=23。(2)Q1位置
16、=25/4=6.25,因此Q1=19,Q3位置=325/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.752=26.5。(3)均值=24.00;标准差=6.652(4)偏度系数SK=1.080;峰度系数K=0.773(5)分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态,需要进行分组。为分组情况下的直方图:为分组情况下的概率密度曲线:分组:1、确定组数:,取k=62、确定组距:组距(最大值-最小值)组数=(41-15)6=4.3,取53、分组频数表网络用户的年龄(Binned)频数频率累计频数累计频率Valid= 1514.014
17、.016 - 20832.0936.021 - 25936.01872.026 - 30312.02184.031 - 3528.02392.036 - 4014.02496.041+14.025100.0Total25100.0分组后的均值与方差:均值23.3000标准差7.02377方差49.333偏度系数Skewness1.163峰度系数Kurtosis1.302分组后的直方图:19.某银行为缩短顾客到银行办理业务等待的时间。准备采用两种排队方式进行试验:一种是所有颐客都进入一个等待队列:另种是顾客在三千业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短两种排队方式各随机抽取
18、9名顾客。得到第一种排队方式的平均等待时间为72分钟,标准差为197分钟。第二种排队方式的等待时间(单位:分钟)如下:556667687173747878要求:(1)画出第二种排队方式等待时间的茎叶图。(2)计算第二种排队时间的平均数和标准差。(3)比较两种排队方式等待时间的离散程度。(4)如果让你选择一种排队方式,你会选择哪种?试说明理由。参考答案:(1)第二种排队方式的等待时间(单位:分钟) Stem-and-Leaf Plot频数茎叶图1.00(=5.5)3.006 .6783.007 .1342.007 .88(2)(3)第二种排队方式的离散程度小。(4)选择第二种,均值小,离散程度小
19、。均值7标准差0.714143方差0.5120.在某地区抽取120家企业,按利润额进行分组,结果如下:按利润额分组(万元)企业数(个)200300300400400500500600600以上1930421811合计120要求:(1)计算120家企业利润额的平均数和标准差。(2)计算分布的偏态系数和峰态系数。参考答案:解:Statistics企业利润组中值Mi(万元)N有效120缺失0均值426.6667标准差116.48445偏度系数Skewness0.208峰度系数Kurtosis-0.62521.一项关于大学生体重状况的研究发现男生的平均体重为60kg,标准差为5kg;女生的平均体重为5
20、0kg,标准差为5kg。请回答下面的问题:(1)是男生的体重差异大还是女生的体重差异大?为什么?(2)以磅为单位(1ks22lb),求体重的平均数和标准差。(3)粗略地估计一下,男生中有百分之几的人体重在55kg一65kg之间?(4)粗略地估计一下,女生中有百分之几的人体重在40kg60kg之间?参考答案:(1)女生,因为标准差一样,而均值男生大,所以,离散系数是男生的小,离散程度是男生的小。(2)都是各乘以2.21,男生的平均体重为60kg2.21=132.6磅,标准差为5kg2.21=11.05磅;女生的平均体重为50kg2.21=110.5磅,标准差为5kg2.21=11.05磅。(3)
21、粗略地估计一下,男生中有百分之几的人体重在55kg一65kg之间?计算标准分数:Z1=-1;Z2=1,根据经验规则,男生大约有68%的人体重在55kg一65kg之间。(4)计算标准分数:Z1=-2;Z2=2,根据经验规则,女生大约有95%的人体重在40kg一60kg之间。22.一条产品生产线平均每天的产量为3 700件,标准差为50件。如果某一天的产量低于或高于平均产量,并落人士2个标准差的范围之外,就认为该生产线“失去控制”。下面是一周各天的产量,该生产线哪几天失去了控制?时间周一周二周三周四周五周六周日产量(件)3 8503 6703 6903 7203 6103 5903 700参考答案
22、:解:时间周一周二周三周四周五周六周日产量(件)3850367036903720361035903700日平均产量3700日产量标准差50标准分数Z3-0.6-0.20.4-1.8-2.20标准分数界限-2-2-2-2-2-2-22222222周六超出界限,失去控制。23.一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。下面是15个工人分别用三种方法在相同的时间内组装的产品数量:单位:个方法A方法B方法C16416716816517016516416816416216316616716616512913012913013130
23、129127128128127128128125132125126126127126128127126127127125126116126125要求:(1)你准备采用什么方法来评价组装方法的优劣?(2)如果让你选择一种方法,你会作出怎样的选择?试说明理由。参考答案:解:对比均值和离散系数的方法,选择均值大,离散程度小的。方法A方法B方法C平均165.6平均128.7333333平均125.5333333标准差2.131397932标准差1.751190072标准差2.774029217离散系数:VA=0.01287076,VB= 0.013603237,VC= 0.022097949均值A方法
24、最大,同时A的离散系数也最小,因此选择A方法。24.在金融证券领域,一项投资的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低;预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。(1)你认为该用什么样的统计量来反映投资的风险?(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?(3)如果进行股票投资,你会选择商业类股票还是高科技类股票?参考答案:(1)标准差或者离散系数。(2)选择离散系数
25、小的股票,则选择商业股票。(3)考虑高收益,则选择高科技股票;考虑风险,则选择商业股票。统计学A第五次作业二、主观题(共3道小题)12.调节一个装瓶机使其对每个瓶子的灌装量均值为盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差盎司的正态分布。随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个瓶子的灌装量。试确定样本均值偏离总体均值不超过0.3盎司的概率。参考答案:解:总体方差知道的情况下,均值的抽样分布服从的正态分布,由正态分布,标准化得到标准正态分布:z=,因此,样本均值不超过总体均值的概率P为:=2-1,查标准正态分布表得=0.8159因此,=0.631813.,表示从标准正态总
26、体中随机抽取的容量,n=6的一个样本,试确定常数b,使得参考答案:解:由于卡方分布是由标准正态分布的平方和构成的:设Z1,Z2,Zn是来自总体N(0,1)的样本,则统计量服从自由度为n的2分布,记为22(n)因此,令,则,那么由概率,可知:b=,查概率表得:b=12.5914.在习题6.1中,假定装瓶机对瓶子的灌装量服从方差的标准正态分布。假定我们计划随机抽取10个瓶子组成样本,观测每个瓶子的灌装量,得到10个观测值,用这10个观测值我们可以求出样本方差,确定一个合适的范围使得有较大的概率保证S2落入其中是有用的,试求b1,b2,使得参考答案:解:更加样本方差的抽样分布知识可知,样本统计量:此
27、处,n=10,所以统计量根据卡方分布的可知:又因为:因此:则:查概率表:=3.325,=19.919,则=0.369,=1.88统计学A第六次作业二、主观题(共13道小题)24.某快餐店想要估计每位顾客午餐的平均花费金额。在为期3周的时间里选取49名顾客组成了一个简单随机样本。(1)假定总体标准差为15元,求样本均值的抽样标准误差。(2)在95的置信水平下,求边际误差。(3)如果样本均值为120元,求总体均值的95的置信区间。参考答案:(1)=2.143(2),由于是大样本抽样,因此样本均值服从正态分布,因此概率度t=因此, =1.962.143=4.2(3)置信区间为:=(115.8,124
28、.2)25.某大学为了解学生每天上网的时间,在全校7 500名学生中采取重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时):3.33.16.25.82.34.15.44.53.24.42.05.42.66.41.83.55.72.32.11.91.25.14.34.23.60.81.54.71.41.22.93.52.40.53.62.5求该校大学生平均上网时间的置信区间,置信水平分别为90,95和99。参考答案:解:(1)样本均值=3.32,样本标准差s=1.61;(2)抽样平均误差:重复抽样:=1.61/6=0.268不重复抽样:=0.268=0.2680.9
29、98=0.267(3)置信水平下的概率度:=0.9,t=1.645=0.95,t=1.96=0.99,t=2.576(4)边际误差(极限误差):=0.9,=重复抽样:=1.6450.268=0.441不重复抽样:=1.6450.267=0.439=0.95,=重复抽样:=1.960.268=0.525不重复抽样:=1.960.267=0.523=0.99,=重复抽样:=2.5760.268=0.69不重复抽样:=2.5760.267=0.688(5)置信区间:=0.9,重复抽样:=(2.88,3.76)=0.95,重复抽样:=(2.79,3.85)=0.99,重复抽样:=(2.63,4.01)
30、不重复抽样:=(2.63,4.01)不重复抽样:=(2.88,3.76)不重复抽样:=(2.80,3.84)26.某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(单位:km)分别是:103148691211751015916132假定总体服从正态分布,求职工上班从家里到单位平均距离的95的置信区间。参考答案:解:小样本,总体方差未知,用t统计量均值=9.375,样本标准差s=4.11置信区间:=0.95,n=16,=2.13=(7.18,11.57)27.一家研究机构想估计在网络公司工作的员工每周加班的平均时间,为此随机抽取了18个员工。得到他
31、们每周加班的时间数据如下(单位:小时):63218171220117902182516152916假定员工每周加班的时间服从正态分布。估计网络公司员工平均每周加班时间的90%的置信区间。参考答案:解:小样本,总体方差未知,用t统计量均值=13.56,样本标准差s=7.801置信区间:=0.90,n=18,=1.7369=(10.36,16.75)28.在一项家电市场调查中随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占23。求总体比例的置信区间,置信水平分别为90%和95%。参考答案:解:总体比率的估计大样本,总体方差未知,用z统计量样本比率=0.23置
32、信区间:=0.90,=1.645=(0.1811,0.2789)=0.95,=1.96=(0.1717,0.2883)29.顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,银行各随机抽取10名顾客,他们在办理业务时所等待的时间(单位:分钟)如下:方式16.56.66.76.87.17.37.47.77.77.7方式24.25.45.86.
33、26.77.77.78.59.310要求:(1)构建第一种排队方式等待时间标准差的95的置信区间。(2)构建第二种排队方式等待时间标准差的95的置信区间。(3)根据(1)和(2)的结果,你认为哪种排队方式更好?参考答案:解:估计统计量经计算得样本标准差=3.318置信区间:=0.95,n=10,=19.02,=2.7=(0.1075,0.7574)因此,标准差的置信区间为(0.3279,0.8703)(2)估计统计量经计算得样本标准差=0.2272置信区间:=0.95,n=10,=19.02,=2.7=(1.57,11.06)因此,标准差的置信区间为(1.25,3.33)(3)第一种方式好,标
34、准差小!30.从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表所示:来自总体1的样本来自总体2的样本=25=16=23=20差如下表所示:(1)设100,求的95的置信区间。(2)设10,=,求的95的置信区间。(3)设10,求的95的置信区间。(4)设n110,n220。=,求的95的置信区间。(5)设n110,n220。,求的95的置信区间。参考答案:解:(1)大样本,总体方差未知,统计量:=0.95,=1.96置信区间为:=(0.824,3.176)(2)小样本,总体方差未知,总体方差相等,统计量:=0.95,n1+n2-2=18,=2.101=4.243置信区间为:
35、=(-1.986,5.986)(3)小样本,总体方差未知,总体方差不相等,统计量:=18=0.95,=18,=2.101置信区间为:=(-1.986,5.986)(4)小样本,总体方差未知,总体方差相等,统计量:=0.95,n1+n2-2=28,=2.048=4.326置信区间为:=(-1.432,5.432)(5)小样本,总体方差未知,总体方差不相等,统计量:=20=0.95,=18,=2.086置信区间为:=(-1.364,5.364)31.下表是由4对观察值组成的随机样本。配对号来自总体A的样本来自总体B的样本1234251080765(1)计算A与B各对观察值之差,再利用得出的差值计算和。(2)设分别为总体A和总体B的均值,构造的95的置信区间。参考答案:(1)=1.75,=2.62996 (2)小样本,配对样本,总体方差未知,用t统计量均值=1.75,样本标准差s=2.62996置信区间:=0.95,n=4,=3.182=(-2.43,5.93)32.生产工序的方差是工序质量的一个重要度量。当方差较大时,需要对序进行改进以减小方差。下面是两部机器生产的袋茶重量(单位:g)的数据:机器1机器23.453.223.93.223.283.353.22.983.73.383.193.33.223.7