《统计学第二次作业.doc》由会员分享,可在线阅读,更多相关《统计学第二次作业.doc(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除统计学第二次作业(2012年4月27日)第五章置信区间5-28、2003年,在一项对高校扩招的态度调查中,10所北京市院校对高校扩招的态度数据如下表(分数越高态度越积极):院校名态度平均值标准差人数北京外国语学院中国人民公安大学中国青年政治学院北京农学院北京大学清华大学北方交通大学北京航空航天大学对外经济贸易大学北京医学院3.814.324.083.983.583.784.264.123.884.070.670.550.680.650.640.710.660.740.570.6348505250504950424844求:1) 中国人民公安大学、
2、清华大学、北京大学的总体平均态度分的95置信区间; 2) 中国人民公安大学和北京大学的总体平均态度分之差的95置信区间; 3) 清华大学和北京大学的总体平均态度分之差的95置信区间。 (提示:要先从S求得 )解:(1)因为表中样本数都大于30,所以认为样本均值的抽样分布服从正态分布。N(u,),用s近似代替,根据样本数据的样本均值和标准差:置信水平1-=95%,查标准正态分布表=1.96中国人民公安大学总体态度分的95置信区间为(x1-* , x1+* ),将表中数据代入(4.32-1.96*,4.32+1.96*)=(4.17,4.47)清华大学总体态度分的95置信区间为(x2-* , x2
3、+* ),同理计算求得(3.58,3.98)。北京大学总体态度分的95置信区间为(x3-* , x2+* ),同理计算求得(3.40,3.76)。(2)两个样本都为大样本,所以根据抽样分布的知识可知,两样本均值之差(-)的抽样分布服从(u1- u2)、方差为(+)的正态分布。中国人民公安大学和北京大学的总体平均态度分之差的95置信区间为(-)-*,(-)+*。用样本方差代替总体方差。所以求得两者总体均值方差的置信区间(0.51,0.97)。(3)同(2),可以求得清华大学和北京大学的总体平均态度分之差的95置信区间为(-0.066,0.466)。第六章假设检验6-6、从死于汽车碰撞事故的司机中
4、抽取2000名司机的随机样本,根据他们的血液中是否含有酒精以及他们是否对事故负有责任,将数据整理如下表所示。 在整个总体中,血液中含有酒精和不含酒精的司机之间在对事故负有责任方面有差异吗?为了回答这一问题: 1) 叙述并计算概值; 2) 计算适当的置信区间(95)来说明差异有多大; 3) 从这一数据如何说明“酒精增加了事故的发生率”。有酒精吗有责任吗有无有650150无700500解:设 为含酒精中有责任的概率,无酒精中有责任的概率。提出假设:血液中含酒精和不含酒精的司机之间对事故富有的责任无差异。即= :。依据样本数据:=650/(650+150)=13/16 =700/(700+500)=
5、7/12构造统计量:P=- 又因为N(,),N(,)所以- N(-,+) 记+为-的95%的置信区间为(-*s,-+*s)=(0.19,0.27)。不包括0 ,所以拒绝零假设。可见含酒精的对事故负责任的概率远大于不含酒精的。即酒精增加了事故的而发生率。6-9、1974年,美国盖洛普公司的一次调查表明,在750名美国男子的样本中,有45抽烟;在另一个相互独立的750名女子的样本中,36抽烟,1) 构造男性总体和女性总体中抽烟比例之差的95单侧置信区间;2) 计算没有差异这一原假设的概值;3) 在错误水平 =005下,45与36之差在统计上是可以分辨的吗?(或是显著的吗?)即,能拒绝吗?用两种方式
6、回答,并说明两种答案是一致的: 1) 是否没有落入95的置信区间之内? 2) 对的概值是否小于0.05?解:设男性抽烟比例为,女性抽烟比例为。构造统计量:P=- 又因为N(,),N(,)所以- N(-,+)记+为P( (2,147)=3.07拒绝原假设;认为不同学历的妇女收入存在差异。8-9、月收入数据: 男:2500,2550,2050,2300,1900 女:2200,2300,1900,2000,1800 如果用Y表示收入,哑变量X表示性别(X=1为女性),计算Y对X的回归方程,并在5的水平下检验收入是否与性别无关(先求回归系数的置信区间)。解:令Y=+X+根据最小二乘法,可知= (1)
7、VAR()= (2)= (3)计算如下:收入与性别无关收入与性别不完全无关Y2500255020502300190022002300190020001800X0000011111240290-21040-360160260-140-40-240=2150=0.5根据公式1,得=-220;,即Y=-220X+根据公式2、3,得VAR()=156.3549577n=10.,n-2=8;当df=8时,=2.306的0.05置信区间求解方法如下:-2.036=2.306,得140.57769.由于原假设=0落入了这个置信区间,所以接受原假设,认为系数不显著,收入与性别无关。第九章相关分析9-1、10对夫妇的一个随机样本给出了如下的结婚年龄数据结婚时丈夫的年龄24 22 26 20 23 21 24 25 22 23结婚时妻子的年龄24 18 25 22 20 23 19 24 23 221) 计算样本相关系数r;2) 求总体相关系数的95置信区间;3) 以5的水平,检验“夫妻的结婚年龄之间没有什么线性联系”这一原假设。解:(1) =由于=22,=23;=0.3426(2)由于se()=,n=10,df=8=2.306,所以:se()=0.332-2.036=11.07自由度df=1*5=5;所以拒绝原假设,备择假设成立,性别与希望看到的电视节目类型是有关联的。【精品文档】第 8 页