《2022年统计学思考题课后答案.docx》由会员分享,可在线阅读,更多相关《2022年统计学思考题课后答案.docx(31页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选学习资料 - - - - - - - - - 统计学 第一章1. 什么是统计学?怎样懂得统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学;统计学与统计数据 存在亲密关系, 统计学阐述的统计方法来源于对统计数据的讨论,目的也在于对 统计数据的讨论,离开了统计数据,统计方法以致于统计学就失去了其存在意义;2简要说明统计数据的来源 答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观看和科学 试验,在社会经济治理领域, 主要通过统计调查方式来获得, 如普查和抽样调查;间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得;3.简要说明抽样误差和非抽样误差 答
2、:统计调查误差可分为非抽样误差和抽样误差;非抽样误差是由于调查过程中各环节工作失误造成的, 从理论上看, 这类误差是可以防止的; 抽样误差是利用 样本推断总体时所产生的误差,它是不行防止的,但可以掌握的;4.答:(1)有两个总体: A 品牌全部产品、 B 品牌全部产品(2)变量:口味(如可用 10 分制表示)(3)匹配样本: 从两品牌产品中各抽取 分,形成匹配样本;1000 瓶,由 1000 名消费者分别打(4)从匹配样本的观看值中推断两品牌口味的相对好坏;其次章、统计数据的描述摸索题1 描述次数安排表的编制过程 答:分二个步骤:(1) 依据统计讨论的目的,将数据按分组标志进行分组;按品质标志
3、进行分组时, 可将其每个详细的表现作为一个组,或者几个表现合并 成一个组,这取决于分组的粗细;按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范畴(区间) 作为一个组;统计分组应遵循“ 不重不漏” 原就(2) 将数据安排到各个组,统计各组的次数,编制次数安排表;2说明洛伦兹曲线及其用途 答:洛伦兹曲线是 20 世纪初美国经济学家、统计学家洛伦兹依据意大利经济学 家帕累托提出的收入安排公式绘制成的描述收入和财宝安排性质的曲线;洛伦兹 曲线可以观看、分析国家和地区收入安排的平均程度;3. 一组数据的分布特点可以从哪几个方面进行测度?答:数据分
4、布特点一般可从集中趋势、离散程度、偏态和峰度几方面来测度;常名师归纳总结 - - - - - - -第 1 页,共 18 页精选学习资料 - - - - - - - - - 用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数;4 怎样懂得均值在统计中的位置?答:均值是对全部数据平均后运算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质, 是数据误差相互抵消后的客观事物必定性数量特点的一种 反映,在统计推断中显示出优良特性, 由此均值在统计中起到特别重要的基础地 位;受极端数值的影响是其使用时存在的问题;5 对比率数据的平均,为什么采纳几何平均?答:比率数
5、据往往表现出连乘积为总比率的特点,性质,由此需采纳几何平均;不同于一般数据的和为总量的6. 简述众数、中位数和均值的特点和应用场合;答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布外形及位置角度来考虑的,而均值是对全部数据运算后得到的;众数简洁运算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响;7 为什么要运算离散系数?答:在比较二组数据的差异程度时, 由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需运算离散系数作为比较的指标;练习题:1. 频数分布表如下:服务质量
6、等级评判的频数分布服务质量等级家庭数(频率)频率 % A1414B2121C3232D1818E1515合计100100条形图(略)2 (1)采纳等距分组:n=40 全距 =152-88=64 取组距为 10 组数为 64/10=6.4 取 6 组频数分布表如下:40 个企业按产品销售收入分组表名师归纳总结 按销售收入分组企业数频率向上累积向下累积第 2 页,共 18 页(万元)(个)(%)企业数频率企业数频率100 以下5 12.5 5 12.5 40 100.0 - - - - - - -精选学习资料 - - - - - - - - - 100 110 9 22.5 14 35.0 35
7、87.5 110 120 12 30.0 26 65.0 26 65.0 120 130 7 17.5 33 82.5 14 35.0 130 140 4 10.0 37 92.5 7 17.5 140 以上3 7.5 40 100.0 3 7.5 合计40 100.0 频率( %)( 2)某治理局下属40 个企分组表按销售收入分组(万元)企业数(个)先进企业11 27.5 良好企业11 27.5 一般企业9 22.5 落后企业9 22.5 合计40 100.0 3 采纳等距分组全距 =49-25=24 n=40 取组距为 5,就组数为 24/5=4.8 取 5 组频数分布表:名师归纳总结 按
8、销售额分组(万元)频数(天数)第 3 页,共 18 页25-30 4 30-35 6 35-40 15 40-45 9 45-50 6 合计40 - - - - - - -精选学习资料 - - - - - - - - - 1515Frequency10696540253035 sales4045504. (1)排序略;(2)频数分布表如下:100 只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率( %)650660 2 2 660670 5 5 670680 6 6 680690 14 14 690700 26 26 700710 18 18 710720 13 13 7207
9、30 10 10 730740 3 3 740750 3 3 合计100 100 直方图(略);(3)茎叶图如下:65 18 66 14 5 6 8 67 13 4 6 7 9 68 11 2 3 3 3 4 5 5 5 8 8 9 9 69 00 1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9 9 70 00 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 9 71 00 2 2 3 3 5 6 7 7 8 8 9 名师归纳总结 - - - - - - -第 4 页,共 18 页精选学习资料 - - - - - - - - - 72 0
10、1 2 2 5 6 7 8 9 9 73 35 6 74 14 7 5 等距分组 n=65 全距=9-(-25)=34 取组距为 5,组数 =34/5=6.8, 取 7 组 频数分布表:Frequency按气温分组8810天数147-25 - -20 8 -20 - -15 8 -15 - -10 10 -10 - -5 14 -5 - 0 14 0 - 5 4 5 - 10 7 合计65 151410540-30-20-10 tempture0107 (1)茎叶图如下:名师归纳总结 数据个数A 班树 叶树茎B 班数据个数第 5 页,共 18 页树叶0 4 3 59 2 1 4 0448 4
11、2 97 5 122456677789 12 11 97665332110 6 011234688 9 - - - - - - -精选学习资料 - - - - - - - - - 23 98877766555554443332100 7 00113449 8 (3)7 6655200 8 123345 6 6 632220 9 011456 6 0 10 000 3 A 班考试成果的分布比较集中,且平均分数较高; B 班考试成果的分布比A 班分散,且平均成果较A 班低8. 箱线图如下:(特点请读者自己分析)各 城 市 相 对 湿 度 箱 线 图958575655545Min-Max35北 京长
12、 春南 京郑 州武 汉广 州成 都昆 明兰 州西 安25%-75%Median value9(1) x=274.1 (万元); Me =272.5 ;QL=260.25 ; QU =291.25 ;(2)s21 . 17(万元);19.41(元),10甲企业平均成本3x 1i1m 1 i3m 1 i乙企业平均成本i1x 1 i18.29(元);3m 2 ix 2i1m 1 i3i1x 2i缘由:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占 比重较大,因此拉低了总平均成本;11x=1iki426.67(万元);x f1kkfix2fii1xisik116.48 万元 i1
13、fi113(1)离散系数,由于它排除了不同组数据水平高低的影响;名师归纳总结 - - - - - - -第 6 页,共 18 页精选学习资料 - - - - - - - - - (2)成年组身高的离散系数:vs42.10 .024;172.幼儿组身高的离散系数:vs2 .30.032;71.3由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大;14 表给出了一些主要描述统计量方法 A 165.6 方法 B 128.73 方法 C 125.53 平均平均平均中位数中位数中位数165 129 126 众数众数众数164 128 126 标准偏差标准偏差标准偏差2.1
14、3 1.75 2.77 极差极差极差8 7 12 最小值162 最小值125 最小值116 最大值最大值最大值170 132 128 先考虑平均指标,在平均指标相近时考虑离散程度指标;应挑选方法 A,其均值远高于其他两种方法,同时离散程度与其他两组相近;151 风险的度量是一个不断进展的问题,在古典金融理论中,主要采纳标准差这个统计测度来反映,现代金融中,采纳在险值(value at risk);(2)无论采纳何种风险度量,商业类股票较小(3)个人对股票的挑选,与其风险偏好等因素有关;第四章1. 总体分布指某个变量在总体中各个个体上的取值所形成的分布,它是未知的,是统计推断的对象;从总体中随机
15、抽取容量为 n 的样本 x x 2 , , x n,它的分布称为样本分布;由样本的某个函数所形成的统计量 f x x 2 , , x n,它的分布称为抽样分布(如样本均值、样本方差的分布)2. 重复抽样和不重复抽样下,样本均值的标准差分别为:2,2NnnnN1因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个调整系数3. 说明中心极限定理的含义答:在抽样推断中,中心极限定理指出,不论总体听从何种分布,只要其数学期望和方差存在, 对总体进行重复抽样时, 当样本容量充分大, 样本均值趋近于正态分布;中心极限定理为均值的抽样推断奠定了理论基础;名师归纳总结 - - - - - - -第 7
16、 页,共 18 页精选学习资料 - - - - - - - - - 第四章、参数估量1简述评判估量量好坏的标准答:评判估量量好坏的标准主要有:无偏性、有效性和相合性;设总体参数 的估量量有 1.和 2. ,假如 E 1.,称 1.是无偏估量量;假如 1.和 2. 是无偏估量量,且 D 1. 小于 D 2.,就 1.比 2. 更有效;假如当样本容量 n,1.,就 1. 是相合估量量;2.说明区间估量的基本原理答:总体参数的区间估量是在肯定的置信水平下,算出用样本统计量加减抽样误差表示的估量区间,依据样本统计量的抽样分布计 使该区间包含总体参数的概率为置信水平;置信水平反映估量的可信度,而区间的长
17、度反映估量的精确度;3说明置信水平为95的置信区间的含义95答:总体参数是固定的,未知的,置信区间是一个随机区间;置信水平为的置信区间的含义是指, 在相同条件下多次抽样下, 在全部构造的置信区间里大约有 95包含总体参数的真值;4简述样本容量与置信水平、总体方差、答应误差的关系答:以估量总体均值时样本容量的确定公式为例:nz/222E2样本容量与置信水平成正比、与总体方差成正比、与答应误差成反比;练习题:2. 解:由题意:样本容量为n49n4.200284.20028,1204.20028(1) 如15,xn15 492.143(2)0.05,Ez/2n1.96*2.143(3) 如x120,
18、xz/ 2n,xz/ 2120115.7997,124.200282解:由题可得:n36,x3.317,s1.609尽管采纳不重复抽样,但由于样本比例很小(不到0.5%),其抽样误差与重复抽样下近似相同,采纳重复抽样的抽样误差公式来运算;名师归纳总结 - - - - - - -第 8 页,共 18 页精选学习资料 - - - - - - - - - n36为大样本,就在的显著性水平下的置信区间为:xz/ 2s,xz/ 2ss,xt0.02515snn当0.1,z/ 21.64,置信区间为( 2.88,3.76 )当0.05,z/ 21.96,置信区间为 2.80,3.84 当0.01,z/ 2
19、2.56,置信区间为 2.63,4.01 5 解:假设距离听从正态分布,n16,x9.375,s4.113平 均 距 离 的95 的 置 信 区 间 为xt0.02515nn(7.18,11.57 )7 解:由题意:n 50, p 32 64%;50由于 np n 1 p 均超过 5,大样本( 1 ) 总 体 中 赞 成 比 率 的 显 著 性 水 平 为 的 置 信 区 间 为p 1 p p 1 pp z / 2 , p z /2n n当 0.05时,E z / 2 p 1 p1.96* 64%*36% 13.3%n 50置信区间为( 50.7%,77.3%)2 假如要求答应误差不超过 10
20、,置信水平为 95,就应抽取的户数:n z / 2 22 1 1.96 *0.8*0.2 22 62E 0.18. 此题需先检验两总体的方差是否相等:H0:22,H1:22, 不拒绝原假设1212在 5%的显著性水平下,F2 s 1/2 s 296.8 /102.00.949F 0.02513,65.37,F0.97513,61/F 0.0256,131/ 3.60.28认为两总体方差是相同的;(1)名师归纳总结 190%,x 1x 2t 0.05192 s p119.8 1.729 98.44*0.219.8 1.729*4.55第 9 页,共 18 页147- - - - - - -精选学
21、习资料 - - - - - - - - - 即( 1.93 ,17.669 )(2)195%,x 1x 2t0.025192 s p119.82.093 98.44*0.219.82.093*4.55147即( 0.27 ,19.32 )11. 大样本的情形p 1p 2z/2p 11p 1p212p 2n 1n(1)90%置信度下40%30%1.645*40%*60%30%*70%10%6.979%(3.021%,16.979 )250250(2)95%置信度下40%30%1.96*40%*60%30%*70%10%8.316%(1.684%,18.316%)25025012解:由题可运算:2
22、 s 12 0.242 ,2 s 20.0762两个总体方差比2/2在 95的置信区间为:12F/22 s 1/2 s 21,F 1/ 22 s 1/2 s 2n214.06,14.35n 11,n 2n 11,14解:由题意:120,z/21.96,E20就必需抽取的顾客数为:nz/ 2222 1.96 *1202139E22 20第五章、 假设检验摸索题11懂得原假设与备择假设的含义,的原就 . 并归纳常见的几种建立原假设与备择假设答:原假设通常是讨论者想收集证据予以反对的假设;而备择假设通常是讨论者想收集证据予以支持的假设;建立两个假设的原就有:(1)原假设和备择假设是一个完备大事组;(
23、2)一般先确定备择假设;再确定原假设;(3)等号“ ” 总是放在原假设上; (4)假设的确定带有肯定的主观色 彩;(5)假设检验的目的主要是收集证据来拒绝原假设;名师归纳总结 - - - - - - -第 10 页,共 18 页精选学习资料 - - - - - - - - - 2第一类错误和其次类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?答:第 I 类错误指, 当原假设为真时, 作出拒绝原假设所犯的错误, 其概率为;第 II 类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为;在其他条件不变时,增大,减小;增大,减小;3什么是显著性水平?它对于假设检验决策的意义是什么?答
24、:假设检验中犯第一类错误的概率被称为显著性水平;显著性水平通常是人们事先给出的一个值, 用于检验结果的牢靠性度量, 但确定了显著性水公平于掌握了犯第一错误的概率, 但犯其次类错误的概率却是不确定的,因此作出 “ 拒绝原假设” 的结论,其牢靠性是确定的,但作出“ 不拒绝原假设” 的结论,其牢靠性是难以掌握的;4什么是 p 值?p 值检验和统计量检验有什么不同?答:p 值是当原假设为真时,检验统计量小于或等于依据实际观测样本数据运算得到的检验统计量值的概率; P 值经常作为观看到的数据与原假设不一样程度的度量;统计量检验采纳事先确定显著性水平,来掌握犯第一类错误的上限,p值可以有效地补充 供应地关
25、于检验牢靠性的有限信息;p 值检验的优点在于,它供应了更多的信息, 让人们可以挑选肯定的水平来评估结果是否具有统计上的显著性;5什么是统计上的显著性?答:一项检验在统计上是显著的(拒绝原假设),是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的;显著性的意义在于“ 非偶然的 练习题3解( 1)第一类错误是,供应商供应的炸土豆片的平均重量不低于 店方拒收并投诉;(2)其次类错误是, 供应商供应的炸土豆片的平均重量低于60 克,但 60 克,但店方没有拒收;(3)顾客会认为其次类错误很严峻, 而供应商会将第一类错误看得较严峻;4解:提出假设H0:6,H2:60,1已知1.19,n1
26、00,0.05NZx6a(1) 检验统计量为n名师归纳总结 - - - - - - -第 11 页,共 18 页精选学习资料 - - - - - - - - - (2) 拒绝规章是:如 Zz ,拒绝H ;否就,不拒绝H0(3) 由x6.35得:Z6.3562.94z 0.051.64,拒绝H ,认为改进工1.19100艺能提高其平均强度;名师归纳总结 5 解: 设为如今每个家庭每天收看电视的平均时间(小时)第 12 页,共 18 页需检验的假设为:H0:6.70,H1:6.70调查的样本为:n200,x7.25,s2.5大样本下检验统计量为:zx/6.707.256.700.55*14.143
27、.11sn2.5 /2002.5在 0.01 的显著性水平下,右侧检验的临界值为z 0.012.33由于z2.33,拒绝H ,可认为如今每个家庭每天收看电视的平均时间增加了6. 解:提出假设H0:222 0.75 ,H1:20.752TVVCRTV已知:n30,2 s2,0.05检验统计量2n12 s29*210322942.55720.052 0.75VCR拒绝H ,可判定电视使用寿命的方差显著大于VCR 7. 解:提出假设:H0:125,H1:1250.02,n 1100,n 250,独立大样本,就检验统计量为:zx 12 s 1x 22 s 2514.810.4255.14580.820
28、.6n 1n 210050而z 0.012.33 由于zz/ 2,拒绝H ,平均装配时间之差不等于5 分钟8. 解:匹配小样本提出假设:H0:ab,H1:ab由运算得:d0.625,s d1.302,n8,0.05,检验统计量为- - - - - - -精选学习资料 - - - - - - - - - td/00.62581.3577t0.0571.8946,不拒绝H ,不能认为广告提高s dn1.302/了潜在购买力的平均得分;9. 解:提出假设:H 0 : 1 2 , H 1 : 1 2已知:n 1 288, p 1 1970.684, n 2 367, p 2 3010.82, 0.12
29、88 367大样本,就检验统计量为:p p n 1 1 p n 2 288*0.684 367*0.820.76n 1 n 2 288 367z p 1 p 2 0.684 0.824.0476p 1 p 1 1 0.76*0.24 1 1n 1 n 2 288 367而 z 0.1 1.29,由于 z z 0.1,拒绝 H ,可认为信息追求者消极度假的比率显著小于非信息追求者;10. 解:提出假设:H0:22,H1:221212由题运算得:n 125,s 10.221,n222,s 20.077检验统计量为:F2 s 12 0.2218.2376,而F 0.02524,212.372 s 2
30、2 0.077FF/ 2n 11,n 21,所以拒绝H ,认为两种机器的方差存在显著差异;第七章相关与回来分析摸索题1相关分析与回来分析的区分与联系是什么?答:相关与回来分析是讨论变量之间不确定性统计关系的重要方法,相关分析主要是判定两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的外形和程度;回来分析主要是对存在相关关系的现象间数量变化的规律性作出测度;但它们在讨论目的和对变量的处理上有明显区分;揭示现象之间的本质关系;它们均是统计方法, 不能3.什么是总体回来函数和样本回来函数?它们之间的区分是什么?答:以简洁线性回来模型为例, 总体回来函数是总体因变量的条件期望表现为自名师归
31、纳总结 变量的函数:E Y XifXiX ,或Y iXiu ;总体回来函数是第 13 页,共 18 页- - - - - - -精选学习资料 - - - - - - - - - 确定的和未知的, 是回来分析所估量的对象; 样本回来函数是依据样本数据所估计出的因变量与自变量之间的函数关系:y .i. x 或y i. x ie ;回来分析的目的是用样本回来函数来估量总体回来函数;它们的区分在于, 总体回来函数是未知但是确定的, 而样本回来函数是随样本波动而变化;总体回来函数的参数 , 是确定的,而样本回来函数的系数 ., . 是随机变量;总体回来函数中的误差项 iu 不行观看的,而样本回来函数中的
32、残差项 ie 是可以观看的;4. 什么是随机误差项和残差?它们之间的区分是什么?答:随机误差项iu 表示自变量之外其他变量的对因变量产生的影响,是不行观看的,通常要对其给出肯定的假设; 残差项ie 指因变量实际观看值与样本回来函数运算的估量值之间的偏差, 是可以观测的; 它们的区分在于, 反映的含义是不同且可观看性也不同,它们的联系可有下式x i: .x iuie iy i垐垐 x ix iu i5. 为什么在对参数进行最小二乘估量时,要对模型提出一些基本的假定?答: 最小二乘法只是查找估量量的一种方法,其查找到的估量量是否具有良好的性质就依靠模型的一些基本的假定;量才是 BLUE;只有在一系
33、列的经典假定下, 最小二乘估量15. 为什么在多元回来中要对可决系数进行修正?答:在样本容量肯定下,随着模型中自变量个数的增加,可决系数 R 会随之增 2加,模型的拟合程度上升,但自由度会缺失,从而降低推断的精度,因此需要用 自由度来修正可决系数,用修正的可决系数来判定增加自变量的合适性;16在多元线性回来中, 对参数作了 t 检验后为什么仍要作方差分析和 F 检验?答:t 检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回来系数进行整体检验,程的整体统计显著性进行的检验方法;练习题1. 解:设简洁线性回来方程为:y12x方差分析和 F 检验就是对回来方名师
34、归纳总结 (1) 采纳 OLS 估量:. 2yxixxyiy334229.090.786第 14 页,共 18 页x2x i425053.73. 1. 1549.80.786*647.8840.566- - - - - - -精选学习资料 - - - - - - - - - 回来系数经济意义:销售收入每增加1 万元,销售成本会增加0.786 万元;2(2) 可决系数为:R 2 x i x2 y i y2 334229.09 20.9998x i x y i y 425053.73*262855.252 2回来标准误:. SSE 1 R y i y 0.0002*262855.25 2.29n
35、2 12 2 10(3) 检验统计量为:tSe . 2. 2 ./ . 2x i x 2 2.29/ 0.786425053.73 223.76所以 2是显著不为零(4) 猜测:y . f . 1 . 2 x f 40.566 0.786*800 669.36695% 的 预 测 区 间 为:2 2y . f 1.96* . 1 1 x f x2 669.366 1.96*2.29 1 1 800 647.88n x i x 12 425053.73即( 664.579 ,674.153)2. (1)1.21.8y.6.4.2657075 x8085(2)负相关关系名师归纳总结 - - - -
36、 - - -第 15 页,共 18 页精选学习资料 - - - - - - - - - (3) Source SS df MS Number of obs = 9 F 1, 7 = 24.67 Model .638118686 1 .638118686 Prob F = 0.0016Residual .181036906 7 .025862415 R-squared = 0.7790 Adj R-squared = 0.7474 Total .819155592 8 .102394449 Root MSE = .16082 y Coef. Std. Err. t P|t| 95% Conf.
37、Interval x -.0704144 .0141757 -4.97 0.002 -.1039346 -.0368941 _cons 6.017831 1.05226 5.72 0.001 3.529632 8.50603(4)估量的斜率系数为 7.0414 ,表示航班的正点率每提高 1,百万名乘客的投诉次数会下降: 7.0414*0.01=0.070414 次;(5)假如 x f 0.8,就 fy 6.0178 7.0414*0.8 0.38468 次3. Results of multiple regression for y Summary measures Multiple R 0.9521 R-Square 0.9065 Adj R-Square 0.8910 StErr of Est 3.3313 ANOVA Table Source df SS MS F p-value Explained 3 1937.7485 645.9162 58.2048 0.0000 Unexplained 1