《统计学(第五版)贾俊平课后思考题和练习题答案2.pdf》由会员分享,可在线阅读,更多相关《统计学(第五版)贾俊平课后思考题和练习题答案2.pdf(99页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统 计 学(第五版)贾俊平 课后思考题和练习题答案(最终完整版)整理 b y k i s s-a hu a n g第一部分思考题第一章思考题1.1 什么是统计学统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。1.2 解释描述统计和推断统计描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据
2、)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。实验数据:在实验中控制实验对象而收集到的数据。统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。L4解释分类数据,顺序数据和数值型数据答案同L 31.5 举例说明总体,样本,参数,统计量,变量这几
3、个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。1.6 变量的分类变量可以分为分类变量,顺序变量,数值型变量。变量也可以分为随机变量和非随机变量。经验变量和理论变量。1.7 举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比 如“企业数”连续型变量,取之连续不断,不能一一列举,比 如“温度”。1.8 统计应用实例人口普查
4、,商场的名意调查等。L9统计应用的领域经济分析和政府分析还有物理,生物等等各个领域。第二章思考题2.1什么是二手资料?使用二手资料应注意什么问题与研究内容有关,由别人调查和试验而来已经存在,并会被我们利用的资料为“二手资料使用时要进行评估,要考虑到资料的原始收集人,收集目的,收集途径,收集时间使用时要注明数据来源。2.2比较概率抽样和非概率抽样的特点,指出各自适用情况概率抽样:抽样时按一定的概率以随机原则抽取样本。每个单位别抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽到的概率。技术含量和成本都比较高。如果调查目的在于掌握和研究对象总体的数量特征,得到总体参
5、数的置信区间,就使用概率抽样。非概率抽样:操作简单,时效快,成本低,而且对于抽样中的统计学专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。它同样使用市场调查中的概念测试(不需要调查结果投影到总体的情况)。2.3除了自填式,面访式和电话式还有什么搜集数据的办法试验式和观察式等2.4自填式,面访式和电话式各自的长处和弱点自填式;优点:1调查组织者管理容易2成本低,可进行大规模调查3对被调查者,可选择方便时间答卷,减少回答敏感问题压力。缺点:1返回率低2不适合结构复杂的问卷,调查内容有限3调查周期长4在数据搜集过程中遇见问题不能及时调整。面访式;优点:1回
6、答率高2数据质量高3在调查过程中遇见问题可以及时调整。缺点:1成本比较高2搜集数据的方式对调查过程的质量控制有一定难度3对于敏感问题,被访者会有压力。电话式;优点:1速度快2对调查员比较安全3对访问过程的控制比较容易。缺点:1实施地区有限2调查时间不能过长3使用的问卷要简单4被访者不愿回答时,不易劝服。2.5老师说这个内容不讲,应该不会考实验数据的2.6如何控制调查中的回答误差对于理解误差,我会去学习一定的心理学知识,对于记忆误差,我会尽量去缩短所涉及的时间范围,对于有意识的误差,我要做好被调查者的心理工作,要遵守职业道德,为被调查者保密,尽量在问卷中不涉及敏感问题。2.7怎么减少无回答对于随
7、机误差,要提高样本容量,对于系统误差,只有做好准备工作并做好补救措施。比如说要一百份的问卷回复,就要做好一百二十到一百三十的问卷准备,进行面访式的时候要尽量的劝服不愿意回答的被访者,以小物品的馈赠提高回复率。第三章思考题3.1数据预处理内容数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。3.2分类数据和顺序数据的整理和图示方法各有哪些分类数据:制作频数分布表,用比例,百分比,比率等进行描述性分析。可用条形图,帕累托图和饼图进行图示分析。顺序数据:制作频数分布表,用比例,百分比,比率。累计频数和累计频率等进行描述性分析。可用条形图,帕累托图和饼图,累计频数分布图和环形图进行图示分
8、析。3.3 数据型数据的分组方法和步骤分组方法:单变量值分组和组距分组,组距分组又分为等距分组和异距分组。分组步骤:1 确定组数2 确定各组组距3 根据分组整理成频数分布表3.4直方图和条形图的区别1 条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,2 直方图各矩形连续排列,条形图分开排列,3 条形图主要展示分类数据,直方图主要展示数值型数据。3.5 绘制线图应注意问题时间在横轴,观测值绘在纵轴。一般是长宽比例1 0:7的长方形,纵轴下端一般从0开始,数据与0 距离过大的话用折断符号折断。3.6 饼图和环形图的不同
9、饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。3.7 茎叶图比直方图的优势,他们各自的应用场合茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。3.8鉴别图标优劣的准则P 7 5明确有答案,我就不写了。3.9 制作统计表应注意的问题1,合理安排统计表结构2 表头一般包括表号,总标题和表中数据的单位等内容3 表中的上下两条横线一般用粗线,中间的其他用细线4在使用统计表时,必要时可在下方加注释,注明数据来源。公
10、式:组中值=(上限+下 限)/2第4 章数据的概括性度量4.1 一组数据的分布特征可以从哪几个方面进行测度?数据分布特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或集中的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。4.2怎样理解平均数在统计学中的地位?平均数在统计学中具有重要的地位,是集中趋势的最主要的测度,主要适用于数值型数据,而不适用于分类数据和顺序数据。4.3简述四分位数的计算方法。四分位数是一组数据排序后处于2 5%和 7 5啦置上的值。根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位
11、数所在的位置,该位置上的数值就是四分位数。4.4对于比率数据的平均为什么采用几何平均?在实际应用中,对于比率数据的平均采用几何平均要比算数平均更合理。从公式(l+G)=f l(i+G P 中也可看出,G就是平均增长率。i=l4.5 简述众数、中位数和平均数的特点和应用场合。众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数只有在数据量较多时才有意义,数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值,不受极端值的影响。当数据的分布偏斜较大时,使用中位数也许不错。主要适合作为顺序数据的集中趋势测度值。平均数对数值型数据计算的,而且利用
12、了全部数据信息,在实际应用中最广泛。当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。但平均数易受极端值的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。4.6简述异众比率、四分位差、方差或标准差的适用场合对于分类数据,主要用异众比率来测量其离散程度;对于顺序数据,虽然也可以计算异众比率,但主要使用四分位差来测量其离散程度;对于数值型数据,虽然可以计算异众比率和四分位差,但主要使用方差或标准差来测量其离散程度。4.7 标准分数有哪些用途?标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时,常需要对各变量进行标准化处理。它
13、还可以用来判断一组数据是否有离群数据。4.8为什么要计算离散系数?方差和标准差是反映数据分散程度的绝对值,一方面其数值大小受原变量值本身水平高低的影响,也就是与变量的平均数大小有关;另一方面,它们与原变量的计量单位相同,采用不同计量单位的变量值,其离散程度的测度值也就不同。因此,为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。4.9 测度数据分布形状的统计量有哪些?对分布形状的测度有偏态和峰态,测度偏态的统计量是偏态系数,测度峰态的统计量是峰态系数。第五章概率与概率分布5.1 频率与概率有什么关系?在相同条件下随机试验n次,某事件A出现m次,则比值m/n 称为事件A
14、发生的频率。随 着 n的增大,该频率围绕某一常数p波动,且波动幅度逐渐减小,趋于稳定,这个频率的稳定值即为该事件的概率。5.2 独立性与互斥性有什么关系?互斥事件一定是相互依赖(不独立)的,但相互依赖的事件不一定是互斥的。不互斥事件可能是独立的,也可能是不独立的,但独立事件不可能是互斥的。5.3 根据自己的经验体会举几个服从泊松分布的随机变量的实例。如某种仪器每月出现故障的次数、一本书一页中的印刷错误、某一医院在某一天内的急诊病人数等5.4根据自己的经验体会举几个服从正态分布的随机变量的实例。如某班某次的考试成绩、某地区成年男性的身高、某公司年销售量、同一车间产品的质量等第六章思考题6.1 统
15、计量:设 X I,X 2,X n 是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T (X 1,X 2,X n),不依赖于任何未知参数,则称函数T(X 1,X 2,X n)是一个统计量。原因:为了使统计推断成为可能。6.2 T1 和 T2 是6.3 P1596.4统计量加工过程中一点信息都不损失的统计量为充分统计量6.5自由度:独立变量的个数6.6/分 布:设 星脚(赵戏与-P分 布:设若为服从自由度为4的/分布,即 以m),/为服从自由度为生的/分布,即r y (及),且和/相互独立,则称尸为服从自由度m和用的尸分布,记为6.7抽样分布:样本统计量的概率分布是一种理论概率分布随
16、机变量是样本统计量6.8中心极限定理:设从均值为,方差为b?的一个任意总体中抽取容量为的样本,当充分大时,样本均值的抽样分布近似服从均值为、方 差 为d/A的正态分布第七章思考题7.1估计量:用于估计总体参数的随机变量估计值:估计参数时计算出来的统计量的具体值7.2评价估计量的标准:无偏性:估计量抽样分布的数学期望等于被估计的总体参数有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数7.3置信区间:由样本统计量所构造的总体参数的估计区间7.4 95%的置信区间指用某种方法构造的所有区间中有95%的区间包含总体参数
17、的真值。7.5含义:Za/2是标准正态分布上侧面积为a/2的z值,公式是统计总体均值时的边际误差。7.6 独立样本:如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立。匹配样本:一个样本中的数据与另一个样本中的数据相对应。7.7(1)、两个总体都服从正态分布(2)、两个随即样本独立地分别抽自两个总体7.8样本量越大置信水平越高,总体方差和边际误差越小第8章思考题8.1 假设检验和参数估计有什么相同点和不同点?答:参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,然而推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法,总
18、体参数口在估计前是未知的。而在参数假设检验中,则是先对u的值提出一个假设,然后利用样本信息去检验这个假设是否成立。8.2什么是假设检验中的显著性水平?统计显著是什么意思?答:显著性水平是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率和风险。统计显著等价拒绝H,指求出的值落在小概率的区间上,一般是落在0.0 5或比0.0 5 更小的显著水平上。8.3 什么是假设检验中的两类错误?答:假设检验的结果可能是错误的,所犯的错误有两种类型,一类错误是原假设H。为真却被我们拒绝了,犯这种错误的概率用。表示,所 以 也 称 a 错误或弃真错误;另一类错误是原假设为伪我们却没有拒绝,犯
19、这种错误的概论用B 表示,所以也称6 错误或取伪错误。8.4两类错误之间存在什么样的数量关系?答:在假设检验中,a与 8是此消彼长的关系。如果减小a错误,就会增大犯6错误的机会,若 减 小 B错误,也会增大犯a错误的机会。8.5 解释假设检验中的P 值答:P 值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。(它的大小取决于三个因素,一个是样本数据与原假设之间的差异,一个是样本量,再一个是被假设参数的总体分布。)8.6显著性水平与P 值有何区别答:显著性水平是原假设为真时,拒绝原假设的概率,是一个概率值,被称为抽样分布的拒绝域,大小由研究者事先确定,一般为0.0 5。而 P 只是
20、原假设为真时所得到的样本观察结果或更极端结果出现的概率,被称为观察到的(或实测的)显著性水平8.7 假设检验依据的基本原理是什么?答:假设检验依据的基本原理是“小概率原理”,即发生概率很小的随机事件在一次试验中是几乎不可能发生的。根据这一原理,可以作出是否拒绝原假设的决定。8.8 你认为单侧检验中原假设与备择假设的方向如何确定?答:将研究者想收集证据予以支持的假设作为备择假设Hu将研究者想收集证据证明其不正确的假设作为原假设H。,先确立备择假设备择假设的方向与想要证明其正确性的方向一致,原假设与备择假设是互斥的,等号总在原假设上。(举例说明,如下:”一项研究表明,采用新技术生产后,将会使产品的
21、使用寿命明显延长到1 5 0 0 小时以上。检验这一结论是否成立,则备择假设的方向为“”(寿命延长),建立的原假设与备择假设应为H o:uW 1 5 0 0,H1:N 1 5 0 0.又例,”一项研究表明,改进生产工艺后,会使产品的废品率降低到2%以下。检验这一结论是否成立“,则 备 择 假 设 的 方 向 为(废品率降低),建立的原假设与备择假设应为H o:N22%,H l:u 取 k=60.301032、确定组距:组距=(最 大 值-最小值户 组数=(152-87)4-6=10.83,取 103、分组频数表销售收入频数频率累计频数累计频率80.00-89.0025.025.()90.00-
22、99.0037.5512.5100.00-109.00922.51435.0110.00-119.001230.02665.0120.00-129.00717.53382.5130.00-139.00410.03792.5140.00-149.0025.03997.5150.00+12.540100.0总和40100.0(2)按规定,箱售收入在125万元以上为先进企业,115 125万元为良好企业,105 115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。3.3某百货公司连续40天的商品销售额如下:频数频率累计频数累计频率先进企业1025.010
23、25.0良好企业1230.02255.0一般企业922.53177.5落后企业922.540J00.0总和40100.0单位:万元41252947383430384340463645373736454333443528463430374426384442363737493942323635要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。1、确定组数:“,lg(/7),lg(40),1.60206 w长=1 +星?=1+0i =1 +-=6.3 2,取 k=6lg(2)lg2 0.301032、确定组距:组距=(最 大 值-最小值)+组数=(49-25)+6=4,取 53、分组
24、频数表销售收入(万元)频数频率累计频数累计频率=2512.5/2.526-30512.5615.031-35615.01230.036-401435.02665.041-451025.03690.()46+410.040100.0总和40100.0频数销售收入3.4利用下面的数据构建茎叶图和箱线图。572929363123472328283551391846182650293321464152282143194220d a t a S t e m-a n d-L e a f P l o tF r e q u e n c yS t e m&L e a f3.0 01.8 8 95.0 02.0
25、1 1 3 37.0 02.6 8 8 8 9 9 92.0 03.1 33.0 03.56 93.0 04.1 2 33.0 04.6 6 73.0 05.0 1 21.0 05.7S t e m w i d t h:1 0E a c h l e a f:1c a s e (s)3.6一 种 袋 装 食 品 用 生 产 线 自 动 装 填,每 袋 重 量 大 约 为50 g,但 由 于 某 些 原 因,每 袋 重 量 不 会 恰 好 是50 g。下 面 是 随 机 抽 取 的1 0 0袋 食 品,测 得 的 重 量 数 据 如下:单 位:g574649545558496 15149516 0
26、525451556 05647475351485350524045575352514648475347534447505253474548545248464952595350435346574949445752424943474648515945454652554749505447484457475358524855535749565657534148要 求:(1)构 建 这 些 数 据 的 频 数 分 布 表。(2)绘 制 频 数 分 布 的 直 方 图。(3)说 明 数 据 分 布 的 特 征。解:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。1、确定组数
27、:直方图:爵 曙=14-0-.-3-0-1-0-3-=6.64取k=6或72、确定组距:组距=(最 大 值-最小值)+组数=(6 1-40)+6=3.5,取 3 或者 4、5组距=(最大值-最小值)+组数=(6 1-40)+7=3,3、分组频数表组距3,上限为小于频数百分比累计频数累积百分比有效 40.00-42.0033.033.043.00-45.0099.01212.046.00-48.002424.03636.049.00-51.001919.05555.052.00-54.002424.07979.055.00-57.001414.09393.058.00+77.0100100.0合
28、计100100.030-组距3,小于oO21A0Unb.!工Mean=5.22Std.Dev.=1.508N=100oo2 4 6组距3,小于I10组距4,上限为小于等于频数百分比累计频数累积百分比有效=40.0011.011.041.00-44.0077.088.045.00-48.002828.03636.049.00-52.002828.06464.053.00-56.002222.08686.057.00-60.001313.09999.061.00+11.0100100.0合计100100.0直方图:组距4,小于等于40A0Unb3工302010-8Mean=4.06Std.Dev.
29、=1.221N =100组距4,小于等于组距5,上限为小于等于频数百分比累计频数累积百分比有效=45.001212.012.012.046.00-50.003737.049.049.051.00-55.003434.083.083.056.00-60.001616.099.099.061.00+11.0100.0100.0合计100100.0直方图:组距5,小于等于_oooO5432AOUnb.3!工10056Mean=2.57Std.Dev.=0.935N=100o2 3 4组距5,小于等于分布特征:左偏钟型。3.8下 面 是 北 方 某 城 市1一 一2月 份 各 天 气 温 的 记 录
30、数 据:-32-4-7-11-1789-614-18-15-9-6-105-4-96-8-12-16-19-15-22-25-24-19-8-6-15-11-12-19-25-24-18-17-14-22-13-9-60-15-4-9-32-4-4-16-175-6-5要 求:(1)指 出 上 面 的 数 据 属 于 什 么 类 型。数 值 型 数 据(2)对 上 面 的 数 据 进 行 适 当 的 分 组。1、确定组数:1 .lg()1 H-lg(2)Kl J g(60)1 J.778151lg2 0.30103=6.90989,取 k=72、确定组距:组 距=(最 大 值-最 小 值 户
31、组数=(14-(-25)4-7=5.57,取53、分组频数表温度频数频率累计频数累计频率-25-21610.0610.()-20-16813.31423.3-15-U915.02338.3-10-61220.03558.3-5-11220.04778.30-446.75185.05-9813.35998.310+11.760100.()合计60100.0(3)绘 制 直 方 图,说 明 该 城 市 气 温 分 布 的 特 点。频数-25-21-20-16-15-11-10 一 一6-5-1 0-4 5-9 10+3.11对于下面的数据绘制散点图。X234187y252520301618解:3.
32、12甲乙两个班各有40 名学生,期末统计学考试成绩的分布如下:要 求:(1)根 据 上 面 的 数 据,画 出 两 个 班 考 试 成 绩 的 对 比 条 形 图 和 环 形 图。考试成绩人数甲班乙班优36良615中189及格98不及格42优良中及格 不及格口优 良口中口及格不及格(2)比 较 两 个 班 考 试 成 绩 分 布 的 特 点。甲 班 成 绩 中 的 人 数 较 多,高 分 和 低 分 人 数 比 乙 班 多,乙班学习成绩较甲班好,高 分 较 多,而 低 分 较 少。3.1 4 已 知 1995 2004年 我 国 的 国 内 生 产 总 值 数 据 如 下(按 当 年 价 格
33、计 算):单 位:亿元国内生产总值年份第一产业第二产业第三产业199558478.1119932853817947199667884.613844.23361320428199774462.614211.23722323029199878345.214552.43861925174199982067.514471.964055827038200089468.114628.24493529905200197314.815411.848750331532002105172.316117.352980360752003117390.216928.161274391882004136875.92076
34、8.077238743721要求:(1)用Excel绘制国内生产总值的线图。国内生产总值-国内生产总值(2)绘制第一、二、三产业国内生产总值的线图。-第一产业-第二产业第三产业(3)根据2004年的国内生产总值及其构成数据绘制饼图。第四章统计数据的概括性描述4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:2 4 7 10 10 10 12 12 14 15要求:(1)计算汽车销售量的众数、中位数和平均数。(2)根据定义公式计算四分位数。(3)计算销售量的标准差。(4)说明汽车销售量分布的特征。解:75汽车销售数量StatisticsNValid10Missin
35、g0Mean9.60Median10.00Mode10Std.Deviation4.169Percentiles256.255010.0012.50H i s t o g r a mO,I2.55I7.510I12.5I15Mean=9.6Std.Dev.=4.169N=104.2随机抽取25个网络用户,得到他们的年龄数据如下:单位:周岁19152925242321382218302019191623272234244120311723要求;(1)计算众数、中位数:I、排序形成单变量分值的频数分布和累计频数分布:网络用户的年龄FrequencyPercentCumulative Frequen
36、cyCumulative PercentValid1514.0/4.01614.028.()1714.0312.01814.0416.019312.0728.02028.0936.02114.01040.02228.01248.023312.01560.02428.01768.02514.01872.02714.01976.02914.02080.()30/4.02184.03114.02288.03414.02392.03814.02496.04114.025100.()Total25100.0从频数看出,众数M。有两个:19、23;从累计频数看,中位数Me=23。(2)根据定义公式计算四分
37、位数。Q1 位置=25/4=6.25,因此 Ql=19,Q3 位置=3X25/4=18.75,因此 Q 3=27,或者,由于25和 27都只有一个,因此Q 3也可等于25+0.75X2=26.5。(3)计算平均数和标准差;Mean=24.00;Std.Deviation=6.652(4)计算偏态系数和峰态系数:Skewness=1.080;Kurtosis=0.773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态,需要进行分组。为分组情况下的直方图:Auno。15 16 17 18 19 20 21 22 23 24 25 27 2
38、9 30 31 34 38 41网络用户的年龄为分组情况下的概率密度曲线:O2.gunojI.f l-21 22 23 24 25 27 29 30 31 34 38 41网络用户的年龄15 16 17 18 19 20分 组:1、确定组数:怆()lg(2)=1+1.3980.30103=5.6 4,取 k=62、确定组距:组 距=(最 大 值-最 小 值):组 数=(41-15)+6=4.3,取53、分组频数表网 络 用 户 的 年 龄(Binned)FrequencyPercentCumulative FrequencyCumulative PercentValid=1514.014.01
39、6-20832.0936.021-25936.01872.026-30312.02184.031-3528.02392.036-4014.02496.041+14.025100.()Total25100.0分组后的均值与方差:Mean23.3000Std.Deviation7.02377Variance49.333Skewness1.163Kurtosis分组后的直方图:10.00 15.00 20.00o-25.00 30.00 35.00 40.00 45.00 50.00组中值Mean=23.30Std.Dev.=7.024N=254.3某银行为缩短顾客到银行办理业务等待的时间。准备采用
40、两种排队方式进行试验:一种是所有颐客都进入一个等待队列:另一种是顾客在三千业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短.两种排队方式各随机抽取9名顾客。得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.9 7分钟。第二种排队方式的等待时间(单位:分钟)如下:5.5 6.6 6.7 6.8 7.1 7.3 7.4 7.8 7.8要求:(1)画出第二种排队方式等待时间的茎叶图。第二种排队方式的等待时间(单位:分钟)Stem-and-Leaf PlotFrequencyStem&Leaf1.00 Extremes(=5.5)3.006.6783.007.1342.007.8
41、8Stem width:1.00Each le a f:1 case(s)(2)计算第二种排队时间的平均数和标准差。Mean7Std.Deviation 0.714143Variance 0.51(3)比较两种排队方式等待时间的离散程度。第二种排队方式的离散程度小。(4)如果让你选择一种排队方式,你会选择哪一种?试说明理由。选择第二种,均值小,离散程度小。4.4 某百货公司6月份各天的销售额数据如下:单位:万元2 5 72 7 62 9 72 5 22 3831 02 4 02 362 6 52 7 82 7 12 9 22 6 12 8 130 12 7 42 6 72 8 02 9 12
42、5 82 7 22 8 42 6 830 32 7 32 6 332 22 4 92 6 92 9 5要求:(1)计算该百货公司日销售额的平均数和中位数。(2)按定义公式计算四分位数。(3)计算日销售额的标准差。解:百货公司每天的销售额(万元)StatisticsNValid30Missing0Mean274.1000Median272.5000Std.Deviation21.17472Percentiles25260.250050272.500075291.25004.5 甲乙两个企业生产三种产品的单位成本和总成本资料如下:产品名称单位成本(元)总成本(元)甲企业乙企业A1 52 1 0 0
43、3 2 5 5B2 03 0 0 01 5 0 0C301 5 0 01 5 0 0要求:比较两个企业的总平均成本,哪个高,并分析其原因。调和平均数计算,得到甲的平均成本为1 9.4 1;乙的平均成本为1 8.2 9。甲的中间成本的产品多,乙的低成本的产品多。产品名称单位成本(元)甲企业乙企业总成本(元)产品数总成本(元)产品数A1 52 1 0 01 4 032 5 52 1 7B2 030 0 01 5 01 5 0 07 5C301 5 0 05 01 5 0 05 0平均成本(元)1 9.4 1 1 7 6 4 7 11 8.2 8 9 4 7 36 84.6在某地区抽取120家企业,
44、按利润额进行分组,结果如下:按利润额分组(万元)企业数(个)20030019300400304005004250060018600以上11合 计12()要求:(1)计 算 120家企业利润额的平均数和标准差。(2)计算分布的偏态系数和峰态系数。解:Statistics企业利润组中值Mi(万元)NValid120Missing0Mean426.6667Std.Deviation116.48445Skewness0.208Std.Error of Skewness0.221Kurtosis-0.625Std.Error of Kurtosis0.438H i s t o g r a m-ooO43
45、2Aouenb.1工10O 200.00Mean=426.67Std.Dev.=116.484N=120300.00 400.00 500.00 600.00 700.00企业利润组中值Mi(万元)4.7为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名 717岁的少年儿童作为样本,另一位调查人员则抽取了 1 000名 717岁的少年儿童作为样本。请回答下面的问题,并解释其原因。(1)两位调查人员所得到的样本的平均身高是否相同?如果不同,咖组样本的平均身高较大?(2)两位调查人员所得到的样本的标准差是否相同?如果不同,咖组样本的标准差较大?(3)两位调查人员得到这1 10
46、0名少年儿童身高的最高者或最低者的机会是否相同?如果不同,哪位调查研究人员的机会较大?解:(1)不一定相同,无法判断哪一个更高,但可以判断,样本量大的更接近于总体平均身昌 1 o(2)不一定相同,样本量少的标准差大的可能性大。(3)机会不相同,样本量大的得到最高者和最低者的身高的机会大。4.8 一项关于大学生体重状况的研究发现.男生的平均体重为60kg,标准差为5kg;女生的平均体重为50 k g,标准差为5kgo请回答下面的问题:(1)是男生的体重差异大还是女生的体重差异大?为什么?女生,因为标准差一样,而均值男生大,所以,离散系数是男生的小,离散程度是男生的小。(2)以磅为单位(lks=2
47、.21b),求体重的平均数和标准差。都是各乘以2.21,男生的平均体重为60kgX2.21=132.6磅,标准差为5kgX 2.21=11.05磅;女生的平均体重为50kgX2.21=110.5磅,标准差为5kgX2.21=11.05磅。(3)粗略地估计一下,男生中有百分之几的人体重在55kg-6 5 k g 之间?计算标准分数:Z l=九 二 丝=-1;Z 2=竺 二 竺=1,根据经验规则,男生大约有68%s 5 s 5的人体重在55kg-65kg之间。(4)粗略地估计一下,女生中有百分之几的人体重在40kg60kg之间?计算标准分数:x x 40 50 x x 60 50 但 但,),.,
48、4,.,.Zl=-=-=-2;Z2=-=-=2,根据经验规则,女生大约有95%s 5 s 5的人体重在40kg 一 60kg之间。4.9 一家公司在招收职员时,首先要通过两项能力测试。在 A 项测试中,其平均分数是100分,标准差是15分;在 B 项测试中,其平均分数是400分,标准差是50分。位应试者在A 项测试中得了 115分,在 B 项测试中得了 425分。与平均分数相比,该应试者哪一项测试更为理想?解:应用标准分数来考虑问题,该应试者标准分数高的测试理想。x-x 115-100 x-xZA=-=-=1;ZB=-s 15 s因此,A 项测试结果理想。425-40050=0.54.10 条
49、产品生产线平均每天的产量为3 700件,标准差为50件。如果某一天的产量低于或高于平均产量,并落人士 2 个标准差的范围之外,就认为该生产线“失去控制”。下面是一周各天的产量,该生产线哪几天失去了控制?时间周一周二周三周四周五周六周日产量(件)3 8503 6703 6903 7203 6103 5903 700周六超出界限,失去控制。时间周一周二周三周四周五周六周日产量(件)3850367036903720361035903700日平均产量3700日产量标准差50标准分数Z3-0.6-0.20.4-1.8-2.20标准分数界限-2-2-2-2-2-2-22222222要求:(1)如果比较成年
50、组和幼儿组的身高差异,你会采用什么样的统计量?为什么?4.11对 10名成年人和10名幼儿的身高进行抽样调查,结果如下:成年组166 169 172 177 180 170 172 174 168 173幼儿组68 69 68 70 71 73 72 73 74 75均值不相等,用离散系数衡量身高差异。(2)比较分析哪一组的身高差异大?幼儿组的身高差异大。成年组幼)阳平均172.1 平均71.3标准差4.201851 标准差2.496664离散系数0.024415 离散系数0.0350164.12 一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们