统计学教材课后习题详细答案.pdf-淘文阁

资源描述

《统计学教材课后习题详细答案.pdf》由会员分享，可在线阅读，更多相关《统计学教材课后习题详细答案.pdf（96页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、统计学（第五版）贾俊平课后思考题和练习题答案（最终完整版）整理 b y _k i s s-a h u a n g第一部分思考题第一章思考题1.1 什么是统计学统计学是关于数据的一门学科，它收集，处理，分析，解释来自各个领域的数据并从中得出结论。1.2解释描述统计和推断统计描述统计；它研究的是数据收集，处理，汇总，图表描述，概括与分析等统计方法。推断统计；它是研究如何利用样本数据来推断总体特征的统计方法。1.3统计学的类型和不同类型的特点统计数据；按所采用的计量尺度不同分；（定性数据）分类数据：只能归于某一类别的非数字型数据，它是对事物进行分类的结果,数据表现为类别，用文字来表述；（定性数

2、据）顺序数据：只能归于某一有序类别的非数字型数据。它也是有类别的，但这些类别是有序的。（定量数据）数值型数据：按数字尺度测量的观察值，其结果表现为具体的数值。统计数据；按统计数据都收集方法分；观测数据：是通过调查或观测而收集到的数据，这类数据是在没有对事物人为控制的条件下得到的。实验数据：在实验中控制实验对象而收集到的数据。统计数据；按被描述的现象与实践的关系分；截面数据：在相同或相似的时间点收集到的数据，也叫静态数据。时间序列数据：按时间顺序收集到的，用于描述现象随时间变化的情况，也叫动态数据。L4解释分类数据，顺序数据和数值型数据答案同L 3L5举例说明总体，样本，参数，统计量，变量这几个

3、概念对一千灯泡进行寿命测试，那么这千个灯泡就是总体，从中抽取一百个进行检测，这一百个灯泡的集合就是样本，这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数，这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量，变量就是说明现象某种特征的概念，比如说灯泡的寿命。1.6 变量的分类变量可以分为分类变量，顺序变量，数值型变量。变量也可以分为随机变量和非随机变量。经验变量和理论变量。1.7 举例说明离散型变量和连续性变量离散型变量，只能取有限个值，取值以整数位断开，比如“企业数”连续型变量，取之连续不断，不能一一列举，比如“温度1.8 统计应用实例人口普查，商场

4、的名意调查等。1.9 统计应用的领域经济分析和政府分析还有物理，生物等等各个领域。第二章思考题2.1 什么是二手资料？使用二手资料应注意什么问题与研究内容有关，由别人调查和试验而来已经存在，并会被我们利用的资料为“二手资料使用时要进行评估，要考虑到资料的原始收集人，收集目的，收集途径，收集时间使用时要注明数据来源。2.2 比较概率抽样和非概率抽样的特点，指出各自适用情况概率抽样：抽样时按一定的概率以随机原则抽取样本。每个单位别抽中的概率已知或可以计算，当用样本对总体目标量进行估计时，要考虑到每个单位样本被抽到的概率。技术含量和成本都比较高。如果调查目的在于掌握和研究对象总体的数量特征，得到总体

5、参数的置信区间，就使用概率抽样。非概率抽样：操作简单，时效快，成本低，而且对于抽样中的统计学专业技术要求不是很高。它适合探索性的研究，调查结果用于发现问题，为更深入的数量分析提供准备。它同样使用市场调查中的概念测试（不需要调查结果投影到总体的情况）。2.3 除了自填式，面访式和电话式还有什么搜集数据的办法试验式和观察式等2.4 自填式，面访式和电话式各自的长处和弱点自填式；优点：1 调查组织者管理容易2 成本低，可进行大规模调查3 对被调查者，可选择方便时间答卷，减少回答敏感问题压力。缺点：1 返回率低2 不适合结构复杂的问卷，调查内容有限3 调查周期长4 在数据搜集过程中遇见问题不能及时调整

6、。面访式；优点：1 回答率高2 数据质量高3 在调查过程中遇见问题可以及时调整。缺点：1成本比较高2 搜集数据的方式对调查过程的质量控制有一定难度3 对于敏感问题，被访者会有压力。电话式；优点：1 速度快2 对调查员比较安全3 对访问过程的控制比较容易。缺点：1 实施地区有限2 调查时间不能过长3 使用的问卷要简单4 被访者不愿回答时，不易劝服。2.5老师说这个内容不讲，应该不会考实验数据的2.6 如何控制调查中的回答误差对于理解误差，我会去学习一定的心理学知识，对于记忆误差，我会尽量去缩短所涉及的时间范围，对于有意识的误差，我要做好被调查者的心理工作，要遵守职业道德，为被调查者保密，尽量在问

7、卷中不涉及敏感问题。2.7 怎么减少无回答对于随机误差，要提高样本容量，对于系统误差，只有做好准备工作并做好补救措施。比如说要一百份的问卷回复，就要做好一百二十到一百三十的问卷准备，进行面访式的时候要尽量的劝服不愿意回答的被访者，以小物品的馈赠提高回复率。第三章思考题3.1 数据预处理内容数据审核（完整性和准确性；适用性和实效性），数据筛选和数据排序。3.2 分类数据和顺序数据的整理和图示方法各有哪些分类数据：制作频数分布表，用比例，百分比，比率等进行描述性分析。可用条形图，帕累托图和饼图进行图示分析。顺序数据：制作频数分布表，用比例，百分比，比率。累计频数和累计频率等进行描述性分析。可用条形

8、图，帕累托图和饼图，累计频数分布图和环形图进行图示分析。3.3数据型数据的分组方法和步骤分组方法：单变量值分组和组距分组，组距分组又分为等距分组和异距分组。分组步骤：1 确定组数2 确定各组组距3 根据分组整理成频数分布表3.4直方图和条形图的区别1 条形图使用图形的长度表示各类别频数的多少，其宽度固定，直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率，宽度表示组距，2直方图各矩形连续排列，条形图分开排列，3 条形图主要展示分类数据，直方图主要展示数值型数据。3.5绘制线图应注意问题时间在横轴，观测值绘在纵轴。一般是长宽比例1 0：7的长方形，纵轴下端一般从0 开始,数据与0距离过大

9、的话用折断符号折断。3.6 饼图和环形图的不同饼图只能显示一个样本或总体各部分所占比例，环形图可以同时绘制多个样本或总体的数据系列，其图形中间有个“空洞”，每个样本或总体的数据系类为一个环。3.7 茎叶图比直方图的优势，他们各自的应用场合茎叶图既能给出数据的分布情况，又能给出每一个原始数据，即保留了原始数据的信息。在应用方面，直方图通常适用于大批量数据，茎叶图适用于小批量数据。3.8 鉴别图标优劣的准则P 7 5 明确有答案，我就不写了。3.9 制作统计表应注意的问题1,合理安排统计表结构2表头一般包括表号，总标题和表中数据的单位等内容3 表中的上下两条横线一般用粗线，中间的其他用细线4在使用

10、统计表时，必要时可在下方加注释，注明数据来源。公式：组中值=（上限+下限）/2第4 章数据的概括性度量4.1 一组数据的分布特征可以从哪几个方面进行测度？数据分布特征可以从三个方面进行测度和描述：一是分布的集中趋势，反映各数据向其中心值靠拢或集中的程度；二是分布的离散程度，反映各数据远离其中心值的趋势；三是分布的形状，反映数据分布的偏态和峰态。4.2怎样理解平均数在统计学中的地位？平均数在统计学中具有重要的地位，是集中趋势的最主要的测度，主要适用于数值型数据，而不适用于分类数据和顺序数据。4.3简述四分位数的计算方法。四分位数是一组数据排序后处于2 5%和 7 5%位置上的值。根据未分组数据计

11、算四分位数时，首先对数据进行排序，然后确定四分位数所在的位置，该位置上的数值就是四分位数。4.4对于比率数据的平均为什么采用几何平均？在实际应用中，对于比率数据的平均采用几何平均要比算数平均更合理。从公式（1+G）=j a+G,）中也可看出，G就是平均增长率。1=14.5简述众数、中位数和平均数的特点和应用场合。众数是一组数据分布的峰值，不受极端值的影响，缺点是具有不唯一性。众数只有在数据量较多时才有意义，数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值，不受极端值的影响。当数据的分布偏斜较大时，使用中位数也许不错。主要适合作为顺序数据的集中趋势测

12、度值。平均数对数值型数据计算的，而且利用了全部数据信息，在实际应用中最广泛。当数据呈对称分布或近似对称分布时，三个代表值相等或相近，此时应选择平均数。但平均数易受极端值的影响，对于偏态分布的数据，平均数的代表性较差，此时应考虑中位数或众数。4.6简述异众比率、四分位差、方差或标准差的适用场合对于分类数据，主要用异众比率来测量其离散程度；对于顺序数据，虽然也可以计算异众比率，但主要使用四分位差来测量其离散程度；对于数值型数据，虽然可以计算异众比率和四分位差，但主要使用方差或标准差来测量其离散程度。4.7 标准分数有哪些用途？标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行

13、处理时，常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群数据。4.8为什么要计算离散系数？方差和标准差是反映数据分散程度的绝对值，一方面其数值大小受原变量值本身水平高低的影响，也就是与变量的平均数大小有关；另一方面，它们与原变量的计量单位相同，采用不同计量单位的变量值，其离散程度的测度值也就不同。因此，为消除变量值水平高低和计量单位不同对离散程度测度值的影响，需要计算离散系数。4.9测度数据分布形状的统计量有哪些？对分布形状的测度有偏态和峰态，测度偏态的统计量是偏态系数，测度峰态的统计量是峰态系数。第五章概率与概率分布5.1 频率与概率有什么关系？在相同条件下随机试验n次，某事

14、件A出现m次，则比值m/n 称为事件A发生的频率。随着 n的增大，该频率围绕某一常数p波动，且波动幅度逐渐减小，趋于稳定，这个频率的稳定值即为该事件的概率。5.2 独立性与互斥性有什么关系？互斥事件一定是相互依赖(不独立)的，但相互依赖的事件不一定是互斥的。不互斥事件可能是独立的，也可能是不独立的，但独立事件不可能是互斥的。5.3 根据自己的经验体会举几个服从泊松分布的随机变量的实例。如某种仪器每月出现故障的次数、一本书一页中的印刷错误、某一医院在某一天内的急诊病人数等5.4根据自己的经验体会举几个服从正态分布的随机变量的实例。如某班某次的考试成绩、某地区成年男性的身高、某公司年销售量、同一

15、车间产品的质量等第六章思考题6.1 统计量：设 X I,X 2,X n 是从总体X中抽取的容量为n的一个样本，如果由此样本构造一个函数T (X 1,X 2,X n),不依赖于任何未知参数，则称函数T(X 1,X 2,X n)是一个统计量。原因：为了使统计推断成为可能。6.2 T 1 和 T 2 是6.3 P 1 5 96.4统计量加工过程中一点信息都不损失的统计量为充分统计量6.5自由度：独立变量的个数6.6 4分布：设 X-加。，那与名=阳(01)产分布：设若为服从自由度为m的/分布，即以(m)，/为服从自由度为功的/分布，即，(e),且和，相互独立，贝 I 淡岫圾)称尸为服从自

16、由度功和检的尸分布，记为6.7抽样分布：样本统计量的概率分布是一种理论概率分布随机变量是样本统计量6.8 中心极限定理：设从均值为，方差为。z 的一个任意总体中抽取容量为n的样本，当充分大时，样本均值的抽样分布近似服从均值为、方差为 d/A 的正态分布第七章思考题7.1 估计量：用于估计总体参数的随机变量估计值：估计参数时计算出来的统计量的具体值7.2 评价估计量的标准：无偏性：估计量抽样分布的数学期望等于被估计的总体参数有效性：对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效一致性：随着样本容量的增大，估计量的值越来越接近被估计的总体参数7.3置信区间：由样本统计量所构造的总

17、体参数的估计区间7.4 9 5%的置信区间指用某种方法构造的所有区间中有9 5%的区间包含总体参数的真值。7.5含义:Z a/2 是标准正态分布上侧面积为a/2 的 z 值,公式是统计总体均值时的边际误差。7.6 独立样本：如果两个样本是从两个总体中独立抽取的，即一个样本中的元素与另一个样本中的元素相互独立。匹配样本：一个样本中的数据与另一个样本中的数据相对应。7.7 (1)、两个总体都服从正态分布(2)、两个随即样本独立地分别抽自两个总体7.8 样本量越大置信水平越高，总体方差和边际误差越小第 8章思考题8.1 假设检验和参数估计有什么相同点和不同点？答：参数估计和假设检验是统计推断的两个组

18、成部分，它们都是利用样本对总体进行某种推断，然而推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法，总体参数 N 在估计前是未知的。而在参数假设检验中，则是先对P的值提出一个假设，然后利用样本信息去检验这个假设是否成立。8.2 什么是假设检验中的显著性水平？统计显著是什么意思？答：显著性水平是一个统计专有名词，在假设检验中，它的含义是当原假设正确时却被拒绝的概率和风险。统计显著等价拒绝H。，指求出的值落在小概率的区间上，一般是落在0.0 5或比0.0 5 更小的显著水平上。8.3 什么是假设检验中的两类错误？答：假设检验的结果可能是错误的，所犯的错误有两种类型，一类错误是原假设H

19、。为真却被我们拒绝了，犯这种错误的概率用。表示，所以也称 a错误或弃真错误；另一类错误是原假设为伪我们却没有拒绝，犯这种错误的概论用8 表示，所以也称8 错误或取伪错误。8.4两类错误之间存在什么样的数量关系？答：在假设检验中，a与 6是此消彼长的关系。如果减小a错误，就会增大犯B错误的机会，若减小 8错误，也会增大犯a错误的机会。8.5 解释假设检验中的P 值答：P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。（它的大小取决于三个因素，一个是样本数据与原假设之间的差异，一个是样本量，再一个是被假设参数的总体分布。）8.6显著性水平与P值有何区别答：显著性水平是原假

20、设为真时，拒绝原假设的概率，是一个概率值，被称为抽样分布的拒绝域，大小由研究者事先确定，一般为0.0 5。而 P只是原假设为真时所得到的样本观察结果或更极端结果出现的概率，被称为观察到的（或实测的）显著性水平8.7 假设检验依据的基本原理是什么？答：假设检验依据的基本原理是“小概率原理”，即发生概率很小的随机事件在一次试验中是几乎不可能发生的。根据这一原理，可以作出是否拒绝原假设的决定。8.8 你认为单侧检验中原假设与备择假设的方向如何确定？答：将研究者想收集证据予以支持的假设作为备择假设H 将研究者想收集证据证明其不正确的假设作为原假设H。,先确立备择假设H”备择假设的方向与想要证明其正确性

21、的方向一致，原假设与备择假设是互斥的，等号总在原假设上。（举例说明，如下：”一项研究表明，采用新技术生产后，将会使产品的使用寿命明显延长到1 5 0 0 小时以上。检验这一结论是否成立，则备择假设的方向为“”（寿命延长），建立的原假设与备择假设应为H。：u 1 5 0 0.又例，”一项研究表明，改进生产工艺后，会使产品的废品率降低到2%以下。检验这一结论是否成立“，则备择假设的方向为“心（废品率降低），建立的原假设与备择假设应为H o：P 2%,H l:u 2%.）第 1 0 章思考题1 0.1 什么是方差分析？它研究的是什么？答：方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数

22、值型因变量是否有显著影响。它所研究的是非类型自变量对数值型因变量的影响。1 0.2要检验多个总体均值是否相等时，为什么不作两两比较，而用方差分析方法？答：作两两比较十分繁琐，进行检验的次数较多，随着增加个体显著性检验的次数，偶然因素导致差别的可能性也会增加。而方差分析方法则是同时考虑所有的样本，因此排除了错误累积的概率，从而避免拒绝一个真实的原假设。1 0.3方差分析包括哪些类型？它们有何区别？答：方差分析可分为单因素方差分析和双因素方差分析。区别：单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响，而双因素涉及两个分类型自变量。1 0.4 方差分析中有哪些基本假定？答:方差分析中

23、有三个基本假定：（1）每个总体都应服从正态分布（2）各个总体的方差。2 必须相同（3）观测值是独立的1 0.5 简述方差分析的基本思想。答；它是通过对数据误差来源的分析来判断不同总体的均值是否相等，进而分析自变量对因变量是否有显著影响。1 0.6 解释因子与处理的含义。答：在方差分析中，所要检验的对象称为因素或因子，因素的不同表现称为水平或处理。1 0.7 解释组内误差和组间误差的含义。答：组内误差（S S E）是指每个水平或组的个样本数据与其组平均值误差的平方和，反映了每个样本各观测值的离散状况；组间误差（S S A）是指各组平均值灭i 与总平均值的误差平方和，反映各样本均值之间的差异程度。

24、1 0.8 解释组内方差和组间方差的含义。答：组内方差指因素的同一水平（同一个总体）下样本数据的方差，组间方差指因素的不同水平（不同总体）下各样本之间的方差。1 0.9简述方差分析的基本步骤。答：（1）提出假设（一般提法形式如下：u i=y 2=U 3=-=u!=.U k,自变量对因变量没有显著影响，H1：（i=l,2,3.，k）不全相等，自变量对因变量有显著影响）（2）构造检验统计量（包括：计算各样本的均值，计算全部观测值的总均值，计算各误差平方和，计算统计量）（3）统计决策。（将统计量的值F与给定的显著性水平a的临界值”进行比较，作出对原假设H。的决策）1 0.1 0 方差分析中多重比较的

25、作用是什么？答：通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。1 0.1 1 什么是交互作用？答：交互作用是指几个因素搭配在一起会对因变量产生一种新的效应的作用。1 0.1 2 解释无交互作用和有交互作用的双因素方差分析。答：在双因素方差分析中，如果两个因素对试验结果的影响是相互独立的，分别判断行因素和列因素对试验数据的影响，这时的双因素方差分析称为无交互作用的双因素方差分析或无重复双因素方差分析；如果除了行因素和列因素对试验数据的单独影响外，两个因素的搭配还会对结果产生一种新的影响，这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析。1 0.1 3

26、解释K的含义和作用。答：自变量平方和占总平方和的比例记为R?,即,2 S S A （组间S S）K-=-3-S S T （总S S）作用：其平方根R 就可以用来测量两个变量之间的关系强度。1 0.1 4 解释试验、试验设计、试验单元的含义。答：试验是指收集样本数据的过程。试验设计是指收集样本数据的计划。试验单元是指接受“处理”的对象或实体（“处理”指可控制的因素的各个水平）1 0.1 5 简述完全随机化设计、随机化区组设计、因子设计的含义和区别。答：完全随机化设计是将k种“处理”随机地指派给试验单元的设计。随机化区组设计是先按一定规则将试验单元划分为若干同质组，称为“区组”，然后再将各种处理

27、随机地指派给各个区组。因子设计指考虑两个因素（可推广到多个因素）的搭配试验设计。第 1 3 章思考题1 3.1 简述时间序列的构成要素。时间序列的构成要素：趋势，季节性，周期性，随机性1 3.2 利用增长率分析时间序列时应注意哪些问题。（1）当时间序列中的观察值出现0或负数时，不宜计算增长率；（2）不能单纯就增长率论增长率，要注意增长率与绝对水平的综合分析；大的增长率背后，其隐含的绝对值可能很小，小的增长率背后其隐含的绝对值可能很大。1 3.3 简述平稳序列和非平稳序列的含义。1 .平稳序列（s t a t io n a r y s e r ie s）基本上不存在趋势的序列，各观察值基本上在某

28、个固定的水平上波动或虽有波动，但并不存在某种规律，而其波动可以看成是随机的2 .非平稳序列（n o n-s t a t io n a r y s e r ie s）是包含趋势、季节性或周期性的序列，它可能只含有其中的一种成分，也可能是几种成分的组合。因此，非平稳序列又可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。1 3.4简述时间序列的预测程序。第一步：确定时间序列所包含的成分，也就是确定时间序列的类型。第二步：找出适合此类时间序列的预测方法。第三步：对可能的预测方法进行评估，以确定最佳预测方案。第四步：利用最佳预测方案进行预测。1 3.5简述指数平滑法的含义。1

29、.是加权平均的一种特殊形式2 .对过去的观察值加权平均进行预测的一种方法3 .观察值时间越远，其权数也跟着呈现指数的下降，因而称为指数平滑4 .有一次指数平滑、二次指数平滑、三次指数平滑等5 .该方法使用第T+1 期的预测值等于T期的实际观测值与第T期预测值的加权平均值6 .一次指数平滑法也可用于对时间序列进行修匀，以消除随机波动，找出序列的变化趋势1 3.6简述复合型序列预测的步骤第一步：确定并分离季节成分，计算季节指数，以确定时间序列中的季节成分。然后将季节性因素从时间序列中分离出去，以便观察和分析时间序列的其他特征。第二步：对消除了季节成分的时间序列建立适当预测模型，并进行预测。第三步：

30、计算出最后的预测值。用预测值乘以相应的季节指数，得到最终的预测值1 3.7 简述季节指数的计算步骤1 .计算移动平均值（季度数据采用4项移动平均，月份数据采用1 2 项移动平均），并将其结果进行“中心化”处理（将移动平均的结果再进行一次二项的移动平均，即得出“中心化移动平均值（酸）2 .计算移动平均的比值，也成为季节比率（即将序列的各观察值除以相应的中心化移动平均值，然后再计算出各比值的季度（或月份）平均值，即季节指数)3.季节指数调整(各季节指数的平均数应等于1 或 1 0 0%,若根据第二步计算的季节比率的平均值不等于1 时,则需要进行调整。具体方法是：将第二步计算的每个季节比率的平均值除

31、以它们的总平均值)第 1 4 章思考题1 4.1 解释指数的含义。答：指数最早起源于测量物价的变动。广义上，是指任何两个数值对比形成的相对数；狭义上，是指用于测定多个项目在不同场合下综合变动的一种特殊相对数。实际应用中使用的主要是狭义的指数。14.2 加权综合指数和加权平均指数有何区别与联系？加权综合指数:通过加权来测定一组项目的综合变动，有加权数量指数和加权质量指数。使用条件：必须掌握全面数据(数量指数，测定一组项目的数量变动，如产品产量指数，商品销售量指数等)(质量指数，测定一组项目的质量变动，如价格指数、产品成本指数等)拉式公式：将权数的各变量值固定在基期。帕式公式：把作为权数的变量值固

32、定在报告期。加权平均指数：以某一时期的总量为权数对个体指数加权平均。使用条件：可以是全面数据、不完全数据。因权数所属时期的不同，有不同的计算形式。有：算术平均形式、调和平均形14.3 解释零售价格指数、消费价格指数、生产价格指数、股票价格指数。答：零售价格指数：反映城乡商品零售价格变动趋势的一种经济指数。消费价格指数：反映一定时期内消费者所购买的生活消费品价格和服务项目价格的变动趋势和程度的一种相对数。生产价格指数：测量在初级市场上出售的货物(即在非零售市场上首次购买某种商品时)的价格变动的一种价格指数。股票价格指数：反映某一股票市场上多种股票价格变动趋势的一种相对数，简称股价指数。其单位一般

33、用“点”(p o i n t)表示，即将基期指数作为100,每上升或下降一个单位称为“1点”14.4消费价格指数有哪些作用？答：消费价格指数除了能反映城乡居民所购买的生活消费品价格和服务项目价格的变动趋势和程度外，还具有以下几个方面的作用：(1)用于反映通货膨胀状况(2)用于反映货币购买力变动(3)用于反映对职工实际工资的影响(4)用于缩减经济序列14.5 在构建多指标综合评价指数时，指标的转换方法有哪几种形式？答：有以下3 种形式：(1)统计标准化。(2)极值标准化。(3)定基与环比转换。具体公式见书上P440.补充：1.什么是指数体系？答：指数体系是指由总量指数及其若干个因素指数构成的数量

34、关系式。总量指数等于各因素指数的乘积总量的变动差额等于各因素指数变动差额之和两个因素指数中通常一个为数量指数，另一个为质量指数各因素指数的权数必须是不同时期的2.什么是加权综合指数体系？答：由加权综合指数及其各因素指数构成的等式。比较常用的是基期权数加权的数量指数和报告期权数加权的质量指数形成的指数体系。第二部分：练习题3.1为评价家电行业售后服务的质量，随机抽取了由100个家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好；c 一般;D.较差；E.差。调查结果如下：BECcADCBAEDACBCDECEEADBCCAEDCBBACDEABDDCCBCEDBCCBCDACBCDEC

35、EBBECCADCBAEBACEEABDDCADBCCAEDCBCBCEDBCCBC要求：(1)指出上面的数据属于什么类型。顺序数据(2)用 Excel制作一张频数分布表。用数据分析一一直方图制作：S -E16D17C32B21A14(3)绘制一张条形图，反映评价等级的分布。用数据分析一一直方图制作：4 0糜2 00直方图频率E D C B A接收(4)绘制评价等级的帕累托图。逆序排序后，制作累计频数分布表:接收频数频率(%)累计频率()C323232B212153D171770E161686A1414100匚二1频数T一累计频率(%)3.2某行业管理局所属40个企业2002年的产品销售收入数

36、据如下:1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126要求：(1)根据上面的数据进行适当的分组，编制频数分布表，并计算出累积频数和累积频率。1、确定组数：K=l+皿 1 +lg(2)lg(40)lg2,1.60206=1 H-0.30103=6.32,取 k=62、确定组距:组距=(最大值-最小值)+组数=(152-87)4-6=10.83,取 103、分组频数表销售收入频数频率累计频数累计频率80.00-8

37、9.0025.025.090.00-99.0037.5512.5100.00-109.00922.51435.0110.00-119.001230.02665.0120.00-129.00717.53382.5130.00-139.00410.03792.5140.00-149.0025.03997.5150.00+12.540100.()总和40100.0(2)按规定，销售收入在125万元以上为先进企业，115 125万元为良好企业，105 115万元为一般企业，105万元以下为落后企业，按先进企业、良好企业、一般企业、落后企业进行分组。频数频率累计频数累计频率先进企业1025.01025.

38、0良好企业1230.02255.()一般企业922.53177.5落后企业922.540100.()总和40100.03.3某百货公司连续40 天的商品销售额如下:单位：万元41252947383430384340463645373736454333443528463430374426384442363737493942323635要求：根据上面的数据进行适当的分组，编制频数分布表，并绘制直方图。1、确定组数:墨Y,=11.6+0-2-0-6-0.30103=6.32,取 k=62、确定组距:组距=(最大值-最小值)+组数=(49-25)4-6=4,取 53、分组频数表销售收入(万元)频数

39、频率累计频数累计频率=2512.512.526-30512.5615.()31-35615.01230.036-401435.02665.041-451025.03690.046+410.040100.()总和40100.()161412照 I糜86420频数频数=2 5 2 6 -3 0 3 1 -3 5 3 6 -4 0 4 1 -4 5 4 6+销售收入3.4利用下面的数据构建茎叶图和箱线图。572929363123472328283551391846182650293321464152282143194220d a t a St e m-a n d-Le a f Pl o tF r e

40、 q u e n cySt e m&Le a f3.0 01.8 8 95.0 02.0 1 1 3 37.0 02.6 8 8 8 9 9 92.0 03.1 33.0 03.5 6 93.0 04.1 2 33.0 04.6 6 73.0 05.0 1 21.0 05.7St e m w i d t h:1 0E a ch l e a f:1ca s e(s)3.6一种袋装食品用生产线自动装填，每袋重量大约为5 0 g,但由于某些原因，每袋重量不会恰好是5 0 g。下面是随机抽取的1 0 0袋食品，测得

41、的重量数据如下：单位：g-5 7 4 6 4 9 5 4 5 5 5 8 4 9 6 1 5 1 4 9-5 1 6 0 5 2 5 4 5 1 5 5 6 0 5 6 4 7 4 75 35 14 85 35 05 24 04 55 75 35 25 14 64 84 75 34 75 34 44 75 05 25 34 74 54 85 45 24 84 64 95 25 95 35 04 35 34 65 74 94 94 45 75 24 24 94 34 74 64 85 15 94 54 54 65 25 54 74 95 05 44 74 84 45 74 75 35

42、 85 24 85 55 35 74 95 65 65 75 34 14 8要求：(1)构建这些数据的频数分布表。(2)绘制频数分布的直方图。(3)说明数据分布的特征。解：(1)根据上面的数据进行适当的分组，编制频数分布表，并计算出累积频数和累积频率。1、确定组数：犬 _1 +)_1 +怆(1 0)一1 +l g(2)1 g 22-=6.6 4 ,取 k=6 或 70.3 0 1 0 32、确定组距：组距=(最大值-最小值)小组数=(6 1-4 0)+6=3.5,取3或者4、5组距=(最大值-最小值户组数=(6 1-4 0)+7=3

43、,3、分组频数表组距3,上限为小于频数百分比累计频数累积百分比有效 40.00-42.0033.033.043.00-45.0099.01212.046.00-48.002424.03636.049.00-51.001919.05555.052.00-54.002424.07979.055.00-57.001414.09393.058.00+77.0100100.0合计100100.0直方图:组距3,小于oo21Aouanb工30I I I4 6 8组距3,小于10Mean=5.22Std.Dev.=1.508N=100组距4,上限为小于等于频数百分比累计频数累积百分比有效=40.0011.0

44、11.041.00-44.0077.088.045.00-48.002828.03636.049.00-52.002828.06464.053.00-56.002222.08686.057.00-60.001313.09999.061.00+11.0100100.0合计100100.0直方图:组距4,小于等于10-oO32A0Uanb工I8Me a n =4.0 6St d.D e v.=1.2 2 1N =1 0 0组距4,小于等于组距5,上限为小于等于频数百分比累计频数累积百分比有效 666660000c11111c-CO z z co(2)绘制第一、二、三产业国内生产总值的线图。第一产

45、业-第二产业第三产业(3)根据2 004 年的国内生产总值及其构成数据绘制饼图。国内生产总值43721,32%20768.07,15%口第一产业第二产业口第三产业72387,53%第四章统计数据的概括性描述4.1 一家汽车零售店的1 0名销售人员5月份销售的汽车数量(单位：台)排序后如下:2 4 7 1 0 1 0 1 0 1 2 1 2 1 4 1 5要求：(1)计算汽车销售量的众数、中位数和平均数。(2)根据定义公式计算四分位数。(3)计算销售量的标准差。(4)说明汽车销售量分布的特征。解：75汽车销售数量StatisticsNValid10Missing0Mean9.60Median10

46、.00Mode10Std.Deviation4.169Percentiles256.255010.0012.50H isto g ramAOUnb,Mean=9.6Std.Dev.=4.169N=104.2随机抽取25 个网络用户，得到他们的年龄数据如下:单位：周岁19152925242321382218302019191623272234244120311723要求；(1)计算众数、中位数：1、排序形成单变量分值的频数分布和累计频数分布:网络用户的年龄FrequencyPercentCumulative FrequencyCumulative PercentValid1514.014.016

47、14.028.()1714.0312.01814.0416.019312.0728.02028.0936.02114.01040.02228.01248.()23312.01560.02428.01768.02514.01872.02714.01976.02914.02080.030/4.02184.03114.02288.03414.02392.03814.02496.04114.025100.0Total25100.0从频数看出，众数M。有两个：1 9、2 3；从累计频数看，中位数M e=2 3。(2)根据定义公式计算四分位数。Q 1 位置=2 5/4=6.2 5,因此 Q l=1 9,Q

48、 3 位置=3 X 2 5/4=1 8.7 5,因止匕 Q 3=2 7,或者，由于2 5 和 2 7 都只有一个，因此Q 3 也可等于2 5+0.7 5 X2=2 6.5(3)计算平均数和标准差；M e a n=2 4,00；S t d.D e v i a t i o n=6.6 5 2(4)计算偏态系数和峰态系数：S ke w n e s s=1.08 0；K u r t o s i s=0.7 7 3(5)对网民年龄的分布特征进行综合分析：分布，均值=2 4、标准差=6.6 5 2、呈右偏分布。如需看清楚分布形态，需要进行分组。为分组情况下的直方图：q.unoo15 16 17 18

49、19 20 21 22 23 24 25 27 29 30 31 34 38 41网络用户的年龄为分组情况下的概率密度曲线:l.O-ll I I I I I I I I I I I I I I I I15 16 17 18 19 20 21 22 23 24 25 27 29 30 31 34 38 41网络用户的年龄分组：1、确定组数:K=+皿+lg(2)1g 2,1.398=1 4-0.30103=5.64,取 k=62、确定组距：组距=(最大值-最小值)+组数=(41-15)+6=4.3,取 53、分组频数表网络用户的年龄(Binned)FrequencyPercentCumul

50、ative FrequencyCumulative PercentValid=1514.014.016-20832.0936.021-25936.01872.026-30312.02184.031-3528.02392.036-40i4.02496.041+14.025100.()Total25100.0分组后的均值与方差:Mean23.3000Std.Deviation7.02377Variance49.333Skewness1.163Kurtosis/.302分组后的直方图:86AounbojqMean=23.30Std.Dev.=7.024N=25o-10.0015.0020.0030.

展开阅读全文