《第四章 统计资料的描述--离散程度.ppt》由会员分享,可在线阅读,更多相关《第四章 统计资料的描述--离散程度.ppt(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1-11-11-1第第 四四 章章 统计资料的描述统计资料的描述第四节第四节 离散程度的描述离散程度的描述统计学主讲:高颖婕主讲:高颖婕1-21-21-2离散程度的描述的描述主要内容l离中趋势,离散指标l全距,平均差,标准差l离散系数1-31-31-3集中趋势是一个说明同质总体各个变量值的代表值,其代表性如何?决定于被平均值之间的变异程度。在统计中,把反映现象总体中各个体的变量值之间的差异程度的指标成为离散程度。反映离散程度的指标有绝对数的和相对数的两类。1-41-41-4l绝对数的指标:全距(极差)平均差标准差l相对数的指标:离散系数(平均差系数、标准差系数)(平均差系数、标准差系数)1-5
2、1-51-5一、一、离中趋势离中趋势和和离散指标离散指标的概念:的概念:离离中中趋趋势势:就就是是变变量量分分布布中中各各变变量量值值远远离离中中心心值值的倾向。测度离中趋势的指标叫离散指标。的倾向。测度离中趋势的指标叫离散指标。离离散散指指标标又又称称标标志志变变异异指指标标它它是是反反映映总总体体各各单单位位标标志志值值变变动动范范围围和和差差异异程程度度的的指指标标。它它说说明明了了变变量量分分布布中中各各变变量量值值远远离离中中心心值值或或代代表表值值程程度度的的指指标。标。平平均均指指标标和和离离散散指指标标是是一一对对指指标标,集集中中趋趋势势让让我我们们知知道道用用怎怎样样的的值
3、值去去估估计计和和预预测测总总体体,而而离离散散趋趋势势让让我我们们知知道道估估计计值值误误差差的的大大小小。结结合合起起来来能能更更准确地说明变量分布的数量特征。准确地说明变量分布的数量特征。1-61-61-6二、标志变异指标的作用二、标志变异指标的作用 1 1、用标志变异指标衡量和比较平均指标的用标志变异指标衡量和比较平均指标的代表性。代表性。2 2、用标志变异指标反映经济活动过程的均、用标志变异指标反映经济活动过程的均衡性、稳定性和节奏性。衡性、稳定性和节奏性。3 3、标志变异指标在相关分析和抽样调查中、标志变异指标在相关分析和抽样调查中的应用。的应用。1-71-71-7甲乙丙三车间都有
4、甲乙丙三车间都有7个工人,生产的零件数个工人,生产的零件数如下:如下:甲:甲:72737475767778乙:乙:3050657590100115丙:丙:75757575757575平均数都为平均数都为75件。但代表性谁好?件。但代表性谁好?1-81-81-8有甲乙两厂有甲乙两厂:月计划完成月计划完成%上旬上旬%中旬中旬%下旬下旬%甲甲100102070乙乙100323335甲乙两厂哪个厂生产的稳定性,均衡性,节甲乙两厂哪个厂生产的稳定性,均衡性,节奏性谁好?奏性谁好?1-91-91-9标志变异指标的测定方法1-101-101-10(一)全距(一)全距(极差,极差,RangeRange )1
5、1、极差:、极差:1 1)极差也称全距,它是统计总体中两个极端标)极差也称全距,它是统计总体中两个极端标志值之差,表明总体中标志值变动的范围。志值之差,表明总体中标志值变动的范围。2 2)计算公式:)计算公式:(未分组)(未分组)(分组)(分组)式中:式中:UmaxUmax代表最高组的上限;代表最高组的上限;LminLmin代表最低组的下限。代表最低组的下限。1-111-111-11某校某系有1,2两班,某科成绩抽样如下:1班:1008085706040102班:90807060504040差异程度:R1=100-10=90R2=90-40=501-121-121-12优点:优点:缺点:缺点:
6、计算简单、计算简单、计算简单、计算简单、直观。直观。直观。直观。(1 1)受极端值影响大;)受极端值影响大;)受极端值影响大;)受极端值影响大;(2 2)没有量度中间各个单位标没有量度中间各个单位标没有量度中间各个单位标没有量度中间各个单位标志值的差异性,数据利用率志值的差异性,数据利用率志值的差异性,数据利用率志值的差异性,数据利用率 低,信低,信低,信低,信息丧失严重;息丧失严重;息丧失严重;息丧失严重;(3 3)受抽样变动影响大,大样)受抽样变动影响大,大样)受抽样变动影响大,大样)受抽样变动影响大,大样本全距比小样本全距大。本全距比小样本全距大。本全距比小样本全距大。本全距比小样本全距
7、大。1-131-131-13(二二)异异众众比比。异异众众比比就就是是指指非非众众数数的的频频数数与与全部的总体频数的比率。全部的总体频数的比率。公式如下:公式如下:f fmomo表示众数的频数。表示众数的频数。这这个个公公式式要要求求的的是是在在全全部部的的变变量量值值中中,有有多多少少是是偏偏离离众众数数值值的的,不不属属于于众众数数的的变变量量值值频频数数所所占占比比率率越越大大,表表示示众众数数的的代代表表性性就就越越小小,以以众众数数作作为估计或预测时的误差就越大。为估计或预测时的误差就越大。1-141-141-14表表 某单位职工民族分布状况表某单位职工民族分布状况表汉族 回族 朝
8、鲜族 其它民族代号 1234人数 530400100130累计人数530930103011601-151-151-15计算的异众比为:计算的异众比为:V=这这说说明明,该该数数列列非非众众数数所所占占的的比比重重是是54.3%54.3%,离离散散程程度度较较高高。众众数数汉汉族族对对总总体体集集中中程程度度的的代代表表性较低。性较低。1-161-161-16(三三)四四分分位位差差。第第三三个个四四分分位位置置的的值值与与第第一一个个四四分分位位置置的的值值的的差差异异就就是是四四分分位位差差,其其计算公式:计算公式:1-171-171-17 l四分位差仅与四分位差仅与50%50%的数值有关,
9、而不考虑数据的数值有关,而不考虑数据前后各占前后各占25%25%的数值。这样避免了全距易受极的数值。这样避免了全距易受极端值影响的缺陷,同时也表明了端值影响的缺陷,同时也表明了50%50%数据的离数据的离散趋势。此外,中位数经常与四分位差结合起散趋势。此外,中位数经常与四分位差结合起来使用。由于中位数处于数据的中间位置,因来使用。由于中位数处于数据的中间位置,因此四分位差可以用于衡量中位数的代表性。数此四分位差可以用于衡量中位数的代表性。数值越小,说明中间数据越集中。值越小,说明中间数据越集中。l其特点:四分位差避免了数列中极端值的影响,其特点:四分位差避免了数列中极端值的影响,但去头弃尾,丢
10、失大量的原始数据。此外但去头弃尾,丢失大量的原始数据。此外没有没有没有没有量度各个单位间的差异性。量度各个单位间的差异性。量度各个单位间的差异性。量度各个单位间的差异性。1-181-181-18例如某校例如某校8080名学生的成绩分为甲、乙、丙、名学生的成绩分为甲、乙、丙、丁四个等级,各等级次数如表所示:丁四个等级,各等级次数如表所示:甲甲 55乙乙 2025丙丙 3055等级等级 人数人数 累计人数累计人数丁 2580合计合计 801-191-191-19第一个四分位数=20.25位置=第三个四分位数=60.75 位置=结论,有50%的学生成绩在乙与丁之间-=丁-乙=两个等级 1-201-2
11、01-20(四)平均差平均差要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。平均差是平均差是离差绝对值的算术平均数。离差绝对值的算术平均数。1.对于未分组资料(简单平均差)对于未分组资料(简单平均差)1-211-211-21 一个工厂,其中有5名工人的日产量如下(件)1、2020 22 22 23 23 24 24 26 26=1-221-221-22计算步骤计算计算x-计算x-代入公式1-231-231-23在两组进行对比的时候,平均差的作用?如果两组平均数都是23的话,第二组平均差求得为2,那就代表,第一组的平均值更有
12、代表性,第二组较第一组相比,离散程度较强。1-241-241-24(四)平均差平均差2.对于分组资料对于分组资料(加权平均差)(加权平均差)f:出现的次数出现的次数1-251-251-25绝对数(f)例:有200名工人,他们的日产量分布如下(kg)日产量(kg)人数(人)20-301030-407040-509050-60301-261-261-26计算步骤计算计算x-计算x-代入公式f1-271-271-271-281-281-28当平均值相同的时候,加权平均差较小的那组,平均值更有代表性,平均差较大的那组,平均值代表性较弱。换句话说,加权平均差较小的那组,离散度弱,加权平均差较大的那组,离
13、散度强。1-291-291-29平均差的应用条件,两个或者是多个数列的平均水平相等的情况,平均差的数值越大,说明平均数的代表性越差,变量之间的差异越大。平均差的数值越小,说明平均数的代表性越强,变量之间的差异越小。1-301-301-30相对数(P)例:有200名工人,他们的日产量分布如下(kg)日产量(kg)比重20-305%30-4035%40-5045%50-6015%1-311-311-311-321-321-32优点:优点:平均差是利用所有变量的值来计算的,所以受极端值的影响比全距小。缺点:缺点:由于采取绝对值的方法消除离差的正负号,所以不合乎代数方法的计算,应用较少。对比:平均差和
14、全距1-331-331-33(五)方差和标准差1-341-341-34标标准准差差:每每个个变变量量值值与与算算术术平平均均数数离离差差平平方方的算术平均数的平方根。的算术平均数的平方根。方差:标准差的平方为方差。方差:标准差的平方为方差。方差按下列公式计算:方差按下列公式计算:简单式加权式1-351-351-35 一个工厂,其中有5名工人的日产量如下(件)1、2020 22 22 23 23 24 24 26 26 用标准差来计算离散程度?用标准差来计算离散程度?=1-361-361-361-371-371-37两组或多组数据作比较,标准差越小,离差程度越小,说明平均数的代表性越好;反之,标
15、准差越大,离差程度越大,说明平均值的代表性越差。1-381-381-385 52 2 2 2 5 5 0 025254 44 4252558581-391-391-39例试计算以下试计算以下40名同学成绩的标准差和方差。名同学成绩的标准差和方差。x x55556565757585859595 xfxf1101105205201200120085085038038030603060-21.5-21.5-11.5-11.5-1.5-1.58.58.518.518.5462.25462.25132.25132.252.252.2572.2572.25342.25342.25924.5924.5105
16、810583636722.5722.513691369411041101-401-401-40此外均方差的计算公式可被简化为 即=(未分组资料)=(分组资料)1-411-411-41方差的简捷计算法1-421-421-42例1-431-431-43标准差的作用标准差的作用标准差的作用标准差的作用用来比较分析两个或两个以上用来比较分析两个或两个以上用来比较分析两个或两个以上用来比较分析两个或两个以上同类现象平均数相等同类现象平均数相等同类现象平均数相等同类现象平均数相等时平均时平均时平均时平均数的代表性:即数的代表性:即数的代表性:即数的代表性:即1-441-441-44标准差是反映总体各单位标
17、志值的离散状况和差异程度的最佳测度。(1)以算术平均数为基准计算的标准差比以其他任何数值为基准计算的标准差要小。“离差平方和最小离差平方和最小”性性质:质:-各变量值对算术平均数的离差的平方和,必定小于他们对任何其他数偏差的平方和。(2)它将总体中各单位标志值的差异全包括在内,受抽样变动影响小。但在受极端值影响以及处理开口组组距方面,缺点同算术平均数。标准差的性质标准差的性质标准差的性质标准差的性质1-451-451-45变异系数:平均差系数、标准差系数变异系数:平均差系数、标准差系数全距,平均差、标准差全距,平均差、标准差都是反映离中趋势的变异都是反映离中趋势的变异指标,是绝对数,都具有和原
18、资料相同的计算单指标,是绝对数,都具有和原资料相同的计算单位。但欲比较具有不同单位的资料的离散程度,位。但欲比较具有不同单位的资料的离散程度,或比较单位虽相同而均值不相同的资料的离差程或比较单位虽相同而均值不相同的资料的离差程度,反映离散趋势的绝对指标则很可能导致某些度,反映离散趋势的绝对指标则很可能导致某些错误结论。所以,我们还得了解和学习用相对指错误结论。所以,我们还得了解和学习用相对指标反映离散趋势的指标:标反映离散趋势的指标:变异系数变异系数 1-461-461-46 例例 已知下列资料,试比较哪组数据更集中(整齐)已知下列资料,试比较哪组数据更集中(整齐)。1-471-471-471
19、-481-481-48例1:设为测体重,得到成人组和婴儿组各100人的两个抽样总体。成人组平均体重为65千克,标准差为10千克;婴儿组平均体重为4千克,标准差为2.5千克。能否认为成人组体重的离势比婴儿组体重的离势大?例2:对一个群体测量身高和体重,平均身高为170.2厘米,身高标准差为5.30厘米;平均体重为70千克,体重标准差为4.77千克。比较身高和体重的离散程度。1-491-491-49补充内容:补充内容:是非标志的平均数和标准差是非标志的平均数和标准差 l一、什么是是非标志。一、什么是是非标志。l又称交替标志,它是用又称交替标志,它是用“是是”“”“否否”或或“有有”“”“无无”来表
20、示的。来表示的。l二、什么是成数。二、什么是成数。“是是”的单位数在全的单位数在全体单位数中所占比例,称为体单位数中所占比例,称为“成数成数”,记为记为p p。l是非标志的平均数为是非标志的平均数为p(p(对于对于“是是”而言而言)l是非标志的方差为是非标志的方差为p(1-p)=p(1-p)=pqpq。1-501-501-50三、成数的平均数、成数的标准差是非标志X单位数fxff1000合计N1-511-511-51 例例 试据以下资料计算某班考试成绩试据以下资料计算某班考试成绩及格率及格率的平均数与方差。的平均数与方差。1-521-521-52方差加法定理(补充内容)例11人日产量(成品:件
21、)如下:15、17、19、20、22、22、23、23、25、26、30。试求其总方差。1-531-531-53例11人日产量(件):15,17,19;20,22,22,23,23;25,26,30。1-541-541-54(4)平均组内方差:各组内方差的平均数。1-551-551-55例11人日产量(件)如下15,17,19,20,22,22,23,23,25,26,30。1-561-561-56标准分标准分标准分标准分以离差和标准差的比值。以离差和标准差的比值。Z值来测定变量值来测定变量x与与的相对位置。的相对位置。(1 1)Z Z是和是和是和是和X X一一对应的变量值;一一对应的变量值;
22、一一对应的变量值;一一对应的变量值;(2 2)Z Z分数没有单位,是一个不受原资分数没有单位,是一个不受原资分数没有单位,是一个不受原资分数没有单位,是一个不受原资料单位影响的相对数,所以可以用于不同单料单位影响的相对数,所以可以用于不同单料单位影响的相对数,所以可以用于不同单料单位影响的相对数,所以可以用于不同单位资料的比较;位资料的比较;位资料的比较;位资料的比较;(3 3)Z Z分数实际表达了变量值距总体均分数实际表达了变量值距总体均分数实际表达了变量值距总体均分数实际表达了变量值距总体均值有几个标准差。值有几个标准差。值有几个标准差。值有几个标准差。1-571-571-57Z Z分数也
23、有标准正态变量之称。按分数也有标准正态变量之称。按分数也有标准正态变量之称。按分数也有标准正态变量之称。按Z Z值大小编制值大小编制值大小编制值大小编制出的正态分布表,其用途十分广泛。出的正态分布表,其用途十分广泛。出的正态分布表,其用途十分广泛。出的正态分布表,其用途十分广泛。lZ分数是由均值和标准差两个因素所决定。l标准分数具有平均数为标准分数具有平均数为0 0,标准差为,标准差为1 1的的特性,即特性,即1-581-581-58标准分数应用标准分数应用lZ Z值是服从均值为值是服从均值为0 0,标准差为,标准差为1 1的标准正态分布,的标准正态分布,是无量纲。是无量纲。通过计算标准分可以
24、使处于不同均值通过计算标准分可以使处于不同均值水平,不同计量单位的水平,不同计量单位的变量值变量值进行比较成为可能进行比较成为可能,因为使比较的对象找到同一标准的相对位置。因为使比较的对象找到同一标准的相对位置。l例如:例如:l某班级某次数学考试的均值和标准差分别是某班级某次数学考试的均值和标准差分别是8585分分和和7 7分,英语考试的均值和标准差分别是分,英语考试的均值和标准差分别是8080分和分和6 6分。李同学数学和英语考分是分。李同学数学和英语考分是9292和和8787分。问李同分。问李同学哪门课成绩在班上更好?学哪门课成绩在班上更好?l数学标准分是数学标准分是1 1,英语标准分是,
25、英语标准分是1.171.17。所以英语。所以英语成绩更好些。成绩更好些。1-591-591-59l经验法则经验法则:当一组数据对称分布时:当一组数据对称分布时:l约有约有68%的数据在平均数加减的数据在平均数加减1个标准差的范围个标准差的范围l约有约有95%的数据在平均数加减的数据在平均数加减2个标准差的范围个标准差的范围l约有约有99%的数据在平均数加减的数据在平均数加减3个标准差的范围个标准差的范围l可以想象,一组数据中低于或高于平均数可以想象,一组数据中低于或高于平均数3倍标准差之倍标准差之外的数值是很少的,外的数值是很少的,在在3倍标准差之外的数值称为异常倍标准差之外的数值称为异常值或离群值。值或离群值。1-601-601-60小结l全距,平均差,标准差l离散系数