《数据分布特征的度量.ppt》由会员分享,可在线阅读,更多相关《数据分布特征的度量.ppt(73页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据分布特征的度量现在学习的是第1页,共73页统计学第4章 数据分布特征的度量 4.1 集中趋势的度量 4.2.5 方差和标准差 4.1.1 众数 4.2.6 离散系数 4.1.2 中位数 4.2.7 标准化值 4.1.3 均值 4.1.4 调和平均数 4.1.5 几何平均数 4.3 偏态和峰度的度量 4.1.6 均值、众数和中位数的比较 4.3.1 偏态系数 4.1.7 均值、众数和中位数的比较 4.3.2 峰度系数4.2 离散程度的度量 4.2.1 异众比率 4.2.3 取值范围 4.2.4 平均差2022/10/14现在学习的是第2页,共73页第4章 数据分布特征的度量4.1 4.1 集
2、中集中趋势趋势的度量的度量统计学教程卢小广现在学习的是第3页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 原始数据经过分组整理所形成的频数分布,直观和概略地反映出数据分布的基本特征。频数分布属于对数据分布特征的初步描述,缺乏对数据分布特征的综合度量,若需要深入地表述数据分布特征的具体特征和内在联系,还应对数据分布特征进行综合性的度量。数据分布特征的度量包括三个方面的内容,一是数据分布的集中趋势,反映总体中各个单位的数值水平向其聚集,或者集中的中心数值;二是数据分布的离散趋势,反映总体中各个单位的数值水平偏离中心数值的综合程度;三是数据分布的偏态和峰度
3、,反映各个总体单位的数值水平的分布形态是对称或偏倚,平坦或尖耸的具体数值。集中趋势(Central Tendency)是指一组数据所趋向的中心数值。对集中趋势的度量就是采用具体的统计方法和统计测度对这一中心数值的测量和计量,以一综合数值来表述数据所趋向的这一中心数值的一般水平。2022/10/14现在学习的是第4页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.1众数 众众数数(ModeMode)是是一一组组数数据据中中频频数数最最大大的的变变量量值值,直直观观地地反反映映了了数数据据的的集集中中趋趋势势。众数是度量定类数据定类数据集中趋势的测
4、度,一般用 表示。例例4.1 4.1 某品牌运动服装专卖店一批新品球衣销售情况如下表 4.1 某专卖店新品球衣销售情况 件2022/10/14现在学习的是第5页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.1众数 众众数数(ModeMode)是是一一组组数数据据中中频频数数最最大大的的变变量量值值,直直观观地地反反映映了了数数据据的的集集中趋势。中趋势。众数是度量定类数据定类数据集中趋势的测度,一般用 表示。例例4.1 4.1 某品牌运动服装专卖店一批新品球衣销售情况如下表 4.1 某专卖店新品球衣销售情况 件2022/10/14现在学习的是
5、第6页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.2 4.2 利用第三章中例3.1中某学期某班35名学生统计学考试成绩的原始数据。要求要求 试计算计算该班35名学生统计学考试成绩的众数。解解 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98 2022/10/14现在学习的是第7页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集
6、中趋势趋势的度量的度量 例例4.2 4.2 利用第三章中例3.1中某学期某班35名学生统计学考试成绩的原始数据。要求要求 试计算计算该班35名学生统计学考试成绩的众数。解解 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98 84分在这35名学生的统计学考试成绩的原始数据中出现了4次,属于出现次数最多的变量值,根据众数定义,可以确定众数为84分,即2022/10/14现在学习的是第8页,共73页统计
7、学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 利用已经分组的数值型数据计算众数的场合,需要运用插值公式来计算众数的近似数值。众数的插值公式有下限公式和上限公式。其下限公式从众数所在组的上限出发,有 (4.1)上限公式则从众数所在组的上限出发,有 (4.2)2022/10/14现在学习的是第9页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.3 4.3 表4.2为第三章中表3.7“某学期某班35名学生的统计学考试成绩”中的部分数据。根据表4.2的已经分组的数值型数据,计算该班35名学生的统计学考试成绩众数的近似数值。
8、表4.2 某学期某班35名学生的统计学考试成绩2022/10/14现在学习的是第10页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 通过上限公式或下限公式的计算众数所得到的计算结果是一致的。众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度,为一位置型的代表数值,所以众数的取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,使用众数来度量数据的集中趋势,可以作为其它集中趋势测度的补充。众数是一个适用于最低层次的定类数据的测度,因此可以用于各种量表数据的集中趋势分析,有效使用众数的前提是数据的频数分布
9、存在明显的集中态势。2022/10/14现在学习的是第11页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 通过上限公式或下限公式的计算众数所得到的计算结果是一致的。众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度,为一位置型的代表数值,所以众数的取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,使用众数来度量数据的集中趋势,可以作为其它集中趋势测度的补充。众数是一个适用于最低层次的定类数据的测度,因此可以用于各种量表数据的集中趋势分析,有效使用众数的前提是数据的频数分布存在明显的集中态势。讨论题
10、:你认为那些现象不适宜采用众数来描述其集中趋势?2022/10/14现在学习的是第12页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.2 中位数 中中位位数数(MedianMedian)是是位位于于有有序序数数据据正正中中间间位位置置上上的的变变量量值值,中中位位数数用用其其特特殊殊的的位位置置属属性性直直接接地地体体现现了了集集中中趋趋势势的的中中心心数数值值特特征征。中位数是度量定定序序数数据据集中趋势的测度,一般用 表示。中位数也是一种位置型的代表数值,同时中位数还是一种顺序统计量,因此,计算中位数要求数值至少具备定序数据的性质。中位数
11、一旦确定,就可以根据中位数的具体取值,将全部数据分成数量相等的两个部分,一半数据的数值小于或等于中位数;另一半数据的数值大于或等于中位数。由此可得出中位数的计算公式。当数据的个数为奇数时,有 (4.3)当数据的个数为偶数时,有 (4.4)2022/10/14现在学习的是第13页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.44.4 仍然采用第三章中例3.1 某学期某班35名学生的统计学考试成绩的原始数据。要求要求 试计算该班35名学生的统计学考试成绩的中位数。解解 将原始数据排序之后,得到以下有序数据52,56,62,64,65,69,70,
12、74,75,75,76,78,78,79,79,81,82,82828282,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98 该组数据的个数为35,因此采用式(4.3)计算,排列在该组有序数据第18位上的变量值为82分,该班35名学生的统计学考试成绩的中位数为82分。即2022/10/14现在学习的是第14页,共73页统计学第4章 数据分布特征的度量 利用已经分组的数值型数据计算中位数时,需要运用插值公式计算中位数的近似数值。中位数的插值公式也有下限公式和上限公式。其下限公式从中位数所在组的下限出发,为 (4.5)上限公式从中位数所在组的上
13、限出发,为 (4.6)4.1 4.1 集中集中趋势趋势的度量的度量 2022/10/14现在学习的是第15页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.54.5 表4.3为第三章“表3.7 某学期某班35名学生的统计学考试成绩”中的部分资料,为已经分组的数值型数据。要求要求 根据表4.3数据,计算该班35名学生的统计学考试成绩的中位数。解解 运用插值公式计算该班学生统计学考试成绩中位数的近似数值。表4.3 某学期某班35名学生的统计学考试成绩2022/10/14现在学习的是第16页,共73页统计学第4章 数据分布特征的度量 显然,我们可以任
14、选上限公式或下限公式来计算中位数,得到结果是相同的。中位数是一个顺序统计量,其取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,可以使用中位数来度量数据的集中趋势。4.1 4.1 集中集中趋势趋势的度量的度量 2022/10/14现在学习的是第17页,共73页统计学第4章 数据分布特征的度量 显然,我们可以任选上限公式或下限公式来计算中位数,得到结果是相同的。中位数是一个顺序统计量,其取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,可以使用中位数来度量数据的集中趋势。讨论题:你认为中位数的主要局限是什么?
15、4.1 4.1 集中集中趋势趋势的度量的度量 2022/10/14现在学习的是第18页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.3 均值 均值(Mean)为一组数值型数据之和除以该组数据总数的商,即同一组数据的总值与其频数的商。在大多数场合,均值采用算术平均方法计算,所以人们经常将均值称为算术平均数(Arithmetical Average)。计算均值的数据需要具备数值型数据的属性,均值是一个数值型的集中趋势测度。通过计算均值的运算过程,首先将各个数据之间的数量差异抽象掉了,以一个抽象性的综合测度概括地反映事物的集中趋势。其次将不同总体的
16、总量规模抽象掉了,表现出来的只是一个一般性的代表水平,有利于不同规模的同类总体在不同空间和时间上的广泛比较。2022/10/14现在学习的是第19页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 1简单均值 简单均值(Simple Mean)是根据未分组的原始数据计算出来的均值。有 (4.7)例例4.6 4.6 仍采用第三章中例3.1某学期某班35名学生的统计学考试成绩的原始数据 要求要求 试计算该班35名学生的统计学考试成绩的均值。解解 采用式(4.7)计算,有 2022/10/14现在学习的是第20页,共73页统计学第4章 数据分布特征的度量 4.
17、1 4.1 集中集中趋势趋势的度量的度量 2加权均值 加权均值(Weighted Mean)是运用各组频数作为权数对各组数值水平进行加权计算出来的均值。根据是单变量值分组还是组距分组,以及组距分组的各组数值水平代表数据是组均值还是组中值,加权均值的计算分为以下三种类型。(1)单变量值分组加权均值 在单变量值分组场合,加权均值的计算公式为 (4.8)2022/10/14现在学习的是第21页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.7 4.7 某机床总装车间10个装配小组日完成产品台数情况,计算单变量值分组加权均值。表4.4 某机床总装车间1
18、0个装配小组日完成产品台数情况 要求要求 试计算单变量值分组加权均值。解解 采用式(4.8)计算,可得2022/10/14现在学习的是第22页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 (2)采用组均值计算加权均值 在组距分组中,采用组均值计算加权均值时,计算公式为 (4.9)式(4.9)中 表示第j 组的组均值。2022/10/14现在学习的是第23页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.84.8 采用第三章中例3.1 的各组均值数据。要求要求 试计算组距分组的该班35名学生的统计学考试
19、成绩的加权均值。解解 依据各组中的数据数值和数据个数,按照式(4.7)的均值计算公式,计算出各组的组均值,填入表4.5中。表4.5 某学期某班35名学生统计学考试成绩的组均值和频数2022/10/14现在学习的是第24页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 (3)采用组中值计算加权均值 在不占有原始数据和组均值数值,只拥有已分组的数据时,只有利用各组组中值采用加权的方式计算均值的近似数值。利用组中值计算均值近似值的公式为 (4.10)式(4.10)中 表示第j组的组中值。2022/10/14现在学习的是第25页,共73页统计学第4章 数据分布
20、特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.94.9 根据第三章中表3.7中“某学期某班35名学生的统计学考试成绩”的各组组中值和频数数据。要求要求 试采用组中值计算该班35名学生的统计学考试成绩的加权均值。解解 采用式(4.10)计算。表4.6 某学期某班35名学生统计学考试成绩的组中值和频数2022/10/14现在学习的是第26页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 3权数与加权结构 对于加权均值而言,有两个因素决定着均值数值的大小,一个因素是各组的数值水平;另一个因素是各组的频数。频数对各组的数值水平数值起着权衡轻
21、重的作用,所以将加权均值的计算公式中频数称为“权数”。在均值的计算中又将频数分布称为“加权结构”,“加权结构”更加清晰地反映了数据在各组中的分布与集中趋势之间的联系,及其对均值数值水平形成的影响。将式(4.8)略加变形,有 (4.11)2022/10/14现在学习的是第27页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 均值的数学性质:(1)各个变量值与其均值的离差和为零,即(2)各个变量值与其均值平均数的离差平方和为最小,即 当取均值作为集中趋势的测度时,各个数据的取值与集中趋势测度的离差平方和为最小值。均值的这一数学性质是度量离散程度,进行误差分
22、析和最小二乘估计等统计方法的基础。2022/10/14现在学习的是第28页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 均值的数学性质:(1)各个变量值与其均值的离差和为零,即(2)各个变量值与其均值平均数的离差平方和为最小,即 当取均值作为集中趋势的测度时,各个数据的取值与集中趋势测度的离差平方和为最小值。均值的这一数学性质是度量离散程度,进行误差分析和最小二乘估计等统计方法的基础。讨论题:试比较均值、众数和中位数在数值型数据的集中趋势分析中的作用?2022/10/14现在学习的是第29页,共73页统计学第4章 数据分布特征的度量 4.1 4.1
23、集中集中趋势趋势的度量的度量 4.1.4 调和平均数 调和平均数(Harmonic Mean)是各个变量数值倒数的算术平均数的倒数。因此又称之为“倒数平均数”。1.简单调和平均数 设有个变量值为,则有简单调和平均数的计算公式为 (4.12)2022/10/14现在学习的是第30页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.104.10 设有12批A产品当日在某海关进口时报关的单价分别为每件25,24,25,27,26,25,24,28,26,25,26,28美元。要求要求 试用调和平均数方法计算其平均价格。解解 由式(4.12)2022/1
24、0/14现在学习的是第31页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 2加权调和平均数(1)单变量值分组的加权调和平均数 在单变量值分组场合,加权均值的计算公式为 (4.13)(2)组距分组的加权调和平均数 在组距分组场合,仍然根据是否拥有各组组均值数据,加权调和平均数的计算分为两种不同的方式。拥有各组组均值数据时,采用各组组均值计算加权调和平均数;不具有各组组均值数据时,则需要采用各组组中值来计算加权调和平均数的近似数值。在现实生活中,实际使用到的仅是一种形式上类似调和平均数的“加权调和平均数”,它是均值的一种变形。2022/10/14现在学习
25、的是第32页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 3均值的变形 在拥有各组总值数据和各组变量值水平,缺少各组频数数据时,往往采用形式上类似加权调和平均数的公式,来计算加权均值。用表示各组总值,用表示这一形式上类似加权调和平均数的集中趋势测度,有 (4.14)由式(4.14)可知,这一所谓的形式上类似加权调和平均数的集中趋势测度实际上就是均值,而不是调和平均数。2022/10/14现在学习的是第33页,共73页统计学第4章 数据分布特征的度量 例例4.124.12 已知某商店商品按照优惠价、折扣价和原价的单价和销售总额。要求要求 试求销售价格的
26、均值。解解 由式(4.16)表4.8 某商店W商品销售情况4.1 4.1 集中集中趋势趋势的度量的度量 2022/10/14现在学习的是第34页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.5 几何平均数 几何平均数(Geometric Mean)是指各项数据的连乘积开其项数次方的算术根,一般用G表示。当对象为某种连乘积的关系,例如总比率或总速度时,则需要采用几何平均数方法,计算其平均比率或平均速度。几何平均数的计算公式也有简单几何平均数加权几何平均数和两种形式:简单几何平均数。计算公式为:(4.15)、加权几何平均数。加权几何平均数计算公式
27、为:(4.16)2022/10/14现在学习的是第35页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.134.13 某厂有四个连续作业车间,其产品的合格率分别为95%、96%、94%和90%。要求要求 试计算该产品的平均合格率。解解 显然,本题不能采用算术平均法或调和平均法,因为各车间的合格率之积全厂的总合格率,应采用几何平均法来计算其平均合格率。由式(4.15),有2022/10/14现在学习的是第36页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.144.14 设某项每年分红一次的投资项
28、目,10年来各年的实际收益率分别为10%,9%,8%,8%,9%,8%,9%,7%,11%,10%。要求要求 试求该项投资10年来的平均年收益率。解解 平均年收益率是一项平均增长速度,需要由平均发展速度间接计算。因此需要将例4.14中的各年收益率数据(年增长速度),换算成年本利和(年发展速度),利用式(4.15)计算出该项投资10年来的平均年本利率,最后将平均年本利率扣除本金后,计算出平均年收益率。即 也可以根据式(4.16)计算,有2022/10/14现在学习的是第37页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 3对数均值 将几何平均数计算公式
29、等号两端同时取对数,几何平均数计算公式表现出类似均值计算公式的形式。所以,几何平均数又被称为对数均值,或对数平均数。由式(4.15)等号两端同时取对数,可得对数形式的简单几何平均数计算公式。有 (4.17)由式(4.16)等号两端同时取对数,可得对数形式的,具有类似加权均值计算公式形式的加权几何平均数计算公式。有 (4.18)2022/10/14现在学习的是第38页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.6 均值、调和平均数和几何平均数的比较 对于同一组数据,仅从数值比较的角度,有均值大于等于几何平均数,几何平均数大于等于调和平均数,即
30、 。例例4.16 4.16 有一组数据为4,5,6,7,8,6,7,8,9,8,请分别计算均值、调和平均数和几何平均数。解解:分别计算如下:2022/10/14现在学习的是第39页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.7 均值、众数和中位数的比较 在均值、众数和中位数这三个测度中,均值是唯一的数值型测度。均值一般采用算术平均方法计算的集中趋势测度,对极端数值的反应比较敏感,在数据的分布出现偏倚时,均值受到的影响最大。众数和中位数都是位置型的集中趋势测度,其具体取值不受极端数值的影响。其中众数是对应于最大频数的数值,中位数是居于有序数据
31、中间位置上的数值。因此,若数据的分布是对称的,有均值、众数和中位数三个集中趋势测度的取值相等。当数据分布呈左偏态时,一般有均值的取值最小,其次是中位数,众数的取值最大。在频数分布图上,众数始终对应于峰顶,均值和中位数偏在峰顶的左边,均值又在中位数左边;当数据分布呈右偏态时,一般有均值的取值最大,其次是中位数,众数的取值最小。在频数分布图上,众数还是处在对应于峰顶的位置,均值和中位数偏在峰顶的右边,并且均值偏在最右边。2022/10/14现在学习的是第40页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 图4.1 对称分布 图4.2 左偏分布 图4.3
32、右偏分布 2022/10/14现在学习的是第41页,共73页统计学第4章 数据分布特征的度量 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.174.17 根据第三章中例3.1 某学期某班35名学生的统计学考试成绩的原始数据。要要求求 计算该班35名学生的统计学考试成绩的均值、众数和中位数,简要分析数据的分布状况。解解 由该班35名学生的统计学考试成绩均值、众数和中位数的具体取值,可得出三者之间的数值比较关系,有 则认为该班35名学生的统计学考试成绩呈左偏态,偏倚的程度不是很大,从均值角度来说,该班高分(超过均值80分)的同学较多,超过了半数。因为按分数排序处在正中间位置上同学的分数为中
33、位数82分,高于均值80分的水平。2022/10/14现在学习的是第42页,共73页第4章 数据分布特征的度量4.2 4.2 离散程度的度量离散程度的度量统计学教程卢小广现在学习的是第43页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.1 异众比率 异异众众比比率率(Variation Variation RatioRatio)是是非非众众数数所所在在组组的的频频数数之之和和占占总总频频数数的的比比率率,一般用 表示。(4.19)异异众众比比率率是是用用于于评评价价众众数数的的代代表表性性的的测测度度。异众比率取值在1到0之间,一般用百分数表
34、示。异众比率数值越大,越趋近于1,说明众数所在组的频数占总频数的比率越低,众数的代表性越弱,反映数据的频数分布不存在显著集中的态势,无法借助众数来反映数据的集中趋势;异众比率数值越小,越趋近于0,说明众数所在组的频数占总频数的比率越高,众数作为集中趋势测度的代表性越强。2022/10/14现在学习的是第44页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.184.18 根据例4.1某品牌运动服装专卖店一批新品球衣的销售情况的频数分布数据。要求要求 试计算众数“SP09-05”球衣的异众比率。解解 由式(4.19),有该新品球衣的前日和当日销售情
35、况众数的“SP09-05”球衣的异众比率分别为 前日销售情况的异众比率为45%,当日销售情况的异众比率为48.33%,说明这两天众数“SP09-05”球衣的销售量都超过50%,表明在此场合使用众数“SP09-05”球衣作为该批新款球衣集中趋势的测度是比较有效的。2022/10/14现在学习的是第45页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.2 四分位差 四分位差(Quartile Deviation)为上上四四分分位位数数与与下下四四分分位位数数的的绝绝对对离离差差,也称为四分间距(Inter-Quartile Range),用表示。计
36、算公式为 (4.20)式(4.20)中的 和 分别为上四分位数与下四分位数。将原始数据按照由小到大,由低到高排序后得到的有序数据中,上四分位数是处在后四分之一位置上数据的数值;下四分位数是处在前四分之一位置上数据的数值。所以,也可以将上四分位数与下四分位数理解为是在计算了中位数的基础上,将排序后的有序数据分为了大于和小于中位数的两个部分,然后再在这两个部分中分别计算出来的中位数。四分位差反映了处在有序数据中间位置上的50%的数据的绝对离差。因此,四分位差是与中位数相联系的离散程度测度。四分位差是与中位数相联系的离散程度测度。2022/10/14现在学习的是第46页,共73页统计学第4章 数据分
37、布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.194.19 仍采用例4.4中某学期某班35名学生考试成绩的原始数据。要求要求 试计算该班35名学生的统计学考试成绩的四分位差。解解 有上四分位数与下四分位数的计算公式为 解得 52,56,62,64,65,69,70,74,7575,75,76,78,78,79,79,81,82,8282,83,84,84,84,84,86,87,87,8888,89,89,90,91,91,92,96,98 即可计算出考试成绩的四分位差为 该班35名学生的统计学考试成绩的四分位差为13分,说明处在中间位置上的一半该班同学的分数最大差距为1
38、3分,这一差异数值较小,表明82分的中位数对于集中趋势的代表性较好。2022/10/14现在学习的是第47页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.3 取值范围 取值范围(Value Area)为全体数据中最大数值与最小数值之差,反映了数值变量取值的变动幅度。取值范围也称为全距,一般用 R 表示,有 (4.20)当使用样本数据的最大数值与最小数值之差,来计算该组样本数值变量取值区间,以反映总体变量取值的变动幅度时,一般称之为极差(Range),用表示。即 (4.21)2022/10/14现在学习的是第48页,共73页统计学第4章 数据分
39、布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.204.20 某企业一车间甲乙两个生产小组的个人日产量件数数据如下 甲组:50,55,60,70,80,85,90 乙组:67,68,69,70,71,72,73 要求要求 试计算该车间甲乙两个生产小组的个人日产量的取值范围。解解 甲乙两个生产小组的均值都为70件,采用式(4.20),有 甲组:乙组:甲组的取值范围为40件,乙组的取值范围为6件,表明70件的均值对于乙组个人日产量的集中趋势更具有代表性,或者说乙组个人日产量的离散程度小,集中趋势更为显著。取值范围的计算只使用了数值变量中的最大与最小两个数值,具有计算简洁,意义明
40、确,易于理解的特点,但是没有充分利用数据的全部信息,是一个粗略的,简单的,尤其是容易受到极端数值影响的测度。2022/10/14现在学习的是第49页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.4 平均差 平均差(Mean Deviation)是指全部变量值与其均值的离差的绝对值的均值,也称为平均离差,用A.D.表示。简单平均差计算公式为:(4.22)加权平均差计算公式为:(4.23)2022/10/14现在学习的是第50页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.21 4.21 仍然采
41、用例4.20中甲乙两个生产小组的个人日产量件数数据。要求要求 试计算该该车间甲乙两个生产小组的个人日产量的平均差。解解 已知均值为70件,由式(4.22)表4.10 甲乙小组的个人日产量的平均差计算表 件 甲组:乙组:平均差测度同样表明乙组个人日产量的离散程度小,70件的个人日产量均值对于乙组的集中趋势更具有代表性。2022/10/14现在学习的是第51页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.5 方差和标准差 方差(Variance)是指全部变量值与其均值的离差的平方的均值。方差以数据的重心均值作为基准数值来度量数据分布的离散程度,同
42、时用平方的方式消除了变量值与均值离差数值正负相抵的问题,便于数学上的处理,方差是正态分布等概率分布的重要参数,是度量数值变量离散程度的基本测度。方差一般用 或 表示。根据所拥有的数值变量数据的形式不同,方差的计算可以分为以下几种方式。1简单方差计算公式 当拥有未分组的数据时,采用简单方差公式计算方差。(4.24)2022/10/14现在学习的是第52页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.234.23 再次仍然采用例4.20中某企业一车间甲乙两个生产小组的个 人日产量件数数据,并已知均值为70件。要求要求 试计算该甲乙两个生产小组个人
43、日产量的方差。解解 由式(4.24)有 表4.12 甲乙小组的个人日产量的方差计算表 件甲组:乙组:2022/10/14现在学习的是第53页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 2加权方差计算公式 当只具备已分组数据时,需要采用加权方差公式计算方差。(1)当拥有单变量值分组数据时,加权方差计算公式为:(4.25)例例4.244.24 根据例4.7中某机床总装车间10个装配小组日完成产品台数数据,并已知均值为6.8台。要求要求 计算该机床总装车间装配小组日完成产品台数的方差。解解 由式(4.25)2022/10/14现在学习的是第54页,共73
44、页统计学第4章 数据分布特征的度量(2)当拥有的数据为具有组均值的组距分组时,加权方差计算公式为:(4.26)式(4.26)中是采用各组的组均值与总体均值的离差的加权均值来反映数据分布的离散程度。存在着一个各组的组均值与各组中各个变量的实际取值之间的差异,只有在各个变量的实际取值等于各组的组均值时,式(4.26)才等于式(4.25);当这两者的差距越大,式(4.26)与式(4.25)之间的差距也就越大,并且有式(4.26)计算的数值小于式(4.25)计算的数值。式(4.25)是与方差的定义一致的测度,而式(4.26)只是式(4.25)近似计算。4.2 4.2 离散程度的度量离散程度的度量 20
45、22/10/14现在学习的是第55页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 (3)当拥有的数据为不具有组均值的组距分组时,需要采用组中值近似地替代组均值计算加权方差,这时计算公式为 (4.27)式(4.27)不仅存在式(4.26)以各组的组均值近似替代各组中各个变量的实际取值所产生的误差,而且还存在以各组的组中值近似替代各组的组均值所产生的误差。所以式(4.27)也只能是对式(4.25)近似计算。2022/10/14现在学习的是第56页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 3标准差 由于方差的
46、量纲是变量原有量纲的平方,在实际使用时有所不便。因此,人们常常采用具有与变量一致的量纲的测度,方差的算术平方根标准差。标准差(Standard Deviation)为方差的算术平方根,即全部变量值与其均值的离差的平方的均值的算术平方根。有简单标准差计算公式和加权标准差计算公式。(4.28)(4.29)2022/10/14现在学习的是第57页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.6 离散系数 离散系数(Coefficient of Variation)为同一总体的标准差与均值的比值。通过采用标准差除以同一数据的均值,不仅将分子分母量纲相
47、同相互约去,同时还剔除了均值数值水平,得到了一个没有量纲的相对数测度,这就是离散系数。计算离散系数的主要目的就是消除标准差的量纲和数值水平上的差异,使其成为一个抽象的,纯粹反映数据分布离散程度的测度,一个具有广泛的直接的可比性的离散程度测度。从形式上看,离散系数是一个相对的比值,一个相对数。离散系数的计算公式为:(4.30)离散系数一般用百分数表示。2022/10/14现在学习的是第58页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.264.26 已知某公司A、B两种产品2005年的日产量及其标准差数据。要要求求 试计算A、B两种产品2005
48、年的日产量的离散系数,对该公司A、B两种产品生产过程的均衡性进行比较分析。解解 采用式(4.30),有表4.15 2005年某公司产品的日产量的离散系数计算表 由此例可以看出,标准差的数值水平是由纯粹的数据分布离散程度(可用离散系数表示),和数据分布集中趋势的中心数值(一般用均值表示),这两者共同作用的结果。例如,A产品日产量的标准差3吨,等于离散系数60%,乘上均值5吨。2022/10/14现在学习的是第59页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.7 标准化值 标准化值(Standard Score)是以变量值与其均值的差除以同一数
49、据的标准差的比值,也称为标准分数,或Z分数。其计算公式为:(4.31)标准化值的分子为第i个变量值与其均值的差,一般称为数据的中心化,表现为变量值与其均值的绝对距离。标准化值的分母为标准差,通过用标准差除以中心化后的数据,来消除标准化值的量纲和绝对水平,剔除不同的数据分布离散程度在量纲和数值水平上的差异,使离散程度不同的数据之间具备了广泛的可比性。使数据具有了普遍的可加性和直接的可比性。2022/10/14现在学习的是第60页,共73页统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.27 4.27 某中学有A、B两位同学期末考试5门功课的考试成绩如表4.
50、16所示。要求要求 采用标准化值,对某中学A、B两位同学考试成绩进行评价。解解 根据式(4.31),计算出A、B两位同学考试成绩的标准化值总分。表4.16 某中学A、B两位同学期末考试成绩的标准化值总分计算表2022/10/14现在学习的是第61页,共73页第4章 数据分布特征的度量4.3 4.3 偏偏态态和峰度的度量和峰度的度量统计学教程卢小广现在学习的是第62页,共73页统计学第4章 数据分布特征的度量 4.3 4.3 偏偏态态和峰度的度量和峰度的度量 4.3.1 偏态系数 偏态(Skewness)是指数据分布偏倚的方向和程度。偏态系数是度量数据分布偏离对称分布的方向和程度的测度。偏态系数