数据分布特征的度量课件.ppt

上传人:石*** 文档编号:39734767 上传时间:2022-09-07 格式:PPT 页数:73 大小:3.66MB
返回 下载 相关 举报
数据分布特征的度量课件.ppt_第1页
第1页 / 共73页
数据分布特征的度量课件.ppt_第2页
第2页 / 共73页
点击查看更多>>
资源描述

《数据分布特征的度量课件.ppt》由会员分享,可在线阅读,更多相关《数据分布特征的度量课件.ppt(73页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据分布特征的度量第1页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 集中趋势的度量 4.2.5 方差和标准差 4.1.1 众数 4.2.6 离散系数 4.1.2 中位数 4.2.7 标准化值 4.1.3 均值 4.1.4 调和平均数 4.1.5 几何平均数 4.3 偏态和峰度的度量 4.1.6 均值、众数和中位数的比较 4.3.1 偏态系数 4.1.7 均值、众数和中位数的比较 4.3.2 峰度系数4.2 离散程度的度量 4.2.1 异众比率 4.2.3 取值范围 4.2.4 平均差2022-9-6第2页,此课件共73页哦第4章 数据分布特征的度量 4.1 4.1 集中趋势的度

2、量集中趋势的度量统计学教程卢小广第3页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 原始数据经过分组整理所形成的频数分布,直观和概略地反映出数据分布的基本特征。频数分布属于对数据分布特征的初步描述,缺乏对数据分布特征的综合度量,若需要深入地表述数据分布特征的具体特征和内在联系,还应对数据分布特征进行综合性的度量。数据分布特征的度量包括三个方面的内容,一是数据分布的集中趋势,反映总体中各个单位的数值水平向其聚集,或者集中的中心数值;二是数据分布的离散趋势,反映总体中各个单位的数值水平偏离中心数值的综合程度;三是数据分布的偏态和峰度,反映各个总体

3、单位的数值水平的分布形态是对称或偏倚,平坦或尖耸的具体数值。集中趋势(Central Tendency)是指一组数据所趋向的中心数值。对集中趋势的度量就是采用具体的统计方法和统计测度对这一中心数值的测量和计量,以一综合数值来表述数据所趋向的这一中心数值的一般水平。2022-9-6第4页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.1众数 众数(众数(ModeMode)是一组数据中)是一组数据中频数最大频数最大的变量值,直观地反映了数据的集中趋势。的变量值,直观地反映了数据的集中趋势。众数是度量定类数据定类数据集中趋势的测度,一般用 表

4、示。例例4.1 4.1 某品牌运动服装专卖店一批新品球衣销售情况如下表 4.1 某专卖店新品球衣销售情况 件球衣货号前日售出数量当日出售数量 AS01-9064 AS02-951821 AB09-102533 SP09-058893 SS12-101523 PP89-1586合 计160180OM2022-9-6第5页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.1众数 众数(众数(ModeMode)是一组数据中频数最大的变量值,直观地反映了数据的集中趋)是一组数据中频数最大的变量值,直观地反映了数据的集中趋势。势。众数是度量定类数据

5、定类数据集中趋势的测度,一般用 表示。例例4.1 4.1 某品牌运动服装专卖店一批新品球衣销售情况如下表 4.1 某专卖店新品球衣销售情况 件球衣货号前日售出数量当日出售数量 AS01-9064 AS02-951821 AB09-102533 SP09-058893 SS12-101523 PP89-1586合 计160180OM2022-9-6第6页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.2 4.2 利用第三章中例3.1中某学期某班35名学生统计学考试成绩的原始数据。要求要求 试计算计算该班35名学生统计学考试成绩的众数。解解

6、 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98 2022-9-6第7页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.2 4.2 利用第三章中例3.1中某学期某班35名学生统计学考试成绩的原始数据。要求要求 试计算计算该班35名学生统计学考试成绩的众数。解解 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,7

7、0,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98 84分在这35名学生的统计学考试成绩的原始数据中出现了4次,属于出现次数最多的变量值,根据众数定义,可以确定众数为84分,即(分)84OM2022-9-6第8页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 利用已经分组的数值型数据计算众数的场合,需要运用插值公式来计算众数的近似数值。众数的插值公式有下限公式和上限公式。其下限公式从众数所在组的上限出发,有 (4.1)上限公式

8、则从众数所在组的上限出发,有 (4.2)OOoOMUMLMLMOdFFFFFFLM)()(OOoOMUMLMUMOdFFFFFFUM)()(2022-9-6第9页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.3 4.3 表4.2为第三章中表3.7“某学期某班35名学生的统计学考试成绩”中的部分数据。根据表4.2的已经分组的数值型数据,计算该班35名学生的统计学考试成绩众数的近似数值。表4.2 某学期某班35名学生的统计学考试成绩考 分/分人 数/人 60 以下26070470809809014 901006合 计352022-9-6第

9、10页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 通过上限公式或下限公式的计算众数所得到的计算结果是一致的。众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度,为一位置型的代表数值,所以众数的取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,使用众数来度量数据的集中趋势,可以作为其它集中趋势测度的补充。众数是一个适用于最低层次的定类数据的测度,因此可以用于各种量表数据的集中趋势分析,有效使用众数的前提是数据的频数分布存在明显的集中态势。2022-9-6第11页,此课件共73页哦统计学第4

10、章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 通过上限公式或下限公式的计算众数所得到的计算结果是一致的。众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度,为一位置型的代表数值,所以众数的取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,使用众数来度量数据的集中趋势,可以作为其它集中趋势测度的补充。众数是一个适用于最低层次的定类数据的测度,因此可以用于各种量表数据的集中趋势分析,有效使用众数的前提是数据的频数分布存在明显的集中态势。讨论题:你认为那些现象不适宜采用众数来描述其集中趋势?2022-9-6第12页,此课件

11、共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.2 中位数 中位数(中位数(MedianMedian)是位于)是位于有序数据正中间位置有序数据正中间位置上的变量值,中位数用其特殊的位上的变量值,中位数用其特殊的位置属性直接地体现了集中趋势的中心数值特征。置属性直接地体现了集中趋势的中心数值特征。中位数是度量定序数据定序数据集中趋势的测度,一般用 表示。中位数也是一种位置型的代表数值,同时中位数还是一种顺序统计量,因此,计算中位数要求数值至少具备定序数据的性质。中位数一旦确定,就可以根据中位数的具体取值,将全部数据分成数量相等的两个部分,一半数据

12、的数值小于或等于中位数;另一半数据的数值大于或等于中位数。由此可得出中位数的计算公式。当数据的个数为奇数时,有 (4.3)当数据的个数为偶数时,有 (4.4)Me21NXMe2122NNXXMe2022-9-6第13页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.44.4 仍然采用第三章中例3.1 某学期某班35名学生的统计学考试成绩的原始数据。要求要求 试计算该班35名学生的统计学考试成绩的中位数。解解 将原始数据排序之后,得到以下有序数据52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81

13、,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98 该组数据的个数为35,因此采用式(4.3)计算,排列在该组有序数据第18位上的变量值为82分,该班35名学生的统计学考试成绩的中位数为82分。即(分)821821XXMeN2022-9-6第14页,此课件共73页哦统计学第4章 数据分布特征的度量 利用已经分组的数值型数据计算中位数时,需要运用插值公式计算中位数的近似数值。中位数的插值公式也有下限公式和上限公式。其下限公式从中位数所在组的下限出发,为 (4.5)上限公式从中位数所在组的上限出发,为 (4.6)4.1 4.1 集中趋势的度

14、量集中趋势的度量 MeMeMedFSFLMe12MeMeMedFSFUMe122022-9-6第15页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.54.5 表4.3为第三章“表3.7 某学期某班35名学生的统计学考试成绩”中的部分资料,为已经分组的数值型数据。要求要求 根据表4.3数据,计算该班35名学生的统计学考试成绩的中位数。解解 运用插值公式计算该班学生统计学考试成绩中位数的近似数值。表4.3 某学期某班35名学生的统计学考试成绩考 分/分人 数/人 向上累计人数/人 向下累计人数/人60以下22356070463370809

15、15298090142920901006356合 计352022-9-6第16页,此课件共73页哦统计学第4章 数据分布特征的度量 显然,我们可以任选上限公式或下限公式来计算中位数,得到结果是相同的。中位数是一个顺序统计量,其取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,可以使用中位数来度量数据的集中趋势。4.1 4.1 集中趋势的度量集中趋势的度量 2022-9-6第17页,此课件共73页哦统计学第4章 数据分布特征的度量 显然,我们可以任选上限公式或下限公式来计算中位数,得到结果是相同的。中位数是一个顺序统计量,其取值不受极端数值的影响,也不

16、受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,可以使用中位数来度量数据的集中趋势。讨论题:你认为中位数的主要局限是什么?4.1 4.1 集中趋势的度量集中趋势的度量 2022-9-6第18页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.3 均值 均值(Mean)为一组数值型数据之和除以该组数据总数的商,即同一组数据的总值与其频数的商。在大多数场合,均值采用算术平均方法计算,所以人们经常将均值称为算术平均数(Arithmetical Average)。计算均值的数据需要具备数值型数据的属性,均值是一个数值型的集中趋势

17、测度。通过计算均值的运算过程,首先将各个数据之间的数量差异抽象掉了,以一个抽象性的综合测度概括地反映事物的集中趋势。其次将不同总体的总量规模抽象掉了,表现出来的只是一个一般性的代表水平,有利于不同规模的同类总体在不同空间和时间上的广泛比较。2022-9-6第19页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 1简单均值 简单均值(Simple Mean)是根据未分组的原始数据计算出来的均值。有 (4.7)例例4.6 4.6 仍采用第三章中例3.1某学期某班35名学生的统计学考试成绩的原始数据 要求要求 试计算该班35名学生的统计学考试成绩的均

18、值。解解 采用式(4.7)计算,有 NXX分80352800NXX2022-9-6第20页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 2加权均值 加权均值(Weighted Mean)是运用各组频数作为权数对各组数值水平进行加权计算出来的均值。根据是单变量值分组还是组距分组,以及组距分组的各组数值水平代表数据是组均值还是组中值,加权均值的计算分为以下三种类型。(1)单变量值分组加权均值 在单变量值分组场合,加权均值的计算公式为 (4.8)FXFX2022-9-6第21页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中

19、趋势的度量集中趋势的度量 例例4.7 4.7 某机床总装车间10个装配小组日完成产品台数情况,计算单变量值分组加权均值。表4.4 某机床总装车间10个装配小组日完成产品台数情况 要求要求 试计算单变量值分组加权均值。解解 采用式(4.8)计算,可得台8.61068FXFX日完成产品量/台装配小组/个小计/台515621275358216合 计10682022-9-6第22页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 (2)采用组均值计算加权均值 在组距分组中,采用组均值计算加权均值时,计算公式为 (4.9)式(4.9)中 表示第j 组的组均

20、值。HjjHjjjFFXX11jX2022-9-6第23页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.84.8 采用第三章中例3.1 的各组均值数据。要求要求 试计算组距分组的该班35名学生的统计学考试成绩的加权均值。解解 依据各组中的数据数值和数据个数,按照式(4.7)的均值计算公式,计算出各组的组均值,填入表4.5中。表4.5 某学期某班35名学生统计学考试成绩的组均值和频数考分/分组均值/分 人 数/人 组总分/分60以下54210860706542607080769684809085141190 90100936558合 计

21、352800(分)8035280064269346525411HjjHjjjFFXX2022-9-6第24页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 (3)采用组中值计算加权均值 在不占有原始数据和组均值数值,只拥有已分组的数据时,只有利用各组组中值采用加权的方式计算均值的近似数值。利用组中值计算均值近似值的公式为 (4.10)式(4.10)中 表示第j组的组中值。HjjHjjjFFXX11jX2022-9-6第25页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.94.9 根据第

22、三章中表3.7中“某学期某班35名学生的统计学考试成绩”的各组组中值和频数数据。要求要求 试采用组中值计算该班35名学生的统计学考试成绩的加权均值。解解 采用式(4.10)计算。表4.6 某学期某班35名学生统计学考试成绩的组中值和频数考分/分组中值/分 人 数/人 组总分/分60以下55211060706542607080759675809085141190 90100956570合 计352805分14.8035280564269546525511HjjHjjjFFXX2022-9-6第26页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量

23、3权数与加权结构 对于加权均值而言,有两个因素决定着均值数值的大小,一个因素是各组的数值水平;另一个因素是各组的频数。频数对各组的数值水平数值起着权衡轻重的作用,所以将加权均值的计算公式中频数称为“权数”。在均值的计算中又将频数分布称为“加权结构”,“加权结构”更加清晰地反映了数据在各组中的分布与集中趋势之间的联系,及其对均值数值水平形成的影响。将式(4.8)略加变形,有 (4.11)XFFXFXFX2022-9-6第27页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 均值的数学性质:(1)各个变量值与其均值的离差和为零,即(2)各个变量值与

24、其均值平均数的离差平方和为最小,即 当取均值作为集中趋势的测度时,各个数据的取值与集中趋势测度的离差平方和为最小值。均值的这一数学性质是度量离散程度,进行误差分析和最小二乘估计等统计方法的基础。0)(XXMinXX2)(2022-9-6第28页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 均值的数学性质:(1)各个变量值与其均值的离差和为零,即(2)各个变量值与其均值平均数的离差平方和为最小,即 当取均值作为集中趋势的测度时,各个数据的取值与集中趋势测度的离差平方和为最小值。均值的这一数学性质是度量离散程度,进行误差分析和最小二乘估计等统计方

25、法的基础。讨论题:试比较均值、众数和中位数在数值型数据的集中趋势分析中的作用?0)(XXMinXX2)(2022-9-6第29页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.4 调和平均数 调和平均数(Harmonic Mean)是各个变量数值倒数的算术平均数的倒数。因此又称之为“倒数平均数”。1.简单调和平均数 设有个变量值为,则有简单调和平均数的计算公式为 (4.12)XNXXXNHN111111212022-9-6第30页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.1

26、04.10 设有12批A产品当日在某海关进口时报关的单价分别为每件25,24,25,27,26,25,24,28,26,25,26,28美元。要求要求 试用调和平均数方法计算其平均价格。解解 由式(4.12)美元68.25467184.0122812412511211H2022-9-6第31页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 2加权调和平均数(1)单变量值分组的加权调和平均数 在单变量值分组场合,加权均值的计算公式为 (4.13)(2)组距分组的加权调和平均数 在组距分组场合,仍然根据是否拥有各组组均值数据,加权调和平均数的计算分

27、为两种不同的方式。拥有各组组均值数据时,采用各组组均值计算加权调和平均数;不具有各组组均值数据时,则需要采用各组组中值来计算加权调和平均数的近似数值。在现实生活中,实际使用到的仅是一种形式上类似调和平均数的“加权调和平均数”,它是均值的一种变形。XFFH2022-9-6第32页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 3均值的变形 在拥有各组总值数据和各组变量值水平,缺少各组频数数据时,往往采用形式上类似加权调和平均数的公式,来计算加权均值。用表示各组总值,用表示这一形式上类似加权调和平均数的集中趋势测度,有 (4.14)由式(4.14)

28、可知,这一所谓的形式上类似加权调和平均数的集中趋势测度实际上就是均值,而不是调和平均数。XFXFXFXXFXMMXH12022-9-6第33页,此课件共73页哦统计学第4章 数据分布特征的度量 例例4.124.12 已知某商店商品按照优惠价、折扣价和原价的单价和销售总额。要求要求 试求销售价格的均值。解解 由式(4.16)表4.8 某商店W商品销售情况 4.1 4.1 集中趋势的度量集中趋势的度量 原价20040000200折扣价16048000300优惠价15022500150合计110500650价格单价/元总额/元数量/件XMXF FXM/元170650110500 XXH2022-9-

29、6第34页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.5 几何平均数 几何平均数(Geometric Mean)是指各项数据的连乘积开其项数次方的算术根,一般用G表示。当对象为某种连乘积的关系,例如总比率或总速度时,则需要采用几何平均数方法,计算其平均比率或平均速度。几何平均数的计算公式也有简单几何平均数加权几何平均数和两种形式:简单几何平均数。计算公式为:(4.15)、加权几何平均数。加权几何平均数计算公式为:(4.16)FFFFFFhFFXXXXGhh212121NNNXXXXG212022-9-6第35页,此课件共73页哦统计

30、学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.134.13 某厂有四个连续作业车间,其产品的合格率分别为95%、96%、94%和90%。要求要求 试计算该产品的平均合格率。解解 显然,本题不能采用算术平均法或调和平均法,因为各车间的合格率之积全厂的总合格率,应采用几何平均法来计算其平均合格率。由式(4.15),有%72.93%90%94%96%954G2022-9-6第36页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.144.14 设某项每年分红一次的投资项目,10年来各年的实际收益率分别为10

31、%,9%,8%,8%,9%,8%,9%,7%,11%,10%。要求要求 试求该项投资10年来的平均年收益率。解解 平均年收益率是一项平均增长速度,需要由平均发展速度间接计算。因此需要将例4.14中的各年收益率数据(年增长速度),换算成年本利和(年发展速度),利用式(4.15)计算出该项投资10年来的平均年本利率,最后将平均年本利率扣除本金后,计算出平均年收益率。即 也可以根据式(4.16)计算,有08894.134446.21.109.11.11010G%894.8108894.1平均年收益率08894.134446.210FFXG2022-9-6第37页,此课件共73页哦统计学第4章 数据分

32、布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 3对数均值 将几何平均数计算公式等号两端同时取对数,几何平均数计算公式表现出类似均值计算公式的形式。所以,几何平均数又被称为对数均值,或对数平均数。由式(4.15)等号两端同时取对数,可得对数形式的简单几何平均数计算公式。有 (4.17)由式(4.16)等号两端同时取对数,可得对数形式的,具有类似加权均值计算公式形式的加权几何平均数计算公式。有 (4.18)NXGlnlnFXFGlnln2022-9-6第38页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.6 均值、调和平均数

33、和几何平均数的比较 对于同一组数据,仅从数值比较的角度,有均值大于等于几何平均数,几何平均数大于等于调和平均数,即 。例例4.16 4.16 有一组数据为4,5,6,7,8,6,7,8,9,8,请分别计算均值、调和平均数和几何平均数。解解:分别计算如下:XGH8.61068NXX43.6555159.1101XNH62.616257024010NXG2022-9-6第39页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.7 均值、众数和中位数的比较 在均值、众数和中位数这三个测度中,均值是唯一的数值型测度。均值一般采用算术平均方法计算的

34、集中趋势测度,对极端数值的反应比较敏感,在数据的分布出现偏倚时,均值受到的影响最大。众数和中位数都是位置型的集中趋势测度,其具体取值不受极端数值的影响。其中众数是对应于最大频数的数值,中位数是居于有序数据中间位置上的数值。因此,若数据的分布是对称的,有均值、众数和中位数三个集中趋势测度的取值相等。当数据分布呈左偏态时,一般有均值的取值最小,其次是中位数,众数的取值最大。在频数分布图上,众数始终对应于峰顶,均值和中位数偏在峰顶的左边,均值又在中位数左边;当数据分布呈右偏态时,一般有均值的取值最大,其次是中位数,众数的取值最小。在频数分布图上,众数还是处在对应于峰顶的位置,均值和中位数偏在峰顶的右

35、边,并且均值偏在最右边。2022-9-6第40页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 图4.1 对称分布 图4.2 左偏分布 图4.3 右偏分布 2022-9-6第41页,此课件共73页哦统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.174.17 根据第三章中例3.1 某学期某班35名学生的统计学考试成绩的原始数据。要求要求 计算该班35名学生的统计学考试成绩的均值、众数和中位数,简要分析数据的分布状况。解解 由该班35名学生的统计学考试成绩均值、众数和中位数的具体取值,可得出三者之间的数值比

36、较关系,有 则认为该班35名学生的统计学考试成绩呈左偏态,偏倚的程度不是很大,从均值角度来说,该班高分(超过均值80分)的同学较多,超过了半数。因为按分数排序处在正中间位置上同学的分数为中位数82分,高于均值80分的水平。分分分848280OMMeX2022-9-6第42页,此课件共73页哦第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量统计学教程卢小广第43页,此课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.1 异众比率 异众比率(异众比率(Variation RatioVariation Ratio)是非众数所

37、在组的频数之和占总频数的比率,)是非众数所在组的频数之和占总频数的比率,一般用 表示。(4.19)异众比率是用于评价众数的代表性的测度异众比率是用于评价众数的代表性的测度。异众比率取值在1到0之间,一般用百分数表示。异众比率数值越大,越趋近于1,说明众数所在组的频数占总频数的比率越低,众数的代表性越弱,反映数据的频数分布不存在显著集中的态势,无法借助众数来反映数据的集中趋势;异众比率数值越小,越趋近于0,说明众数所在组的频数占总频数的比率越高,众数作为集中趋势测度的代表性越强。FFFFFVrOOMM1Vr2022-9-6第44页,此课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2

38、 离散程度的度量离散程度的度量 例例4.184.18 根据例4.1某品牌运动服装专卖店一批新品球衣的销售情况的频数分布数据。要求要求 试计算众数“SP09-05”球衣的异众比率。解解 由式(4.19),有该新品球衣的前日和当日销售情况众数的“SP09-05”球衣的异众比率分别为 前日销售情况的异众比率为45%,当日销售情况的异众比率为48.33%,说明这两天众数“SP09-05”球衣的销售量都超过50%,表明在此场合使用众数“SP09-05”球衣作为该批新款球衣集中趋势的测度是比较有效的。%451607216088160Vr%33.481808718093180Vr2022-9-6第45页,此

39、课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.2 四分位差 四分位差(Quartile Deviation)为上四分位数与下四分位数的绝对离差上四分位数与下四分位数的绝对离差,也称为四分间距(Inter-Quartile Range),用表示。计算公式为 (4.20)式(4.20)中的 和 分别为上四分位数与下四分位数。将原始数据按照由小到大,由低到高排序后得到的有序数据中,上四分位数是处在后四分之一位置上数据的数值;下四分位数是处在前四分之一位置上数据的数值。所以,也可以将上四分位数与下四分位数理解为是在计算了中位数的基础上,将排序后的

40、有序数据分为了大于和小于中位数的两个部分,然后再在这两个部分中分别计算出来的中位数。四分位差反映了处在有序数据中间位置上的50%的数据的绝对离差。因此,四分位差是与中位数相联系的离散程度测度。四分位差是与中位数相联系的离散程度测度。LUdQQQUQLQ2022-9-6第46页,此课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.194.19 仍采用例4.4中某学期某班35名学生考试成绩的原始数据。要求要求 试计算该班35名学生的统计学考试成绩的四分位差。解解 有上四分位数与下四分位数的计算公式为 解得 52,56,62,64,65,69,70

41、,74,7575,75,76,78,78,79,79,81,82,8282,83,84,84,84,84,86,87,87,8888,89,89,90,91,91,92,96,98 即可计算出考试成绩的四分位差为 该班35名学生的统计学考试成绩的四分位差为13分,说明处在中间位置上的一半该班同学的分数最大差距为13分,这一差异数值较小,表明82分的中位数对于集中趋势的代表性较好。413NUXQ41NLXQ分88UQ分75LQ分137588dQ2022-9-6第47页,此课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.3 取值范围 取值范围(

42、Value Area)为全体数据中最大数值与最小数值之差,反映了数值变量取值的变动幅度。取值范围也称为全距,一般用 R 表示,有 (4.20)当使用样本数据的最大数值与最小数值之差,来计算该组样本数值变量取值区间,以反映总体变量取值的变动幅度时,一般称之为极差(Range),用表示。即 (4.21)XMinXMaxR xMinxMaxR2022-9-6第48页,此课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.204.20 某企业一车间甲乙两个生产小组的个人日产量件数数据如下 甲组:50,55,60,70,80,85,90 乙组:67,68

43、,69,70,71,72,73 要求要求 试计算该车间甲乙两个生产小组的个人日产量的取值范围。解解 甲乙两个生产小组的均值都为70件,采用式(4.20),有 甲组:乙组:甲组的取值范围为40件,乙组的取值范围为6件,表明70件的均值对于乙组个人日产量的集中趋势更具有代表性,或者说乙组个人日产量的离散程度小,集中趋势更为显著。取值范围的计算只使用了数值变量中的最大与最小两个数值,具有计算简洁,意义明确,易于理解的特点,但是没有充分利用数据的全部信息,是一个粗略的,简单的,尤其是容易受到极端数值影响的测度。(件)405090R(件)66773R2022-9-6第49页,此课件共73页哦统计学第4章

44、 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.4 平均差 平均差(Mean Deviation)是指全部变量值与其均值的离差的绝对值的均值,也称为平均离差,用A.D.表示。简单平均差计算公式为:(4.22)加权平均差计算公式为:(4.23)NXXDA.FFXXDA.2022-9-6第50页,此课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.21 4.21 仍然采用例4.20中甲乙两个生产小组的个人日产量件数数据。要求要求 试计算该该车间甲乙两个生产小组的个人日产量的平均差。解解 已知均值为70件,由式(4.22

45、)表4.10 甲乙小组的个人日产量的平均差计算表 件 甲组:乙组:平均差测度同样表明乙组个人日产量的离散程度小,70件的个人日产量均值对于乙组的集中趋势更具有代表性。甲组乙组甲组乙组506720355681526069101707000807110185721529073203 9012个人日产量 XX 件86.12790.DA件71.1712.DA2022-9-6第51页,此课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.5 方差和标准差 方差(Variance)是指全部变量值与其均值的离差的平方的均值。方差以数据的重心均值作为基准数值来

46、度量数据分布的离散程度,同时用平方的方式消除了变量值与均值离差数值正负相抵的问题,便于数学上的处理,方差是正态分布等概率分布的重要参数,是度量数值变量离散程度的基本测度。方差一般用 或 表示。根据所拥有的数值变量数据的形式不同,方差的计算可以分为以下几种方式。1简单方差计算公式 当拥有未分组的数据时,采用简单方差公式计算方差。(4.24)NXX22)(2 XV2022-9-6第52页,此课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.234.23 再次仍然采用例4.20中某企业一车间甲乙两个生产小组的个 人日产量件数数据,并已知均值为70件

47、。要求要求 试计算该甲乙两个生产小组个人日产量的方差。解解 由式(4.24)有 表4.12 甲乙小组的个人日产量的方差计算表 件 甲组:乙组:甲组乙组甲组乙组506740095568225460691001707000807110018572225490734009490490145028个人日产量 2XX 2214.20771450件224728件2022-9-6第53页,此课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 2加权方差计算公式 当只具备已分组数据时,需要采用加权方差公式计算方差。(1)当拥有单变量值分组数据时,加权方差计算公式为:(

48、4.25)例例4.244.24 根据例4.7中某机床总装车间10个装配小组日完成产品台数数据,并已知均值为6.8台。要求要求 计算该机床总装车间装配小组日完成产品台数的方差。解解 由式(4.25)FFXX22)(2276.0106.7台2022-9-6第54页,此课件共73页哦统计学第4章 数据分布特征的度量 (2)当拥有的数据为具有组均值的组距分组时,加权方差计算公式为:(4.26)式(4.26)中是采用各组的组均值与总体均值的离差的加权均值来反映数据分布的离散程度。存在着一个各组的组均值与各组中各个变量的实际取值之间的差异,只有在各个变量的实际取值等于各组的组均值时,式(4.26)才等于式

49、(4.25);当这两者的差距越大,式(4.26)与式(4.25)之间的差距也就越大,并且有式(4.26)计算的数值小于式(4.25)计算的数值。式(4.25)是与方差的定义一致的测度,而式(4.26)只是式(4.25)近似计算。4.2 4.2 离散程度的度量离散程度的度量 HjjHjjjFFXX11222022-9-6第55页,此课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 (3)当拥有的数据为不具有组均值的组距分组时,需要采用组中值近似地替代组均值计算加权方差,这时计算公式为 (4.27)式(4.27)不仅存在式(4.26)以各组的组均值近似替

50、代各组中各个变量的实际取值所产生的误差,而且还存在以各组的组中值近似替代各组的组均值所产生的误差。所以式(4.27)也只能是对式(4.25)近似计算。HjjHjjjFFXX11222022-9-6第56页,此课件共73页哦统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 3标准差 由于方差的量纲是变量原有量纲的平方,在实际使用时有所不便。因此,人们常常采用具有与变量一致的量纲的测度,方差的算术平方根标准差。标准差(Standard Deviation)为方差的算术平方根,即全部变量值与其均值的离差的平方的均值的算术平方根。有简单标准差计算公式和加权标准差计算公式。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁