《统计学原理第四章幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学原理第四章幻灯片.ppt(132页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学原理第四章统计学原理第四章第1页,共132页,编辑于2022年,星期二统 计 学 教 程第 4章 数 据 分 布 特 征 的 度 量 n4.1 集中趋势的度量 4.2.5 方差和标准差n 4.1.1 众数 4.2.6 离散系数n 4.1.2 中位数 4.2.7 标准化值n 4.1.3 均值n 4.1.4 调和平均数n 4.1.5 几何平均数 4.3 偏态和峰度的度量n 4.1.6 均值、众数和中位数的比较 4.3.1 偏态系数 n 4.1.7 均值、众数和中位数的比较 4.3.2 峰度系数n4.2 离散程度的度量n 4.2.1 异众比率n 4.2.3 取值范围n 4.2.4 平均差第2页
2、,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 原始数据经过分组整理所形成的频数分布,直观和概略地反映出数据分布的基本特征。频数分布属于对数据分布特征的初步描述,缺乏对数据分布特征的综合度量,若需要深入地表述数据分布特征的具体特征和内在联系,还应对数据分布特征进行综合性的度量。数据分布特征的度量包括三个方面的内容,一是数据分布的集集中中趋趋势势,反映总体中各个单位的数值水平向其聚集,或者集中的中心数值;二是数据分布的离离散散趋趋势势,反映总体中各个单位的数值水平偏离中心数值的综合程度;三是数据分布的偏偏态态和和峰峰度
3、度,反映各个总体单位的数值水平的分布形态是对称或偏倚,平坦或尖耸的具体数值。第3页,共132页,编辑于2022年,星期二4.1 集中趋势的度量集中趋势的度量第4页,共132页,编辑于2022年,星期二n 集中趋势(Central Tendency)是指一组数据所趋向的中心数值。对集中趋势的度量就是采用具体的统计方法和统计测度对这一中心数值的测量和计量,以一综合数值来表述数据所趋向的这一中心数值的一般水平。第5页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.1众数 众众数数(ModeMode)是是一一组组数数
4、据据中中频频数数最最大大的的变变量量值值,直直观观地地反反映映了了数数据据的的集集中中趋趋势。势。众数是度量定类数据定类数据集中趋势的测度,一般用 表示。例例4.1 4.1 某品牌运动服装专卖店一批新品球衣销售情况如下表 4.1 某专卖店新品球衣销售情况 件第6页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.1众数 众众数数(ModeMode)是是一一组组数数据据中中频频数数最最大大的的变变量量值值,直直观观地地反反映映了了数数据据的的集集中中趋趋势。势。众数是度量定类数据定类数据集中趋势的测度,一般用 表
5、示。例例4.1 4.1 某品牌运动服装专卖店一批新品球衣销售情况如下表 4.1 某专卖店新品球衣销售情况 件第7页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.2 4.2 利用第三章中例3.1中某学期某班35名学生统计学考试成绩的原始数据。要求要求 试计算计算该班35名学生统计学考试成绩的众数。解解 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,84,86,87,87,88,89,8
6、9,90,91,91,92,96,98 第8页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.2 4.2 利用第三章中例3.1中某学期某班35名学生统计学考试成绩的原始数据。要求要求 试计算计算该班35名学生统计学考试成绩的众数。解解 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98 84分在这35名学生的统计学
7、考试成绩的原始数据中出现了4次,属于出现次数最多的变量值,根据众数定义,可以确定众数为84分,即第9页,共132页,编辑于2022年,星期二2012-03-16(ZhouwuShangwuJDC)第10页,共132页,编辑于2022年,星期二2012-03-16(ZhouwuWanJDC)第11页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 利用已经分组的数值型数据计算众数的场合,需要运用插值公式来计算众数的近似数值。众数的插值公式有下限公式和上限公式。其下限公式从众数所在组的下限出发,有 (4.1)上限公式则从众
8、数所在组的上限出发,有 (4.2)第12页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 第13页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 第14页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 第15页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 第16页,共132页,编辑于2
9、022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 第17页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 第18页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.3 4.3 表4.2为第三章中表3.7“某学期某班35名学生的统计学考试成绩”中的部分数据。根据表4.2的已经分组的数值型数据,计算该班35名学生的统计学考试成绩众数的近似数值。表4.2 某学期某班35名学生的统计学考试
10、成绩第19页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 通过上限公式或下限公式的计算众数所得到的计算结果是一致的。众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度,为一位位置置型型的代表数值,所以众数的取值不受极极端端数数值值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,使用众数来度量数据的集中趋势,可以作为其它集中趋势测度的补充。众数是一个适用于最低层次的定定类类数数据据的测度,因此可以用于各种量表数据的集中趋势分析,有有效效使使用用众众数数的的前前提提是是数数据据的
11、的频频数数分分布布存存在在明明显显的的集集中中态势。态势。第20页,共132页,编辑于2022年,星期二众数n主要适合于作为分类数据的集中趋势测度值。也可运用于定序数据以及数值型数据。n可能不唯一。第21页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.2 中位数 中中位位数数(MedianMedian)是是位位于于有有序序数数据据正正中中间间位位置置上上的的变变量量值值,中中位位数数用用其其特特殊殊的的位位置置属属性性直直接接地地体体现现了了集集中中趋趋势势的的中中心心数数值值特特征征。中位数是度量定定序序
12、数数据据集中趋势的测度,一般用 表示。中位数也是一种位置型的代表数值,同时中位数还是一种顺序统计量,因此,计算中位数要求数值至少具备定序数据的性质。中位数一旦确定,就可以根据中位数的具体取值,将全部数据分成数量相等的两个部分,一半数据的数值小于或等于中位数;另一半数据的数值大于或等于中位数。由此可得出中位数的计算公式。当数据的个数为奇数时,有 (4.3)当数据的个数为偶数时,有 (4.4)第22页,共132页,编辑于2022年,星期二中位数的性质第23页,共132页,编辑于2022年,星期二n【课后作业】n证明:中位数的性质第24页,共132页,编辑于2022年,星期二n中位数是度量定序数据集
13、中趋势的测度,根据计量尺度的向上兼容性质,中位数也可以用于度量比它量表层次更高的数值型数据的集中趋势。但不能度量定类数据的集中趋势。第25页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.44.4 仍然采用第三章中例3.1 某学期某班35名学生的统计学考试成绩的原始数据。要求要求 试计算该班35名学生的统计学考试成绩的中位数。解解 将原始数据排序之后,得到以下有序数据52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82828282,83,84,84,84,
14、84,86,87,87,88,89,89,90,91,91,92,96,98 该组数据的个数为35,因此采用式(4.3)计算,排列在该组有序数据第18位上的变量值为82分,该班35名学生的统计学考试成绩的中位数为82分。即第26页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 利用已经分组的数值型数据计算中位数时,需要运用插值公式计算中位数的近似数值。中位数的插值公式也有下限公式和上限公式。其下限公式从中位数所在组的下限出发,为n n n n 上限公式从中位数所在组的上限出发,为n 4.1 4.1 集中集中趋势趋势的度量的度量 第27页,共132页,编辑于202
15、2年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.54.5 表4.3为第三章“表3.7 某学期某班35名学生的统计学考试成绩”中的部分资料,为已经分组的数值型数据。要求要求 根据表4.3数据,计算该班35名学生的统计学考试成绩的中位数。解解 运用插值公式计算该班学生统计学考试成绩中位数的近似数值。表4.3 某学期某班35名学生的统计学考试成绩第28页,共132页,编辑于2022年,星期二n显然,我们可以任选上限公式或下限公式来计算中位数,得到结果是相同的。n中位数是一个顺顺序序统统计计量量,其取值不受极极端端数数值值的影响,也不受组距分
16、组中开口组设置的影响。当数值型数据中含有极小值和极大值时,可以使用中位数来度量数据的集中趋势。n中位数一般适用于定序数据。不太适用于偏态的数据。第29页,共132页,编辑于2022年,星期二n4.1.3 均值n 均均值值(Mean)为一组数值型数据之和除以该组数据总数的商,即同一组数据的总值与其频数的商。n 在大多数场合,均值采用算术平均方法计算,所 以 人 们 经 常 将 均 值 称 为 算算 术术 平平 均均 数数(Arithmetical Average)。第30页,共132页,编辑于2022年,星期二n计算均值的数据需要具备数数值值型型数数据据的属性,均值是一个数值型的集中趋势测度。通
17、过计算均值的运算过程,首先将各个数据之间的数量差异抽象掉了,以一个抽象性的综合测度概括地反映事物的集中趋势。其次将不同总体的总量规模抽象掉了,表现出来的只是一个一般性的代表水平,有利于不同规模的同类总体在不同空间和时间上的广泛比较。第31页,共132页,编辑于2022年,星期二n均值在各个方面得到广泛应用。均值属于参数统计的内容,只能用做数值型数据集中趋势的测度,不能度量非数值型数据的集中趋势。第32页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 1简单均值 简单均值(Simple Mean)是根据未分组的原始数据
18、计算出来的均值。有 (4.7)例例4.6 4.6 仍采用第三章中例3.1某学期某班35名学生的统计学考试成绩的原始数据 要求要求 试计算该班35名学生的统计学考试成绩的均值。解解 采用式(4.7)计算,有 第33页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 2加权均值加权均值 加权均值(Weighted Mean)是运用各组频数作为权数对各组数值水平进行加权计算出来的均值。根据是单变量值分组还是组距分组,以及组距分组的各组数值水平代表数据是组均值还是组中值,加权均值的计算分为以下三种类型。(1)单变量值分组加权均
19、值 在单变量值分组场合,加权均值的计算公式为 (4.8)第34页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.7 4.7 某机床总装车间10个装配小组日完成产品台数情况,计算单变量值分组加权均值。表4.4 某机床总装车间10个装配小组日完成产品台数情况 要求要求 试计算单变量值分组加权均值。解解 采用式(4.8)计算,可得第35页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 (2)采用组均值计算加权均值采用组均值计算加权均值 在
20、组距分组中,采用组均值计算加权均值时,计算公式为 (4.9)式(4.9)中 表示第j 组的组均值。第36页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.84.8 采用第三章中例3.1 的各组均值数据。要求要求 试计算组距分组的该班35名学生的统计学考试成绩的加权均值。解解 依据各组中的数据数值和数据个数,按照式(4.7)的均值计算公式,计算出各组的组均值,填入表4.5中。表4.5 某学期某班35名学生统计学考试成绩的组均值和频数第37页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度
21、量 n 4.1 4.1 集中集中趋势趋势的度量的度量 (3)采用组中值组中值计算加权均值 在不占有原始数据和组均值数值,只拥有已分组的数据时,只有利用各组组中值采用加权的方式计算均值的近似数值。利用组中值计算均值近似值的公式为 (4.10)式(4.10)中 表示第j组的组中值。第38页,共132页,编辑于2022年,星期二n采用组中值计算加权均值的前提条件前提条件:n各组数据近似地趋于均匀分布或对称分布,各组的组中值近似于各组的组均值。当各组数据显著地不趋于均匀分布或对称分布时,各组的组中值与各组的组均值就会存在较大差异,两者数值水平相差越大,采用组中值替代组均值的误差就越大。第39页,共13
22、2页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.94.9 根据第三章中表3.7中“某学期某班35名学生的统计学考试成绩”的各组组中值和频数数据。要求要求 试采用组中值计算该班35名学生的统计学考试成绩的加权均值。解解 采用式(4.10)计算。表4.6 某学期某班35名学生统计学考试成绩的组中值和频数第40页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 3权数【权重】与加权结构权数【权重】与加权结构 对于加权均值而言,有两个因素决定着均值数
23、值的大小,一个因素是各组的数值水平,在不同场合,可以是单变量值、组均值或组中值;另一个因素是各组的频数。频数对各组的数值水平数值起着权衡轻重的作用,所以将加权均值的计算公式中频频数数称为“权数”。在均值的计算中又将频频数数分分布布称为“加权结构”,“加权结构”更加清晰地反映了数据在各组中的分布与集中趋势之间的联系,及其对均值数值水平形成的影响。将式(4.8)略加变形,有 (4.11)第41页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 根据第三章中表3.7中“某学期某班35名学生的统计学考试成绩”的各组组中值和频数
24、数据,计算“加权结构”和“组贡献值”。某班35名学生统计学考试平均成绩的“加权结构”和“组贡献值”考分/分组均值/分人 数/人比例【频率】【权重】/%组贡献值/分60 以下5425.714 3.09 607065411.429 7.43 708076925.714 19.54 8090851440.000 34.00 9010093617.143 15.94 合 计35100.000 80.00 第42页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 均值的数学性质均值的数学性质:(1)各个变量值与其均值的离差和为零
25、,即(2)各个变量值与其均值平均数的离差平方和为最小,即 当取均值作为集中趋势的测度时,各个数据的取值与集中趋势测度的离差平方和为最小值。均值的这一数学性质是度量离散程度,进行误差分析和最小二乘估计等统计方法的基础。第43页,共132页,编辑于2022年,星期二第44页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.4 调和平均数调和平均数 调和平均数(Harmonic Mean)是各个变量数值倒数的算术平均数的倒数。因此又称之为“倒数平均数”。1.简单调和平均数 设有个变量值为,则有简单调和平均数的计算公式
26、为 (4.12)第45页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.104.10 设有12批A产品当日在某海关进口时报关的单价分别为每件25,24,25,27,26,25,24,28,26,25,26,28美元。要求要求 试用调和平均数方法计算其平均价格。解解 由式(4.12)第46页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 2加权调和平均数加权调和平均数(1)单变量值分组的加权调和平均数单变量值分组的加权调和平均数 在单
27、变量值分组场合,加权均值的计算公式为 (4.13)第47页,共132页,编辑于2022年,星期二加权调和平均数第48页,共132页,编辑于2022年,星期二n(2)组距分组的加权调和平均数组距分组的加权调和平均数n 在组距分组场合,仍然根据是否拥有各组组均值数据,加权调和平均数的计算分为两种不同的方式。拥有各组组均值数据时,采用各组组均值计算加权调和平均数;不具有各组组均值数据时,则需要采用各组组中值来计算加权调和平均数的近似数值。n 在现实生活中,实际使用到的仅是一种形式上类似调和平均数的“加权调和平均数”,它是均值的一种变形。第49页,共132页,编辑于2022年,星期二组距分组的加权调和
28、平均数n(1)已知各组均值数据n(2)已知各组组中值数据第50页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 3均值的变形均值的变形 在拥有各组总值数据和各组变量值水平,缺少各组频数数据时,往往采用形式上类似加权调和平均数的公式,来计算加权均值。用M表示各组总值,用 表示这一形式上类似加权调和平均数的集中趋势测度,有 (4.14)由式(4.14)可知,这一所谓的形式上类似加权调和平均数的集中趋势测度实际上就是均值均值,而不是调和平均数。第51页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度
29、量 n 例例4.124.12 已知某商店商品按照优惠价、折扣价和原价的单价和销售总额。n 要求要求 试求销售价格的均值。n 解解 由式(4.14)n表4.8 某商店W商品销售情况n 4.1 4.1 集中集中趋势趋势的度量的度量 第52页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 4.1.5 几何平均数几何平均数 几何平均数(Geometric Mean)是指各项数据的连乘积开其项数次方的算术根,一般用G表示。当对象为某种连乘积的关系,例如总比率或总速度时,则需要采用几何平均数方法,计算其平均比率或平均速度。几何平
30、均数的计算公式也有简单几何平均数加权几何平均数和两种形式:简单几何平均数简单几何平均数。计算公式为:(4.15)第53页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.134.13 某厂有四个连续作业车间,其产品的合格率分别为95%、96%、94%和90%。要求要求 试计算该产品的平均合格率。解解 显然,本题不能采用算术平均法或调和平均法,因为各车间的合格率之积全厂的总合格率,应采用几何平均法来计算其平均合格率。由式(4.15),有第54页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的
31、度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 、加权几何平均数加权几何平均数。加权几何平均数计算公式为:(4.16)第55页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.144.14 设某项每年分红一次的投资项目,10年来各年的实际收益率分别为10%,9%,8%,8%,9%,8%,9%,7%,11%,10%。要求要求 试求该项投资10年来的平均年收益率。解解 平均年收益率是一项平均增长速度,需要由平均发展速度间接计算。因此需要将例4.14中的各年收益率数据(年增长速度),换算成年本利和(年发展速度
32、),利用式(4.15)计算出该项投资10年来的平均年本利率,最后将平均年本利率扣除本金后,计算出平均年收益率。即 第56页,共132页,编辑于2022年,星期二例4.15将例4.14中该企业某项投资10年间收益率整理为单变量值分组数据,试求该项投资10年间平均年收益率。按年收益率分组/%年本利率/%频数/次XF1111111.110001011021.21000910931.29503810831.25971710711.07000合计 -102.34446第57页,共132页,编辑于2022年,星期二根据式(4.16)计算,有第58页,共132页,编辑于2022年,星期二2012-03-21
33、(ZhousanShangwu)第59页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 3对数均值对数均值 将几何平均数计算公式等号两端同时取对数,几何平均数计算公式表现出类似均值计算公式的形式。所以,几何平均数又被称为对数均值对数均值,或对数平均数对数平均数。由式(4.15)等号两端同时取对数,可得对数形式的简单几何平均数计算公式。有 (4.17)由式(4.16)等号两端同时取对数,可得对数形式的,具有类似加权均值计算公式形式的加权几何平均数计算公式。有 (4.18)第60页,共132页,编辑于2022年,星期二n
34、4.1.6 均值、调和平均数和几何平均数的比较均值、调和平均数和几何平均数的比较n对于同一组数据,仅从数值比较的角度,有均值大于等于几何平均数,几何平均数大于等于调和平均数,即第61页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.16 4.16 有一组数据为4,5,6,7,8,6,7,8,9,8,请分别计算均值、调和平均数和几何平均数。解解:分别计算如下:第62页,共132页,编辑于2022年,星期二n【课后作业】n考虑对任意的自然数n,三个平均数之间的关系的证明。第63页,共132页,编辑于2022年,星
35、期二n4.1.7 均值、众数和中位数的比较n 在均值、众数和中位数这三个测度中,均值是唯一的数值型测度。均值一般采用算术平均方法计算的集中趋势测度,对极端数值极端数值的反应比较敏感,在数据的分布出现偏倚偏倚时,均值受到的影响最大影响最大。众数和中位数都是位置型的集中趋势测度,其具体取值不受极端数值的影响。其中众数是对应于最大频数的数值,中位数是居于有序数据中间位置上的数值。第64页,共132页,编辑于2022年,星期二n若数据的分布是对称对称的,有均值、众数和中位数三个集中趋势测度的取值相等。第65页,共132页,编辑于2022年,星期二图4.1对称分布第66页,共132页,编辑于2022年,
36、星期二n一般而言,若数据的分布是非对称的,众数仍然处在数据分布的峰顶的位置上,均值和中位数则偏向数据分布偏倚的一方,其中均值偏倚程度往往要大于中位数。第67页,共132页,编辑于2022年,星期二n当数据分布呈左偏态时,一般有均值的取值最小,其次是中位数,众数的取值最大。在频数分布图上,众数始终对应于峰顶,均值和中位数偏在峰顶的左边,均值又在中位数左边。第68页,共132页,编辑于2022年,星期二图4.2左偏分布第69页,共132页,编辑于2022年,星期二n当数据分布呈右偏态时,一般有均值的取值最大,其次是中位数,众数的取值最小。在频数分布图上,众数还是处在对应于峰顶的位置,均值和中位数偏
37、在峰顶的右边,并且均值偏在最右边。第70页,共132页,编辑于2022年,星期二图4.3右偏分布第71页,共132页,编辑于2022年,星期二n根据均值、众数和中位数之间的这种关系,通过比较这三个集中趋势测度的具体取值,可以反映数据的分布状态,是否存在偏态,是左偏态还是右偏态,进而粗略地把握偏态的大致程度。第72页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.1 4.1 集中集中趋势趋势的度量的度量 例例4.174.17 根据第三章中例3.1 某学期某班35名学生的统计学考试成绩的原始数据。要要求求 计算该班35名学生的统计学考试成绩的均值、众数和中位数,
38、简要分析数据的分布状况。解解 由该班35名学生的统计学考试成绩均值、众数和中位数的具体取值,可得出三者之间的数值比较关系,有 则认为该班35名学生的统计学考试成绩呈左偏态,偏倚的程度不是很大,从均值角度来说,该班高分(超过均值80分)的同学较多,超过了半数。因为按分数排序处在正中间位置上同学的分数为中位数82分,高于均值80分的水平。第73页,共132页,编辑于2022年,星期二2012-03-19(ZhouyiShangwu)第74页,共132页,编辑于2022年,星期二4.2 离散程度的度量离散程度的度量第75页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n
39、 4.2 4.2 离散程度的度量离散程度的度量 4.2.1 异众比率 异异众众比比率率(Variation Variation RatioRatio)是是非非众众数数所所在在组组的的频频数数之之和和占占总总频频数数的的比比率率,一般用 表示。(4.19)异异众众比比率率是是用用于于评评价价众众数数的的代代表表性性的的测测度度。异众比率取值在1到0之间,一般用百分数表示。异众比率数值越大,越趋近于1,说明众数所在组的频数占总频数的比率越低,众数的代表性越弱,反映数据的频数分布不存在显著集中的态势,无法借助众数来反映数据的集中趋势;异众比率数值越小,越趋近于0,说明众数所在组的频数占总频数的比率越
40、高,众数作为集中趋势测度的代表性越强。第76页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.2 4.2 离散程度的度量离散程度的度量 例例4.184.18 根据例4.1某品牌运动服装专卖店一批新品球衣的销售情况的频数分布数据。要求要求 试计算众数“SP09-05”球衣的异众比率。解解 由式(4.19),有该新品球衣的前日和当日销售情况众数的“SP09-05”球衣的异众比率分别为 前日销售情况的异众比率为45%,当日销售情况的异众比率为48.33%,说明这两天众数“SP09-05”球衣的销售量都超过50%,表明在此场合使用众数“SP09-05”球衣作为该批新
41、款球衣集中趋势的测度是比较有效的。第77页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.2 4.2 离散程度的度量离散程度的度量 4.2.2 四分位差四分位差 四分位差(Quartile Deviation)为上上四四分分位位数数与与下下四四分分位位数数的的绝绝对对离离差差,也称为四分间距(Inter-Quartile Range),用 表示。计算公式为 (4.20)式(4.20)中的 和 分别为上四分位数与下四分位数。将原始数据按照由小到大,由低到高排序后得到的有序数据中,上四分位数是处在后四分之一位置上数据的数值;下四分位数是处在前四分之一位置上数据的
42、数值。所以,也可以将上四分位数与下四分位数理解为是在计算了中位数的基础上,将排序后的有序数据分为了大于和小于中位数的两个部分,然后再在这两个部分中分别计算出来的中位数。四分位差反映了处在有序数据中间位置上的50%的数据的绝对离差。因此,四分位差是与中位数相联系的离散程度测度。四分位差是与中位数相联系的离散程度测度。第78页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.2 4.2 离散程度的度量离散程度的度量 例例4.194.19 仍采用例4.4中某学期某班35名学生考试成绩的原始数据。要求要求 试计算该班35名学生的统计学考试成绩的四分位差。解解 有上四分
43、位数与下四分位数的计算公式为 解得 52,56,62,64,65,69,70,74,7575,75,76,78,78,79,79,81,82,8282,83,84,84,84,84,86,87,87,8888,89,89,90,91,91,92,96,98 即可计算出考试成绩的四分位差为 该班35名学生的统计学考试成绩的四分位差为13分,说明处在中间位置上的一半该班同学的分数最大差距为13分,这一差异数值较小,表明82分的中位数对于集中趋势的代表性较好。第79页,共132页,编辑于2022年,星期二四分位间距n组距分组数据n(1)全部数据的中位数ME1n(2)数值较大部分的中位数ME2n(3)
44、数值较小部分的中位数ME3n(4)四分位间距第80页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.2 4.2 离散程度的度量离散程度的度量 4.2.3 取值范围【极差】【全距】取值范围(Value Area)为全体数据中最大数值与最小数值之差,反映了数值变量取值的变动幅度。取值范围也称为全距,一般用 R 表示,有 (4.20)当使用样本数据的最大数值与最小数值之差,来计算该组样本数值变量取值区间,以反映总体变量取值的变动幅度时,一般称之为极差(Range),用表示。即 (4.21)【修正极差】【修正极差】第81页,共132页,编辑于2022年,星期二统计学
45、教程第4章 数据分布特征的度量 n 4.2 4.2 离散程度的度量离散程度的度量 例例4.204.20 某企业一车间甲乙两个生产小组的个人日产量件数数据如下 甲组:50,55,60,70,80,85,90 乙组:67,68,69,70,71,72,73 要求要求 试计算该车间甲乙两个生产小组的个人日产量的取值范围。解解 甲乙两个生产小组的均值都为70件,采用式(4.20),有 甲组:乙组:甲组的取值范围为40件,乙组的取值范围为6件,表明70件的均值对于乙组个人日产量的集中趋势更具有代表性,或者说乙组个人日产量的离散程度小,集中趋势更为显著。取值范围的计算只使用了数值变量中的最大与最小两个数值
46、,具有计算简洁,意义明确,易于理解的特点,但是没有充分利用数据的全部信息,是一个粗略的,简单的,尤其是容易受到极端数值影响的测度。第82页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.2 4.2 离散程度的度量离散程度的度量 4.2.4 平均差【平均偏差】【平均离差】平均差(MeanDeviation)是指全部变量值与其均值的离差的绝对值的均值,也称为平均离差,用A.D.表示。简单平均差计算公式为:(4.22)加权平均差计算公式为:(4.23)第83页,共132页,编辑于2022年,星期二平均差(MeanDifference)第84页,共132页,编辑于2
47、022年,星期二统计学教程第4章 数据分布特征的度量 n 4.2 4.2 离散程度的度量离散程度的度量 例例4.21 4.21 仍然采用例4.20中的数据。要求要求 试计算该该车间甲乙两个生产小组的个人日产量的平均差。解解 已知均值为70件,由式(4.22)表4.10 甲乙小组的个人日产量的平均差计算表 件 甲组:乙组:平均差测度同样表明乙组个人日产量的离散程度小,70件的个人日产量均值对于乙组的集中趋势更具有代表性。第85页,共132页,编辑于2022年,星期二例4.22n采用例4.8中某学期某班35名学生统计学成绩的组均值和频数数据,并已知均值为80分。第86页,共132页,编辑于2022
48、年,星期二考分考分/分分组均值组均值/分分人数人数/人人60分以下5425260-706546070-807693680-9085147090-10093678合计35296第87页,共132页,编辑于2022年,星期二第88页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.2 4.2 离散程度的度量离散程度的度量 4.2.5 方差和标准差 方差(Variance)是指全部变量值与其均值的离差的平方的均值。方差以数据的重心均值作为基准数值来度量数据分布的离散程度,同时用平方的方式消除了变量值与均值离差数值正负相抵的问题,便于数学上的处理,方差是正态分布等概率
49、分布的重要参数,是度量数值变量离散程度的基本测度。方差一般用 或 表示。根据所拥有的数值变量数据的形式不同,方差的计算可以分为以下几种方式。1简单方差计算公式 当拥有未分组的数据未分组的数据时,采用简单方差公式计算方差。(4.24)第89页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.2 4.2 离散程度的度量离散程度的度量 例例4.234.23 再次仍然采用例4.20中某企业一车间甲乙两个生产小组的个 人日产量件数数据,并已知均值为70件。要求要求 试计算该甲乙两个生产小组个人日产量的方差。解解 由式(4.24)有 表4.12 甲乙小组的个人日产量的方差
50、计算表 件甲组:乙组:第90页,共132页,编辑于2022年,星期二统计学教程第4章 数据分布特征的度量 n 4.2 4.2 离散程度的度量离散程度的度量 2加权方差计算公式 当只具备已分组数据已分组数据时,需要采用加权方差公式计算方差。(1)当拥有单变量值分组单变量值分组数据时,加权方差计算公式为:(4.25)例例4.244.24 根据例4.7中某机床总装车间10个装配小组日完成产品台数数据,并已知均值为6.8台。要求要求 计算该机床总装车间装配小组日完成产品台数的方差。解解 由式(4.25)第91页,共132页,编辑于2022年,星期二日完成产品量/台装配小组/个513.24621.287