《统计学-第3章--数据分布特征描述.ppt》由会员分享,可在线阅读,更多相关《统计学-第3章--数据分布特征描述.ppt(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、n以数值特征,对以数值特征,对统计数据分布统计数据分布进行进行量化描述量化描述。n主要包括三方面:主要包括三方面:集中趋势集中趋势 用用平均指标平均指标描述(位置特征);描述(位置特征);离中趋势离中趋势 用用变异指标变异指标描述(离散特征);描述(离散特征);偏斜程度偏斜程度 用用偏度偏度和和峰度峰度描述(偏斜特征、峰度特征)。描述(偏斜特征、峰度特征)。本章学习任务本章学习任务n学习要求:学习要求:理解理解测度统计数据集中趋势、离散程度的概念、测度统计数据集中趋势、离散程度的概念、指标、相互关系;指标、相互关系;掌握掌握主要分析指标主要分析指标的的计算方法计算方法和和应用场合,应用场合,并
2、能并能熟练熟练进行相关进行相关计算分析计算分析。数据分布特征与测度:概览数据分布特征与测度:概览集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状形状形状形状)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)数据分布特征测度数据分布特征测度分布形状分布形状集中趋势集中趋势离散程度离散程度幂平均数幂平均数中位数中位数众众 数数异众比率异众比率方差、标准差方差、标准差峰峰 度度平均差平均差极差极差偏偏 度度 变异系数变异系数第一节第一节 统计变量集中趋势测定统计变量集中趋势测定一一 集中趋势指标及作用集中趋势指标及作用二二 数
3、值平均数数值平均数三三 众数与中位数(众数与中位数(位置平均数位置平均数)一、集中趋势指标及作用一、集中趋势指标及作用n集中趋势集中趋势(Central tendency)集中趋势集中趋势 即即一组数据一组数据向其向其中心值中心值聚集或靠聚集或靠拢拢的的倾向和程度倾向和程度。用用平均指标平均指标表示,代表数据的表示,代表数据的一一般水平般水平。测定测定集中趋势集中趋势是认识数据分布特征的是认识数据分布特征的基本内容基本内容。n集中趋势指标有两类:集中趋势指标有两类:数值平均数数值平均数 根据根据全部数据计算得到全部数据计算得到的代表值。的代表值。优点:优点:数学性质良好,可用于统计推断数学性质
4、良好,可用于统计推断 缺点:缺点:易受极端值影响易受极端值影响。主要有主要有算术平均数、调和平均数算术平均数、调和平均数及及几几何平均数何平均数,三者均为,三者均为幂平均数幂平均数特例。特例。位置平均数位置平均数 根据根据对总体中处于特定位置的单个或部对总体中处于特定位置的单个或部分单位标志值直接观察或推算确定分单位标志值直接观察或推算确定的代表值。的代表值。优点:优点:不易受极端值影响,具有较好稳健性。不易受极端值影响,具有较好稳健性。缺点:缺点:不宜用作统计推断不宜用作统计推断。主要包括主要包括众数众数和和中位数中位数。n集中趋势指标作用集中趋势指标作用1反映变量分布的反映变量分布的集中趋
5、势集中趋势和和一般水平一般水平。如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。2比较同一现象在不同空间或不同阶段的发展比较同一现象在不同空间或不同阶段的发展水平,反映现象水平,反映现象变化特征变化特征、趋势趋势和和规律性规律性。能消除总体规模差异造成的不利影响;在一定程度上减弱偶然因素的影响。一、集中趋势指标及作用一、集中趋势指标及作用3分析现象之间的分析现象之间的依存关系依存关系。如研究劳动者文化程度与收入的关系。4(数值)平均指标是推断统计中的(数值)平均指标是推断统计中的重要重要统计量统计量,是进行统计推断的基础。,是进行统计推断的基础。几种常见的位置特征数几种常见的位置特
6、征数n数据分布的位置特征数实际上也是数据的代表值实际上也是数据的代表值,代表了数据的一般水平。n在不同场合,可以适当选用平均数、中位数、众数充当位置特征数(代表值)n其中平均数不同于中位数、众数的特点在于:其中平均数不同于中位数、众数的特点在于:平均数是由所研究的全体数据参加计算所得。n平均数的一般形式叫做幂平均数幂平均数。常见的有算术平均数、几何平均数、调和平均数。二、数值平均数二、数值平均数(一)幂平均数(一)幂平均数幂,power变量X取N个值:。权数为一组正数:。加权幂平均数一般形式为:其中,k 为任意实数。权数w均相等时,加权平均数退化为简单平均数:n特例情况特例情况 幂平均数幂平均
7、数算术平均数(幂指数算术平均数(幂指数 k=1)调和平均数(幂指数调和平均数(幂指数 k=-1)几何平均数(幂指数几何平均数(幂指数 k0)其他幂平均数其他幂平均数nk=1:算术平均数算术平均数加权加权简单简单nk=-1:调和平均数调和平均数加权加权简单简单nk0:几何平均数几何平均数加权加权简单简单关于加权问题关于加权问题n权数确定方式:客观权数:权数由实际统计资料获得获得或推算推算。主观权数:根据研究问题,由研究者主观赋值主观赋值。n权数作用:权衡权衡变量的各种取值在计算平均数时的重重要性要性。权数作用,根本上是通过权数结构权数结构实现。n权数作用:即使不改变被平均的数值,仅改变权数结构,
8、即可改变平均数水平。例如,改变教师职称结构,而不改变各种职例如,改变教师职称结构,而不改变各种职称教师课时费标准,会改变平均课时费水平。称教师课时费标准,会改变平均课时费水平。n权数实质权数的实质实质在于其结构,即结构比例形式(比重权数)。其更能清晰表明权数之权衡轻重权衡轻重的作用。n权数形式有2种:绝对数形式结构比例形式 (二)算术平均数(二)算术平均数算术平均数算术平均数(Arithmetic mean),也称均),也称均值(值(mean)。)。由一组数据的总和(由一组数据的总和(总体标志总量总体标志总量)除以)除以该组数据的项数(该组数据的项数(总体单位总量总体单位总量)得到)得到;算术
9、平均数算术平均数=总体标志总量总体标志总量/总体单位总量总体单位总量是最常用的数值平均数;是最常用的数值平均数;根据掌握资料不同,其有多种计算公式。根据掌握资料不同,其有多种计算公式。1简单算术平均数简单算术平均数对对未分组数据未分组数据,采用简单算术平均数公式。即,采用简单算术平均数公式。即把各项数据直接加总,然后除以总项数。把各项数据直接加总,然后除以总项数。计算公式:计算公式:分组分组举例举例表表 3-2年龄年龄人数(人)人数(人)xf2242510305501合计合计20表表 3-1男性男性女性女性2222222225252525252525252525303030305030n解解:
10、采用简单算术平均法计算,即全体队员的平采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁)均年龄为(单位:周岁)分组数据不能简单平均分组数据不能简单平均!因为各组变量值的次!因为各组变量值的次数(权数)不等!数(权数)不等!若采用简单平均:若采用简单平均:应采用加权平均。应采用加权平均。两种计算公式结果相同!两种计算公式结果相同!2加权算术平均数加权算术平均数对对单项式分组资料单项式分组资料,应以各标志值出现,应以各标志值出现次数为权数次数为权数加权加权平均平均。加权算术平均数计算公式:加权算术平均数计算公式:n例例3-1单项式单项式分组资料(表分组资料(表3-2)计算方法为:)计算方
11、法为:3由组距分组资料计算由组距分组资料计算组距分组组距分组资料中,资料中,各组变量值不唯一各组变量值不唯一,是一个,是一个区间区间;计算时,各组变量值通常用计算时,各组变量值通常用组中值(近似)代表组中值(近似)代表;用组中值代替实际值,其用组中值代替实际值,其假定条件假定条件是是各组内数据呈均匀分各组内数据呈均匀分布或对称分布布或对称分布。由于实际情况中该条件未必满足,故计算。由于实际情况中该条件未必满足,故计算结果是结果是近似值近似值;与单项式分组资料一样,采用加权算术平均数计算。与单项式分组资料一样,采用加权算术平均数计算。举例举例表表3-3 3-3 节能灯泡使用寿命数据节能灯泡使用寿
12、命数据使用寿命使用寿命(小时)(小时)组中组中值值x数量数量fxf 频率频率f/fxf/f1000以下以下900218000.020 181000-12001100888000.080 881200-1400130016208000.160 2081400-1600150035525000.350 5251600-1800170023391000.230 3911800-2000190012228000.120 2282000以上以上2100484000.040 84合合 计计10015420011542解:平均使用寿命为解:平均使用寿命为4比率类型统计变量求平均数比率类型统计变量求平均数(1
13、)比率类型统计变量,指)比率类型统计变量,指平均指标平均指标和和相对指标相对指标。(2)对比率类型变量求平均,涉及)对比率类型变量求平均,涉及个体比率个体比率 和和总总比率比率 两个概念。两个概念。(3)对比率类型变量计算平均数,基本要求是:)对比率类型变量计算平均数,基本要求是:比率类型比率类型变量变量平均值平均值M,等于等于个体比率个体比率的的总比率总比率。简言之:。简言之:先求和,先求和,再对比再对比。(4)根据掌握资料不同,可采用)根据掌握资料不同,可采用三种等价形式三种等价形式:总比率,加权算术平均,加权调和平均总比率,加权算术平均,加权调和平均例如:对例如:对相对数相对数求算术平均
14、数求算术平均数u对对相对数相对数而言,由于各个而言,由于各个相对数的对比基础不同,相对数的对比基础不同,采用简单算术平均不合理,采用简单算术平均不合理,必须加权平均。必须加权平均。权数选择必须符合该相对数权数选择必须符合该相对数本身的计算公式,通常为该本身的计算公式,通常为该相对数的相对数的分母分母指标。指标。对表对表3-4的分组资料:的分组资料:其中,分母其中,分母b为权数为权数f 表表 3-4企企 业业流通费用流通费用率()率()x=a/b商品商品销售额销售额(万元)(万元)b流通流通费用费用(万元)(万元)a甲甲161600256乙乙104750475丙丙124000480合合 计计10
15、3501211又如:对又如:对平均数平均数求算术平均数求算术平均数n某商贸公司购入一批水果,分等级收购价格和收购金额如下某商贸公司购入一批水果,分等级收购价格和收购金额如下表。试求这批水果的平均收购价格。表。试求这批水果的平均收购价格。n解:解:5算术平均数主要数学性质算术平均数主要数学性质(1)算术平均数与变量值个数乘积,等于各变量值总和。)算术平均数与变量值个数乘积,等于各变量值总和。(2)各变量值与算术平均数的离差之总和,等于零。)各变量值与算术平均数的离差之总和,等于零。(3)各变量值与算术平均数的离差平方之总和最小。)各变量值与算术平均数的离差平方之总和最小。(从全(从全部数据看,算
16、术平均数最接近所有变量值)部数据看,算术平均数最接近所有变量值)n性质(性质(3)证明:)证明:(三)调和平均数(三)调和平均数(Harmonic mean)调和平均数,也称倒数平均数。调和平均数,也称倒数平均数。各变量值各变量值倒数倒数(1/xi)的)的算术平均数算术平均数的的倒数倒数。计算公式为:计算公式为:n社会经济统计中所应用的调和平均数,通常是加权算社会经济统计中所应用的调和平均数,通常是加权算术平均数的术平均数的变形变形。n已知各组变量值已知各组变量值 xi 和(和(xi fi)而缺乏)而缺乏 fi 时,加权算术时,加权算术平均数通常可变形为调和平均数形式来计算。平均数通常可变形为
17、调和平均数形式来计算。n回忆回忆3-4求解:求解:(四)几何平均数(四)几何平均数(Geometric mean)n简单几何平均数简单几何平均数 n个变量值连乘积的个变量值连乘积的n次方根。次方根。n加权几何平均数加权几何平均数n适用于各个变量值之间存在连乘积关系的场合。适用于各个变量值之间存在连乘积关系的场合。主要用于计算现象的主要用于计算现象的平均发展速度平均发展速度(第九章);(第九章);也适用于对某些具有环比性质的也适用于对某些具有环比性质的比率求平均比率求平均(下例)。(下例)。举例举例n例例3-5。某企业产品的加工要顺次经过前后衔接的五道。某企业产品的加工要顺次经过前后衔接的五道工
18、序。本月该企业各加工工序的合格率分别为工序。本月该企业各加工工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合,试求这五道工序的平均合格率。格率。n解:本例中各工序的合格率具有环比的性质,企业产解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所品的总合格率等于各工序合格率之连乘积。所以,所求平均合格率应为:求平均合格率应为:(五)几种平均数大小关系(五)几种平均数大小关系 对同一批数据和权数,三种平均数关系:对同一批数据和权数,三种平均数关系:调和平均调和平均 几何平均几何平均 算术平均算术平均当且仅当所有观察值全部相等时,等号成立
19、;否当且仅当所有观察值全部相等时,等号成立;否则不等式严格成立。则不等式严格成立。证明思路:证明思路:首先证明幂平均数随幂值首先证明幂平均数随幂值 k 单调递增变化(可由单调递增变化(可由微分方法证明)。微分方法证明)。根据三类平均数根据三类平均数 k 取值关系,调和平均数(取值关系,调和平均数(k=-1)、)、几何平均数(几何平均数(k0)、算术平均数()、算术平均数(k=1)可得到)可得到以上结论。以上结论。平均数的应用场合平均数的应用场合n常见的应用场合有:常见的应用场合有:作为统计指标的一种表现形式作为统计指标的一种表现形式作为统计总体分布的位置特征数作为统计总体分布的位置特征数反映一
20、个统计变量所有观察值的一般水平反映一个统计变量所有观察值的一般水平抵消掉随机试验中的偶然因素影响,显示出试验抵消掉随机试验中的偶然因素影响,显示出试验的规律性水平。的规律性水平。n数据是随机试验的结果。数据是随机试验的结果。n随机试验的个别结果会呈现出或高或低的起伏波动,随机试验的个别结果会呈现出或高或低的起伏波动,实际上这是由偶然因素影响造成的。实际上这是由偶然因素影响造成的。n在进行大量重复试验,将试验结果简单算术平均,那在进行大量重复试验,将试验结果简单算术平均,那么随着试验次数的增加,算术平均值就会越来越逼近么随着试验次数的增加,算术平均值就会越来越逼近一个稳定值,而这个稳定值就是试验
21、的规律性水平一个稳定值,而这个稳定值就是试验的规律性水平(数学期望值)。(数学期望值)。n因此,在统计分析中,常常采用算术平均的手法去抵因此,在统计分析中,常常采用算术平均的手法去抵消现象中的偶然影响,以期消现象中的偶然影响,以期近似地近似地认识现象的规律性认识现象的规律性水平。水平。三、众数与中位数三、众数与中位数(一)众数(一)众数(Mode)n众数是一组数据中众数是一组数据中出现出现频数最多、频率最高频数最多、频率最高的变量的变量值,常用值,常用 Mo 表示。表示。n众数代表最常见、最普遍的状况,可度量现象集中众数代表最常见、最普遍的状况,可度量现象集中趋势。趋势。可测度可测度定性变量定
22、性变量集中趋势,也可度量集中趋势,也可度量定量变量定量变量集中趋势。集中趋势。在社会经济现象的管理决策中具有广泛应用。在社会经济现象的管理决策中具有广泛应用。n对分布数列求众数,具有对分布数列求众数,具有条件性条件性。存在性存在性:若分布数列没有明显集中趋势,则若分布数列没有明显集中趋势,则不存在不存在众数;众数;唯一性唯一性:若分布数列有多个相对集中趋势,则若分布数列有多个相对集中趋势,则有多个有多个众数。众数。从分布曲线上看,众数就是一个变量分布曲线的最高峰所对应的变量值。(见课本55页图3-1)n为确定众数,通常要编制分布数列。为确定众数,通常要编制分布数列。众数是分布曲线众数是分布曲线
23、最高点最高点对应的标志值。对应的标志值。单项式单项式分布数列中,众数是具有最多次数的标志值,可分布数列中,众数是具有最多次数的标志值,可观观察察得到。如表得到。如表3-2中,众数值中,众数值Mo25,组距式组距式分布数列中,众数需要分布数列中,众数需要推算推算。n组距分布数列中,众数推算方法:组距分布数列中,众数推算方法:先找到众数组。先找到众数组。u等距数列中,众数组是等距数列中,众数组是频数最多频数最多的组;的组;u异距数列中,众数组是异距数列中,众数组是频数密度频数密度最大的组。最大的组。根据众数组与其相邻两组的根据众数组与其相邻两组的次数差次数差推算(假定性)推算(假定性)。其公式有其
24、公式有2,结果完全一致:,结果完全一致:具体计算:见教材例具体计算:见教材例3-7(P55)下限公式:下限公式:上限公式:上限公式:表表3-3 3-3 节能灯泡使用寿命数据节能灯泡使用寿命数据使用寿命使用寿命(小时)(小时)组中值组中值x数量数量fxf 频率频率f/fxf/f1000以下以下900218000.020 181000-12001100888000.080 881200-1400130016208000.160 2081400-1600150035525000.350 5251600-1800170023391000.230 3911800-2000190012228000.120
25、 2282000以上以上2100484000.040 84合合 计计1001542001154240 50 60 70 80 90 10050 40 30 20 10A G FBCED频数频数x y(L)(U)Mo=L+x=U-yO(二)中位数(二)中位数(Median)n中位数是将数据由小到大排列后中位数是将数据由小到大排列后位置居中位置居中的数值。的数值。标志值标志值小于小于或等于或等于中位数的单位占一半;中位数的单位占一半;标志值标志值大于大于或等于或等于中位数的单位也占一半。中位数的单位也占一半。用中位数代表总体标志值的一般水平,可以用中位数代表总体标志值的一般水平,可以避免极端值避免
26、极端值影响影响,有时更具代表性。,有时更具代表性。MMe e50%50%n未分组数据计算中位数未分组数据计算中位数若数据项数是若数据项数是奇数奇数,则位于,则位于中间的数值中间的数值为中为中位数;如位数;如5人收入为人收入为:1200,1450,1500,1600,2000元,则其收入中位元,则其收入中位数数 Me=1500。若数据项数是若数据项数是偶数偶数,则取,则取居中两个数值的平居中两个数值的平均数均数为中位数。如为中位数。如6人收入为人收入为:1200,1450,1500,1600,1800,2000元,则收入元,则收入中位数中位数 Me=1550。n分组数据推算中位数分组数据推算中位
27、数先确定先确定中位数组中位数组,即中间位置(,即中间位置(f/2)所在的组。)所在的组。对单项式分组,可对单项式分组,可直接得到直接得到中位数。中位数。对组距式分组,对组距式分组,假定假定中位数组内次数中位数组内次数均匀分布均匀分布,近似,近似推算推算中位数。中位数。计算公式有计算公式有2,结果完全一致:,结果完全一致:n下限公式下限公式n上限公式上限公式成绩分组成绩分组频数(人)频数(人)50以下以下1050-602060-703070-805080-904090-10030合计合计180n分组数据推算中位数分组数据推算中位数先确定先确定中位数组中位数组,即中间位置(,即中间位置(f/2)所
28、在的组。)所在的组。对单项式分组,可对单项式分组,可直接得到直接得到中位数。中位数。对组距式分组,对组距式分组,假定假定中位数组内次数中位数组内次数均匀分布均匀分布,近似,近似推算推算中位数。计算公式有中位数。计算公式有2,结果完全一致。见下例:,结果完全一致。见下例:下限公式:下限公式:上限公式:上限公式:可由可由累计分布数列累计分布数列或或累计分布图累计分布图确定中位数。确定中位数。以累计频率分布曲线图为例以累计频率分布曲线图为例(该例与前面直方图数据一致该例与前面直方图数据一致)此例中,此例中,与累计频率与累计频率50%相对应的成绩相对应的成绩76分,即为中位数。分,即为中位数。向上累计
29、图:向上累计图:60分以下有分以下有16.7%向下累计图:向下累计图:80分以上有分以上有38.9%n中位数与分位数中位数与分位数四分位数、十分位数、百分位数分别是将数据由小到大排四分位数、十分位数、百分位数分别是将数据由小到大排序后,位于全部数据序后,位于全部数据1/4、1/10、1/100位置上的数值。位置上的数值。中位数实际上是第中位数实际上是第2个四分位数、第个四分位数、第5个十分位数、第个十分位数、第50个个百分位数。百分位数。分位数与其它指标结合,可以更详细地反映数据分布特征。分位数与其它指标结合,可以更详细地反映数据分布特征。n中位数使用场合与作用中位数使用场合与作用在在较较明明
30、显显的的偏偏斜斜分分布布情情形形下下,用用中中位位数数来来说说明明次次数数分分布布位位置置特特征征较较为为适适中中。因因为为众众数数忽忽略略了了偏偏斜斜一一侧侧的的大大量量数数值值,而算术平均数又过分强调了这些数值。而算术平均数又过分强调了这些数值。算术平均数对特异值的反应十分灵敏,而中位数对特异值算术平均数对特异值的反应十分灵敏,而中位数对特异值反应不灵敏。常常把中位数(与算术平均数的差异大小)反应不灵敏。常常把中位数(与算术平均数的差异大小)作为作为探索发现特异值探索发现特异值的标准。的标准。n箱线图(箱线图(box plot)箱线图由一组数据的最小值(箱线图由一组数据的最小值(xmin)
31、、第一四分位数()、第一四分位数(Q1)、中位数()、中位数(Me)、第三四分位数()、第三四分位数(Q3)、最大值()、最大值(xmax)等五个数值来绘成。)等五个数值来绘成。利用箱线图可以观察数据分布的利用箱线图可以观察数据分布的范围、中心位置和对称性范围、中心位置和对称性等等特征,还可进行多组数据分布的比较。特征,还可进行多组数据分布的比较。xmin Q1 Me Q3 xmax(三)众数、中位数和算术平均数比较(三)众数、中位数和算术平均数比较 0.三者均测度数据的集中趋势和一般水平。三者均测度数据的集中趋势和一般水平。1.算术平均数属于算术平均数属于数值平均数数值平均数,其综合利用全部
32、数据信,其综合利用全部数据信息;息;众数和中位数则由数据分布的特定众数和中位数则由数据分布的特定位置位置确定。确定。2.算术平均数和中位数在任何一组数据中都算术平均数和中位数在任何一组数据中都存在存在,且具,且具有有惟一性惟一性;众数则不然,其计算和应用有两个前提条件:数据项众数则不然,其计算和应用有两个前提条件:数据项数众多,数众多,且具有明显的集中趋势。且具有明显的集中趋势。3.算术平均数只能用于算术平均数只能用于定量定量(数值型)数据;(数值型)数据;中位数适用于中位数适用于定序定序数据和数据和定量定量数据;数据;众数适用于众数适用于所有形式所有形式(各种类型及计量层次)的数据。(各种类
33、型及计量层次)的数据。4.算术平均数受数据极端值影响,而众数和中位数都不算术平均数受数据极端值影响,而众数和中位数都不受极端值的影响。受极端值的影响。为排除极端值干扰,可计算切尾均值,即去掉数据中最大为排除极端值干扰,可计算切尾均值,即去掉数据中最大和最小的若干数值后计算的均值。和最小的若干数值后计算的均值。该思路常用于某些比赛计分规则中,如体操、跳水等。该思路常用于某些比赛计分规则中,如体操、跳水等。切尾均值是将算术平均数与中位数切尾均值是将算术平均数与中位数互相结合互相结合的结果。的结果。5.算术平均数可用于推算总体的有关总量指标,而中算术平均数可用于推算总体的有关总量指标,而中位数和众数
34、则不宜用作此类推算。位数和众数则不宜用作此类推算。6.算术平均数和众数、中位数的算术平均数和众数、中位数的数量关系数量关系,取决于数,取决于数据分布的据分布的偏斜程度偏斜程度。对单峰钟形分布而言,三者数量。对单峰钟形分布而言,三者数量大小有如下关系:大小有如下关系:据例据例3-2,3-7,3-8结果,表结果,表3-3的灯泡寿命数据的灯泡寿命数据服从右偏分布。服从右偏分布。皮尔逊(皮尔逊(K.Pearson)经验公式:)经验公式:在轻微偏态时,三者的近似关系为在轻微偏态时,三者的近似关系为对称分布对称分布右偏分布右偏分布上上偏偏分布分布正偏分布正偏分布左偏分布左偏分布下偏分布下偏分布负偏分布负偏
35、分布第二节第二节 统计变量离散程度测定统计变量离散程度测定n一、离散程度指标及其作用一、离散程度指标及其作用n二、极差、四分位差和平均差二、极差、四分位差和平均差n三、方差和标准差三、方差和标准差n四、离散系数四、离散系数n五、异众比率五、异众比率一、离散程度指标及作用一、离散程度指标及作用n测度离散程度的指标,称为测度离散程度的指标,称为变异指标变异指标,分为两类:,分为两类:绝对数绝对数:极差、四分位差、平均差、方差和标准差。:极差、四分位差、平均差、方差和标准差。相对数相对数:离散系数、异众比率。:离散系数、异众比率。n离散程度指标作用:离散程度指标作用:1.说明数据分散程度,反映变量的
36、说明数据分散程度,反映变量的稳定性、均衡性稳定性、均衡性。数据之间差异越大,变量的稳定性或均衡性越差。数据之间差异越大,变量的稳定性或均衡性越差。2.衡量平均数的衡量平均数的代表性代表性。离散程度越大,平均数的代表性就越小。离散程度越大,平均数的代表性就越小。3.统计推断统计推断的重要依据的重要依据判别统计推断前提条件是否成立;判别统计推断前提条件是否成立;衡量推断效果好坏的重要尺度。衡量推断效果好坏的重要尺度。二、极差、四分位差和平均差二、极差、四分位差和平均差(一)极差(一)极差(Range)n极差极差(极值之差极值之差)是一组数据的最大值与最小值之差,是一组数据的最大值与最小值之差,常用
37、常用 R 表示。表示。n对总体数据而言,极差能界定变量变化范围与幅度大对总体数据而言,极差能界定变量变化范围与幅度大小,也称小,也称全距全距。n组距数列中,极差组距数列中,极差最高组上限最高组上限-最低组下限。最低组下限。n优缺点:优缺点:优点:优点:计算简便、含义直观、容易理解计算简便、含义直观、容易理解。缺点:缺点:代表性差、稳健性差代表性差、稳健性差(仅利用尾端信息,未考虑数(仅利用尾端信息,未考虑数据中间分布情况,不能充分说明全部数据的差异程度)。据中间分布情况,不能充分说明全部数据的差异程度)。(二)四分位差(二)四分位差n第第3四分位数(四分位数(Q3)与第)与第1四分位数(四分位
38、数(Q1)之差,常)之差,常用用Qd表示。计算公式为:表示。计算公式为:n实质是两端各去掉实质是两端各去掉1/4数据以后的数据以后的极差极差,表示占全部,表示占全部数据一半的数据一半的中间数据中间数据的离散程度。四分位差越大,表的离散程度。四分位差越大,表示数据离散程度越大。示数据离散程度越大。n在一定程度上在一定程度上改进改进极差,避免了极端值干扰。但对数极差,避免了极端值干扰。但对数据差异的反映,仍然据差异的反映,仍然不充分不充分。n使用场合:当用使用场合:当用中位数中位数测度数据集中趋势时,使用四测度数据集中趋势时,使用四分位差反映离散程度效果最好(分位差反映离散程度效果最好(匹配性匹配
39、性)。(三)平均差(三)平均差(Average Deviation)n定义:定义:平均差是平均差是各数据与其各数据与其均值(算术平均数)均值(算术平均数)的的离差绝对值离差绝对值的的算术平均数算术平均数。反映反映全部全部数据与其数据与其均值均值的的平均差距平均差距,以,以A.D表示。表示。n计算公式:计算公式:n优缺点:优缺点:含义清晰,能含义清晰,能全面全面反映数据离散程度。反映数据离散程度。取离差取离差绝对值绝对值进行平均,数学处理进行平均,数学处理不方便不方便,数学性质也非,数学性质也非最优。最优。分组数据分组数据:xi为各组组中值为各组组中值未分组数据未分组数据:xi为原始数据为原始数
40、据三、方差和标准差三、方差和标准差(一)(一)方差(方差(Variance)概念和计算)概念和计算n方差是全部数据与其方差是全部数据与其均值均值的的离差平方离差平方的的算术平均数算术平均数.n总体方差(总体方差(2)计算公式:)计算公式:n样本方差(常用样本方差(常用 S2 表示)分母应改为(表示)分母应改为(n-1)。只有)。只有如此,如此,才能保证才能保证s2是是2的的无偏估计量无偏估计量。分组数据:分组数据:未分组数据:未分组数据:n标准差(标准差(standard Deviation):方差的算术平方根。):方差的算术平方根。n总体标准差一般用总体标准差一般用 表示。计算公式为:表示。
41、计算公式为:未分组数据:未分组数据:n样本标准差(样本标准差(S),分母应为(),分母应为(n-1)。)。n特点:特点:方差和标准差均方差和标准差均利用全部数据计算利用全部数据计算,能,能全面反映数据离散全面反映数据离散程度程度;且其;且其灵敏性灵敏性通常通常高高于平均差。于平均差。标准差比方差更容易理解标准差比方差更容易理解(计量单位与均值一致计量单位与均值一致)。在社)。在社会经济现象的统计分析中,标准差比方差会经济现象的统计分析中,标准差比方差应用普遍应用普遍,经,经常被用作测度数据与均值差距的标准尺度。常被用作测度数据与均值差距的标准尺度。分组数据:分组数据:例例3-9n计算平均差、方
42、差、标准差计算平均差、方差、标准差n由例由例3-2,已知该组数据算术平均数为,已知该组数据算术平均数为1542。使用寿命使用寿命(小时)(小时)组中值组中值(x)试验数量试验数量(只)(只)f 频率频率 (f/f)(x1542)|x1542|f(x1542)2*f1000以下以下90020.020-64212848243281000-1200110080.080-442353615629121200-14001300160.160-24238729370241400-16001500350.350-421470617401600-18001700230.230 1583634574172180
43、0-20001900120.120 358429615379682000以上以上210040.040 55822321245456合计合计1001.000 203246743600(二)方差主要数学性质(二)方差主要数学性质常数方差等于零。如常数方差等于零。如a为常数,则为常数,则 变量线性函数的方差,等于变量系数的平方乘以变量的方变量线性函数的方差,等于变量系数的平方乘以变量的方差。设差。设a,b为常数,为常数,y=a+bx,则有:,则有:分组条件下,总体方差可以分解为组间方差与各组方差平分组条件下,总体方差可以分解为组间方差与各组方差平均数之和。(该结论可用于第六章均数之和。(该结论可用于
44、第六章方差分析方差分析)u组间方差组间方差u各组方差平均数各组方差平均数(三)标准化值(三)标准化值(Z-score)对于两组数据,如果其均值和标准差均有明显差异,则往对于两组数据,如果其均值和标准差均有明显差异,则往往不能直接对比。需要首先将其转化为可比的数据。往不能直接对比。需要首先将其转化为可比的数据。通常可以对其进行无量纲化处理,得到标准化值,也称为通常可以对其进行无量纲化处理,得到标准化值,也称为Z值。值。标准化值,实际是将不同均值和标准差的总体转换为均值标准化值,实际是将不同均值和标准差的总体转换为均值为为0、标准差为、标准差为1的总体,将原始数据转换为其在总体中的的总体,将原始数
45、据转换为其在总体中的相对位置。相对位置。标准化值比较具有相对意义,没有绝对意义。标准化值比较具有相对意义,没有绝对意义。例例3-10n假定某班学生先后两次进行难度不同的综合考试。假定某班学生先后两次进行难度不同的综合考试。第一次考试成绩的均值和标准差分别为第一次考试成绩的均值和标准差分别为80分和分和10分,分,第二次考试成绩的均值和标准差分别为第二次考试成绩的均值和标准差分别为70分和分和7分。分。某同学第一、二次考试的成绩分别为某同学第一、二次考试的成绩分别为92分和分和80分,分,那么全班相比较而言,他哪一次考试的成绩更好呢那么全班相比较而言,他哪一次考试的成绩更好呢?n解:解:由于两次
46、考试成绩的均值和标准差不同,该学由于两次考试成绩的均值和标准差不同,该学生两次考试的成绩不宜直接比较生两次考试的成绩不宜直接比较。直接比较,第一次成绩更好;直接比较,第一次成绩更好;利用标准化值比较,表明第二次考试成绩更好一些。利用标准化值比较,表明第二次考试成绩更好一些。(四)(四)对称钟形分布的对称钟形分布的3 法则法则n3 法则法则关于对称钟形分布的近似经验法则:关于对称钟形分布的近似经验法则:变量值落在变量值落在-3 ,+3 范围以外的情况极为少见。范围以外的情况极为少见。通常将落在区间通常将落在区间-3 ,+3 之外的数据,称为异常数据或之外的数据,称为异常数据或离群点。离群点。x9
47、9.73%68.27%95.45%正态分布正态分布四、离散系数四、离散系数n绝对值变异指标有计量单位。其数值大小不仅取决于绝对值变异指标有计量单位。其数值大小不仅取决于数据离散程度,还受数据本身水平高低和计量单位的数据离散程度,还受数据本身水平高低和计量单位的影响。影响。n对不同变量(或不同数据组)的离散程度进行比较时,对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的只有当它们的平均水平平均水平和和计量单位计量单位都相同都相同时,才能利时,才能利用绝对值变异指标分析;否则,须利用离散系数比较用绝对值变异指标分析;否则,须利用离散系数比较其离散程度。其离散程度。例如,哪个变量差异较大
48、:体重,还是身高?例如,哪个变量差异较大:体重,还是身高?例如,那组人群体重差异较大:成人,还是婴儿?例如,那组人群体重差异较大:成人,还是婴儿?u 成人:平均体重成人:平均体重=70 kg,标准差,标准差=5 kgu 婴儿:婴儿:5 kg,1 kg例:观察例:观察7个人的体重和身高如下:个人的体重和身高如下:n体重(公斤)体重(公斤)xi:62,67,65,69,70,73,74n身高(厘米)身高(厘米)yi:165,166,168,170,174,178,180n判断体重与身高哪个离散较为严重。判断体重与身高哪个离散较为严重。注:注:两组计量单位不同,不能用极差、平均差、标准两组计量单位不
49、同,不能用极差、平均差、标准差等绝对离散特征数直接进行比较。适合采用离散系差等绝对离散特征数直接进行比较。适合采用离散系数比较。数比较。n离散系数是极差、四分位差、平均差或标准差等变异离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数形式表示变异程指标与算术平均数的比率,以相对数形式表示变异程度。度。将极差与算术平均数对比得到极差系数,将极差与算术平均数对比得到极差系数,将平均差与算术平均数对比得到平均差系数。将平均差与算术平均数对比得到平均差系数。最常用的离散系数是以标准差计算的,称为标准差系数:最常用的离散系数是以标准差计算的,称为标准差系数:n离散系数大,说明
50、数据的离散程度大,其平均数的代离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦反。表性就差;反之亦反。五、异众比率五、异众比率 n异众比率是指非众数值的次数之和在总次数中所占比异众比率是指非众数值的次数之和在总次数中所占比重,其公式为:重,其公式为:n主要用于衡量一组数据以众数为分布中心的集中程度,主要用于衡量一组数据以众数为分布中心的集中程度,即即衡量衡量众数众数对一组数据对一组数据一般水平一般水平的的代表性代表性。其值越小,数据集中程度越高,众数代表性越大;反之,其值越小,数据集中程度越高,众数代表性越大;反之,亦反。亦反。其既可用于其既可用于定量变量定量变量,也,也可用于可