《统计学-第3章--数据分布特征描述优秀PPT.ppt》由会员分享,可在线阅读,更多相关《统计学-第3章--数据分布特征描述优秀PPT.ppt(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、n以数值特征,对以数值特征,对统计数据分布统计数据分布进行进行量化描述量化描述。n主要包括三方面:主要包括三方面:集中趋势集中趋势 用用平均指标平均指标描述(位置特征);描述(位置特征);离中趋势离中趋势 用用变异指标变异指标描述(离散特征);描述(离散特征);偏斜程度偏斜程度 用用偏度偏度和和峰度峰度描述(偏斜特征、峰度特征)。描述(偏斜特征、峰度特征)。本章学习任务本章学习任务n学习要求:学习要求:n 理解测度统计数据集中趋势、离散程度的概理解测度统计数据集中趋势、离散程度的概念、指标、相互关系;念、指标、相互关系;n 驾驭主要分析指标的计算方法和应用场合,并驾驭主要分析指标的计算方法和应
2、用场合,并能娴熟进行相关计算分析。能娴熟进行相关计算分析。数据分布特征与测度:概览数据分布特征与测度:概览集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状形状形状形状)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)数据分布特征测度数据分布特征测度分布形状分布形状集中趋势集中趋势离散程度离散程度幂平均数幂平均数中位数中位数众众 数数异众比率异众比率方差、标准差方差、标准差峰峰 度度平均差平均差极差极差偏偏 度度 变异系数变异系数第一节第一节 统计变量集中趋势测定统计变量集中趋势测定一一 集中趋势指标及作用集中趋势指标及作
3、用二二 数值平均数数值平均数三三 众数与中位数(众数与中位数(位置平均数位置平均数)一、集中趋势指标及作用一、集中趋势指标及作用n集中趋势集中趋势(Central tendency)n集中趋势集中趋势n 即一组数据向其中心值聚集或靠即一组数据向其中心值聚集或靠拢的倾向和程度。拢的倾向和程度。n 用平均指标表示,代表数据的一用平均指标表示,代表数据的一般水平。般水平。n测定集中趋势是相识数据分布特征的基测定集中趋势是相识数据分布特征的基本内容。本内容。n集中趋势指标有两类:集中趋势指标有两类:n数值平均数数值平均数n 依据全部数据计算得到的代表值。依据全部数据计算得到的代表值。n 优点:数学性质
4、良好,可用于统计推断优点:数学性质良好,可用于统计推断n 缺点:易受极端值影响。缺点:易受极端值影响。n 主要有算术平均数、调和平均数及几何主要有算术平均数、调和平均数及几何平均数,三者均为幂平均数特例。平均数,三者均为幂平均数特例。位置平均数位置平均数 依据对总体中处于特定位置的单个或依据对总体中处于特定位置的单个或部分单位标记值干脆视察或推算确定的代表部分单位标记值干脆视察或推算确定的代表值。值。优点:不易受极端值影响,具有较好稳健优点:不易受极端值影响,具有较好稳健性。性。缺点:不宜用作统计推断。缺点:不宜用作统计推断。主要包括众数和中位数。主要包括众数和中位数。n集中趋势指标作用集中趋
5、势指标作用n1反映变量分布的集中趋势和一般水平。反映变量分布的集中趋势和一般水平。n如用平均工资了解职工工资分布的中心,反如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。映职工工资的一般水平。n2比较同一现象在不同空间或不同阶段的发比较同一现象在不同空间或不同阶段的发展水平,反映现象变更特征、趋势和规律性。展水平,反映现象变更特征、趋势和规律性。n能消退总体规模差异造成的不利影响;能消退总体规模差异造成的不利影响;n在确定程度上减弱偶然因素的影响。在确定程度上减弱偶然因素的影响。一、集中趋势指标及作用一、集中趋势指标及作用3分析现象之间的依存关系。分析现象之间的依存关系。如探讨劳动
6、者文化程度与收入的关系。如探讨劳动者文化程度与收入的关系。4(数值)平均指标是推断统计中的重要统计量,是(数值)平均指标是推断统计中的重要统计量,是进行统计推断的基础。进行统计推断的基础。几种常见的位置特征数几种常见的位置特征数n数据分布的位置特征数事实上也是数据的代表值,代表了数据的一般水平。n在不同场合,可以适当选用平均数、中位数、众数充当位置特征数(代表值)n其中平均数不同于中位数、众数的特点在于:n平均数是由所探讨的全体数据参与计算所得。n平均数的一般形式叫做幂平均数。常见的有算术平均数、几何平均数、调和平均数。二、数值平均数二、数值平均数(一)幂平均数(一)幂平均数幂,幂,power
7、变量变量X取取N个值:个值:。权数为一组正数:权数为一组正数:。加权幂平均数一般形式为:加权幂平均数一般形式为:其中,其中,k 为随意实数。为随意实数。权数w均相等时,加权平均数退化为简洁平均数:n特例状况特例状况 幂平均数幂平均数算术平均数(幂指数算术平均数(幂指数 k=1)调和平均数(幂指数调和平均数(幂指数 k=-1)几何平均数(幂指数几何平均数(幂指数 k0)其他幂平均数其他幂平均数nk=1:算术平均数算术平均数n加权加权n简洁简洁nk=-1:调和平均数调和平均数n加权加权n简洁简洁nk0:几何平均数几何平均数n加权加权n简洁简洁关于加权问题关于加权问题权数确定方式:权数确定方式:客观
8、权数:客观权数:权数由实际统计资料获得或推算。权数由实际统计资料获得或推算。主观权数:主观权数:依据探讨问题,由探讨者主观赋值。依据探讨问题,由探讨者主观赋值。权数作用:权数作用:权衡变量的各种取值在计算平均数时的重要性。权衡变量的各种取值在计算平均数时的重要性。权数作用,根本上是通过权数结构实现。权数作用,根本上是通过权数结构实现。n权数作用:n即使不变更被平均的数值,仅变更权数结构,即可变更平均数水平。n 例如,变更老师职称结构,而不变更各种职称老师课时费标准,会变更平均课时费水平。n权数实质n权数的实质在于其结构,即结构比例形式(比重权数)。n其更能清晰表明权数之权衡轻重的作用。n权数形
9、式有2种:n确定数形式n结构比例形式n (二)算术平均数(二)算术平均数算术平均数(算术平均数(Arithmetic mean),也称均值),也称均值(mean)。)。由一组数据的总和(总体标记总量)除以该组由一组数据的总和(总体标记总量)除以该组数据的项数(总体单位总量)得到数据的项数(总体单位总量)得到;算术平均数算术平均数=总体标记总量总体标记总量/总体单位总量总体单位总量是最常用的数值平均数;是最常用的数值平均数;依据驾驭资料不同,其有多种计算公式。依据驾驭资料不同,其有多种计算公式。1简洁算术平均数简洁算术平均数对未分组数据,接受简洁算术平均数公式。即把各对未分组数据,接受简洁算术平
10、均数公式。即把各项数据干脆加总,然后除以总项数。项数据干脆加总,然后除以总项数。计算公式:计算公式:分组分组举例举例n解:接受简洁算术平均法计算,即全体队员的平解:接受简洁算术平均法计算,即全体队员的平均年龄为(单位:周岁)均年龄为(单位:周岁)分组数据不能简洁平均分组数据不能简洁平均!因为各组变量值的次!因为各组变量值的次数(权数)不等!数(权数)不等!若接受简洁平均:若接受简洁平均:应接受加权平均。应接受加权平均。两种计算公式结果相同!两种计算公式结果相同!2加权算术平均数加权算术平均数对单项式分组资料,应以各标记值出现次数为权数加对单项式分组资料,应以各标记值出现次数为权数加权平均权平均
11、。加权算术平均数计算公式:加权算术平均数计算公式:例例3-1单项式分组资料(表单项式分组资料(表3-2)计算方法为:)计算方法为:3由组距分组资料计算由组距分组资料计算组距分组资料中,各组变量值不唯一,是一个区间;组距分组资料中,各组变量值不唯一,是一个区间;计算时,各组变量值通常用组中值(近似)代表;计算时,各组变量值通常用组中值(近似)代表;用组中值代替实际值,其假定条件是各组内数据呈匀用组中值代替实际值,其假定条件是各组内数据呈匀整分布或对称分布。由于实际状况中该条件未必满整分布或对称分布。由于实际状况中该条件未必满足,故计算结果是近似值;足,故计算结果是近似值;与单项式分组资料一样,接
12、受加权算术平均数计算。与单项式分组资料一样,接受加权算术平均数计算。举例举例解:平均运用寿命为解:平均运用寿命为4比率类型统计变量求平均数比率类型统计变量求平均数(1)比率类型统计变量,指平均指标和相对指标。)比率类型统计变量,指平均指标和相对指标。(2)对比率类型变量求平均,涉及个体比率)对比率类型变量求平均,涉及个体比率 和总比率和总比率 两个概念。两个概念。(3)对比率类型变量计算平均数,基本要求是:比率)对比率类型变量计算平均数,基本要求是:比率类型变量平均值类型变量平均值M,等于个体比率的总比率。简言,等于个体比率的总比率。简言之:先求和,再对比。之:先求和,再对比。(4)依据驾驭资
13、料不同,可接受三种等价形式:)依据驾驭资料不同,可接受三种等价形式:总比率,加权算术平均,加权调和平均总比率,加权算术平均,加权调和平均例如:对相对数求算术平均数例如:对相对数求算术平均数对相对数而言,由于各个相对对相对数而言,由于各个相对数的对比基础不同,接受简数的对比基础不同,接受简洁算术平均不合理,必需加洁算术平均不合理,必需加权平均。权平均。权数选择必需符合该相对数本权数选择必需符合该相对数本身的计算公式,通常为该相身的计算公式,通常为该相对数的分母指标。对数的分母指标。对表对表3-4的分组资料:的分组资料:其中,分母其中,分母b为权数为权数f 又如:对又如:对平均数平均数求算术平均数
14、求算术平均数n某商贸公司购入一批水果,分等级收购价格和收购金额如下某商贸公司购入一批水果,分等级收购价格和收购金额如下表。试求这批水果的平均收购价格。表。试求这批水果的平均收购价格。n解:解:5算术平均数主要数学性质算术平均数主要数学性质(1)算术平均数与变量值个数乘积,等于各变量值总和。)算术平均数与变量值个数乘积,等于各变量值总和。(2)各变量值与算术平均数的离差之总和,等于零。)各变量值与算术平均数的离差之总和,等于零。(3)各变量值与算术平均数的离差平方之总和最小。)各变量值与算术平均数的离差平方之总和最小。(从全部数据看,算术平均数最接近全部变量值)(从全部数据看,算术平均数最接近全
15、部变量值)n性质(性质(3)证明:)证明:(三)调和平均数(三)调和平均数(Harmonic mean)调和平均数,也称倒数平均数。调和平均数,也称倒数平均数。各变量值各变量值倒数倒数(1/xi)的)的算术平均数算术平均数的的倒数倒数。计算公式为:计算公式为:n社会经济统计中所应用的调和平均数,通常是加权算社会经济统计中所应用的调和平均数,通常是加权算术平均数的术平均数的变形变形。n已知各组变量值已知各组变量值 xi 和(和(xi fi)而缺乏)而缺乏 fi 时,加权算术时,加权算术平均数通常可变形为调和平均数形式来计算。平均数通常可变形为调和平均数形式来计算。n回忆回忆3-4求解:求解:(四
16、)几何平均数(四)几何平均数(Geometric mean)简洁几何平均数简洁几何平均数 n个变量值连乘积的个变量值连乘积的n次方根。次方根。加权几何平均数加权几何平均数适用于各个变量值之间存在连乘积关系的场合。适用于各个变量值之间存在连乘积关系的场合。主要用于计算现象的平均发展速度(第九章);主要用于计算现象的平均发展速度(第九章);也适用于对某些具有环比性质的比率求平均(下例)。也适用于对某些具有环比性质的比率求平均(下例)。举例举例n例例3-5。某企业产品的加工要顺次经过前后连接的五道。某企业产品的加工要顺次经过前后连接的五道工序。本月该企业各加工工序的合格率分别为工序。本月该企业各加工
17、工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合,试求这五道工序的平均合格率。格率。n解:本例中各工序的合格率具有环比的性质,企业产解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所品的总合格率等于各工序合格率之连乘积。所以,所求平均合格率应为:求平均合格率应为:(五)几种平均数大小关系(五)几种平均数大小关系 对同一批数据和权数,三种平均数关系:对同一批数据和权数,三种平均数关系:调和平均调和平均 几何平均几何平均 算术平均算术平均当且仅当全部视察值全部相等时,等号成立;否则不等当且仅当全部视察值全部相等时,等号成立;否则不等式
18、严格成立。式严格成立。证明思路:证明思路:首先证明幂平均数随幂值首先证明幂平均数随幂值 k 单调递增变更(可由微分单调递增变更(可由微分方法证明)。方法证明)。依据三类平均数依据三类平均数 k 取值关系,调和平均数(取值关系,调和平均数(k=-1)、)、几何平均数(几何平均数(k0)、算术平均数()、算术平均数(k=1)可得到以)可得到以上结论。上结论。平均数的应用场合平均数的应用场合n常见的应用场合有:常见的应用场合有:n作为统计指标的一种表现形式作为统计指标的一种表现形式n作为统计总体分布的位置特征数作为统计总体分布的位置特征数n反映一个统计变量全部视察值的一般水平反映一个统计变量全部视察
19、值的一般水平n抵消掉随机试验中的偶然因素影响,显示出试验的规抵消掉随机试验中的偶然因素影响,显示出试验的规律性水平。律性水平。n n数据是随机试验的结果。数据是随机试验的结果。n随机试验的个别结果会呈现出或高或低的起伏波动,随机试验的个别结果会呈现出或高或低的起伏波动,事实上这是由偶然因素影响造成的。事实上这是由偶然因素影响造成的。n在进行大量重复试验,将试验结果简洁算术平均,那在进行大量重复试验,将试验结果简洁算术平均,那么随着试验次数的增加,算术平均值就会越来越靠近么随着试验次数的增加,算术平均值就会越来越靠近一个稳定值,而这个稳定值就是试验的规律性水平一个稳定值,而这个稳定值就是试验的规
20、律性水平(数学期望值)。(数学期望值)。n因此,在统计分析中,常常接受算术平均的手法去抵因此,在统计分析中,常常接受算术平均的手法去抵消现象中的偶然影响,以期近似地相识现象的规律性消现象中的偶然影响,以期近似地相识现象的规律性水平。水平。三、众数与中位数三、众数与中位数(一)众数(一)众数(Mode)n众数是一组数据中众数是一组数据中出现出现频数最多、频率最高频数最多、频率最高的变量的变量值,常用值,常用 Mo 表示。表示。n众数代表最常见、最普遍的状况,可度量现象集中众数代表最常见、最普遍的状况,可度量现象集中趋势。趋势。可测度可测度定性变量定性变量集中趋势,也可度量集中趋势,也可度量定量变
21、量定量变量集中趋势。集中趋势。在社会经济现象的管理决策中具有广泛应用。在社会经济现象的管理决策中具有广泛应用。n对分布数列求众数,具有条件性。对分布数列求众数,具有条件性。n存在性存在性:n 若分布数列没有明显集中趋势,则不存在众数;若分布数列没有明显集中趋势,则不存在众数;n唯一性唯一性:n 若分布数列有多个相对集中趋势,则有多个众若分布数列有多个相对集中趋势,则有多个众数。数。n 从分布曲线上看,众数就是一个变量分布曲线从分布曲线上看,众数就是一个变量分布曲线的最高峰所对应的变量值。(见课本的最高峰所对应的变量值。(见课本55页图页图3-1)n为确定众数,通常要编制分布数列。为确定众数,通
22、常要编制分布数列。n众数是分布曲线最高点对应的标记值。众数是分布曲线最高点对应的标记值。n单项式分布数列中,众数是具有最多次数的标记值,单项式分布数列中,众数是具有最多次数的标记值,可视察得到。如表可视察得到。如表3-2中,众数值中,众数值Mo25,n组距式分布数列中,众数须要推算。组距式分布数列中,众数须要推算。n组距分布数列中,众数推算方法:组距分布数列中,众数推算方法:n先找到众数组。先找到众数组。n等距数列中,众数组是频数最多的组;等距数列中,众数组是频数最多的组;n异距数列中,众数组是频数密度最大的组。异距数列中,众数组是频数密度最大的组。n依据众数组与其相邻两组的次数差推算(假定性
23、)。依据众数组与其相邻两组的次数差推算(假定性)。n其公式有其公式有2,结果完全一样:,结果完全一样:n具体计算:见教材例具体计算:见教材例3-7(P55)下限公式:下限公式:上限公式:上限公式:40 50 60 70 80 90 10050 40 30 20 10A G FBCED频数频数x y(L)(U)Mo=L+x=U-yO(二)中位数(二)中位数(Median)中位数是将数据由小到大排列后位置居中的数值。中位数是将数据由小到大排列后位置居中的数值。标记值小于或等于中位数的单位占一半;标记值小于或等于中位数的单位占一半;标记值大于或等于中位数的单位也占一半。标记值大于或等于中位数的单位也
24、占一半。用中位数代表总体标记值的一般水平,可以避开极用中位数代表总体标记值的一般水平,可以避开极端值影响,有时更具代表性。端值影响,有时更具代表性。MMe e50%50%n未分组数据计算中位数未分组数据计算中位数若数据项数是若数据项数是奇数奇数,则位于,则位于中间的数值中间的数值为中为中位数;如位数;如5人收入为人收入为:1200,1450,1500,1600,2000元,则其收入中位元,则其收入中位数数 Me=1500。若数据项数是若数据项数是偶数偶数,则取,则取居中两个数值的平居中两个数值的平均数均数为中位数。如为中位数。如6人收入为人收入为:1200,1450,1500,1600,180
25、0,2000元,则收入元,则收入中位数中位数 Me=1550。n分组数据推算中位数分组数据推算中位数n先确定中位数组,即中间位置(先确定中位数组,即中间位置(f/2)所在的组。所在的组。n对单项式分组,可干脆得到中位数。对单项式分组,可干脆得到中位数。n对组距式分组,假定中位数组内次数匀对组距式分组,假定中位数组内次数匀整分布,近似推算中位数。整分布,近似推算中位数。n计算公式有计算公式有2,结果完全一样:,结果完全一样:n下限公式下限公式n上限公式上限公式n分组数据推算中位数分组数据推算中位数n先确定中位数组,即中间位置(先确定中位数组,即中间位置(f/2)所在的组。)所在的组。n对单项式分
26、组,可干脆得到中位数。对单项式分组,可干脆得到中位数。n对组距式分组,假定中位数组内次数匀整分布,近似对组距式分组,假定中位数组内次数匀整分布,近似推算中位数。计算公式有推算中位数。计算公式有2,结果完全一样。见下例:,结果完全一样。见下例:下限公式:下限公式:上限公式:上限公式:可由累计分布数列或累计分布图确定中位数。可由累计分布数列或累计分布图确定中位数。以累计频率分布曲线图为例以累计频率分布曲线图为例(该例与前面直方图数据一样该例与前面直方图数据一样)此例中,与累计频率此例中,与累计频率50%相对应的成果相对应的成果76分,即为中位数。分,即为中位数。向上累计图:向上累计图:60分以下有
27、分以下有16.7%向下累计图:向下累计图:80分以上有分以上有38.9%n中位数与分位数中位数与分位数n四分位数、特别位数、百分位数分别是将数据由小到四分位数、特别位数、百分位数分别是将数据由小到大排序后,位于全部数据大排序后,位于全部数据1/4、1/10、1/100位置上的位置上的数值。数值。n中位数事实上是第中位数事实上是第2个四分位数、第个四分位数、第5个特别位数、第个特别位数、第50个百分位数。个百分位数。n分位数与其它指标结合,可以更具体地反映数据分布分位数与其它指标结合,可以更具体地反映数据分布特征。特征。n中位数运用场合与作用中位数运用场合与作用n在较明显的偏斜分布情形下,用中位
28、数来说明次数分在较明显的偏斜分布情形下,用中位数来说明次数分布位置特征较为适中。因为众数忽视了偏斜一侧的大布位置特征较为适中。因为众数忽视了偏斜一侧的大量数值,而算术平均数又过分强调了这些数值。量数值,而算术平均数又过分强调了这些数值。n算术平均数对特异值的反应特别灵敏,而中位数对特算术平均数对特异值的反应特别灵敏,而中位数对特异值反应不灵敏。常常把中位数(与算术平均数的差异值反应不灵敏。常常把中位数(与算术平均数的差异大小)作为探究发觉特异值的标准。异大小)作为探究发觉特异值的标准。n箱线图(箱线图(box plot)n箱线图由一组数据的最小值(箱线图由一组数据的最小值(xmin)、第一四分
29、位)、第一四分位数(数(Q1)、中位数()、中位数(Me)、第三四分位数()、第三四分位数(Q3)、)、最大值(最大值(xmax)等五个数值来绘成。)等五个数值来绘成。n利用箱线图可以视察数据分布的范围、中心位置和对利用箱线图可以视察数据分布的范围、中心位置和对称性等特征,还可进行多组数据分布的比较。称性等特征,还可进行多组数据分布的比较。xmin Q1 Me Q3 xmax(三)众数、中位数和算术平均数比较(三)众数、中位数和算术平均数比较 0.三者均测度数据的集中趋势和一般水平。三者均测度数据的集中趋势和一般水平。1.算术平均数属于算术平均数属于数值平均数数值平均数,其综合利用全部数据信,
30、其综合利用全部数据信息;息;众数和中位数则由数据分布的特定众数和中位数则由数据分布的特定位置位置确定。确定。2.算术平均数和中位数在任何一组数据中都算术平均数和中位数在任何一组数据中都存在存在,且具,且具有有惟一性惟一性;众数则不然,其计算和应用有两个前提条件:数据项众数则不然,其计算和应用有两个前提条件:数据项数众多,数众多,且具有明显的集中趋势。且具有明显的集中趋势。3.算术平均数只能用于定量(数值型)数据;算术平均数只能用于定量(数值型)数据;中位数适用于定序数据和定量数据;中位数适用于定序数据和定量数据;众数适用于全部形式(各种类型及计量层次)的数据。众数适用于全部形式(各种类型及计量
31、层次)的数据。4.算术平均数受数据极端值影响,而众数和中位数都不算术平均数受数据极端值影响,而众数和中位数都不受极端值的影响。受极端值的影响。为解除极端值干扰,可计算切尾均值,即去掉数据中最为解除极端值干扰,可计算切尾均值,即去掉数据中最大和最小的若干数值后计算的均值。大和最小的若干数值后计算的均值。该思路常用于某些竞赛计分规则中,如体操、跳水等。该思路常用于某些竞赛计分规则中,如体操、跳水等。切尾均值是将算术平均数与中位数相互结合的结果。切尾均值是将算术平均数与中位数相互结合的结果。5.算术平均数可用于推算总体的有关总量指标,而中算术平均数可用于推算总体的有关总量指标,而中位数和众数则不宜用
32、作此类推算。位数和众数则不宜用作此类推算。6.算术平均数和众数、中位数的算术平均数和众数、中位数的数量关系数量关系,取决于数,取决于数据分布的据分布的偏斜程度偏斜程度。对单峰钟形分布而言,三者数量。对单峰钟形分布而言,三者数量大小有如下关系:大小有如下关系:据例据例3-2,3-7,3-8结果,表结果,表3-3的灯泡寿命数据的灯泡寿命数据听从右偏分布。听从右偏分布。皮尔逊(皮尔逊(K.Pearson)经验公式:)经验公式:在轻微偏态时,三者的近似关系为在轻微偏态时,三者的近似关系为对称分布对称分布右偏分布右偏分布上上偏偏分布分布正偏分布正偏分布左偏分布左偏分布下偏分布下偏分布负偏分布负偏分布其次
33、节其次节 统计变量离散程度测定统计变量离散程度测定n一、离散程度指标及其作用一、离散程度指标及其作用n二、极差、四分位差和平均差二、极差、四分位差和平均差n三、方差和标准差三、方差和标准差n四、离散系数四、离散系数n五、异众比率五、异众比率一、离散程度指标及作用一、离散程度指标及作用n测度离散程度的指标,称为变异指标,分为两类:测度离散程度的指标,称为变异指标,分为两类:n确定数:极差、四分位差、平均差、方差和标准差。确定数:极差、四分位差、平均差、方差和标准差。n相对数:离散系数、异众比率。相对数:离散系数、异众比率。n离散程度指标作用:离散程度指标作用:n 1.说明数据分散程度,反映变量的
34、稳定性、均衡性。说明数据分散程度,反映变量的稳定性、均衡性。n数据之间差异越大,变量的稳定性或均衡性越差。数据之间差异越大,变量的稳定性或均衡性越差。n 2.衡量平均数的代表性。衡量平均数的代表性。n离散程度越大,平均数的代表性就越小。离散程度越大,平均数的代表性就越小。n 3.统计推断的重要依据统计推断的重要依据n判别统计推断前提条件是否成立;判别统计推断前提条件是否成立;n衡量推断效果好坏的重要尺度。衡量推断效果好坏的重要尺度。二、极差、四分位差和平均差二、极差、四分位差和平均差(一)极差(一)极差(Range)极差极差(极值之差极值之差)是一组数据的最大值与最小值之差,常是一组数据的最大
35、值与最小值之差,常用用 R 表示。表示。对总体数据而言,极差能界定变量变更范围与幅度大小对总体数据而言,极差能界定变量变更范围与幅度大小,也称全距。,也称全距。组距数列中,极差组距数列中,极差最高组上限最高组上限-最低组下限。最低组下限。优缺点:优缺点:优点:计算简便、含义直观、简洁理解。优点:计算简便、含义直观、简洁理解。缺点:代表性差、稳健性差(仅利用尾端信息,未考虑缺点:代表性差、稳健性差(仅利用尾端信息,未考虑数据中间分布状况,不能充分说明全部数据的差异程数据中间分布状况,不能充分说明全部数据的差异程度)。度)。(二)四分位差(二)四分位差第第3四分位数(四分位数(Q3)与第)与第1四
36、分位数(四分位数(Q1)之差,常用)之差,常用Qd表示。计算公式为:表示。计算公式为:实质是两端各去掉实质是两端各去掉1/4数据以后的极差,表示占全部数数据以后的极差,表示占全部数据一半的中间数据的离散程度。四分位差越大,表示据一半的中间数据的离散程度。四分位差越大,表示数据离散程度越大。数据离散程度越大。在确定程度上改进极差,避开了极端值干扰。但对数据在确定程度上改进极差,避开了极端值干扰。但对数据差异的反映,仍旧不充分。差异的反映,仍旧不充分。运用场合:当用中位数测度数据集中趋势时,运用四分运用场合:当用中位数测度数据集中趋势时,运用四分位差反映离散程度效果最好(匹配性)位差反映离散程度效
37、果最好(匹配性)。(三)平均差(三)平均差(Average Deviation)定义:定义:平均差是各数据与其均值(算术平均数)的离差确定平均差是各数据与其均值(算术平均数)的离差确定值的算术平均数。值的算术平均数。反映全部数据与其均值的平均差距,以反映全部数据与其均值的平均差距,以A.D表示。表示。计算公式:计算公式:优缺点:优缺点:含义清晰,能全面反映数据离散程度。含义清晰,能全面反映数据离散程度。取离差确定值进行平均,数学处理不便利,数学性质取离差确定值进行平均,数学处理不便利,数学性质也非最优。也非最优。分组数据分组数据:xi为各组组中值为各组组中值未分组数据未分组数据:xi为原始数据
38、为原始数据三、方差和标准差三、方差和标准差(一)(一)方差(方差(Variance)概念和计算)概念和计算n方差是全部数据与其方差是全部数据与其均值均值的的离差平方离差平方的的算术平均数算术平均数.n总体方差(总体方差(2)计算公式:)计算公式:n样本方差(常用样本方差(常用 S2 表示)分母应改为(表示)分母应改为(n-1)。只有)。只有如此,如此,才能保证才能保证s2是是2的的无偏估计量无偏估计量。分组数据:分组数据:未分组数据:未分组数据:n标准差(标准差(standard Deviation):方差的算术平方根。):方差的算术平方根。n总体标准差一般用总体标准差一般用表示。计算公式为:
39、表示。计算公式为:n未分组数据:未分组数据:n样本标准差(样本标准差(S),分母应为(),分母应为(n-1)。)。n特点:特点:n方差和标准差均利用全部数据计算,能全面反映数方差和标准差均利用全部数据计算,能全面反映数据离散程度;且其灵敏性通常高于平均差。据离散程度;且其灵敏性通常高于平均差。n标准差比方差更简洁理解(计量单位与均值一样)。标准差比方差更简洁理解(计量单位与均值一样)。在社会经济现象的统计分析中,标准差比方差应用在社会经济现象的统计分析中,标准差比方差应用普遍,常常被用作测度数据与均值差距的标准尺度。普遍,常常被用作测度数据与均值差距的标准尺度。分组数据:分组数据:例例3-9n
40、计算平均差、方差、标准差计算平均差、方差、标准差n由例由例3-2,已知该组数据算术平均数为,已知该组数据算术平均数为1542。(二)方差主要数学性质(二)方差主要数学性质常数方差等于零。如常数方差等于零。如a为常数,则为常数,则 变量线性函数的方差,等于变量系数的平方乘以变量的方变量线性函数的方差,等于变量系数的平方乘以变量的方差。设差。设a,b为常数,为常数,y=a+bx,则有:,则有:分组条件下,总体方差可以分解为组间方差与各组方差平分组条件下,总体方差可以分解为组间方差与各组方差平均数之和。(该结论可用于第六章均数之和。(该结论可用于第六章方差分析方差分析)u组间方差组间方差u各组方差平
41、均数各组方差平均数(三)标准化值(三)标准化值(Z-score)对于两组数据,假如其均值和标准差均有明显差异,则对于两组数据,假如其均值和标准差均有明显差异,则往往不能干脆对比。须要首先将其转化为可比的数据。往往不能干脆对比。须要首先将其转化为可比的数据。通常可以对其进行无量纲化处理,得到标准化值,也称通常可以对其进行无量纲化处理,得到标准化值,也称为为Z值。值。标准化值,实际是将不同均值和标准差的总体转换为均标准化值,实际是将不同均值和标准差的总体转换为均值为值为0、标准差为、标准差为1的总体,将原始数据转换为其在总的总体,将原始数据转换为其在总体中的相对位置。体中的相对位置。标准化值比较具
42、有相对意义,没有确定意义。标准化值比较具有相对意义,没有确定意义。例例3-10n假定某班学生先后两次进行难度不同的综合考试。假定某班学生先后两次进行难度不同的综合考试。第一次考试成果的均值和标准差分别为第一次考试成果的均值和标准差分别为80分和分和10分,分,其次次考试成果的均值和标准差分别为其次次考试成果的均值和标准差分别为70分和分和7分。分。某同学第一、二次考试的成果分别为某同学第一、二次考试的成果分别为92分和分和80分,分,那么全班相比较而言,他哪一次考试的成果更好呢那么全班相比较而言,他哪一次考试的成果更好呢?n解:由于两次考试成果的均值和标准差不同,该学解:由于两次考试成果的均值
43、和标准差不同,该学生两次考试的成果不宜干脆比较。生两次考试的成果不宜干脆比较。n干脆比较,第一次成果更好;干脆比较,第一次成果更好;n利用标准化值比较,表明其次次考试成果更好一些。利用标准化值比较,表明其次次考试成果更好一些。(四)(四)对称钟形分布的对称钟形分布的3 法则法则3 法则法则关于对称钟形分布的近似阅历法则:关于对称钟形分布的近似阅历法则:变量值落在变量值落在-3 ,+3 范围以外的状况极为少见。范围以外的状况极为少见。通常将落在区间通常将落在区间-3 ,+3 之外的数据,称为异样数据之外的数据,称为异样数据或离群点。或离群点。x99.73%68.27%95.45%正态分布正态分布
44、四、离散系数四、离散系数n确定值变异指标有计量单位。其数值大小不仅取决于确定值变异指标有计量单位。其数值大小不仅取决于数据离散程度,还受数据本身水平凹凸和计量单位的数据离散程度,还受数据本身水平凹凸和计量单位的影响。影响。n对不同变量(或不同数据组)的离散程度进行比较时,对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的平均水平和计量单位都相同时,才能利只有当它们的平均水平和计量单位都相同时,才能利用确定值变异指标分析;否则,须利用离散系数比较用确定值变异指标分析;否则,须利用离散系数比较其离散程度。其离散程度。n例如,哪个变量差异较大:体重,还是身高?例如,哪个变量差异较大:体重,
45、还是身高?n例如,那组人群体重差异较大:成人,还是婴儿?例如,那组人群体重差异较大:成人,还是婴儿?n 成人:平均体重成人:平均体重=70 kg,标准差,标准差=5 kgn 婴儿:婴儿:5 kg,1 kg例:视察例:视察7个人的体重和身高如下:个人的体重和身高如下:n体重(公斤)体重(公斤)xi:n62,67,65,69,70,73,74n身高(厘米)身高(厘米)yi:n165,166,168,170,174,178,180n推断体重与身高哪个离散较为严峻。推断体重与身高哪个离散较为严峻。n注:注:n 两组计量单位不同,不能用极差、平均差、标两组计量单位不同,不能用极差、平均差、标准差等确定离
46、散特征数干脆进行比较。适合接受离散准差等确定离散特征数干脆进行比较。适合接受离散系数比较。系数比较。n离散系数是极差、四分位差、平均差或标准差等变异离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数形式表示变异程指标与算术平均数的比率,以相对数形式表示变异程度。度。将极差与算术平均数对比得到极差系数,将极差与算术平均数对比得到极差系数,将平均差与算术平均数对比得到平均差系数。将平均差与算术平均数对比得到平均差系数。最常用的离散系数是以标准差计算的,称为标准差系数:最常用的离散系数是以标准差计算的,称为标准差系数:n离散系数大,说明数据的离散程度大,其平均数的代离散系
47、数大,说明数据的离散程度大,其平均数的代表性就差;反之亦反。表性就差;反之亦反。五、异众比率五、异众比率 n异众比率是指非众数值的次数之和在总次数中所占比异众比率是指非众数值的次数之和在总次数中所占比重,其公式为:重,其公式为:n主要用于衡量一组数据以众数为分布中心的集中程度,主要用于衡量一组数据以众数为分布中心的集中程度,即即衡量衡量众数众数对一组数据对一组数据一般水平一般水平的的代表性代表性。其值越小,数据集中程度越高,众数代表性越大;反之,其值越小,数据集中程度越高,众数代表性越大;反之,亦反。亦反。其既可用于其既可用于定量变量定量变量,也,也可用于可用于定性变量定性变量。第三节第三节
48、变量分布的偏度与峰度变量分布的偏度与峰度n一、矩(动差)一、矩(动差)n二、偏度二、偏度n三、峰度三、峰度 要全面了解数据的分布特点,还要知道数要全面了解数据的分布特点,还要知道数据偏斜状况以及尖峭程度,分别由偏度和峰度据偏斜状况以及尖峭程度,分别由偏度和峰度来反映。来反映。与均值和方差一样,均为矩的特例。与均值和方差一样,均为矩的特例。一、矩(动差一、矩(动差)n矩(动差矩(动差)一系列刻画数据分布特征的指标的一系列刻画数据分布特征的指标的统称(该概念引自物理学)。统称(该概念引自物理学)。n变量值与数值变量值与数值 a 之离差的之离差的 k 次方的平均数,称为变量次方的平均数,称为变量 x
49、 关于关于 a 的的 k 阶矩,即:阶矩,即:nK 阶原点矩阶原点矩(当(当a=0 时)时)是数据的是数据的k次方的平均数次方的平均数一阶原点矩即一阶原点矩即算术平均数算术平均数;二阶原点矩即平方平均数。二阶原点矩即平方平均数。nK 阶中心矩矩阶中心矩矩(当(当a=均值时)均值时)是以均值为中心计算是以均值为中心计算的离差的离差 k 次方的平均数次方的平均数k=1时,称为一阶中心矩,它恒等于时,称为一阶中心矩,它恒等于0,即,即 m1=0;k=2时,称为二阶中心矩,也就是时,称为二阶中心矩,也就是方差方差,即,即m2=2。二、偏度(二、偏度(Skewness)n偏度偏度指数据分布的不对称程度或
50、偏斜程度。指数据分布的不对称程度或偏斜程度。以以 对称分布对称分布 为标准来区分为标准来区分偏态分布又分左偏(负偏)和右偏(正偏)偏态分布又分左偏(负偏)和右偏(正偏).左偏分布左偏分布(负偏)(负偏)右偏分布右偏分布(正偏)(正偏)n偏态的测度方法偏态的测度方法(一)由均值与众数之间的关系求偏态系数(一)由均值与众数之间的关系求偏态系数一般有:一般有:-3 0 +3 极左偏态极左偏态 对称分布对称分布 极右偏态极右偏态(二)由三个四分位数之间的关系求偏态系数(二)由三个四分位数之间的关系求偏态系数值域:值域:-1 Sk 1 -1 0 +1 极左偏态极左偏态 对称分布对称分布 极右偏态极右偏态