《统计学第4章数据的概括性度量详解优秀PPT.ppt》由会员分享,可在线阅读,更多相关《统计学第4章数据的概括性度量详解优秀PPT.ppt(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Nankai University1第四章第四章 数据的概括性度量数据的概括性度量Contents数据集中趋势的度量数据集中趋势的度量1数据离散程度的度量数据离散程度的度量2数据偏态与峰态的度量数据偏态与峰态的度量3Nankai University21.1.数据集中趋势的度量数据集中趋势的度量Nankai University3v集中趋势集中趋势(central tendency)是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。v众数众数v中位数中位数v四分位数四分位数v平均数平均数Nankai University4众数众数v众数(众数(mode)是一组数据中出现次数
2、最多的变量值,用)是一组数据中出现次数最多的变量值,用M0表示。表示。v众数主要用于测度分类数据的集中趋势,当然也适用于作众数主要用于测度分类数据的集中趋势,当然也适用于作为依次数据以及数值型数据集中趋势的测度值。为依次数据以及数值型数据集中趋势的测度值。v一般状况下,只有在数据量较大的状况下,众数才有意义一般状况下,只有在数据量较大的状况下,众数才有意义v众数是一个位置代表值,它不受数据中极端值的影响。从众数是一个位置代表值,它不受数据中极端值的影响。从分布的角度看,众数是具有明显集中趋势点的数值,一组分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。
3、数据分布的最高峰点所对应的数值即为众数。v众数可能不存在,也可能有多个。众数可能不存在,也可能有多个。Nankai University5中位数中位数v中位数(中位数(median)是一组数据排序后处于中间位置上的)是一组数据排序后处于中间位置上的变量值,用变量值,用Me表示。表示。v中位数主要用于测度依次数据的集中趋势,当然也适用于中位数主要用于测度依次数据的集中趋势,当然也适用于测度数值型数据的集中趋势,但不适用于分类数据。测度数值型数据的集中趋势,但不适用于分类数据。v中位数是一个位置代表值,其特点是不受极端值的影响。中位数是一个位置代表值,其特点是不受极端值的影响。Nankai Uni
4、versity6v计算中位数时,要先对n个数据进行排序,然后确定中位数的位置,最终确定中位数的具体数值。v中位数位置的确定公式为:v 设一组数据按从小到大的依次排序x1,x2,xn,则中位数为:Nankai University7四分位数四分位数v四分位数(四分位数(quartile)也称四分位点,它是一组数据排)也称四分位点,它是一组数据排序后处于序后处于25%和和75%位置上的值,分别称为下四分位位置上的值,分别称为下四分位数和上四分位数。数和上四分位数。v计算四分位数时,首先对数据进行排序,然后确定四分位计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四
5、分位数。数所在的位置,该位置上的数值就是四分位数。v四分位数位置的确定方法有几种四分位数位置的确定方法有几种*,每种方法得到的结果,每种方法得到的结果会有确定差异,但差异不会很大。设下四分位数为会有确定差异,但差异不会很大。设下四分位数为QL,上四分位数为上四分位数为QU,依据四分位数定义有,依据四分位数定义有v *一种较为精确的算法是依据下列公式确定位置:一种较为精确的算法是依据下列公式确定位置:,Nankai University8v假如位置是整数,四分位数就是该位置对应的值;假如是在0.5的位置上,则取该位置两侧值的平均数;假如是在0.25或0.75的位置上,则四分位数等于该位置的下侧值
6、加上按比例分摊位置两侧数值的差值。v Q1=第1四分位数,即第25百分位数v Q2=第2四分位数,即第50百分位数v Q3=第3四分位数,即第75百分位数Nankai University9平均数平均数v平均数(平均数(mean)也称为均值,它是一组数据相加后除以数据)也称为均值,它是一组数据相加后除以数据的个数得到的结果。的个数得到的结果。v平均数是集中趋势的最主要测度值,它主要适用于数值型数据,平均数是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和依次数据。而不适用于分类数据和依次数据。v依据未经分组数据计算的平均数称为简洁平均数。依据未经分组数据计算的平均数称为简洁
7、平均数。Nankai University10(总体)(样本)v依据分组数据计算的平均数称为加权平均数,设共分成k组,各组组中值分别用M1,M2,Mk表示,f1,f2,fk表示各组频数,式中n为样本量 。v计算加权平均数时,用各组的组中值代表各组的实际数据,运用这一代表值时是假定各组数据在组内是匀整分布的,假照实际数据与这一假定相吻合,计算的结果还是比较精确的,否则误差会很大。Nankai University11v几何平均数(几何平均数(geometric mean)是)是n个变量值乘积的个变量值乘积的n次方根,用次方根,用G表示。表示。v计算公式为计算公式为v几何平均数是适用于特殊数据的一
8、种平均数,它主要用于几何平均数是适用于特殊数据的一种平均数,它主要用于计算平均比率。当变量值本身是比率的形式时,接受几何计算平均比率。当变量值本身是比率的形式时,接受几何平均值计算平均比率更为合理。在实际应用中,几何平均平均值计算平均比率更为合理。在实际应用中,几何平均数主要用于计算现象的平均增长率。数主要用于计算现象的平均增长率。v当所平均的各比率数值相差不大时,算术平均和几何平均当所平均的各比率数值相差不大时,算术平均和几何平均的结果相差不大,否则二者的差别就很明显。的结果相差不大,否则二者的差别就很明显。Nankai University12v例例1:调查:调查300个人的政党背景,形成
9、如下数据分布结果,个人的政党背景,形成如下数据分布结果,请问众数是什么?请问众数是什么?v例例2:随机抽取:随机抽取9个学生,调查得到的每位学生的人均月个学生,调查得到的每位学生的人均月花销数据如下,请计算众数、中位数、均值。花销数据如下,请计算众数、中位数、均值。750 600 820 430 750 1000 550 680 480Nankai University13v例例3:下面是随机抽取的:下面是随机抽取的5个家庭的收入:个家庭的收入:135,456 25,500 32,456 54,365 37,668 请问中位数和平均值哪个可以更好的作为这组数据集中请问中位数和平均值哪个可以更好
10、的作为这组数据集中趋势的代表值?趋势的代表值?Nankai University14优点优点众数不受极端值影响众数不受极端值影响可应用于定性数据可应用于定性数据15缺点缺点一组数据可能不存在众数有时一组数据可能会有一个以上的众数众数的优缺点只有在数据量较大的状况下,众数才有意义,当数据量较少时,不宜运用众数。众数主要适合作为分类数据的集中趋势测度值。优点优点中位数不受极端值的中位数不受极端值的影响影响16缺点缺点须要对数据排序,对须要对数据排序,对大样本将特别繁琐大样本将特别繁琐中位数的优缺点当一组数据的分布偏斜程度较大时,考虑运用中位数。中位数主要适合作为依次数据的集中趋势测度值。优点优点利
11、用了全部数据信息利用了全部数据信息一组数据只有一个平均数并一组数据只有一个平均数并且组中每个数据的变更都且组中每个数据的变更都会影响平均数会影响平均数17缺点缺点平均数受极端值的影响平均数的优缺点对于偏态分布的数据,平均数的代表性较差,当一组数据的分布偏斜程度较大时,考虑运用中位数或众数。平均数主要适合作为数值型数据的集中趋势测度值。2.2.数据离散程度的度量数据离散程度的度量Nankai University18v数据的离散程度离散程度是数据分布的另一个重要特征,反映的是各变量值远离其中心值的程度。v数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。
12、v异众比率异众比率v四分位间距四分位间距v极差极差v平均差平均差v方差、标准差方差、标准差v变异系数变异系数Nankai University19异众比率异众比率v异众比率(异众比率(variation ratio)是指非众数组的频数占总)是指非众数组的频数占总频数的比例,用频数的比例,用Vr表示。表示。v异众比率主要适合测度分类数据的离散程度,当然,对于异众比率主要适合测度分类数据的离散程度,当然,对于依次数据以及数值型数据也可以计算异众比率。依次数据以及数值型数据也可以计算异众比率。v异众比率主要用于衡量众数对一组数据的代表程度。异众异众比率主要用于衡量众数对一组数据的代表程度。异众比率越
13、大,说明非众数组的频数占总频数的比重越大,众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。总频数的比重越小,众数的代表性越好。Nankai University20四分位间距四分位间距v四分位间距(四分位间距(Interquartile Range,IQR)是上四)是上四分位数与下四分位数之差。分位数与下四分位数之差。v四分位间距主要用于测度依次数据的离散程度,对于数值四分位间距主要用于测度依次数据的离散程度,对于数值型数据也可以计算四分位间距,但并不适合
14、分类数据。型数据也可以计算四分位间距,但并不适合分类数据。v四分位间距反映了中间四分位间距反映了中间50%数据的离散程度,其数值越数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。据越分散。v四分位间距不受极值的影响。四分位间距不受极值的影响。Nankai University21极差极差v测度数值型数据离散程度的方法主要有极差、平均差、方测度数值型数据离散程度的方法主要有极差、平均差、方差和标准差。差和标准差。v一组数据的最大值与最小值之差称为极差(一组数据的最大值与最小值之差称为极差(range),也),也
15、称全距,通常用称全距,通常用R表示。表示。v极差是描述数据离散程度的最简洁测度值,计算简洁,易极差是描述数据离散程度的最简洁测度值,计算简洁,易于理解,但它简洁受极端值的影响。于理解,但它简洁受极端值的影响。v由于极差只利用了一组数据两端的信息,不能反映出中间由于极差只利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能精确描述出数据的分散程度。数据的分散状况,因而不能精确描述出数据的分散程度。Nankai University22平均差平均差v平均差(平均差(mean deviation)也称平均确定离差)也称平均确定离差(mean absolute deviation),它是各
16、变量值与其),它是各变量值与其平均数离差的确定值的平均数,用平均数离差的确定值的平均数,用Md表示。表示。v 依据未分组数据计算平均差:依据未分组数据计算平均差:v 依据分组数据计算平均差:依据分组数据计算平均差:v平均差以平均数为中心,反映了每个数据与平均数的平均平均差以平均数为中心,反映了每个数据与平均数的平均差异程度。平均差越大,说明数据的离散程度越大;反之差异程度。平均差越大,说明数据的离散程度越大;反之则说明数据的离散程度越小。则说明数据的离散程度越小。v为了避开离差之和等于零而无法计算平均差这一问题,平为了避开离差之和等于零而无法计算平均差这一问题,平均差以离差的确定值来表示总离差
17、,这就给计算带来了不均差以离差的确定值来表示总离差,这就给计算带来了不便,因而在实际中应用较少。便,因而在实际中应用较少。Nankai University23方差、标准差方差、标准差v方差(方差(variance)是各变量值与其平均数离差)是各变量值与其平均数离差平方的平均数。平方的平均数。v 依据未分组数据计算方差:依据未分组数据计算方差:v 依据分组数据计算方差:依据分组数据计算方差:Nankai University24样本方差总体方差样本方差总体方差v标准差(标准差(standard deviation)为方差的平方根。)为方差的平方根。v 依据未分组数据计算标准差:依据未分组数据计
18、算标准差:v 依据分组数据计算标准差:依据分组数据计算标准差:v方差和标准差能较好的反映出数据的离散程度,是实际中方差和标准差能较好的反映出数据的离散程度,是实际中应用最广的离散程度测度值。应用最广的离散程度测度值。Nankai University25样本标准差总体标准差样本标准差总体标准差v方差、标准差都是变异性、离散度的量度。v方差、标准差越大,数值分布越广,则数值之间的相互差异越大。v方差、标准差对极值很敏感。v标准差以最初的计算单位存在,方差以平方单位存在。Nankai University26变异系数变异系数v变异系数(变异系数(coefficient of variation)也
19、称为离散系)也称为离散系数,是一组数据的标准差与其相应的平均数之比。数,是一组数据的标准差与其相应的平均数之比。v变异系数是测度数据离散程度的相对统计量,它是一个无变异系数是测度数据离散程度的相对统计量,它是一个无量纲的量,主要是用于比较不同样本数据的离散程度。量纲的量,主要是用于比较不同样本数据的离散程度。v变异系数大,说明数据的离散程度也大;变异系数小,说变异系数大,说明数据的离散程度也大;变异系数小,说明数据的离散程度也小。明数据的离散程度也小。*v *留意:当平均数接近零时,离散系数的值趋于增大,留意:当平均数接近零时,离散系数的值趋于增大,此时必需慎重说明。此时必需慎重说明。Nankai University273.3.数据偏态与峰态的度量数据偏态与峰态的度量Nankai University28v偏态偏态v峰态峰态偏态偏态v偏态偏态(skewness)是对数据分布对称性的测度。v测度偏态的统计量是偏态系数偏态系数(coefficient of skewness,SK),是对统计数据分布偏斜程度的度量,是描述分布非对称程度的数字特征。v偏度越大,表示偏斜的程度越大。Nankai University290,右偏=0,对称0,尖峰分布;比正态分布更陡,数据集中=0,正态分布;0,平峰分布;比正态分布更平,数据分散