《第三章平均数标准差和变异系数课件.ppt》由会员分享,可在线阅读,更多相关《第三章平均数标准差和变异系数课件.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 在数理统计中,平均数是用来反映一组变数在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度的集中趋势,即变数分布的中心位置。常用的度量指标有:量指标有:1.1.算术平均数算术平均数 2.2.中位数(中位数(M)4.4.几何平均数(几何平均数(Mg)3.3.众数(众数(Mo)5.5.调和平均数(调和平均数(H)3.1 平均数:平均数:第三章第三章 平均数、标准差平均数、标准差与变异系数与变异系数 作为一个资料的代表,指资料中各变数集中作为一个资料的代表,指资料中各变数集中较多的中心位置,用来与另一资料相比较。较多的中心位置,用来与另一资料相比较。不同的平均数适合于不
2、同的数据资料。不同的平均数适合于不同的数据资料。例如:例如:不同国家、地区、种族之间身高、体重等不同国家、地区、种族之间身高、体重等 的比较;不同品种的家畜、家禽之间生产的比较;不同品种的家畜、家禽之间生产 性能的比较性能的比较集中趋势的度量集中趋势的度量平均数的意义平均数的意义3.1.1 3.1.1 算术平均数算术平均数一、定义一、定义 一组资料中,所有观测值的总和除以其个数所一组资料中,所有观测值的总和除以其个数所得到的商,称为算术平均数,简称平均数或均数。得到的商,称为算术平均数,简称平均数或均数。是最常用的一种集中趋势度量指标。是最常用的一种集中趋势度量指标。样本的平均数记为样本的平均
3、数记为 总体平均数记为总体平均数记为 集中趋势的度量集中趋势的度量 :第:第i i个个观察值或变数观察值或变数 n n:观察值或变数的个数观察值或变数的个数 :求和符号(:求和符号(sigma)计算公式:计算公式:集中趋势的度量集中趋势的度量3.5.1 3.5.1 算术平均数算术平均数的性质 例例2.12.1:5 5头猪的体重分别为头猪的体重分别为7070、7272、8080、8383、88kg88kg,问问 5 5头猪的算术平均数是多少?头猪的算术平均数是多少?从计算结果看从计算结果看5 5头猪都距头猪都距78.678.6(kgkg)不远,不远,所以平均数是数量资料的代表值。所以平均数是数量
4、资料的代表值。上述计算方法称为直接法,适用于样本小,上述计算方法称为直接法,适用于样本小,即资料内包含变数个数不多,一般在即资料内包含变数个数不多,一般在3030个变数以个变数以下未经分组的资料。下未经分组的资料。集中趋势的度量集中趋势的度量一、直接法一、直接法 1.1.分类资料:每个类别在某个指标上取相同的值。分类资料:每个类别在某个指标上取相同的值。2.2.计数资料和连续性资料:频率分布表计数资料和连续性资料:频率分布表 加权法,即计算时先将各个变数乘上它加权法,即计算时先将各个变数乘上它的权数,再经过总和,然后除以权数的总合,的权数,再经过总和,然后除以权数的总合,称为加权平均数。称为加
5、权平均数。集中趋势的度量集中趋势的度量二、加权法二、加权法 xi=变数值变数值 fi =变数值变数值x xi i出现的频数出现的频数计算公式:计算公式:集中趋势的度量集中趋势的度量二、加权法二、加权法 例:例:一个有一个有10001000个个体的群体,等位基因个个体的群体,等位基因 A A 的的 频率为频率为0.60.6,另一个,另一个400400个个体的群体,个个体的群体,等位基因等位基因 A A 的频率为的频率为0.30.3,这两个群体的混,这两个群体的混 合在一起,整个混合群体的等位基因合在一起,整个混合群体的等位基因 A A 的的 频率为:频率为:集中趋势的度量集中趋势的度量二、加权法
6、二、加权法例:例:200200头大白猪的仔猪的一月窝重的资料头大白猪的仔猪的一月窝重的资料组别组别组中值组中值频数(频数(f f)fxfx8-8-16-16-24-24-32-32-40-40-48-48-56-56-64-64-72-72-80-80-88-88-96-96-104-104-112-112-121220202828363644445252606068687676848492921001001081081161164 46 69 9101013131717262635352828212116168 84 43 3484812012025225236036057257288488
7、41560156023802380212821281764176414721472800800432432348348总合总合2002001312013120集中趋势的度量集中趋势的度量二、加权法二、加权法x xi i=组组中值中值f fi i=组中值出现的频数组中值出现的频数集中趋势的度量集中趋势的度量二、加权法二、加权法(一)离均差之和为零:(一)离均差之和为零:一个样本观察值与平均数之差简称离均差。一个样本观察值与平均数之差简称离均差。(xi-)=(x1-)+(x2-)+(xn-)=x1+x2+xn+n=xi-n xi/n=0三、算术平均数的性质三、算术平均数的性质集中趋势的度量集中趋势
8、的度量(二)离均差平方和最小:(二)离均差平方和最小:一个样本的各个观察值与平均数之差的平方和一个样本的各个观察值与平均数之差的平方和比各个观察值与任意其他数之差的平方和小。比各个观察值与任意其他数之差的平方和小。所以:平均数是与各个观察值最接近的数值。所以:平均数是与各个观察值最接近的数值。所以:平均数代表这个样本的集中趋势。所以:平均数代表这个样本的集中趋势。集中趋势的度量集中趋势的度量三、算术平均数的性质三、算术平均数的性质定义:将定义:将n n个观察值从小到大依次排队,位于中间个观察值从小到大依次排队,位于中间的那个观察值称为中位数。的那个观察值称为中位数。3.1.2 3.1.2 中位
9、数(中位数(M Md d)集中趋势的度量集中趋势的度量例:例:2.5 2.5 现有一窝仔猪的出生重资料为:现有一窝仔猪的出生重资料为:1.41.4,1.01.0,1.31.3,1.21.2,1.6kg1.6kg,试求其中位数。试求其中位数。解:首先排序:解:首先排序:1.01.0,1.21.2,1.31.3,1.41.4,1.61.6;(n+1)/2=(5+1)/2=3(n+1)/2=(5+1)/2=3;M Md d=X=X3 3=1.3=1.3 如果增加一头仔猪,出生重为如果增加一头仔猪,出生重为1.8kg1.8kg,计算中位数:计算中位数:n/2=6/2=3 (n/2)+1=3+1=4n/
10、2=6/2=3 (n/2)+1=3+1=4;M Md d=(X=(X3 3+X+X4 4)/2=(1.3+1.4)/2=1.35)/2=(1.3+1.4)/2=1.35集中趋势的度量集中趋势的度量3.1.2 3.1.2 中位数(中位数(M Md d)对于频数分布的资料,公式如下:对于频数分布的资料,公式如下:Lmd:中位数所在组的组下限;中位数所在组的组下限;fm:中位数所在组的频数;中位数所在组的频数;C:从第一组到中位数所在组前一组的累计频数从第一组到中位数所在组前一组的累计频数 n:样本含量;样本含量;i:组距;组距;例:表例:表25集中趋势的度量集中趋势的度量3.1.2 3.1.2 中
11、位数(中位数(M Md d)集中趋势的度量集中趋势的度量3.1.2 3.1.2 中位数(中位数(M Md d)定义:定义:n n个非负数的乘积开个非负数的乘积开n n次方的根称为几何平均次方的根称为几何平均 数,用数,用 G G 表示。表示。3.1.3 3.1.3 几何平均数几何平均数集中趋势的度量集中趋势的度量 为了计算方便,各变数先取对数,再相加为了计算方便,各变数先取对数,再相加除以除以n n,即为即为logGlogG,再求其反对数,即为再求其反对数,即为G G值。值。集中趋势的度量集中趋势的度量3.1.3 3.1.3 几何平均数几何平均数 几何平均数用于以百分率、比例表示的数据资几何平
12、均数用于以百分率、比例表示的数据资料,如:增长率、利率、药物效价、抗体滴度等。料,如:增长率、利率、药物效价、抗体滴度等。能够消弱数据中个别过分偏大值的影响。能够消弱数据中个别过分偏大值的影响。例:某奶牛场在例:某奶牛场在19951995年有年有100100头奶牛,已知在头奶牛,已知在19961996、19971997、19981998年的奶牛头数分别为前一年的年的奶牛头数分别为前一年的2 2,3 3和和4.54.5倍,求其年平均增加率。倍,求其年平均增加率。19981998年的奶牛头数为:年的奶牛头数为:1001002 23 34.54.527002700头头 或者或者1001003 33
13、327002700头头集中趋势的度量集中趋势的度量3.1.3 3.1.3 几何平均数几何平均数定义:在资料中某一个变数出现次数最多,就称定义:在资料中某一个变数出现次数最多,就称 之为众数。之为众数。1.1.离散性资料:出现频数最多的数。离散性资料:出现频数最多的数。2.2.连续性资料:频数分布表中,频数出现最多的连续性资料:频数分布表中,频数出现最多的 一组的组中值。一组的组中值。!有的资料可出现多个众数,即多个数具有相同有的资料可出现多个众数,即多个数具有相同的最高频数;有的资料没有众数,即所有数出现的频的最高频数;有的资料没有众数,即所有数出现的频数都相同。数都相同。集中趋势的度量集中趋
14、势的度量3.1.4 3.1.4 众数众数定义:各观察值倒数的算术平均数的倒数定义:各观察值倒数的算术平均数的倒数3.1.5 3.1.5 调和平均数调和平均数简单调和平均数简单调和平均数集中趋势的度量集中趋势的度量适用于极端右偏态适用于极端右偏态3.1.5 3.1.5 调和平均数调和平均数集中趋势的度量集中趋势的度量例例:用用某某药药物物救救治治1212只只中中毒毒的的小小鼠鼠,它它们们的的存存活活天天数数记记录录如如下下:8 8、8 8、8 8、1010、1010、7 7、1313、1010、9 9、1414,另有两只一直未死亡,求平均存活天数。另有两只一直未死亡,求平均存活天数。由由于于数数
15、据据极极端端右右偏偏态态,用用调调和和平平均均数较为合理。数较为合理。复复 习习连续性资料分组方法连续性资料分组方法集中趋势(平均数)有哪几种表示集中趋势(平均数)有哪几种表示方式?方式?算术平均数的性质算术平均数的性质2.2.3 百分位数(百分位点)百分位数(百分位点)指将一组指将一组 n 个个数据由小到大排列,如果数据由小到大排列,如果小于小于 某数值的数据个数为全体数据个数的某数值的数据个数为全体数据个数的x%,则称该数为则称该数为第第 x 百分位数或百分位数或 x%分位数。分位数。25%分位数或下四分位数分位数或下四分位数:0.25n个数的后一个数。个数的后一个数。50%分位数或分位数
16、或中位数中位数:0.5n个数的后一个数。个数的后一个数。75%分位数或上四分位数分位数或上四分位数:0.75n个数的后一个数。个数的后一个数。251一、各个集中趋势度量指标之间的关系一、各个集中趋势度量指标之间的关系1.1.在完全对称分布情况下,算数平均数、中位数在完全对称分布情况下,算数平均数、中位数 和众数三者相等。和众数三者相等。集中趋势的度量集中趋势的度量 适用于正态分布资料。适用于正态分布资料。家畜的大多数数量性状都是正态分布,因此算家畜的大多数数量性状都是正态分布,因此算术平均数是最常用的,也是最重要的。术平均数是最常用的,也是最重要的。集中趋势的度量集中趋势的度量2 2、算术平均
17、数、算术平均数 但是当分布不对称时,呈偏态时,用算术平均但是当分布不对称时,呈偏态时,用算术平均数则难以表示资料的集中趋势。数则难以表示资料的集中趋势。适用于非参数检验,如卡方检验。适用于非参数检验,如卡方检验。4 4、几何平均数和调和平均数、几何平均数和调和平均数 适用于右偏态分布。适用于右偏态分布。偏态偏态:是指大部分数值落在平均数的哪一边,若:是指大部分数值落在平均数的哪一边,若分配较多的集中在低数值的方面视为正偏态,或分配较多的集中在低数值的方面视为正偏态,或称为右偏态称为右偏态集中趋势的度量集中趋势的度量3 3、中位数、中位数平均数的代表程度与样本的变异程度有关平均数的代表程度与样本
18、的变异程度有关 一个样本内有很多的变数,用平均数作为样本一个样本内有很多的变数,用平均数作为样本的代表,其代表程度决定于样本内各个变数的变异的代表,其代表程度决定于样本内各个变数的变异程度。程度。3.23.2标准差标准差离散趋势的度量离散趋势的度量 即使两个样本的平均数相同,但是样本内变即使两个样本的平均数相同,但是样本内变数的变异程度不一定相同。数的变异程度不一定相同。产仔数产仔数总和总和甲甲8 8,4 4,1616,1212,2222,1717,6 6,1414,6 6,5 51101101111乙乙1414,8 8,1111,9 9,1111,1212,1010,1414,1313,8
19、81101101111离散趋势的度量离散趋势的度量3.23.2标准差标准差甲的变异程度大于乙甲的变异程度大于乙甲的平均数的代表性小于乙的平均数甲的平均数的代表性小于乙的平均数 所以,应该测定其变异程度所以,应该测定其变异程度离散趋势的度量离散趋势的度量 甲、乙两品种的平均产仔数相同,都是甲、乙两品种的平均产仔数相同,都是1111头。头。从平均数来看,两个品种没有差异。从平均数来看,两个品种没有差异。从以上统计结果可知:从以上统计结果可知:进一步观察各个变数,二者变异程度并不相同。进一步观察各个变数,二者变异程度并不相同。甲:最小为甲:最小为4 4,最大为,最大为2222;乙:最小为;乙:最小为
20、8 8,最大为,最大为14141.1.如果各个变数相同或者变异程度比较小,则平如果各个变数相同或者变异程度比较小,则平 均数能够代表整个样本。均数能够代表整个样本。2.2.如果各个变数的变异程度比较大,则平均数的代如果各个变数的变异程度比较大,则平均数的代 表性就小。表性就小。离散趋势的度量离散趋势的度量 因此,单靠平均数不能全面、正确地了解样因此,单靠平均数不能全面、正确地了解样本。也不能了解平均数作为样本的变异程度。本。也不能了解平均数作为样本的变异程度。3.23.2标准差标准差 定义:全部变数的最大值与最小值之差定义:全部变数的最大值与最小值之差 R=Max(x)-Min(x)3.2 3
21、.2 范围(全距)范围(全距)范围或全距可以反映变异程度的一部分,但范围或全距可以反映变异程度的一部分,但是不能代表样本内各变数之间的变异程度。是不能代表样本内各变数之间的变异程度。目前,被广泛使用的是以标准差来度量变异程目前,被广泛使用的是以标准差来度量变异程度。度。离散趋势的度量离散趋势的度量 如果一个样本有如果一个样本有n n个观察值个观察值 x x1 1,x x2 2 x xn n,设其设其算术平均数为算术平均数为 ,则该样本的标准差为:,则该样本的标准差为:标准差考虑了每个变数与平标准差考虑了每个变数与平均数的离差。均数的离差。每个变数与平均数相差愈小,每个变数与平均数相差愈小,样本
22、变异程度愈小,反之,样本变异程度愈小,反之,愈大。愈大。因此,标准差是离散程度的因此,标准差是离散程度的度量度量3.2.1 3.2.1 标准差的定义标准差的定义离散趋势的度量离散趋势的度量1.1.离均差离均差=(x-x-)2.2.离均差之和离均差之和=(x-x-)=0=03.3.离均差平方和离均差平方和 SS=(x-)SS=(x-)2 2为了合理地计算平均差异,用平方和的办法来消除离均差的为了合理地计算平均差异,用平方和的办法来消除离均差的正负号,离均差平方相加,得到平方和(正负号,离均差平方相加,得到平方和(SSSS),),但是由于不但是由于不同样本的观察值个数不同,所以离均差平方和也不是理
23、想指同样本的观察值个数不同,所以离均差平方和也不是理想指标标离散趋势的度量离散趋势的度量虽然离均差可以衡量变虽然离均差可以衡量变异程度,但是离均差之异程度,但是离均差之和为和为0 0,所以不是理想的,所以不是理想的指标指标3.2.2 3.2.2 标准差公式的来源标准差公式的来源3.2.3 3.2.3 样本方差和样本标准差样本方差和样本标准差将将离均差平方和求平均数,称为样离均差平方和求平均数,称为样本方差,目的是消除观察值个数的本方差,目的是消除观察值个数的影响影响样本方差开方,目的是使变异还原,样本方差开方,目的是使变异还原,即标准差。即标准差。离散趋势的度量离散趋势的度量总体是未知的,用样
24、本标准差估计和推断总体标准差离散趋势的度量离散趋势的度量3.2.4 3.2.4 总体方差和样本标准差总体方差和样本标准差 如果一个样本含有如果一个样本含有n n个变数,从理论上讲,个变数,从理论上讲,n n个个变数都同样用以计算标准差,变数都同样用以计算标准差,n n个变数与平均数相个变数与平均数相减有减有n n个离均差。个离均差。表面上虽有表面上虽有n n个比较,但实质上仅有个比较,但实质上仅有n-1n-1个可以个可以自由变动,最后一个离均差受到离均差之和这个条自由变动,最后一个离均差受到离均差之和这个条件的限制,所以不能自由。件的限制,所以不能自由。3.2.5 3.2.5 自由度:自由度:
25、df,n-1例如:有例如:有3 3个变数个变数,平均数等于平均数等于5 5。问着三个变数可能是多少?问着三个变数可能是多少?离散趋势的度量离散趋势的度量3.2.5 3.2.5 自由度:自由度:(4 4、5 5、6 6)()(2 2、4 4、9 9)()(3 3、5 5、7 7)他们的共同特点:前两个数可以自由选择,为了使他们的共同特点:前两个数可以自由选择,为了使平均数等于平均数等于5 5,第三个数不用选就确定了。这时(,第三个数不用选就确定了。这时(3 31 1)2 2就是所谓自由度。就是所谓自由度。自由度:自由度:消除限制性因数后,所剩余的独立变数的消除限制性因数后,所剩余的独立变数的个数
26、,用个数,用dfdf表示表示。三、方差和标准差的计算公式三、方差和标准差的计算公式离散趋势的度量离散趋势的度量1.1.直接法直接法2.2.加权法加权法3.2.6 标准差的性质标准差的大小,受资料中每个观测值的标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准影响,如观测值间变异大,求得的标准差也大,反之则小。差也大,反之则小。在计算标准差时,在各观测值加上或减在计算标准差时,在各观测值加上或减去一个常数,其数值不变。去一个常数,其数值不变。当每个观测值乘以或除以一个常数当每个观测值乘以或除以一个常数a,则,则所得的标准差是原来标准差的所得的标准差是原来标准差的a倍或倍或1/a
27、倍。倍。3.2.6 标准差的性质在资料服从正态分布的条件下:在资料服从正态分布的条件下:平均数左右一倍标准差(平均数左右一倍标准差(S)范围:)范围:约有约有68.26%的观测值;的观测值;平均数左右两倍标准差(平均数左右两倍标准差(2S)范围:)范围:约有约有95.43%的观测值在的观测值在平均数左右三倍标准差(平均数左右三倍标准差(3S)范围:)范围:约有约有99.73%的观测值的观测值也就是说全距近似地等于也就是说全距近似地等于6倍标准差,可倍标准差,可用(用()来粗略估计标准差。)来粗略估计标准差。3.3 3.3 变异系数(变异系数(C.VC.V)用于比较度量单位不同以及不同时期用于比较度量单位不同以及不同时期 的资料。的资料。离散趋势的度量离散趋势的度量标准差与平均数的比值称为变异系数标准差与平均数的比值称为变异系数Thank you!