《数值变量资料的统计分析-变异程度的描述.ppt》由会员分享,可在线阅读,更多相关《数值变量资料的统计分析-变异程度的描述.ppt(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、离散趋势指标离散趋势指标(变异程度的统计描述)变异程度的统计描述)(Measures of Dispersion)要求:要求:掌握:掌握:标准差的含义及计算方法;标准差的含义及计算方法;变异系数的计算方法和应用。变异系数的计算方法和应用。熟悉:熟悉:其他描述离散趋势的常用指其他描述离散趋势的常用指标。标。离散趋势离散趋势(dispersion tendency)指标指标三组同年龄、同性别儿童的体重(三组同年龄、同性别儿童的体重(kgkg)甲组甲组 26 28 30 32 34 26 28 30 32 34 乙组乙组 24 27 30 33 36 24 27 30 33 36 丙组丙组 26 2
2、9 30 31 34 26 29 30 31 34 30 30 30 30 30 30 标准差的意义标准差的意义 标准差是表示一组观察者离散程度或变标准差是表示一组观察者离散程度或变异程度的统计指标;异程度的统计指标;描述一个变量的所有观察值与均数的平描述一个变量的所有观察值与均数的平均离散程度的指标。均离散程度的指标。全距表示一群变量值的最大值与最小值全距表示一群变量值的最大值与最小值之差,反映个体差异的范围,用之差,反映个体差异的范围,用R R表示。全表示。全距大,说明变异度大;反之,说明变异度距大,说明变异度大;反之,说明变异度小。小。甲组甲组 26 28 30 32 3426 28 3
3、0 32 34 乙组乙组 24 27 30 33 3624 27 30 33 36R=8R=8R=12R=12一、全距一、全距(range)(range)1.不能全面反映资料的离散程度;不能全面反映资料的离散程度;2.不稳定,易受极端值的影响,抽样不稳定,易受极端值的影响,抽样 误差大。误差大。优点缺点1.表示变异范围,简单明了、容易使用,如表示变异范围,简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长用于说明传染病、食物中毒等的最短、最长潜伏期等;潜伏期等;2.各种分布类型的资料均可用。各种分布类型的资料均可用。全距全距(range)(range)二、四分位数间距二、四分位数间距
4、(quartile interval)(quartile interval)四四分分位位数数间间距距是是上上四四分分位位数数(QQU U=P P7575)和和下下四四分分位位数数(QQL L=P P2525)之之差差,用用Q Q表表示示(Q QU U-Q QL L)。该该数数值值越越大大,说说明明变变异异度度越越大大;反反之,说明变异度越小。之,说明变异度越小。某地某地630630名正常女性血清甘油三脂含量名正常女性血清甘油三脂含量(mg/dl)(mg/dl)L L:组段的下限;组段的下限;i iMM:组距;组距;f fx x:频数;频数;f fL L:P Px x所在组段之前的累积频数。所在
5、组段之前的累积频数。1.与中位数配套,用于偏态分布资料及分布的与中位数配套,用于偏态分布资料及分布的一端或两端无确切数值的资料;一端或两端无确切数值的资料;2.比全距稳定。比全距稳定。未考虑到每个观察值的变异度。未考虑到每个观察值的变异度。优点缺点 四分位数间距四分位数间距(quartile interval)三、平均差距指标三、平均差距指标(一)平均偏差(一)平均偏差(Mean Difference(Mean Difference)甲班:甲班:乙班:乙班:特点特点:直观直观 ,易理解;但由于用了绝对值,不便于数易理解;但由于用了绝对值,不便于数学处理,实际中很少使用。学处理,实际中很少使用。
6、(二)离均差平方和(二)离均差平方和(Sum of SquareSum of Square,SSSS)为为了了克克服服平平均均偏偏差差的的缺缺点点,可可以以不不通通过过取取绝绝对对值值,而而是是通通过过取取平平方方来来避避免免正正负负抵抵消消,即即使使用用离离均均差差平平方和,其计算公式为方和,其计算公式为 SS SS 通常作为一个中间统计量使用。通常作为一个中间统计量使用。(三)方差(三)方差(Variance)(Variance)方差是将离均差平方和再取平均,即方差是将离均差平方和再取平均,即 注意:对于样本资料,分母用的是注意:对于样本资料,分母用的是n n-1-1,称为自由度称为自由度
7、(degree of freedom(degree of freedom,df)df)。方差的特点:便于数学上的处理,但由于有平方差的特点:便于数学上的处理,但由于有平方,度量衡发生变化,不便于实际应用。方,度量衡发生变化,不便于实际应用。方差方差(variance(variance)自由度自由度n限制条件的个数,用限制条件的个数,用表示。表示。(n1):当):当 选定时,选定时,n个变量值个变量值 中能自由变动的变量值的个数。中能自由变动的变量值的个数。(1)方差越大,资料的离散程度越方差越大,资料的离散程度越 大大(全面考虑了每个观察值全面考虑了每个观察值);(2)不受观察值个数的影响。不
8、受观察值个数的影响。优点缺点 一些资料不适用于以平方表示。一些资料不适用于以平方表示。方差方差(variance(variance)四、标准差四、标准差(Standard Deviation)将方差取平方根,还原成与原始观察值单位相将方差取平方根,还原成与原始观察值单位相同的变异量度即为标准差:同的变异量度即为标准差:例如对于例例如对于例3.13.1经计算有经计算有 甲患者:甲患者:同理乙患者同理乙患者:例例 三组同年龄、同性别儿童的体重三组同年龄、同性别儿童的体重(kgkg)甲组甲组 26 28 30 32 3426 28 30 32 34乙组乙组 24 27 30 33 3624 27 3
9、0 33 36丙组丙组 26 29 30 31 34 26 29 30 31 34 直接法直接法加权法加权法标准差应用标准差应用1.表示观察值分布的离散程度。均数相近、表示观察值分布的离散程度。均数相近、度量单位相同的条件下,度量单位相同的条件下,S越大,观察值越大,观察值的变异程度越大,均数的代表性越差。的变异程度越大,均数的代表性越差。2.结合均数计算结合均数计算CV。3.结合均数描述正态分布资料的分布特征结合均数描述正态分布资料的分布特征和估计医学参考值范围和估计医学参考值范围4.结合样本含量计算标准误。结合样本含量计算标准误。五、变异系数五、变异系数(Coefficient of Va
10、riation)(Coefficient of Variation)主要用于对均数相差较大或单位不同的几组观察主要用于对均数相差较大或单位不同的几组观察值的变异程度进行比较。值的变异程度进行比较。例例3.3 3.3 测测得得某某地地成成年年人人舒舒张张压压均均数数为为77.5mmHg,77.5mmHg,标标准准差差为为10.7mmHg10.7mmHg;收收缩缩压压均均数数为为122.9mmHg,122.9mmHg,标标准准差差为为17.1mmHg17.1mmHg。试试比比较较舒舒张张压压和和收收缩缩压压的的变变异程度。异程度。变异系数变异系数 Coefficient of variation(
11、CV)Coefficient of variation(CV)应用应用1.1.表示数据分布的相对离散程度表示数据分布的相对离散程度2.2.比较均数相差悬殊的两组或多组资料的比较均数相差悬殊的两组或多组资料的离散程度离散程度3.3.比较度量衡单位不同的两组或多组比较度量衡单位不同的两组或多组资料的变异程度资料的变异程度 某某 地地 2020岁岁 男男 子子 160160人人,身身 高高 均均 数数 为为166.06cm166.06cm,标标准准差差为为4.95cm4.95cm;体体重重均均数数为为53.72kg53.72kg,标标准准差差为为4.96kg4.96kg。比比较较身身高高与体重的变异
12、程度。与体重的变异程度。2020岁男子体重的变异程度比身高的岁男子体重的变异程度比身高的变异程度大。变异程度大。某地不同年龄女童的身高(某地不同年龄女童的身高(cmcm)资料如)资料如下表所示下表所示 。试比较不同年龄身高的变异程。试比较不同年龄身高的变异程度。度。某地不同年龄女童身高的变异程度某地不同年龄女童身高的变异程度年龄组年龄组 人数人数 均数均数 标准差标准差 CV(%)12月月 100 56.3 2.1 3.756月月 120 66.5 2.2 3.333.5岁岁 300 96.1 3.1 3.255.5岁岁 400 107.8 3.3 3.1小结小结全距与四分位数间距:全距与四分
13、位数间距:后者较稳定,但均不能后者较稳定,但均不能综合反映各观察值的变异程度。综合反映各观察值的变异程度。标准差标准差:最为常用,对正态分布尤为重要:最为常用,对正态分布尤为重要变异系数变异系数:可用于多组资料间度量衡单位:可用于多组资料间度量衡单位不同或均数相差悬殊时作变异度的比较。不同或均数相差悬殊时作变异度的比较。以上指标都是数值越小,说明观察值以上指标都是数值越小,说明观察值的变异度越小,均数的代表性越好。的变异度越小,均数的代表性越好。平均指标和变异指标常配套使用平均指标和变异指标常配套使用 如如 正态分布:均数、标准差;正态分布:均数、标准差;偏态分布:中位数、四分位间距偏态分布:
14、中位数、四分位间距练习:练习:某某市市19741974年年为为了了解解该该地地居居民民发发汞汞的的基基础础水水平平,为为汞汞污污染染的的环环境境监监测测积积累累资资料料,调调查查了了留留住住该该市市一一年年以以上上,无无明明显显肝肝、肾肾疾疾病病,无无汞汞作作业业接接触触史史的的居居民民238238人的发汞含量人的发汞含量(mol/kg)如下如下:用何种指标说明本资料的集中位置和变异程度用何种指标说明本资料的集中位置和变异程度较好?并计算之。较好?并计算之。发发汞汞值值1.5 3.5 5.57.5 9.511.513.515.517.519.5人人数数2066604818166103 某某检检
15、验验师师测测定定了了1010名名正正常常成成年年钢钢铁铁工工人人的的血血红红蛋蛋白白值值(g/dl)(g/dl)和和红红细细胞胞数数(万万/mm/mm3 3)如如下下,试试比比较这两个检测项目的结果哪个变异性大较这两个检测项目的结果哪个变异性大?血红蛋白血红蛋白(g/dL)13.0 13.6 14.0 14.5 14.6 14.7 15.2 15.5 15.8 16.0血细胞数血细胞数(万万/mm3)510 515 517 518 520 522 524 525 528 530小小 结结 1.1.描描述述一一组组观观察察值值,除除需需要要表表示示其其平平均均水水平平外外,还要说明它的离散或变异的情况。还要说明它的离散或变异的情况。2.2.衡衡量量变变异异程程度度大大小小的的指指标标有有多多种种:极极差差、四四分分位位数数间间距距、方方差差、标标准准差差和和变变异异系系数数。其其中中应应用用最最多多的是标准差和变异系数。的是标准差和变异系数。作业:作业:1、标准差与全距、四分位数间距比较,、标准差与全距、四分位数间距比较,有哪些优点?有哪些优点?2、变异系数在什么情况下应用?它与、变异系数在什么情况下应用?它与标准差有什么区别和联系?标准差有什么区别和联系?