《chapter2定量资料的统计描述.ppt》由会员分享,可在线阅读,更多相关《chapter2定量资料的统计描述.ppt(70页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Health statistics卫生统计学第二章第二章 定量资料的统计描述定量资料的统计描述王素珍Qualitative dataanalysisQuantitative data analysis Statistical descriptionStatistical InferenceStatistical InferenceStatistical descriptionCollection of data Statistical analysisSorting dataDesign Design Collection of data Sorting dataStatistical ana
2、lysisStatistical analysis Statistical descriptionStatistical descriptionStatistical InferenceStatistical InferenceParameter EstimationHypothesis TestStatistical description2 学习目标:学习目标:1、熟悉频数表的划记步骤,频数表的用途。、熟悉频数表的划记步骤,频数表的用途。2、掌握、掌握 均数、几何均数、中位数的定义、均数、几何均数、中位数的定义、方差、标准差、变异系数的适用范围。方差、标准差、变异系数的适用范围。3、掌握均
3、数、几何均数、中位数、变异系数、掌握均数、几何均数、中位数、变异系数的计算方法。的计算方法。3Outlinen频数分布表、频数分布图n统计指标n描述集中趋势的指标n描述离散趋势的指标n正确应用n总结4n定量资料?n统计分析包括哪两个内容?回顾回顾 统计描述统计描述 统计推断统计推断 5第一节第一节 频数分布表及其用途频数分布表及其用途 定定量量资资料料进进行行描描述述时时,如如果果样样本本量量较较大大,需需要要对对原原始始资资料料进进行行整整理理,列列出出频频数数分分布布表表,通通过过频频数数表表以以显显示资料的分布类型。示资料的分布类型。6 n频数(频数(frequency)在一批样本中,相
4、同情形出现的次数称在一批样本中,相同情形出现的次数称该情形的频数。该情形的频数。n频数表(频数表(frequency table)将所有将所有“互相排斥的情形互相排斥的情形”的频数毫的频数毫无遗漏地排列在一起。由频数与组段组成。无遗漏地排列在一起。由频数与组段组成。7一、离散型定量资料的频数分布一、离散型定量资料的频数分布n如如1998年某山区年某山区96名孕妇产前检查次数名孕妇产前检查次数资料:资料:n0 0,3 3,2 2,0 0,1 1,5 5,6 6,3 3,2 2,4 4,1 1,0 0,6 6,5 5,1 1,3 3,3 3,44,7 7。n这是什么类型的资料?8表2-1 1998
5、年某地96名孕妇产前检查次数分布检查次数(1)频 数(2)频率(%)(3)0 4 4.21 7 7.321111.531313.542627.152324.0 51212.5合计96 100.09根据表2-1频数的分布可绘出频数分布图。图中横坐标表示产前检查次数,纵坐标表示各检查次数的各检查次数的孕妇例数占总孕妇数的频率孕妇例数占总孕妇数的频率(比例)。从直条高度和分布情况看出,产前检查次数分布呈负偏态分布。10二、连续型定量资料的频数分布二、连续型定量资料的频数分布11例2:乱七八糟的原始数据n某地120名18岁35岁健康男性居民血清铁含量,数据如下:7.428.6523.0221.6121
6、.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8
7、918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.5212频数分布表和频数分布图n原因:由于个体变异的
8、存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。n解决:频数分布表的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;再将频数表绘制成频数分布图。13频数表的划记步骤频数表的划记步骤:1 1、找出最大值和最小值,、找出最大值和最小值,2 2、求全距,又称极差、求全距,又称极差R(Range)R(Range)R=最大值-最小值 R=29.64-7.42=22.22 3 3、定组段数与组距定组段数与组距:(1)确定组数K:根据样本例数 n大小而定,一般分10-15组之间,如样本
9、较小,可少于10组;如样本较大时,可大于10组,以能反映出分布规以能反映出分布规律为原则律为原则。14(2)定组距 i:组距即组与组间的距离,一般等距分组。i=R/K(极差/组数)=22.22/10=2.222 最终原则是取整、取偶数,所以本例 i=2(3)定组段的上下限并划记:每个组段的起点(最小值)称为该组的下限(low limit),终点(最大值)称为该组的上限(upper limit)。注意第一组段把最小值包括进去,最后一组把第一组段把最小值包括进去,最后一组把最大值包括进去。最大值包括进去。4、列表:统计各组段的频数:见表2-2 15某地120名18岁35岁健康男性居民血清铁含量7.
10、428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.521
11、9.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.5216表表2-
12、2 120名正常成年男子血清铁含量频数表名正常成年男子血清铁含量频数表组组 段段(1)频频 数数(2)频频率率()(3)累累计频计频数数(4)累累计频计频率率()(5)610.8310.83832.5043.331065.00108.331286.671815.00141210.003025.00162016.675041.67182722.507764.17201815.009579.17221210.0010789.172486.6711595.832643.3311999.17 283010.83120100.00合合 计计120100.0017频数表制表步骤1:找出最小值和最大值7.4
13、28.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219
14、.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.5218nR=最大
15、值-最小值 =29.64-7.42 =22.22制表步骤2:计算全距(range,R)即极差19制表步骤3:确定组段数和组距n组段数一般取1015,本例取12组段n组距=R/组段数 =22.22/12 =1.85220制表步骤4:列表组组 段段划划记记频频 数数6/18/310/,/612/,/814/,/,/1216/,/,/,/,/2018/,/,/,/,/,/2720/,/,/,/1822/,/,/1224/,/826/4 2830/1合合 计计120最小值最小值最大值最大值21制表步骤4:列表组组 段段(1)频频 数数(2)频频率率()(3)累累计频计频数数(4)累累计频计频率率()(
16、5)频频率密度率密度()(3)组组距距610.8310.830.42832.5043.331.251065.00108.332.501286.671815.003.34141210.003025.005.00162016.675041.678.34182722.507764.1711.25201815.009579.177.50221210.0010789.175.002486.6711595.833.342643.3311999.171.67 283010.83120100.000.42合合 计计120100.0022图图2-2 120例健康成年男子血清铁含量分布例健康成年男子血清铁含量分布
17、(频率密度=频率/组距)23n对称分布n偏态分布:即分布不对称者。正偏态(峰)分布:分布的长尾在峰的右侧,又称右偏分布。负偏态(峰)分布:分布的长尾在峰的左侧,又称左偏分布。三、频数分布表的用途三、频数分布表的用途1、揭示资料的分布类型24图图2-3 某地居民某地居民238人发汞含量分布人发汞含量分布(频率密度频率密度=频率频率/组距组距)25n集中趋势(Central Tendency)n离散趋势(Tendency of Dispersion)2、揭示频数分布的两个分布特征:如成年男子血清铁分布,大多集中在18组段,偏离18组段的越来越少。263、便于发现、便于发现特大或特小的可疑值特大或特
18、小的可疑值。以确定取舍。以确定取舍。4、便于进一步、便于进一步选择方法计算统计指标选择方法计算统计指标。27第二节 描述集中位置的指标平均数(Average)算术均数(Mean)几何均数(Geometric Mean)中位数(Median)百分位数(Percentile)28描述集中位置的指标1:算术均数算术均数(arithmetic mean,mean,)均数适用于均数适用于:对称分布的资料,尤其是正态分布资料:对称分布的资料,尤其是正态分布资料29例2-3 测得8只正常大鼠血清总酸性磷酸酶含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。求其算
19、术均数。=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075(U/L)30某地120名18岁35岁健康男性居民血清铁含量7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0
20、014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7
21、522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.5231加权法计算均数组组 段段(1)组组中中值值(x0)(2)f(3)f x0(4)=(2)*(3)6717893271011666121381041415121801617203401819275132021183782223122762425820026274108 283029129合合 计计120222832n加权均数(weighted mean)f:组段的频数组段的频数 :组段的组中值,即(组段上限:组段的组中值,即(组段上限
22、+组段下限)组段下限)/233加权法计算均数组组 段段(1)组组中中值值(x0)(2)f(3)f x0(4)=(2)*(3)6717893271011666121381041415121801617203401819275132021183782223122762425820026274108 283029129合合 计计120222834公式比较:原始资料原始资料频数表资料频数表资料加权法加权法35描述集中趋势的指标2:几何均数几何均数(geometric mean,G)几何均数适用于几何均数适用于:观察值变化范围跨越多个数量:观察值变化范围跨越多个数量级的资料,尤其对数正态分布资料。级的资
23、料,尤其对数正态分布资料。7名慢性迁延性肝炎患者的HBsAg滴度资料 n1:16,1:32,1:64,1:128,1:256,1:51237抗体滴度频数(f)1:1621:3271:64111:128131:256121:5127合计52表2-4 52例慢性肝炎患者的HBsAg滴度资料 38加权法计算几何均数39表表2-4 52例慢性肝炎患者的例慢性肝炎患者的HBsAg滴度资料滴度资料抗体滴度抗体滴度频数频数(f)滴度倒数滴度倒数(X)lgXf(lgX)1:162161.204122.408241:327321.5051510.536051:6411641.8061819.867981:128
24、131282.1072127.393731:256122562.4082428.898881:51275122.7092718.96489合计合计52108.0697740公式比较:原始资料原始资料频数表资料频数表资料加权法加权法41描述集中趋势的指标3:中位数(median,M)是指一组观察值从小到大顺序排列后居是指一组观察值从小到大顺序排列后居于中间位置的数。于中间位置的数。即总数中有一半的数低于它,一半的数即总数中有一半的数低于它,一半的数高于它。高于它。42M的计算方法:的计算方法:小样本计算法:小样本计算法:当当n为奇数时为奇数时 M=x(中间)中间)当当n为偶数时为偶数时 M=(中
25、间两位)中间两位)/2 注:按升序排列后的注:按升序排列后的如如 今有今有5名工人接触某有害物质后,引起名工人接触某有害物质后,引起中毒的潜伏期分别是:中毒的潜伏期分别是:1天,天,3天,天,5天,天,4天,天,8天。该天。该5位工人的平均潜伏期是多位工人的平均潜伏期是多少天?少天?43中位数示例n9例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.8n10例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=5.2 44中位数示例n对于某项风险较高的新手术术后的生存时
26、间进行跟踪,共调查了7人,6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活。n本资料属于“开口”资料。n本例数据已经按从小到大的升序排列,n=7,为奇数,其中位数为16天。45中位数中位数的适用条件n中位数适用于中位数适用于:理论上适用于任何分布的定量:理论上适用于任何分布的定量资料资料,资料资料,实际上适用于:实际上适用于:偏态分布资料;偏态分布资料;开口资料;分布类型不清的开口资料;分布类型不清的资料。资料。46n百分位数(percentile,PX)将N个观察值从小到大依次排列,再分成100等份,对应于X位的数值即为第X百分位数。中位数是百
27、分位的特殊形式。同样的例子还有四分位数、十分位数等。X%PX (100-X)%n中位数是百分位的特殊形式,P50分位数就是中位数n四分位数:上四分位数(P75),下四分位数(P25)。描述集中趋势的指标4:百分位数48n百分位数的计算公式:描述集中趋势的指标4:百分位数P PX X:为百分位数为百分位数 L L:为欲求的百分位数所在组段的下限为欲求的百分位数所在组段的下限i i :为该组段的组距为该组段的组距 f fx x :为该组段的频数为该组段的频数n n :为总频数为总频数f fL L :为该组段之前的累计频数为该组段之前的累计频数49组组 段段(1)频频 数数(2)频频率率()(3)累
28、累计频计频数数(4)累累计频计频率率()(5)610.8310.83832.5043.331065.00108.331286.671815.00141210.003025.00162016.675041.67182722.507764.17201815.009579.17221210.0010789.172486.6711595.832643.3311999.17 283010.83120100.00合合 计计120100.0050只用平均数描述资料的弊病n甲组 26 29 30 31 34 均数30kgn乙组 24 27 30 33 36 均数30kgn丙组 26 28 30 32 34 均
29、数30kg丙乙甲三组儿童体重的离散程度51第三节、离散程度的描述第三节、离散程度的描述描述一组数据参差不齐的程度描述一组数据参差不齐的程度 52描述离散趋势的指标变异度极差(Range)四分位数间距(interquartile range)方差(Variance)标准差(Standard Deviation)变异系数(coefficient of variation)53描述离散趋势的指标1:极差全距(range),极差 R=maxmin极差反映反映一组数据的变化范围极差适用于:任何分布资料54计算极差:n甲组 26 29 30 31 34n乙组 24 27 30 33 36n丙组 26 28
30、 30 32 3455极差优点和缺点优点:简便优点:简便缺点:缺点:1.1.只利用了两个极端值只利用了两个极端值 2.2.n n大,大,R R也会大也会大 3.3.不稳定不稳定56描述离散趋势的指标2:四分位数间距nP75、P 25分别表示上、下四分位数n四分位数间距(quartile range)Q P75 P 25n四分位数间距反映数据的变异程度比极差稳定。n四分位间距适用于:任何分布资料。57组组 段段(1)频频 数数(2)频频率率()(3)累累计频计频数数(4)累累计频计频率率()(5)610.8310.83832.5043.331065.00108.331286.671815.001
31、41210.003025.00162016.675041.67182722.507764.17201815.009579.17221210.0010789.172486.6711595.832643.3311999.17 283010.83120100.00合合 计计120100.0059描述离散趋势的指标3:方差离均差离均差离均差平方和离均差平方和离均差平方和的均数离均差平方和的均数方方 差差方差、标准差适用于:对称分布的资料,尤其是正态分布资料。60描述离散趋势的指标3:方差方差(variance)也也称称均均方方差差,观观察察值值的的离离均均差差平平方方和和的的算算术术均均数数。表表示示
32、一一组组数数据据的的平平均均离散程度。离散程度。总体方差总体方差只能取正值;只能取正值;方差越大,意味着个体间变异越大;反之亦然。方差越大,意味着个体间变异越大;反之亦然。61描述离散趋势的指标4:标准差标准差(standard deviation),方差的平方根方差的平方根 只能取正值;只能取正值;标准差越大,意味着个体间变异越大;反之亦然。标准差越大,意味着个体间变异越大;反之亦然。总体标准差总体标准差样本标准差样本标准差62描述离散趋势的指标5:变异系数变异系数(coefficient of variation,CV)n排除了平均水平的影响,并取消了单位。因此变异系数常用于:n比较量纲不
33、同的变量间变异度n比较均数相差悬殊的变量间变异度。63量纲不同变量间变异度的比较均数均数 标准差标准差变异系数变异系数青年男子青年男子 身高身高170 cm6 cm3.5 体重体重60 kg7 kg11.764均数差别较大的变量间变异度比较年龄组年龄组均数均数 标准差标准差变异系数变异系数33.5岁岁96.13.13.2 3035岁岁170.25.00.3不同年龄组男子身高(不同年龄组男子身高(cm)的变异度的变异度65正确应用(1)n算数均数:适用于对称分布资料;n几何均数:适合于对数正态分布资料;n中位数和百分位数:适用于任何分布的资料;n中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。66正确应用(2)n极差:适用于任何分布资料n四分位间距:适用于任何分布资料n标准差:适用于对称分布资料n变异系数:常用于量纲不同的变量间或均数相差较大的变量间变异度的比较67平均数与变异度n平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!n均数标准差n中位数四分位数间距 n变异度小,则均数代表性好!n变异度大,数据分散,则均数代表性差!68总结:定量资料的统计描述n图表描述:n统计量描述集中趋势指标:均数、几何均数、中位数离散趋势指标:标准差、四分位数间距、变异系数、极差6970