《chapter定量资料的统计描述实用.pptx》由会员分享,可在线阅读,更多相关《chapter定量资料的统计描述实用.pptx(69页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 学习目标:1、熟悉频数表的划记步骤,频数表的用途。2、掌握 均数、几何均数、中位数的定义、方差、标准差、变异系数的适用范围。3、掌握均数、几何均数、中位数、变异系数的计算方法。第1页/共69页2Outline频数分布表、频数分布图统计指标描述集中趋势的指标描述离散趋势的指标正确应用总结第2页/共69页3定量资料?统计分析包括哪两个内容?回顾 统计描述统计描述 统计推断统计推断 第3页/共69页4第一节 频数分布表及其用途 定量资料进行描述时,如果样本量较大,需要对原始资料进行整理,列出频数分布表,通过频数表以显示资料的分布类型。第4页/共69页 频数(frequency)在一批样本中,相同
2、情形出现的次数称该情形的频数。频数表(frequency table)将所有“互相排斥的情形”的频数毫无遗漏地排列在一起。由频数与组段组成。第5页/共69页6一、离散型定量资料的频数分布如1998年某山区96名孕妇产前检查次数资料:0 0,3 3,2 2,0 0,1 1,5 5,6 6,3 3,2 2,4 4,1 1,0 0,6 6,5 5,1 1,3 3,3 3,4 4,7 7。这是什么类型的资料?第6页/共69页表2-1 1998年某地96名孕妇产前检查次数分布检查次数(1)频 数(2)频率(%)(3)0 4 4.21 7 7.321111.531313.542627.152324.0 5
3、1212.5合计96 100.0第7页/共69页根据表2-1频数的分布可绘出频数分布图。图中横坐标表示产前检查次数,纵坐标表示各检查次数的各检查次数的孕妇例数占总孕妇数的频率孕妇例数占总孕妇数的频率(比例)。从直条高度和分布情况看出,产前检查次数分布呈负偏态分布。第8页/共69页9二、连续型定量资料的频数分布第9页/共69页例2:乱七八糟的原始数据某地120名18岁35岁健康男性居民血清铁含量,数据如下:7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.45
4、19.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.67
5、23.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.52第10页/共69页11频数分布表和频数分布图原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)
6、。解决:频数分布表的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;再将频数表绘制成频数分布图。第11页/共69页12频数表的划记步骤:1 1、找出最大值和最小值,2 2、求全距,又称极差R(Range)R(Range)R=最大值-最小值 R=29.64-7.42=22.22 3 3、定组段数与组距:(1)确定组数K:根据样本例数 n大小而定,一般分10-15组之间,如样本较小,可少于10组;如样本较大时,可大于10组,以能反映出分布规律为原则。第12页/共69页13(2)定组距 i:组距即组与组间的距离,一般等距分组。i=R/K(极差/组数)=22.22/1
7、0=2.222 最终原则是取整、取偶数,所以本例 i=2(3)定组段的上下限并划记:每个组段的起点(最小值)称为该组的下限(low limit),终点(最大值)称为该组的上限(upper limit)。注意第一组段把最小值包括进去,最后一组把最大值包括进去。4、列表:统计各组段的频数:见表2-2 第13页/共69页某地120名18岁35岁健康男性居民血清铁含量7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.
8、3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.
9、7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.52第14页/共69页表2-2 120名正常成年男子血清铁含量频数表组组 段段(1)频频 数数(2)频率频率()(3)累计频数累计频数(4)累计频率累计频率()(5)610.8310.83832.5043.331065.00108.331286.67
10、1815.00141210.003025.00162016.675041.67182722.507764.17201815.009579.17221210.0010789.172486.6711595.832643.3311999.17 283010.83120100.00合合 计计120100.00第15页/共69页频数表制表步骤1:找出最小值和最大值7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.362
11、3.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.771
12、4.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.52第16页/共69页17R=最大值-最小值 =29.64-7.42 =22.22制表步骤2:计算全距(range,R)即极差第17页/共69页18制表步骤3:确定组段数和组距组段数一般取1015,本例取12组段组距=R/组段数 =22.22/12 =1.
13、852第18页/共69页制表步骤4:列表组组 段段划记划记频频 数数6/18/310/,/612/,/814/,/,/1216/,/,/,/,/2018/,/,/,/,/,/2720/,/,/,/1822/,/,/1224/,/826/4 2830/1合合 计计120最小值最大值第19页/共69页制表步骤4:列表组组 段段(1)频频 数数(2)频率频率()(3)累计频数累计频数(4)累计频率累计频率()(5)频率密度频率密度()(3)组距组距610.8310.830.42832.5043.331.251065.00108.332.501286.671815.003.34141210.00302
14、5.005.00162016.675041.678.34182722.507764.1711.25201815.009579.177.50221210.0010789.175.002486.6711595.833.342643.3311999.171.67 283010.83120100.000.42合合 计计120100.00第20页/共69页21图2-2 120例健康成年男子血清铁含量分布(频率密度=频率/组距)第21页/共69页22对称分布偏态分布:即分布不对称者。正偏态(峰)分布:分布的长尾在峰的右侧,又称右偏分布。负偏态(峰)分布:分布的长尾在峰的左侧,又称左偏分布。三、频数分布表的
15、用途1、揭示资料的分布类型第22页/共69页23图2-3 某地居民238人发汞含量分布(频率密度=频率/组距)第23页/共69页24集中趋势(Central Tendency)离散趋势(Tendency of Dispersion)2、揭示频数分布的两个分布特征:如成年男子血清铁分布,大多集中在18组段,偏离18组段的越来越少。第24页/共69页253、便于发现特大或特小的可疑值。以确定取舍。4、便于进一步选择方法计算统计指标。第25页/共69页26第二节 描述集中位置的指标平均数(Average)算术均数(Mean)几何均数(Geometric Mean)中位数(Median)百分位数(Pe
16、rcentile)第26页/共69页27描述集中位置的指标1:算术均数算术均数(arithmetic mean,mean,)均数适用于:对称分布的资料,尤其是正态分布资料第27页/共69页28例2-3 测得8只正常大鼠血清总酸性磷酸酶含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。求其算术均数。=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075(U/L)第28页/共69页某地120名18岁35岁健康男性居民血清铁含量7.428.6523.0221.6121.3121.469.9722.7314.
17、9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1
18、211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.52第29页/共69页加权法计算均数组组 段段(1)组中值组中值(x0)(2)f(3)f x
19、0(4)=(2)*(3)6717893271011666121381041415121801617203401819275132021183782223122762425820026274108 283029129合合 计计1202228第30页/共69页31加权均数(weighted mean)f:组段的频数组段的频数 :组段的组中值,即(组段上限:组段的组中值,即(组段上限+组段下限)组段下限)/2第31页/共69页加权法计算均数组组 段段(1)组中值组中值(x0)(2)f(3)f x0(4)=(2)*(3)67178932710116661213810414151218016172034
20、01819275132021183782223122762425820026274108 283029129合合 计计1202228第32页/共69页33公式比较:原始资料频数表资料加权法第33页/共69页描述集中趋势的指标2:几何均数几何均数(geometric mean,G)几何均数适用于几何均数适用于:观察值变化范围跨越多个数量:观察值变化范围跨越多个数量级的资料,尤其对数正态分布资料。级的资料,尤其对数正态分布资料。第34页/共69页357名慢性迁延性肝炎患者的HBsAg滴度资料 1:16,1:32,1:64,1:128,1:256,1:512第35页/共69页36抗体滴度频数(f)1
21、:1621:3271:64111:128131:256121:5127合计52表2-4 52例慢性肝炎患者的HBsAg滴度资料 第36页/共69页37加权法计算几何均数第37页/共69页表表2-4 52例慢性肝炎患者的例慢性肝炎患者的HBsAg滴度资料滴度资料抗体滴度抗体滴度频数频数(f)滴度倒数滴度倒数(X)lgXf(lgX)1:162161.204122.408241:327321.5051510.536051:6411641.8061819.867981:128131282.1072127.393731:256122562.4082428.898881:51275122.7092718.
22、96489合计合计52108.06977第38页/共69页39公式比较:原始资料频数表资料加权法第39页/共69页40描述集中趋势的指标3:中位数(median,M)是指一组观察值从小到大顺序排列后居于中间位置的数。即总数中有一半的数低于它,一半的数高于它。第40页/共69页41M的计算方法:小样本计算法:当n为奇数时 M=x(中间)当n为偶数时 M=(中间两位)/2 注:按升序排列后的如 今有5名工人接触某有害物质后,引起中毒的潜伏期分别是:1天,3天,5天,4天,8天。该5位工人的平均潜伏期是多少天?第41页/共69页42大样本频数表资料,可用百分位数法计算:百分位数(percentile
23、,Px):它表示一组观察值按升序排列,并等分为100等份,位居第x%位置的数。其中,中位数M=P50第42页/共69页43中位数示例9例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.810例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=5.2 第43页/共69页44中位数示例对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人,6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活。本资料属于“开口”资料。本例数
24、据已经按从小到大的升序排列,n=7,为奇数,其中位数为16天。第44页/共69页45中位数的适用条件中位数适用于:理论上适用于任何分布的定量资料资料,实际上适用于:偏态分布资料;开口资料;分布类型不清的资料。第45页/共69页百分位数(percentile,PX)将N个观察值从小到大依次排列,再分成100等份,对应于X位的数值即为第X百分位数。中位数是百分位的特殊形式。同样的例子还有四分位数、十分位数等。X%PX (100-X)%中位数是百分位的特殊形式,P50分位数就是中位数四分位数:上四分位数(P75),下四分位数(P25)。描述集中趋势的指标4:百分位数第46页/共69页百分位数的计算公
25、式:描述集中趋势的指标4:百分位数P PX X:为百分位数:为百分位数 L L:为欲求的百分位数所在组段的下限:为欲求的百分位数所在组段的下限i i :为该组段的组距:为该组段的组距 f fx x:为该组段的频数:为该组段的频数n n :为总频数:为总频数f fL L :为该组段之前的累计频数:为该组段之前的累计频数第47页/共69页组组 段段(1)频频 数数(2)频率频率()(3)累计频数累计频数(4)累计频率累计频率()(5)610.8310.83832.5043.331065.00108.331286.671815.00141210.003025.00162016.675041.6718
26、2722.507764.17201815.009579.17221210.0010789.172486.6711595.832643.3311999.17 283010.83120100.00合合 计计120100.00第48页/共69页49只用平均数描述资料的弊病甲组 26 29 30 31 34 均数30kg乙组 24 27 30 33 36 均数30kg丙组 26 28 30 32 34 均数30kg丙乙甲三组儿童体重的离散程度第49页/共69页50第三节、离散程度的描述描述一组数据参差不齐的程度 第50页/共69页51描述离散趋势的指标变异度极差(Range)四分位数间距(interq
27、uartile range)方差(Variance)标准差(Standard Deviation)变异系数(coefficient of variation)第51页/共69页52描述离散趋势的指标1:极差全距(range),极差 R=maxmin极差反映反映一组数据的变化范围极差适用于:任何分布资料第52页/共69页53计算极差:甲组 26 29 30 31 34乙组 24 27 30 33 36丙组 26 28 30 32 34第53页/共69页54极差优点和缺点优点:简便优点:简便缺点:缺点:1.1.只利用了两个极端值只利用了两个极端值 2.2.n n大,大,R R也会大也会大 3.3.
28、不稳定不稳定第54页/共69页55描述离散趋势的指标2:四分位数间距P75、P 25分别表示上、下四分位数四分位数间距(quartile range)Q P75 P 25四分位数间距反映数据的变异程度比极差稳定。四分位间距适用于:任何分布资料。第55页/共69页组组 段段(1)频频 数数(2)频率频率()(3)累计频数累计频数(4)累计频率累计频率()(5)610.8310.83832.5043.331065.00108.331286.671815.00141210.003025.00162016.675041.67182722.507764.17201815.009579.17221210.
29、0010789.172486.6711595.832643.3311999.17 283010.83120100.00合合 计计120100.00第57页/共69页58描述离散趋势的指标3:方差离均差离均差离均差平方和离均差平方和离均差平方和的均数离均差平方和的均数方方 差差方差、标准差适用于:对称分布的资料,尤其是正态分布资料。第58页/共69页59描述离散趋势的指标3:方差方差(variance)也称均方差,观察值的离均差平方和的算术均数。表示一组数据的平均离散程度。总体方差只能取正值;方差越大,意味着个体间变异越大;反之亦然。第59页/共69页60描述离散趋势的指标4:标准差标准差(st
30、andard deviation),方差的平方根 只能取正值;标准差越大,意味着个体间变异越大;反之亦然。总体标准差样本标准差第60页/共69页61描述离散趋势的指标5:变异系数变异系数(coefficient of variation,CV)排除了平均水平的影响,并取消了单位。因此变异系数常用于:比较量纲不同的变量间变异度比较均数相差悬殊的变量间变异度。第61页/共69页62量纲不同变量间变异度的比较均数均数 标准差标准差变异系数变异系数青年男子青年男子 身高身高170 cm6 cm3.5 体重体重60 kg7 kg11.7第62页/共69页63均数差别较大的变量间变异度比较年龄组年龄组均数
31、均数 标准差标准差变异系数变异系数33.5岁岁96.13.13.2 3035岁岁170.25.00.3不同年龄组男子身高(cm)的变异度第63页/共69页64正确应用(1)算数均数:适用于对称分布资料;几何均数:适合于对数正态分布资料;中位数和百分位数:适用于任何分布的资料;中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。第64页/共69页65正确应用(2)极差:适用于任何分布资料四分位间距:适用于任何分布资料标准差:适用于对称分布资料变异系数:常用于量纲不同的变量间或均数相差较大的变量间变异度的比较第65页/共69页66平均数与变异度平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!均数标准差中位数四分位数间距 变异度小,则均数代表性好!变异度大,数据分散,则均数代表性差!第66页/共69页67总结:定量资料的统计描述图表描述:统计量描述集中趋势指标:均数、几何均数、中位数离散趋势指标:标准差、四分位数间距、变异系数、极差第67页/共69页68第68页/共69页69感谢您的观赏!第69页/共69页