《定量资料统计描述.ppt》由会员分享,可在线阅读,更多相关《定量资料统计描述.ppt(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章定量资料的统计描述第一节 频数与频数分布(frequency distribution)频数分布表,又称频数表,是对样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。例:某地用随机抽样方法检查例:某地用随机抽样方法检查140140名成年男子的红细胞数名成年男子的红细胞数5.953.82一、连续型定量变量的频数分布l l频数表(frequency table)的编制:求极差求极差(range)range):R RMax-MinMax-Min =5.95-3.82=2.13 =5.95-3.82=2.13确定组段数、确定组段数、组距和组段组距和组段1.1.确定组
2、段数确定组段数(k)k):通常通常10-1510-15个。个。2.2.确定组距确定组距(i)i):相邻两组段的最小值(下限)相邻两组段的最小值(下限)之差,一般用等距。之差,一般用等距。i=R/ki=R/k,一般取整取偶一般取整取偶数。数。3.3.确定组限:界限分明,每个组段的起点称确定组限:界限分明,每个组段的起点称下限,终点称上限。最末一行应同时写出下下限,终点称上限。最末一行应同时写出下限和上限。限和上限。4.4.列表划记:得到各组段的观察单位数。列表划记:得到各组段的观察单位数。红细胞数红细胞数组中值组中值频数频数频率()频率()3.803.803.903.902 2 1.4 1.44
3、.00 4.00 4.104.106 6 4.3 4.34.20 4.20 4.304.301111 7.9 7.94.40 4.40 4.504.50252517.917.94.60 4.60 4.704.70323222.922.94.80 4.80 4.904.90272719.319.35.00 5.00 5.105.10171712.112.15.20 5.20 5.305.301313 9.3 9.35.40 5.40 5.505.504 4 2.9 2.95.60 5.60 5.705.702 2 1.4 1.45.805.806.006.005.905.901 1 0.7 0.
4、7某地某地140140名正常男子红细胞数频数表名正常男子红细胞数频数表直方图频数分布表的用途频数分布表的用途1.可以替代繁琐的原始资料,便于进一步分析;可以替代繁琐的原始资料,便于进一步分析;2.便于观察数据的分布类型;便于观察数据的分布类型;3.便于发现资料中某些远离群体的特大或特小的可便于发现资料中某些远离群体的特大或特小的可疑值;疑值;4.样本含量较大时,可用各组段的频率作为概率的样本含量较大时,可用各组段的频率作为概率的估计值。估计值。l频数分布的类型对称分布偏态分布l正偏态:l负偏态:二、离散型定量变量的频数分布例21:1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,
5、1,5,6,3,2,4,1,0,6,5,1,3,3,.,4,7。表21是96名妇女产前检查次数分布的频数表表表2-1 19982-1 1998年某地年某地9696名妇女产前检查次数分布名妇女产前检查次数分布检查次数 频数 频率()累计人数 累计频率 0 4 4.2 4 4.2 1 7 7.3 11 11.5 2 11 11.5 22 22.9 3 13 13.5 35 36.5 4 26 27.1 61 63.5 5 23 24.0 84 87.5 5 12 12.5 96 100.0 合 计 96 100第二节 集中趋势指标集中趋势指标用于描述一组同质计量资料的集中趋势或反映一组观察值的平均
6、水平。常用的平均数有算术均数、几何均数及中位数三种。一、算术均数(mean)l l算术均数简称平均数或均数。l lX表示变量X的样本均数,(希腊字母)表示总体均数。l l均数适用于对称分布资料,正态或近似正态分布资料。l计算方法直接法:直接法:当样本含量当样本含量n n较小时,可选用此法。较小时,可选用此法。设有设有n n个观察值,分别为个观察值,分别为X X1 1,X X2 2 ,XnXn,均,均数的计算公式为:数的计算公式为:例例 1.10 1.10名名1212岁男孩身高岁男孩身高(cm)(cm)分别为分别为125.5125.5,126.0126.0,127.0127.0,128.5128
7、.5,147.0147.0,131.0131.0,132.0132.0,140.0140.0。求平均数。求平均数。加权法:加权法:当样本含量当样本含量n n较大时,一般将观察较大时,一般将观察值分组,列出频数表,再用加权法计算均数。值分组,列出频数表,再用加权法计算均数。其计算公式为:其计算公式为:式中式中f f为各组的频数,为各组的频数,x x为各组的组中值。为各组的组中值。1.编制频数表编制频数表(1)求全距:)求全距:R183.5162.920.6(cm)(2)求组段和组距:)求组段和组距:20.6 102.06,取,取整数整数2.0cm为组距;第一组段的下限为为组距;第一组段的下限为1
8、62(3)列出频数表:)列出频数表:表表7-17-1中第中第3 3列为组中值列为组中值X X,计算方法是将本组下限,计算方法是将本组下限和下组下限相加除以和下组下限相加除以2 2,如第一组,如第一组X1=(162+164)/2=163X1=(162+164)/2=163,余此类推。第,余此类推。第4 4列列fXfX是频数是频数f f和组中值和组中值X X的乘积。的乘积。2.2.根据公式计算根据公式计算110110名名2020岁健康男大学生的身高均数为岁健康男大学生的身高均数为172.73cm172.73cm。二、几何均数(geometric mean,G)l l几何均数用几何均数用G G表示。
9、适用于表示。适用于对数正态分布资料或对数正态分布资料或等比资料等比资料,例如抗体的平均滴度和平均效价,例如抗体的平均滴度和平均效价。l l计算方法:计算方法:直接法:直接法:样本含量样本含量n n较小时,选用此法。有较小时,选用此法。有n n个观察个观察值值X1X1,X2 X2,XnXn,几何均数的计算公式为:,几何均数的计算公式为:上式计算时需作连乘,还要开上式计算时需作连乘,还要开n n次方,比较麻烦,一次方,比较麻烦,一般采用对数形式计算。般采用对数形式计算。l l例例.6.6份血清抗体滴度为:份血清抗体滴度为:1:21:2,1:41:4,1:81:8,1:81:8,1:161:16,1
10、:321:32,求平均数。,求平均数。几何平均滴度为1:8 102102名健康人的钩端螺旋体血清抗体平均滴度名健康人的钩端螺旋体血清抗体平均滴度抗体滴度抗体滴度 (1)人数人数f(2)滴度倒数滴度倒数X (3)lgX(4)flgX (5)(2)(4)1100 7 100 2.000 14.000 1200 19 200 2.301 43.719 1400 34 400 2.602 88.468 1800 29 800 2.903 84.187 11600 13 1600 3.204 41.652 合合 计计 102 272.026三、中位数(median,M)l l将一组观察值从小到大按顺序排
11、列,位次居中的观察值就称中位数。用M表示。l l中位数适用于任何一种分布的计量数据,一般多用于描述偏态分布或数据一端无界资料的集中趋势。l计算方法直接法:样本含量样本含量n n较小时,可根据下式计算:较小时,可根据下式计算:n为奇数时n为偶数时l l某病患者5人潜伏期分别为2,4,6,7,20,求中位数。本例n=5,为奇数天天若上例在第25天又发现一例患者,患者数增加为6名频数表法:样本含量样本含量n n较大时计算中位数可较大时计算中位数可用频数表法。将观察资料归纳成频数表,计用频数表法。将观察资料归纳成频数表,计算累计频数,按下式计算。算累计频数,按下式计算。L L为本组为本组(中位数所在组
12、中位数所在组)下限,下限,i i为本组组距,为本组组距,f f为本组为本组频数,频数,ffL L为上一组的累计频数。本组位置可根据累计为上一组的累计频数。本组位置可根据累计频数的数值来判断。当某一组的累计频数首先超过频数的数值来判断。当某一组的累计频数首先超过n/2n/2时或累计频率首先超过时或累计频率首先超过50%50%时,即定为本组。时,即定为本组。107107名正常人尿铅含量分布名正常人尿铅含量分布尿铅尿铅(mg/l)(mg/l)例数例数f f累计频数累计频数ffL L累计频率累计频率(%)(%)0 0 14 14 14 14 13.1 13.1 4 4 22 22 36 36 33.6
13、 33.6 8 8 29 29 65 65 60.7 60.7 12 12 18 18 83 83 77.6 77.6 16 16 15 15 98 98 91.6 91.6 20 20 6 6 104 104 97.1 97.1 24 24 1 1 105 105 98.1 98.1 28 28 2 2 107 107 100.0 100.0附:百分位数(PX)l l百分位数是一种位置指标,用百分位数是一种位置指标,用P PX X表示。对总体来表示。对总体来说,它表示总体中数值小于说,它表示总体中数值小于P PX X的个体恰有的个体恰有X X;对样本来说,它表示按照升序排列的数列里小于对样本
14、来说,它表示按照升序排列的数列里小于P PX X的个体恰占的个体恰占X Xl l百分位数是一个有序数列百等分的分割值。第百分位数是一个有序数列百等分的分割值。第5050百分位数百分位数(P50)(P50)也就是中位数,中位数是一个特也就是中位数,中位数是一个特定的百分位数。定的百分位数。l l计算公式:计算公式:对上例的资料计算对上例的资料计算P P2525,P P7575。求求P P2525,由第,由第4 4栏可见,第栏可见,第2 2组的累计频率超组的累计频率超2525,该,该组即组即P P2525所在组。所在组。求求P P7575,同理,同理P P7575在第在第4 4组段内组段内第三节
15、离散趋势指标l l两组计量数据如下,分析其分布特征。两组计量数据如下,分析其分布特征。两组计量数据如下,分析其分布特征。两组计量数据如下,分析其分布特征。l l甲组:甲组:甲组:甲组:98989898,99999999,100100100100,101101101101,102 102 102 102 l l乙组:乙组:乙组:乙组:80808080,90909090,100100100100,110110110110,120 120 120 120 两组数据的均数都是100,说明集中趋势相同。但两组数据的分布特征不尽相同,5个数据间的参差不齐的程度不一样。甲组数据的变化范围较小,而乙组数据的变
16、化范围较大,即两组的离散度不同,离散度是一个非常重要的统计指标。一、全距(range,R)亦称极差,用R表示,是一组观察值中最大值与最小值之差,反映个体差异的范围。全距大,说明变异度大;反之,说明变异度小。如上例中甲组全距为4,乙组全距为40,表明乙组变异度大。但全距除了最大值和最小值之外,不能反映组内其它数据的变异度;易受个别数据的影响,稳定性较差,抽样误差较大,而且还受n大小的影响,平均起来,n越大,全距越大。二、四分位数间距(quartile range,Q)l l四分位数间距是两个特定的百分位数之差,用Q表示l lQQUQLP75P25l l适用于任何分布的计量资料,尤其适用于偏态分布
17、的资料(不宜用标准差表示离散度)l l四分位数间距比全距稳定,但仍然未考虑到每个观察值的变异。三、方差与标准差为克服全距的缺点,应全面考虑组内每个观察值的离散情况。可考虑以总体中每个变量值X与总体平均数之差,称为离均差X-。由于离均差有正有负,其和为0,这样仍不能反映变异度的大小。故将离均差平方后再相加,称离均差平方和l l为了消除观察值的总个数为了消除观察值的总个数N N的影响,将离均差平方的影响,将离均差平方和除以和除以N N,这就是,这就是总体方总体方差差,用,用2 2表示表示。l l方差的单位是原度量单位方差的单位是原度量单位方差的单位是原度量单位方差的单位是原度量单位 (如如如如kg
18、)kg)的平方,把总体方的平方,把总体方的平方,把总体方的平方,把总体方差开平方,这就是总体标差开平方,这就是总体标差开平方,这就是总体标差开平方,这就是总体标准差,度量单位与原始观准差,度量单位与原始观准差,度量单位与原始观准差,度量单位与原始观察值一致,即察值一致,即察值一致,即察值一致,即方差(variance)标准差(standard deviation)实际工作中经常得到的是样本资料,总体均数实际工作中经常得到的是样本资料,总体均数 是未是未知的,只能用样本均数知的,只能用样本均数X X代替代替。这样用。这样用 代代替替 ,用样本含量,用样本含量n n代替代替N N,所得的结果比,所
19、得的结果比偏小。英国统计学家提出用偏小。英国统计学家提出用n-1n-1代替代替n n,求得样本标,求得样本标准差更接近总体标准差准差更接近总体标准差,样本标准差用,样本标准差用S S表示,公表示,公式为:式为:上式上式n-1n-1称为称为自由度(自由度()。样本标准差计算也可用样本标准差计算也可用直接法直接法或或加权法加权法。n n较小时,选择较小时,选择直接法,直接法,n n较大,选择加权法较大,选择加权法直接法:直接法:由于由于标准差的计算公式可改写为:标准差的计算公式可改写为:标准差的计算公式可改写为:标准差的计算公式可改写为:l l计算两组数据的标准差计算两组数据的标准差l l 甲组:
20、甲组:n=5n=5,l lXX98+99+100+101+102 98+99+100+101+102=500=500l lXX2 298982 2+99+992 2+100+1002 2+101+1012 2+102+1022 25001050010l l乙组:乙组:乙组:乙组:n=5n=5n=5n=5,XXXX500500500500,XXXX2 2 2 2 51000510005100051000甲组:甲组:甲组:甲组:98989898,99999999,100100100100,101101101101,102 102 102 102 乙组:乙组:乙组:乙组:80808080,90909
21、090,100100100100,110110110110,120120120120l加权法加权法例:求表例:求表P7P71 1中中110110名名2020岁男大学生身高的标准差。岁男大学生身高的标准差。l l已知已知ff110110,fXfX1900019000,需要在该表中增加,需要在该表中增加fxfx2 2栏,由第栏,由第(3)(3)、(4)(4)栏相乘,再将该栏数据相加,栏相乘,再将该栏数据相加,将将fXfX2 232836463283646代入公式代入公式四、变异系数(coefficient of variation,CV)l l适用适用:(1 1)比较度量单位不同的多组资料的变异)
22、比较度量单位不同的多组资料的变异度度(2 2)比较均数相差悬殊的多组资料变异度)比较均数相差悬殊的多组资料变异度l l计算公式为:l l例:某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm,其体重均数为53.72kg,标准差为4.96kg。请比较何者变异度较大。由于两者度量单位不同,不能直接比较标准差,而应比较变异系数。身高体重运用离散指标的注意事项:运用离散指标的注意事项:1离散指标表示变量值的变异情况,常与集中指标离散指标表示变量值的变异情况,常与集中指标(如均数)结合运用。(如均数)结合运用。2离散指标种类虽多,但一般其值大表示变异大,离散指标种类虽多,但一般其
23、值大表示变异大,数值较分散;值小表示变异小,数值较集中。比较两数值较分散;值小表示变异小,数值较集中。比较两个或几个同类事物的变异,要用同一变异指标。个或几个同类事物的变异,要用同一变异指标。3正态分布资料宜用均数与标准差(有时用方差)正态分布资料宜用均数与标准差(有时用方差)描述集中与离散情况描述集中与离散情况,记为,记为XS。有时为便于计算,。有时为便于计算,正态分布资料亦可用中位数、百分位数和四分位数间正态分布资料亦可用中位数、百分位数和四分位数间距等描述,其结果与用均数、标准差相近。距等描述,其结果与用均数、标准差相近。运用离散指标的注意事项:运用离散指标的注意事项:4.偏态分布资料宜
24、用几何均数、中位数及四分位数偏态分布资料宜用几何均数、中位数及四分位数间距等描述。间距等描述。尤其在资料分布呈明显偏态时,随着尤其在资料分布呈明显偏态时,随着例数的增多,中位数、四分位数间距的代表性和稳例数的增多,中位数、四分位数间距的代表性和稳定性明显优于均数、标准差及方差。定性明显优于均数、标准差及方差。5.比较几组资料的变异程度,若各组资料的单位不比较几组资料的变异程度,若各组资料的单位不全相同,或均数相差悬殊时,用变异系数。全相同,或均数相差悬殊时,用变异系数。6判断几个方差或变异系数间有无显著差别,需判断几个方差或变异系数间有无显著差别,需作假设检验,不能只看表面值。作假设检验,不能
25、只看表面值。箱式图箱式图 (box plotbox plot)l一般选用5个描述统计量(最小值、P25、中位数、P75、最大值)来绘制。用于多组数据的直观比较分析用于多组数据的直观比较分析练习:被试者被试者9人,试验时坐在舒适的牙科椅上测口腔人,试验时坐在舒适的牙科椅上测口腔压力波幅压力波幅PcmAq(厘米水柱)。然后外加呼吸阻(厘米水柱)。然后外加呼吸阻力力20cmAq(1/sec),),5分钟时再测口腔压力波幅分钟时再测口腔压力波幅结果如下。试比较外加呼吸阻力前后,口腔压力结果如下。试比较外加呼吸阻力前后,口腔压力波幅的变异。波幅的变异。口腔压力波幅,cmAgXS加阻力前1.2180.256加阻力后7.2400.633表外加呼吸阻力前后的口腔压力波幅加阻力前加阻力后因此,外阻力前口腔压力波幅的变异较大。因此,外阻力前口腔压力波幅的变异较大。(注:差异是否有意义需要作统计学检验)(注:差异是否有意义需要作统计学检验)