《最新定量资料统计描述07224PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新定量资料统计描述07224PPT课件.ppt(87页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、定量资料统计描述定量资料统计描述072240722420062006年某市年某市120120名名1010岁男孩的身高(岁男孩的身高(cmcm)资料如:)资料如:135.4 139.8 144.0 147.3 146.3 142.5 138.1 143.6 141.6 152.6132.1 144.7 143.6 146.8 144.2 141.3 137.5 142.8 140.6 150.4145.9 140.2 144.5 148.2 146.4 142.4 138.5 148.9 146.2 155.4134.2 139.2 143.5 141.6 143.5 142.3 148.9 1
2、43.6 141.5 151.1132.5 138.7 149.6 146.9 148.7 141.5 137.8 142.7 144.6 151.8136.4 140.0 144.3 147.5 145.6 142.5 138.5 143.7 149.5 153.6130.2 138.9 143.7 146.5 138.8 141.7 136.9 142.0 140.5 150.3135.7 145.7 144.2 147.8 145.8 142.6 138.6 143.8 141.3 153.9133.4 139.6 143.7 147.5 144.8 148.0 137.4 142.1
3、140.8 141.8134.5 139.4 142.9 147.5 144.7 141.8 136.9 143.5 140.7 151.4145.6 147.3 143.9 141.9 151.6 145.6 148.9 144.3 139.1 145.8145.6 145.3 147.6 148.6 145.5 137.3 146.5 140.3 148.4 136.5 23.确定组段确定组段 即确定每一组的起点(下限)和终即确定每一组的起点(下限)和终点(上限)点(上限)。起点称为下限(起点称为下限(lower limit)终点称为上限(终点称为上限(upper limit)上限上限=下
4、限下限+组距组距94.归组计数,整理成表归组计数,整理成表 确确定定组组段段界界限限后后,采采用用计计算算机机或或用用划划记记法法将将各各原原始始数数据据归归入入各各组组汇汇总总,得得出出各各组组段段的的观观察察例例数数,也也就就是是频频数数。10表表4-1 2006年某市年某市120名名10岁男孩身高(岁男孩身高(cm)的频数表)的频数表身高身高(1)频数频数(2)频率(频率(%)(3)累计频数累计频数(4)累计频率累计频率(%)(5)130132134136138140142144146148150152154156 1 3 4 8121721201410 6 3 1 0.8 2.5 3.
5、3 6.710.014.217.516.711.7 8.3 5.0 2.5 0.8 1 4 8 16 28 45 66 86100110116119120 0.8 3.3 6.713.323.337.555.071.783.391.796.799.2100.0合计合计 120 100.011(三)、频数表的用途(三)、频数表的用途 1.揭示资料的频数分布特征和频数分布类型揭示资料的频数分布特征和频数分布类型 频数分布的特征:频数分布的特征:集中趋势(集中趋势(central tendency)离散趋势(离散趋势(dispersion)频数分布的类型:频数分布的类型:对称分布对称分布 偏态分布偏
6、态分布 122.便于进一步计算指标和统计处理便于进一步计算指标和统计处理 利用频数表计算百分位数、中位数、标准差等利用频数表计算百分位数、中位数、标准差等3.便于发现某些特大或特小的可疑值。便于发现某些特大或特小的可疑值。对对于于频频数数表表,如如果果连连续续某某几几个个组组段段的的频频数数为为0,接接下下来来的的组组段段出出现现频频数数不不为为0的的数数值值,此此数数值即为可疑值。值即为可疑值。13 频频数数图图(graph of frequency)是是以以变变量量值值为为横横坐坐标标、频频数数(频频率率)为为纵纵坐坐标标(不不等等距距分分组组时时以以频频率率/组组距距=频频率率密密度度为
7、为纵纵坐坐标标),以以每每个个等等宽宽的的矩矩形形面面积积表表示示每每组的频数(或频率)。组的频数(或频率)。二、频数图(二、频数图(graph of frequency)(一)、频数图的概念(一)、频数图的概念14P连续型定量资料:频数图中各矩形是相连续型定量资料:频数图中各矩形是相连的,又称连的,又称直方图直方图(histogram););P离散型定量资料:频数图中各矩形是间离散型定量资料:频数图中各矩形是间隔的,又称隔的,又称直条图直条图(bar graph)。)。15图图4-1 2006年某市年某市120名名10岁男孩身高的频数图岁男孩身高的频数图16图图 69 69例例RARA患者血
8、清患者血清EBV-VCA-IgGEBV-VCA-IgG 抗体滴度的频数分布抗体滴度的频数分布图图 101 101名正常人血清肌红蛋白的频数分布名正常人血清肌红蛋白的频数分布172 集中趋势的描述18定量资料集中趋势的描述,常用平均数定量资料集中趋势的描述,常用平均数(average)表达一组同质定量数据的平均水平或集中位置。表达一组同质定量数据的平均水平或集中位置。P 算术均数P 几何均数P 中位数P 众数P 调和均数19 又又称称均均数数(mean),是是用用一一组组观观察察值值相相加加除除以以观观察察值值的的个个数数所所得得。样样本本均均数用数用 ,总体均数用,总体均数用 。P 算术均数(
9、算术均数(arithmetic mean)201.计算方法计算方法P直接法:样本含量较少直接法:样本含量较少 P加权法:相同观察值较多或频数表资料加权法:相同观察值较多或频数表资料21【例例4-2】某某医医生生测测量量了了10名名脑脑出出血血患患者者的的血血尿尿素素氮氮(mmol/L)分分别别是是:7.4、6.7、6.9、7.3、7.6、6.5、7.8、8.2、8.0、6.6,试计算该组数据的均数。,试计算该组数据的均数。1022【例【例4-3】根据表】根据表4-1资料,用加权法求资料,用加权法求120名名10岁男孩身高的均数。岁男孩身高的均数。身高身高(1)频数频数fi(2)组中值组中值xi
10、(3)fixi(4)130132134136138140142144146148150152154156 1 3 48121721201410 6 3 1131133135137139141143145147149151153155 131 399 5401096166823973003290020581490906459155合计合计120()17202()表表4-2 2006年某市年某市120名名10岁男孩身高(岁男孩身高(cm)的均数计算表)的均数计算表232.应用应用 均数适用于均数适用于对称分布对称分布特别是特别是正态分布正态分布资资料集中趋势的描述。料集中趋势的描述。24 是是n个
11、观察值乘积的个观察值乘积的n次方根,又次方根,又称倍数均数,用称倍数均数,用G表示表示。P几何均数(几何均数(geometric mean)251.计算方法计算方法P直接法:样本含量较少直接法:样本含量较少 P加权法:相同观察值较多或频数表资料加权法:相同观察值较多或频数表资料26 【例例4-4】某某实实验验室室测测得得7人人血血清清中中某某种种抗抗体体的的滴滴度度分分别别为为1/4,1/8,1/16,1/32,1/64,1/128,1/256,试试求求平均滴度。平均滴度。27【例【例4-6】50名麻疹易感儿接种麻疹疫苗后,测得血凝名麻疹易感儿接种麻疹疫苗后,测得血凝抑制抗体滴度资料见表抑制抗
12、体滴度资料见表4-3,求抗体的平均滴度。,求抗体的平均滴度。86.9977抗体滴度抗体滴度(1)频数频数 (2)滴度倒数滴度倒数(3)(4)(5)1/41/8 1/16 1/32 1/64 1/128 1/2561361013107 4 8 16 32 641282560.60210.90311.20411.50511.80622.10722.4082 0.6021 2.7093 7.224615.505123.480621.072016.8574合计合计50表表4-3 50名麻疹易感儿血凝抑制抗体滴度名麻疹易感儿血凝抑制抗体滴度28 50名麻疹易感儿接种麻疹疫苗后血凝抑制名麻疹易感儿接种麻疹
13、疫苗后血凝抑制抗体的平均滴度为抗体的平均滴度为1/54。292.应用及注意事项应用及注意事项几何均数适用几何均数适用 对数正态分布对数正态分布 等比级数资料等比级数资料观察值中不能有观察值中不能有0 观察值不能有正有负观察值不能有正有负30P中位数与百分位数中位数与百分位数 【例例4-7】200名名食食物物中中毒毒患患者者潜潜伏伏期期资资料料如如表表4-4,研研究究人人员员据据此此采采用用加加权权法法计计算算均均数数得得平平均均潜潜伏期为伏期为27小时。小时。(1)该组数据在分布上有何特点?)该组数据在分布上有何特点?(2)用均数描述该资料的平均水平是否合适?)用均数描述该资料的平均水平是否合
14、适?31表表4-4 200名食物中毒患者的潜伏期名食物中毒患者的潜伏期潜伏期(小时)潜伏期(小时)(1)频数频数(2)累计频数累计频数(3)累计频率(累计频率(%)(4)=(3)/n030 3015.0127110150.5244915074.5362817889.0481419296.060 719999.57284 1200 100.0合计合计 20032P中中位位数数(median):将将一一组组观观察察值值由由小小到到大大排排序序后后,居居于于中中间间位位置置的的数数值值即即为为中中位位数数,用,用 表示。表示。中中位位数数是是一一种种位位置置平平均均数数,它它将将全全部部数数据据排排
15、列列成成的的有有序序数数列列平平均均分分为为两两部部分分,小小于于和和大大于于中中位位数数的的观观察察值值个个数数相相等等,各各占占50%。331.中位数的计算中位数的计算(1)直接法:观察值个数较少)直接法:观察值个数较少 34【例例4-8】某某实实验验师师对对10只只小小白白鼠鼠染染毒毒后后观观察察各各小小鼠鼠的的生生存存时时间间(分分钟钟),得得数数据据为为:35,60,62,63,63,65,66,68,69,69,试试计计算算小小白白鼠鼠的的平平均生存时间。均生存时间。35(2)频数表法)频数表法:频数表资料:频数表资料LM 中位数所在组段下限中位数所在组段下限 组距组距 中位数所在
16、组段的频数中位数所在组段的频数 中位数所在组段前一组的累计频率中位数所在组段前一组的累计频率36求:下表求:下表200名食物中毒患者的平均潜伏期名食物中毒患者的平均潜伏期潜伏期(小时)潜伏期(小时)(1)频数频数(2)累计频数累计频数(3)累计频率(累计频率(%)(4)=(3)/n030 3015.0127110150.5244915074.5362817889.0481419296.060 719999.57284 1200 100.0合计合计 20037(小时)38P百百分分位位数数(percentile):是是指指将将一一组组观观察察值值由由小小到到大大排排序序后后,将将其其平平均均分分
17、成成100等等份份,对对应应于于每每一一分分割割位位置置上上的的数数值值就就称称为为一个百分位数,用一个百分位数,用 表示表示。39 是是一一种种位位置置指指标标,一一个个百百分分位位数数将将一一组组观观察察值值分分为为两两部部分分,理理论论上上有有x%的的观观察察值比它小,有(值比它小,有(100-x)%的观察值比它大。的观察值比它大。40【例【例4-10】根据表】根据表4-4,计算,计算P25、P75。(小时)(小时)412.中位数与百分位数的应用中位数与百分位数的应用P中中 位位 数:数:偏态分布资料偏态分布资料 一端或两端无确切值一端或两端无确切值 总体分布不明总体分布不明P百分位数:
18、百分位数:非正态分布资料非正态分布资料 423 离散趋势的描述离散趋势的描述 43 【例【例4-11】分别观察两组各分别观察两组各9只动物的每日进食量只动物的每日进食量(mg/g),结果如下:),结果如下:A组组 24 25 26 27 28 29 30 31 32 B组组 20 21 22 23 24 25 26 27 64P两组动物每日进食量的平均数,均为两组动物每日进食量的平均数,均为28mg/g。思考:思考:28mg/g能否分别代表两组动物每日近食量能否分别代表两组动物每日近食量的平均水平?的平均水平?44P离散趋势是频数分布的另一特征,反离散趋势是频数分布的另一特征,反映了观察值之间
19、的变异情况,只有将映了观察值之间的变异情况,只有将集中趋势集中趋势与与离散趋势离散趋势结合起来描述才结合起来描述才能全面反映定量资料的数量特征。能全面反映定量资料的数量特征。45描述离散描述离散趋势指标趋势指标 极差极差 四分位间距四分位间距 标准差标准差 变异系数变异系数46极差(极差(range,R):亦称全距,是一组同质观察):亦称全距,是一组同质观察值中最大值(值中最大值()与最小值()与最小值()之差。)之差。极极 差差 P 概念概念极差越大表示数据离散程度越大极差越大表示数据离散程度越大47只考虑最大值与最小值之差异,不能只考虑最大值与最小值之差异,不能 反映组内其它观察值的变异度
20、反映组内其它观察值的变异度样本含量越大,极差可能越大样本含量越大,极差可能越大P 极差描述离散趋势的局限极差描述离散趋势的局限48四四分分位位数数间间距距(inter-quartile range,Q):为为上上四四分分位位数数QU(即即P75)与与下下四四分分位位数数QL(即(即P25)之差。)之差。四分位数间距四分位数间距 P 概念概念49 【例【例4-12】根据例】根据例4-7资料,计算四分位数间距。资料,计算四分位数间距。小时小时 小时小时 四分位数间距:四分位数间距:(小时)(小时)50每个观察值每个观察值x与与 间的变异称为离均差间的变异称为离均差由于由于变异程度用离均差平方和反应
21、变异程度用离均差平方和反应 方方 差差 考虑观察值个数考虑观察值个数N的影响的影响 51在实际工作中,采用样本方差在实际工作中,采用样本方差 n-1称为自由度称为自由度(degree of freedom)方差适用:描述对称分布特别是正态分布资料方差适用:描述对称分布特别是正态分布资料的离散程度。的离散程度。52P方差的度量单位是原度量单位的平方方差的度量单位是原度量单位的平方 P方差开方后即与原数据的度量单位相同,方差开方后即与原数据的度量单位相同,这就是这就是标准差标准差(standard deviation)标准差标准差 53P在实际工作中,常计算样本标准差在实际工作中,常计算样本标准差
22、 n-1称为自由度称为自由度(degree of freedom)标准差适用:标准差适用:描述对称分布特别是正态分布资料描述对称分布特别是正态分布资料 的离散程度。的离散程度。54数学上可以证明数学上可以证明 55 【例例4-13】某某医医生生测测量量了了10名名脑脑出出血血患患者者的的血血尿尿素素氮氮(mmol/L)分分别别是是:7.4、6.7、6.9、7.3、7.6、6.5、7.8、8.2、8.0、6.6,试试计计算算该该组组数数据据的标准差。的标准差。56身高身高(1)频数频数(2)频率(频率(%)(3)累计频数累计频数(4)累计频率(累计频率(%)(5)1301321341361381
23、40142144146148150152154156 1 3 4 8121721201410 6 3 1 0.8 2.5 3.3 6.710.014.217.516.711.78.35.02.50.8 1 4 8 16 28 45 66 86100110116119120 0.8 3.3 6.713.323.337.555.071.783.391.796.799.2100.0合计合计 120 100.0【例【例4-14】根据下表资料,计算】根据下表资料,计算120名名10岁男孩身高的标准差。岁男孩身高的标准差。5758 【例例4-15】某某医医院院预预防防保保健健科科,对对一一组组5岁岁男男孩
24、孩进进行行体体检检,测测量量身身高高、体体重重等等指指标标。得得身身高高均均数数与与标标准准差差为为115.8 cm和和4.5 cm,体体重重均均数数与与标标准准差差为为20.2kg和和0.56 kg,得得出出结结论论:身身高高的的变变异异程程度度比比体体重大。重大。变异系数变异系数 上述结论是否正确?上述结论是否正确?59变异系数(变异系数(coefficient of variation,简记为简记为CV):):是一组观察值的标准差与其均数的比值,是一组观察值的标准差与其均数的比值,P 概念概念度量衡单位不同的资料度量衡单位不同的资料单位相同但均数相差悬殊的两组或多组资料单位相同但均数相差
25、悬殊的两组或多组资料 P 适用于适用于60根据例根据例4-15资料分别计算身高与体重的变异系数。资料分别计算身高与体重的变异系数。身高:身高:体重:体重:614 正态分布及其应用62图图4-1 120名名10岁男孩身高资料的频数图岁男孩身高资料的频数图 6364正正态态分分布布(normal distribution)称称为为高高斯斯分分布布(Gauss distribution),如如果果连连续续型型随随机机变量变量X的概率密度函数为:的概率密度函数为:P 概念概念正态分布的概念与特征正态分布的概念与特征 则称随机变量则称随机变量X服从参数为服从参数为 和和 的正态分布,的正态分布,记作:记
26、作:x 65正正态态曲曲线线(normal curve)在在横横轴轴上上方方均均数数处处最最高高;并并以以均均数数为为中中心心,左左右右对对称称;两两端端与横轴永不相交,呈钟形曲线。与横轴永不相交,呈钟形曲线。P 正态分布特征正态分布特征正态曲线正态曲线66正态分布有两个参数,即位置参数正态分布有两个参数,即位置参数 和形状和形状参数参数 峰的位置位置参数67形态参数68正态曲线下面积的分布有一定的规律。正态曲线下面积的分布有一定的规律。正态曲线与横轴之间的面积恒等于正态曲线与横轴之间的面积恒等于1或或100%;对称分布,对称轴两侧的面积各为对称分布,对称轴两侧的面积各为50;在在 区间的面积
27、为区间的面积为68.27 在在 区间的面积为区间的面积为95.00 在在 区间的面积为区间的面积为99.00 6970思思考考:能能否否编编制制正正态态曲曲线线下下面面积积的的分分布布表表,然然后通过查表来确定某区间对应的面积呢?后通过查表来确定某区间对应的面积呢?标准正态分布标准正态分布 统统计计学学家家发发现现,可可以以使使所所有有的的正正态态分分布布转转化化为为统统一一的的 ,的的正正态态分分布布,该该正正态态分分布布称称为为 标标 准准 正正 态态 分分 布布(standard normal distribution)。)。71这种变换称为标准化变换或这种变换称为标准化变换或Z变换。若
28、变换。若X服从正态服从正态分布分布 ,则,则Z就服从就服从 。72标准正态分布曲线下面积分布规律73 【例例4-18】已已知知某某地地2003年年18岁岁男男大大学学生生身身高高的的均均数数 cm,标标准准差差 cm,且且18岁岁男男大大学学生生的的身身高高服服从从正正态态分分布布。问问该该地地18岁岁男男大大学学生生中身高在中身高在166.8 cm及其以下者占多大的比例?及其以下者占多大的比例?先将先将x转换为转换为z 查附表查附表3 表的左侧找表的左侧找-1.9,表的上方找,表的上方找0.06,相交处为,相交处为0.025 74 【例【例4-19】某地某地2003年抽样调查了年抽样调查了1
29、00名名18岁男岁男大学生身高,算得均数为大学生身高,算得均数为172.70cm,标准差为,标准差为4.01cm。正态分布的应用正态分布的应用 P 估计正态分布资料的频数分布估计正态分布资料的频数分布【问题】【问题】该地该地18岁男大学生中身高在岁男大学生中身高在162.35cm183.05cm 范围内者所占的比例是多少?范围内者所占的比例是多少?75 查查附附表表3,左左侧侧的的面面积积为为0.005,由由正正态态分分布布曲曲线线的的对对称称性性可可知知,右右侧侧的的面面积积也也为为0.005,又又由由正正态态分分布布曲曲线线下下的的总总面面积积为为 1,可可 得得-2.58与与 2.58之
30、之 间间 的的 面面 积积 为为 1-20.005=0.99=99%。76P制定医学参考值范围制定医学参考值范围 医医学学参参考考值值范范围围:亦亦称称正正常常值值范范围围,指指绝绝大大多多数数“正正常常人人”的的解解剖剖、生生理理、生生化化等等指指标标的的波动范围。波动范围。所所谓谓“正正常常人人”不不是是指指绝绝对对的的“健健康康人人”,而而是是指指排排除除了了影影响响所所研研究究指指标标的的疾疾病病和和有有关关因因素素的同质人群。的同质人群。77制定医学参考值范围的注意事项制定医学参考值范围的注意事项P要确定一批样本含量足够大的要确定一批样本含量足够大的“正常人正常人”P根据研究目的和使
31、用要求选定适当的百分界值根据研究目的和使用要求选定适当的百分界值P根据专业知识确定单侧或双侧界值根据专业知识确定单侧或双侧界值P根据资料的分布选用恰当的计算方法根据资料的分布选用恰当的计算方法 78制定医学参考值范围常用方法制定医学参考值范围常用方法正态分布法:适用于正态或近似正态分布的资料正态分布法:适用于正态或近似正态分布的资料 双侧界值 单侧界值 79表表4-6 常用常用z值表值表参考值范围(参考值范围(%)单侧单侧双侧双侧800.8421.282901.2821.645951.6451.960992.3262.57680【例例4-19】某某地地2003年年抽抽样样调调查查了了100名名
32、18岁岁男男大大学学生生身身高高(cm),算算得得均均数数为为172.70cm,标标准准差为差为4.01cm。【例例4-20】利利用用例例4-19资资料料估估计计该该地地18岁岁男男大大学学生身高的生身高的95参考值范围。参考值范围。81 身高服从正态分布,其参考值范围应为双侧。身高服从正态分布,其参考值范围应为双侧。采用公式采用公式 计算,百分数取计算,百分数取95%,得得164.84180.56,故该地,故该地18岁男大学生身高的岁男大学生身高的95参考值范围是(参考值范围是(164.84180.56)cm。82百分位数法:偏态分布资料以及资料中一端或两百分位数法:偏态分布资料以及资料中一
33、端或两端无确切数值端无确切数值 双侧界值 单侧界值 P2.5P97.5 上界为:上界为:P95 下界为:下界为:P5 83【例例4-21】测测得得某某地地200名名正正常常人人尿尿汞汞值值(),求该地正常人尿汞值的求该地正常人尿汞值的95参考值范围?参考值范围?表表4-7 某地某地200名正常人尿汞值(名正常人尿汞值()尿汞值尿汞值048121620242832364044485256例例 数数30213327252214865332184 由由表表4-7可可以以看看出出,正正常常人人尿尿汞汞值值的的分分布布为为偏偏态态分分布布,不不适适宜宜采采用用正正态态分分布布法法,应应采采用用百百分分位位数数法;且尿汞的参考值范围应为单侧上界法;且尿汞的参考值范围应为单侧上界 8586