《定量资料的统计描述定量资料的统计描述通过调查或.docx》由会员分享,可在线阅读,更多相关《定量资料的统计描述定量资料的统计描述通过调查或.docx(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章 定量资料的统计描述 通过调查或实验收集到资料之后,需要对资料进行统计分析。统计分析包括统计描述和统计推断两个方面的内容。统计描述就是对数据包含的信息加以整理、概括和浓缩,用适当的统计图表和统计指标来表达资料的特征或规律,统计描述也是统计推断的基础。本章介绍定量资料(quantitative data)的统计描述。第一节 频数分布表与频数分布图一、频数分布表从医学实践中收集到的大量资料,如果只是简单地罗列一连串的数据,不容易看出其中蕴涵的信息和规律,所以需要进行分组整理,以便能用简明扼要的形式来全面反映资料的特点。分组整理就是根据研究的目的,将数据按照某种标准(标志)划分成不同的组别,统
2、计不同组别内的观察值个数。不同组别的观察值个数就称为频数(frequence),表示观察值在各组出现的频繁程度。将分组的标志和相应的频数列表,即为频数分布表,简称频数表(frequency table)。不同类型的定量变量可以制作不同分组形式的频数表。(一) 离散型定量变量的频数表 例4.1 某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,根据该资料制作频数表。本次调查资料“引体向上完成次数”是离散型定量变量,所以按变量的取值(次数)为单位分组,再列出各组的频数,如表4.1的第(1),(2)栏,就能得到相应的频数表。将各组的频数除以总频数所得的值称为频率,见第
3、(3)栏。某组的累计频数是该组与前面各组频数之和,见第(4)栏。显然,第一组的累计频数等于其频数,最后一组的累计频数等于总例数;累计频数除以总频数所得的值称为累计频率,见第(5)栏。表4.1 2005年某市102名高中男生引体向上完成次数的频数分布完成次数 频数f频率(%)累计频数累计频率(%)(1) (2) (3)(4)(5)232.9432.94376.86109.8041615.692625.4953332.355957.8462423.538381.3771413.739795.10843.9210199.02910.98102 100.00合计102 100.00(二) 连续型定量变
4、量的频数表例4.2 在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。1.706 1.326 1.632 1.876 2.161 1.684 1.533 1.175 1.867 1.676 2.091 1.847 1.213 1.277 0.989 2.235 1.665 1.289 1.724 1.548 1.608 1.890 1.733 1.796 1.203 1.736 1.450 1.633 1.555 1.352 1.832 1.444 1.737 1.459 1.450 1.782 1.555 1.634 1.508
5、 2.343 1.509 1.745 1.953 1.744 1.695 1.707 1.901 1.825 1.597 2.338 1.708 1.711 1.856 1.644 1.716 1.978 1.534 1.900 1.595 1.646 1.905 1.610 1.614 1.422 2.301 2.127 1.348 1.317 1.062 1.830 1.980 1.570 1.495 1.864 2.170 2.000 1.705 1.863 1.424 2.022 2.068 1.576 1.833 1.659 2.212 1.399 2.128 1.543 1.562
6、 1.382 1.291 1.796 1.647 1.415 1.873 0.996 1.936 1.526 1.424 1.589 1.670 1.056 1.969 1.481 2.406 2.123 1.988 1.512 1.030 1.886 1.930 1.725 1.374 1.654 1.663 1.438 1.645 1.214 1.184 1.735 “肺活量”是连续型定量变量,需要按变量的取值范围划分成几个区间,每个区间称为一个组段,用各组段与对应的频数列表,即得到频数表。编制连续型定量变量频数表的过程为:1. 求全距(range):全距又称为极差,是全部数据中最大值与最
7、小值之差,用符号表示,本例的全距2. 划分组段确定组数:分组的目的是反映数据分布的特征,因此组数应适中。若组数太多,数据的分布过于分散,难以显示出频数分布的规律性,并有可能出现某些组内频数为0的情况;若组数过少,可能丢失重要的细节信息,不能充分体现资料的分布特征。组数的多少与观察值的个数n有关,一般当观察值的个数n 在50以下时可分5到8组,n在50以上时可分9到15组,实际运用时应根据分析的要求,灵活确定组数。本例n为120,拟分11组。确定组距:等距分组时,为便于计算,组距可适当取整。本例,故可取0.130为组距。确定各组段的上下限:确定组数和组距后,要使每一个观察值都有组可归,同时又要使
8、每一个观察值只能归属于某一组,这就要求合理地设置各组段的上下限。每个组段的起点称为该组的下限(lower limit),终点称为该组的上限(upper limit),上限=下限+组距。在确定第一个组段时,其下限可取一个小于最小观察值的数,例如,本例取0.980为第一组下限,加上组距0.130即为第二组下限,依次类推,直到最末一组。为表示各组段均为半开半闭区间(下限为闭区间,上限为开区间),除最末一组外,一般只写出下限。3. 统计各组段频数:采用计算机汇总或用手工划记法,得到各组段内的观察值个数即频数,划记时为避免重复计数,对于刚好等于某一组段上限的观察值要算在下一组段内。将各组段与相应频数列表
9、,如表4.2的第(1)、(2)栏,即得到频数表。 表4.2 2005年某市120名9岁男孩肺活量(L)频数分布组段频数( f )频率(%)累计频数累计频率(%)(1)(2)(3) (4)(5)0.98054.1754.171.11054.17108.331.24075.831714.171.3701411.673125.831.5001915.835041.671.6302924.177965.831.7601512.509478.331.8901210.0010688.332.02065.0011293.332.15043.3311696.67 2.2802.41043.33120100.0
10、0合计120100.00一般采用等距分组,但某些情况下,采用不等距分组更能反映现象的本质和特点。例如,进行人群疾病研究的年龄分组,为客观反映婴儿、幼儿和成年人疾病发生情况的特点,应采用不等距分组,可采取1岁以下按月分组,19岁按岁分组,10岁以后按每5岁或10岁分组等。二、频数分布图用图形的方法能够直观形象地表达频数分布的信息,并可与频数表互为补充。连续型定量变量的频数表可绘制成直方图。一般情况下,绘图时以横轴表示观察变量(组距),以纵轴表示频数。用表4.2资料绘制的直方图如图4.1所示。图4.1 2005年某市120名9岁男孩肺活量频数分布频数分布表和频数分布图的主要用途是:1. 揭示频数分
11、布的特征 从频数分布表和频数分布图可以看出频数分布的两个重要特征:集中趋势(central tendency)和离散趋势(dispersion tendency)。集中趋势是指一组数据向某一个位置聚集或集中的倾向,离散程度则反映的是一组数据的分散性或变异度,即各个数据离开集中位置的程度。如从表4.2和图4.1可见120名9岁男孩的肺活量大多数集中在中央部分,即中等肺活量者居多;从中央部分到两侧的频数分布逐渐减少,即少数人具有较大或较小的肺活量,则表现了肺活量分布的离散趋势。2. 揭示频数分布的类型 根据频数分布的特征可以将资料的分布分成对称型和不对称型两种类型。对称型的分布是指集中位置在中间,
12、左右两侧的频数大致对称的分布,如表4.2和图4.1所示。不对称型的分布是指频数分布不对称,集中位置偏向一侧,有时也称之为偏态分布。若集中位置偏向数值小的一侧(左侧),称为正偏态(positive skew),如图4.2所示;若集中位置偏向数值大的一侧(右侧),称为负偏态(negative skew),如图4.3所示。用频数分布表和频数分布图揭示频数分布的类型和特征,便于选用适当的统计方法。图4.2 2004年我国麻疹患者的年龄分布频数 评分图4.3 某市219名乳腺癌患者术后康复期生存质量评分的分布第二节 集中位置的描述利用频数分布表和频数分布图,可以使我们对数据的分布有一个直观的认识,为了进
13、一步掌握数据分布的规律,还需要用统计指标从数量上准确地反映数据分布的特征。平均数(average)是描述定量变量集中为使的特征值,用来说明数据的平均水平,它反映了一组资料的“一般”、“大多数”、“平常”等情况。平均数是一类统计指标的统称,在医学领域中常用的平均数有均数、几何均数和中位数。一、均数均数(mean)是算术均数(arithmetic mean)的简称,用于描述一组同质定量资料的平均水平。统计学中常用希腊字母表示总体均数,用表示样本均数。(一) 样本均数的计算1. 直接法 将所有的原始观察值直接相加后,再除以观察值的个数n,即 (4.1)式中,为求和符号。例4.3 利用例4.2的120
14、名9岁男孩的肺活量资料,用直接法计算平均肺活量。2. 加权法(weight method) 当资料中相同观察值较多时,将各相同观察值的个数(即频数f )与该观察值X的乘积相加,以代替原始观察值相加,再除以观察值的总个数,即 (4.2)在式(4.2)中,如果某个观察值的频数愈大,则该观察值对的影响愈大,因此频数又称为权数,计算出来的均数又称加权均数。如果只有频数表资料,因为不知道组段内的每个实际观察值,可以用组中值作为该组段观察值的代表值,再用加权法求均数,。例如,对2005年某市120名9岁男孩的肺活量资料,利用表4.2求均数为:结果与直接法计算结果很接近。频数表资料使用组中值代替实际观察值的
15、条件是假定各组数据在组内是均匀取值的,如不符合此条件,其误差会较大。(二) 均数的特性1. 各观察值与均数之差(离均差)的总和等于零。即。2. 各观察值的离均差平方和最小。即 。以上两个特性表明均数是一组单峰对称分布观察值最理想的代表值,这些特性在以后将多次用到。(三) 均数的应用1. 均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本资料进行比较。2. 均数适用于单峰对称分布资料,特别是正态分布或近似正态分布的资料,但由于均数易受到极端值的影响,故不适用于描述偏态分布资料的集中位置,这时需要采用几何均数或中位数。3. 均数在描述正态分布的特征方面有重要意义(见本章第四节)。二、
16、几何均数医学研究中的某些资料如血清抗体滴度、细菌计数、体内某些微量元素含量等,其特点是原始观察值呈正偏态分布,但经过对数变换后呈正态或近似正态分布,或者其观察值数值相差极大甚至达到不同数量级,此时若计算均数则不能正确描述其集中位置,宜采用几何均数(geometric mean)。(一) 几何均数的计算样本几何均数用表示,其计算方法也有直接法和加权法。1. 直接法 用n个观察值的连乘积开n次方,即 (4.3) 这个公式在观察值较多时使用不便,利用对数运算的性质,可表达为原始观察值对数值的算术均数,再取反对数,即 (4.4)例4.4 2006年某市卫生监督所对33家商场空气中的细菌密度(个/m3)
17、进行了监测,资料如下,试求其平均密度。1090 5128 2645 1197 22028 527 2162 2874 13769 45962564 4830 1388 11063 267 24016 4539 737 15510 7108 7801565 4598 2677 1325 741 3313 11222 6664 35412492 2629 488 本资料的大多数观察值集中在较小的数值一端,呈正偏态分布,不宜计算均数。对这些细菌密度观察值进行对数变换整理成频数分布表或频数分布图后,可发现其对数值近似单峰对称分布(读者可自行验证),故采用几何均数描述其集中趋势。按式(4.4)计算几何均
18、数:2. 加权法 当相同观察值较多时,如频数表资料,可用下式计算: (4.5)例4.5 某医院预防保健科用流脑疫苗为75名儿童进行免疫接种,1个月后测定其抗体滴度如表4.3所示,试求其平均滴度。表4.3 75名儿童的平均抗体滴度计算表抗体滴度滴度倒数XlgX频数ff lgX1:440.602142.40841:880.903198.12791:16161.20412125.28611:32321.50512030.10201:64641.80621221.67441:1281282.1072510.53601:2562562.408249.6328合计75107.7676按式(4.5)计算几何
19、均数:75名儿童进行流脑疫苗免疫接种1个月后,平均抗体滴度为1:27.35。(二) 几何均数的应用1. 几何均数常用于变量值间呈倍数关系的偏态分布资料,特别是变量经过对数变换后呈正态分布或近似正态分布的资料。2. 因为0不能取对数,所以数据中若有0则不宜直接使用几何均数,此时可将所有观察值加上一个常数k,使,计算出结果后再还原,即。3. 观察值若同时有正、负值,可将所有观察值加上一个常数k,使,计算出结果后再还原,即。观察值若全是负值,计算时可先将负号去掉,得出结果后再加上负号。三、中位数中位数(median)是一个位置指标,它是将一组观察值按大小顺序排列后位次居中的数值,因此,在全部观察值中
20、,大于和小于中位数的观察值个数相等。样本中位数用表示。(一) 中位数的计算1直接法 , (4.6) , (4.7)式中,、为有序数列中相应位次上的观察值。例4.6 为研究燃煤型砷中毒患者体内砷负荷状况,某医学院对17名燃煤型砷中毒患者进行了发砷含量测定,结果为:1.61、1.91、2.24、2.24、2.30、2.60、2.84、3.15、3.33、3.75、3.75、3.75、3.81、4.42、6.42、6.42、14.76,试求其平均含量。为避免数据中极端值的影响,应计算中位数。本例n为奇数,按式(4.6):例4.7 在前述17名燃煤型砷中毒患者发砷含量的基础上,又测得1名燃煤型砷中毒患
21、者的发砷含量为15.39,求这18名燃煤型砷中毒患者发砷含量的中位数。本例n为偶数,按式(4.7):2. 频数表法 (4.8)式中,为中位数所在组段下限;为组距;为中位数所在组段的频数;为中位数所在组段前一组的累计频数。由于中位数的位次居中,故累计频率刚好大于50%的组即为中位数所在组。例4.8 为研究乳腺癌患者术后康复期生存质量的状况,某医院对219名术后康复期乳腺癌患者进行了生存质量测定,结果如表4.4,求平均评分。由表4.4可见资料呈负偏态分布,不宜使用均数,可用中位数求其平均评分。表4.4 219名乳腺癌患者康复期生存质量评分评分频数累计频数累计频率(%) 0220.9130241.8
22、340373.205011188.2260304821.92706311150.68806017178.089010048219100.00(二) 中位数的应用1. 中位数可用于各种分布的资料,在正态分布资料中,中位数等于均数,在对数正态分布资料中,中位数等于几何均数。2. 中位数不受极端值的影响,因此,实际工作中主要用于不对称分布类型的资料、两端无确切值或分布不明确的资料。第三节 离散程度的描述集中位置只反映了分布的一个特征,各观察值之间的变异程度(离散程度)如何也必须了解,只有将两者结合起来才能全面反映资料的分布规律。例4.9 某医学院用自编生存质量量表测得三组同年龄、同性别中年知识分子的
23、躯体功能维度得分,资料如下:甲组 8 8 9 10 11 12 12乙组 5 6 8 10 12 14 15丙组 1 2 5 10 15 18 193组的例数都是7例,均数和中位数都是10分,但凭直观就可以发现三组数据变异的程度是不相同的,这在分析资料时须加以考虑。描述离散程度的常用指标有极差、四分位数间距、方差、标准差和变异系数。一、极差和四分位数间距(一) 极差极差(range)也称全距,即全部数据中最大值与最小值之差,用符号表示。极差大,说明变异程度大;反之说明变异程度小。例4.10 计算例4.9中三组中年知识分子躯体功能维度得分的极差:甲组 乙组 丙组 甲组数据的离散程度最小,丙组数据
24、的离散程度最大,乙组居中。极差是最简单但又较粗略的变异指标,可用于各种分布的资料,但它只涉及两个极端值,没有利用全部数据的信息,不能反映组内其他观察值的变异。同时由于样本含量较大时抽到极大值或极小值的可能性较大,也可能较大,故极差一般常用于描述单峰对称分布小样本资料的离散程度,或用于初步了解资料的变异程度;当样本含量相差较大时,不宜用极差来比较资料的离散程度。(二) 四分位数间距1. 百分位数(percentile) 是指将观察值从小到大排列后处于第x百分位置上的数值,用符号表示为。百分位数将全部数据分成两部分,有x%的数据小于,有的数据大于,因此百分位数是一个位置指标,其中为中位数。百分位数
25、的计算方法有: (1) 直接法当时, (4.9)当时, (4.10)式中,为n与x%乘积的整数部分。例4.11 根据下列资料求某市102名高中男生引体向上次数的第80%位数(数据已排序)。244556677244556678245556678345556678345556678345556679345556673455566734555667345556674455566744556677 本例 n102,10280%81.6,按式(4.10)得,(2) 频数表法 (4.11)式中,为第x百分位数所在组段下限;为第x百分位数所在组段的组距;为第x百分位数所在组段的频数;为第x百分位数所在组段前
26、一组的累计频数。累计频率刚好大于x%的组即为第x百分位数所在组。例4.12 用例4.8的资料求219名乳腺癌患者术后康复期生存质量评分的第25%位数和第75%位数。1) 由表4.4的累计频率可见,第25百分位数所在组为“70”组:2) 由表4.4的累计频率可见,第75百分位数所在组为“80”组:2. 四分位数间距 通过P25,P50,P75这3个点将全部观察值等分为四部分,处于P25和P75分位点上的数值就是四分位数(quartile,简记为Q)。下四分位数即第25百分位数,用表示,上四分位数即第75百分位数,用表示。四分位数间距(inter-quartile range)为上、下四分位数之间
27、的差值,即。例4.13 用例4.8的资料求219名乳腺癌患者术后康复期生存质量评分的四分位数间距。四分位数间距是去除两端各四分之一数据后中间一半观察值的变动范围,其数值越大,说明观察值分布的离散程度越大。四分位数间距常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。二、方差与标准差对于单峰对称分布资料,为了全面反映一组资料中每个观察值的变异情况,需要先寻找一个可供比较的标准,由于均数具有的优良性质(见本章第二节),所以选择均数作为一组单峰对称分布观察值的代表值,然后衡量每个观察值相对均数的偏差,构造出综合描述资料离散程度的指标。(一) 方差以离均差()表示总体中各观察值的变异,因
28、为,不能达到反映总离散程度的目的,所以采用离均差平方和(sum of squares)即表示总变异程度,如果数据相对于较集中,则较小;如果数据相对于较分散,则较大。显然,观察值越多,可能越大,为消除观察值个数的影响,对离均差平方和求平均值即得到方差(variance)。总体方差用表示: (4.12)若方差较大,说明总体中观察值变异程度较大;反之,说明总体中观察值变异程度较小。在实际工作中往往采用抽样研究,得到的是样本资料,总体均数未知,可用样本均数作为的估计值,因此样本方差为: (4.13)式中的()称为自由度(degree of freedom),采用自由度作为分母是为了避免用样本方差估计总
29、体方差时偏小。 自由度是允许自由取值的变量值的个数,若在统计数据中受k个条件的限制,其自由度即为()。在计算样本方差时,首先要计算离均差、离均差平方和。一个样本有n个数据,就要有n个离均差,但受到这一个条件的约束,n个离均差中只有()个可以自由取值,最后一个离均差受到的限制,不能自由取值,所以自由度为()。自由度的概念在以后将经常用到。例4.14 用例4.2的资料计算某市120名9岁男孩肺活量的样本方差,已知,按式(4.13):或 (二) 标准差方差的单位是观察值单位的平方,在实际工作中使用不方便,为还原单位,将方差开平方即得到标准差(standard deviation)。总体标准差用表示,
30、样本标准差用表示。计算方法有:1. 直接法 (4.14) (4.15)例4.15 用例4.2资料计算某市120名9岁男孩肺活量的样本标准差。或 2. 加权法 用于频数表资料。 (4.16)式中,X为各组段的组中值;f为各组段的频数。例4.16 用加权法计算2005年某市120名9岁男孩肺活量的标准差,由表4.2资料计算组中值X,可得,:标准差是描述单峰对称分布资料离散程度最常用的指标。标准差大,表示观察值之间变异程度大,即一组观察值的分布较分散;标准差小,表示观察值之间变异程度小,即一组观察值的分布较集中。对于经对数变换后呈正态分布或近似正态分布的资料,应将原始观察值取对数值后计算几何标准差。
31、三、变异系数采用不同计量单位的指标,不能直接用标准差比较其离散程度,有时即使计量单位相同,在均数相差很大的情况下,数据分布的集中位置相差很远,标准差的数值大小可能受到平均水平大小的影响,也不宜直接比较。因此,在这些情况下,应采用变异系数(coefficient of variation)来比较其离散程度。计算方法为: (4.17)CV是一个相对离散指标,由于分子分母单位相同,消掉了单位,同时由于CV是计算相对于的的大小,从而消除了平均水平不同的影响。常用于:1. 比较计量单位不同的几组资料的离散程度例4.17 某年某市城区120名5岁女孩身高均数为110.10cm,标准差为5.90cm;体重均
32、数为17.71kg,标准差为1.44kg,比较身高与体重的离散程度。身高 体重 可见,该市城区5岁女孩体重的变异大于身高的变异。 2. 比较均数相差悬殊的几组资料的离散程度例4.18 某年某市城区120名5岁女孩体重均数为17.71kg,标准差为1.44kg,同年该地120名5个月女孩体重均数为7.37kg,标准差为0.77kg,比较其离散程度。5岁女孩体重 5个月女孩体重 可见,该市城区5个月女孩体重的变异大于5岁女孩体重的变异。第四节 正态分布及其应用一、正态分布的概念和特征(一) 连续型随机变量及其概率分布医学领域中观察或试验的各种可能结果为随机变量,记为X,其特点是每次试验之前,不能事
33、先确定取什么数值,反复大量观察后,可以发现取值又有一定的规律性。要全面认识一个随机变量,除了要知道它的可能取值外,还应该知道它以多大的概率取这些值。随机变量X取各种值的概率的规律称为概率分布规律,简称分布,是研究随机事物的工具和统计分析的理论基础。正态分布(normal distribution)就是一种重要的连续型随机变量的分布类型。连续型随机变量的取值充满某一区间,无法一一列出它的每一个可能取值,但在某一区间内随机变量取值的概率可通过计算积分获得,被积函数则称为连续型随机变量的密度函数。如果X为连续型随机变量,其密度函数为,则其分布函数为,它表示随机变量X取值小于或等于x的概率,即。(二)
34、 正态分布的图形正态分布曲线呈对称的钟形,在均数处最高,两侧不断降低,逐渐与横轴接近,但不会与横轴相交,即以横轴为渐近线。在医学卫生领域中,有许多变量的频数分布是中间频数多,两边频数少,且左右对称。例如,对本章例4.2所述9岁男孩的肺活量作图,以横轴表示观察变量,以纵轴表示频率密度(频率密度=频率/组距),即可得到肺活量的频率密度直方图,其形状与前述的频数分布直方图相似,即高峰位于中部,左右两侧基本对称。观察的9岁男孩人数逐渐增多,组段不断分细,则频率分布图中的直条逐渐变窄,就会逐渐形成一条高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线,近似于数学上的正态分布曲线。
35、若变量X的频率曲线逼近数学上的正态分布曲线,则称该变量服从正态分布(见图4.4)。频率密度x图4.4 概率密度曲线示意图(三) 正态分布的特征正态分布曲线的密度函数为: (4.18)式中为总体均数,为总体标准差,为圆周率,e为自然对数的底,其中、是不确定的常数,称为正态分布的参数,、e都是固定常数,仅x为变量。 以x为横轴,为纵轴,当、已知时,按式(4.18)即可绘制出正态分布曲线的图形。正态分布有下列特征:1. 正态曲线在横轴上方均数处最高。2. 正态分布以均数为中心,左右对称。3. 正态分布有两个参数,即位置参数和形态参数。若固定,改变值,曲线沿着X轴平行移动,其形态不变(见图4.5)。若
36、固定,越小,曲线越陡峭;反之,曲线越低平,但中心在X轴的位置不变。f (x)x图4.5 不同和的正态分布示意图不同的,不同的对应于不同的正态分布曲线,通常用记号表示均数为、标准差为的正态分布。例如,某年某市9岁男孩的肺活量X服从均数为1.672 L,标准差为0.298 L的正态分布,可记为XN(1.672, 0.2982)。4. 正态曲线下的面积分布有一定的规律。对于服从正态分布的变量X,只要知道总体均数与标准差,就可用公式 (4.19)求得曲线下(x1, x2)范围内的面积,无论、取什么值,正态分布曲线下的面积分布有以下规律: 正态曲线与横轴间的面积恒等于1或100%; 以直线为对称轴,与范
37、围内曲线下的面积相等,各占50%; 曲线下,区间内的面积为95.00%,区间内的面积为99.00%,如图4.6所示: 图4.6 正态曲线下面积的分布规律二、标准正态分布正态分布是一个分布族,对应于不同的参数和会产生不同位置、不同形状的正态分布,不同正态分布的(x1, x2)范围内的面积也就不同。例如当时,正态曲线下在范围内的面积为95%。而当时,正态曲线下在范围内的面积为68.27%。为了方便应用,进行标准化变换: (4.20) 若X服从正态分布,经此变换后,则Z就服从均数为0,标准差为1的正态分布N(0, 1),称为标准正态分布(standard normal distribution)或Z
38、分布,其密度函数为: (4.21) 对上式求积分即可得到标准正态变量Z的分布函数 (4.22)由于积分计算繁琐,统计学家制定了标准正态分布曲线下的面积分布表(附表2),查表即可得到正态曲线下(z1, z2)范围内的面积,如图4.7所示。Z1 Z2 0图4.7 查表法求标准正态曲线下面积示意图例4.19 已知,求标准正态曲线下范围内的面积。查附表2,得范围内面积,范围内面积,因此范围内的面积为: 在附表2中仅列出曲线下从到范围内的面积,对于时,可利用正态分布的对称性,即可求得曲线下任意范围内的面积。 例4.20 已知,求标准正态曲线下(1.20, 1.60)范围内的面积。 查附表2,得范围内的面
39、积,()范围内的面积,据正态分布的对称性,可得: 对于服从非标准正态分布的变量,求曲线下任意(x1, x2)范围内的面积,可先作标准化变换,再借助标准正态曲线下的面积分布表求得。 三、正态分布的应用(一) 估计总体变量值的频率分布 医疗卫生领域中有些变量服从或近似服从正态分布,例如同性别同年龄正常儿童的身高、同性别健康成人的红细胞数等;此外,还有许多变量虽不服从正态分布,但经变量转换后近似服从正态分布,例如抗体滴度、细菌密度等。对于服从正态分布或对数正态分布的变量,只要求得其均数和标准差,根据正态分布曲线下面积分布的规律,就能估计其频率分布。例4.21 已知120名9岁男孩的肺活量,欲估计该市
40、肺活量介于1.2001.500 L范围内的9岁男孩的比例。此例属一般正态分布,需先进行标准化变换,由于120例为大样本,可用样本均数和样本标准差S作为总体均数和总体标准差的估计值, 查附表2得:估计该市肺活量在1.2001.500 L范围内的9岁男孩的比例为22.39%。 (二) 制定医学参考值范围 参考值是具有明确背景资料的参考人群某项指标的测定值,医学参考值范围(medical reference range)指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标观察值的波动范围,一般在临床上用作判定正常和异常的参考标准。随着现代医学的发展,参考值范围在医学各领域中应用广泛,如
41、卫生标准或有害物质容许浓度的制定、儿童少年生长发育及营养状况评价、评价环境污染的动态变化或环境保护的效果等。制定医学参考值范围的步骤和注意事项如下:1. 确定观察对象和抽取足够的观察单位 制定医学参考值范围中的所谓“正常人”不是指机体器官组织和功能都完全健康的人,而是指排除了影响所研究变量的疾病和有关因素的同质人群。例如,某市欲制定学龄前儿童血铅的参考值范围,观察对象定为:年龄为36岁,在本市居住1年以上;无肝、肾等器质性病变;无铅接触史;无特殊的饮食习惯;测定前3天未进食含铅高的食物。由于医学参考值范围是根据样本分布来确定的,样本分布越接近总体分布,结果越可靠,因此需要抽取足够的样本含量,一
42、般要求每组应在100例以上,如果影响研究变量的因素较复杂,数据变异度大,还应适当增加样本含量。2. 测定方法应统一、准确 应采用得到公认的或权威机构推荐的标准方法,以利于结果的评价和比较。操作人员必须经过统一培训,测定时使用灵敏度较高的分析仪器,新仪器、新方法一定要校正和验证。必须严格控制误差,样品采集、运输、储藏和分析中要严格防止污染,实验室内和实验室间通过测定已知浓度的质控样或标准物质来控制分析中的误差。3. 决定是否分组制定参考值范围 当观察值在性别、年龄、地区、民族、职业组之间的分布差别较明显,而这一差别具有实际意义时,应分组制定参考值范围,如红细胞计数(RBC)应分性别和年龄(成人、
43、儿童)制定参考值范围,而白细胞计数(WBC)不需分性别,只需按成人和新生儿制定参考值范围。考察组间差别的简便而有效的方法是用频数分布表(或频数分布图)比较各组的分布范围、趋势、高峰位置,若差别明显则应分组,也可以经假设检验来比较各组之间的差别是否具有统计学意义来决定是否分组。4. 确定取双侧或单侧参考值范围范围 应根据专业知识来确定,例如白细胞计数过高或过低均属异常,则相应的参考值范围既有上限,又有下限,是双侧参考值范围;血铅仅过高属于异常,则相应的参考值范围仅有上限,是单侧参考值范围;肺活量仅过低属于异常,则相应的参考值范围仅有下限,也是单侧参考值范围。5. 选定适当的百分界限 医学参考值范围中的“绝大多数”可以是90%、95%或99%等,应根据正