《研究生统计学讲义第2讲第3章定量资料的统计描述.ppt》由会员分享,可在线阅读,更多相关《研究生统计学讲义第2讲第3章定量资料的统计描述.ppt(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第3章章 定量资料的统计描述定量资料的统计描述一、一、正态分布正态分布(P36)生物学中所关心的很多连续变量来自钟形曲线,或生物学中所关心的很多连续变量来自钟形曲线,或者能够转换为这类曲线见图者能够转换为这类曲线见图 曲线族的特性是由曲线族的特性是由Abraham de Moivre(1667-1754),Pierre Simon,Marquis de Laplace(1749-1827)和和Karl Friedrich Gauss(1777-1855)发展起来的事实上,这个分布有时称为高发展起来的事实上,这个分布有时称为高斯分布(斯分布(Gaussian distribution),尽管形
2、容词),尽管形容词“正常的正常的”(normal)首先由)首先由Sir Francis Galton 在在1877年创造,更多的年创造,更多的是形式上使用是形式上使用 1.正态随机变量的概率密度函数的形式为正态随机变量的概率密度函数的形式为 这个密度函数这个密度函数肯定不简单!是个坏消息为求累积概肯定不简单!是个坏消息为求累积概率分布,需要对率分布,需要对f(x)积分但是不存在积分但是不存在f(x)的不定积的不定积分那就意味着人们不能利用微积分基本公式去计算分那就意味着人们不能利用微积分基本公式去计算所需要的积分于是用一些精确值近似代替曲线下的所需要的积分于是用一些精确值近似代替曲线下的实际面
3、积,造出正态分布表于是用一些精确值近似实际面积,造出正态分布表于是用一些精确值近似代替曲线下的实际面积,造出正态分布表代替曲线下的实际面积,造出正态分布表 下图给出具有平均值下图给出具有平均值和标准差和标准差正态密度函数图,正态密度函数图,注意它有几个特点注意它有几个特点 这个正态密度函数这个正态密度函数f(x)关于平均值关于平均值x=对称对称(点划垂(点划垂线)线)称为位置参数,在曲线下称为位置参数,在曲线下和和+之间面积之间面积近似总面积的近似总面积的2/3(68%),简而言之,它在平均值),简而言之,它在平均值的一个标准差内的一个标准差内这是在图这是在图 中点划垂线之间的面积中点划垂线之
4、间的面积在曲线下在曲线下的两个标准差内,即的两个标准差内,即2和和+2之间面积之间面积近似为总的近似为总的95%(这是在图中实垂线之间的面积),(这是在图中实垂线之间的面积),在曲线下在曲线下的三个标准差内,即的三个标准差内,即3和和+3之间面积之间面积近似为总的近似为总的99%幸运的是,这个曲线族能够转换为标准正态曲线幸运的是,这个曲线族能够转换为标准正态曲线(standard normal curve),其平均值为),其平均值为0,标准差为,标准差为1曲线下的面积已经被制成表格,通常称为曲线下的面积已经被制成表格,通常称为u表(表(u tables),),u表能用来确定任何正态分布的表能用
5、来确定任何正态分布的CDF值值(累积分布函数值即累积分布函数值即P224附表附表3)2标准正态分布的概率密度函数和分布函数标准正态分布的概率密度函数和分布函数(x)(3.3)标准正态变量标准正态变量u与一般均数为与一般均数为,标准差为,标准差为的正态变的正态变量量x的关系是:的关系是:标准正态变量标准正态变量u=(x)/的的值称为标准正态值称为标准正态(离离)差。差。标准正态变量的分布函数记为标准正态变量的分布函数记为(u):因为任何正态随机变量都能被标准化,标准正态的累因为任何正态随机变量都能被标准化,标准正态的累积分布函数能用来求概率(正态曲线下的面积),参积分布函数能用来求概率(正态曲线
6、下的面积),参见附表见附表3 补例补例1 设智商测验得分是具有均数设智商测验得分是具有均数100,标准差为,标准差为10的正态分布(一些新颖的智商测验声称具有这些的正态分布(一些新颖的智商测验声称具有这些参数)问:参数)问:1随机抽取一个在随机抽取一个在90以下得分的概率是多少?以下得分的概率是多少?解:我们必须求解:我们必须求P(X 90)=F(90),得分用下图左,得分用下图左边阴影部分表示,没有复杂的数学知识就无法计算边阴影部分表示,没有复杂的数学知识就无法计算F(90)左边左边=100,=10,X90 右边右边=0,=1,u1.0,注意,注意刻度不同刻度不同 现在我们把现在我们把 X
7、转换为标准正态变量,因为转换为标准正态变量,因为=100,=10,所以,所以 因此因此90分能够用平均值下的分能够用平均值下的1个标准差表示,见图个标准差表示,见图右图右图 P(X 90)=P(u 1.0)附表附表3从从u=0.00到到u=4.99以增量以增量0.01编成标准正态分布编成标准正态分布的的CDF表,沿着表的左边按所给表,沿着表的左边按所给u的一个小数找到的一个小数找到u,再从表的顶端找到再从表的顶端找到u的第二位小数,在表内主要部分,的第二位小数,在表内主要部分,行列交叉处就是所给行列交叉处就是所给u值的概率值的概率用表用表3求求P(X 90)=P(Z1.0),找到标记为,找到标
8、记为1.0的行,标记为的行,标记为0.0的列,其交叉处的概率就是的列,其交叉处的概率就是0.1587,所以小于,所以小于90分的分的概率就是概率就是0.1587 2得分在得分在90到到115分之间的概率是多少?分之间的概率是多少?解:我们希望找出下图左图阴影部分的面积解:我们希望找出下图左图阴影部分的面积=0.9332-0.1587=0.77453得分为得分为125分或更高的概率是多少分或更高的概率是多少?解:解:要求要求P(X125),见下图,见下图=1-0.9938=0.0062只有只有0.62%0.62%的得分将是的得分将是125125或更高或更高图图3.16左边左边=100,=10,X
9、125 右边右边=0,=1,u2.5,注意刻度不同,注意刻度不同 补例补例2 假设女高血压患者舒张压大约集中在假设女高血压患者舒张压大约集中在100mmHg,标准差是,标准差是16mmHg,血压是正态分布,血压是正态分布求:求:1P(X124)3P(96X104)4求求x,使,使P(Xx)=0.95 解解1 1:使用:使用特别当特别当X=90时,时,于是查表于是查表3有有 P(X90)=P(u124)=P(Z1.5)=1F(1.5)=10.9332=0.0668 解解3:求:求P(96X104),两者同时进行转换,两者同时进行转换解解4:求:求x,使,使P(Xx)=0.95,我们只不过是简单地
10、反,我们只不过是简单地反向操作,首先求向操作,首先求 u 的值使的值使P(Uu)=0.95,从附表,从附表3查得,查得,u=1.645,现在用转换方程求,现在用转换方程求x 从而从而 x=100+1.645(16)=126.32 这意味着这些女高血压患者舒张压低于这意味着这些女高血压患者舒张压低于126.32mmHg大大约有约有95%例例3.1 查标准正态分布查标准正态分布 u 界值表,得双侧界值表,得双侧u0.05/2=1.96,它表示标准正态变量的取值小于它表示标准正态变量的取值小于-1.96的概率等于的概率等于u值值大于大于1.96的概率等于的概率等于0.025,反之,反之,u值大于值大
11、于-1.96而小而小于于1.96的概率,即的概率,即u的绝对值小于的绝对值小于1.96的概率,等于的概率,等于120.025=0.95,记为:,记为:P(u1.96)=0.025,P(-1.96 u1.96)=0.95以以(u)=0.05查附表查附表3的横标目和纵标目得出的数值取的横标目和纵标目得出的数值取绝对值,得双侧绝对值,得双侧0.10界值界值u0.10/2单侧单侧0.05界值界值u0.051.65,它表示:,它表示:P(u1.65)=0.05,P(u-1.65)=P(u1.65)=0.95由正态分布的对称性可知,标准正态曲线下对称于由正态分布的对称性可知,标准正态曲线下对称于0 0的区
12、间面积相等:的区间面积相等:(u)=1(u),(u/2)=1(u/2),例例3.2 若已知健康女大学生血清总蛋白含量服从正态若已知健康女大学生血清总蛋白含量服从正态分布,均数分布,均数=73.8g/L,标准差,标准差=3.9g/L,试估计,试估计168名健康女大学生血清总蛋白含量在名健康女大学生血清总蛋白含量在72.078.6g/L范范围内的人数。围内的人数。x1=72.0g/L时,时,u1=(72.073.8)/3.9=0.46 x2=78.6g/L时,时,u2=(78.673.8)/3.9=1.23 2.查标准正态曲线下面积表(附表查标准正态曲线下面积表(附表3):):u=0.46时,时,
13、在表的左侧找到在表的左侧找到-0.4,在表的上方找到,在表的上方找到0.06,二者相,二者相交处为交处为0.3228,标准正态曲线下,横轴上,标准正态曲线下,横轴上u值小于值小于0.46的面积为的面积为(0.46)=P(U0.46)=32.28,即标,即标准正态变量准正态变量u值小于值小于0.46的概率为的概率为32.28;同样查;同样查得得u=1.23时,标准正态曲线下,横轴上时,标准正态曲线下,横轴上u值小于值小于1.23的的面积为面积为(1.23)=P(U1.23)=0.8907,即,即u值小于值小于1.23的的概率为概率为89.07。3.u值在值在0.461.23范围内的面积为范围内的
14、面积为(1.23)(0.46)=0.89070.32280.5679,即血清蛋白含量在,即血清蛋白含量在72.0g/L78.6g/L范围内的概率为范围内的概率为56.79。4.168名健康女大学生血清总蛋白含量在名健康女大学生血清总蛋白含量在72.078.6g/L范围的人数为范围的人数为16856.79%=95人人 3.正态分布的应用正态分布的应用 1.很多抽样分布如很多抽样分布如 2 分布、分布、t 分布以正态分布为基础。分布以正态分布为基础。2.正态分布的规律正态分布的规律 运用于区间估计和假设检验如运用于区间估计和假设检验如 t 检验、方差分析及直检验、方差分析及直线相关分析的计算公式等
15、。线相关分析的计算公式等。3.二项分布、二项分布、Poisson分布、分布、t 分布的极限分布是正态分布。分布的极限分布是正态分布。4.许多医药指标如人体的某些正常生理值都可看作和近似看作服从正态许多医药指标如人体的某些正常生理值都可看作和近似看作服从正态分布。医药科研中很多资料如毒物致死量、食物中毒潜伏期,剂量一效分布。医药科研中很多资料如毒物致死量、食物中毒潜伏期,剂量一效应曲线、正常成人血铅含量等,虽不服从正态分布,但经变量变换应曲线、正常成人血铅含量等,虽不服从正态分布,但经变量变换(如取如取对数对数)后则服从正态分布或近似正态分布,可按正态分布规律来处理后则服从正态分布或近似正态分布
16、,可按正态分布规律来处理 4.统计推断和计算公式的推导中经常应用到的正态变统计推断和计算公式的推导中经常应用到的正态变量性质量性质 (1 1)相互独立的正态变量的代数和仍为正态变量;相互独立的正态变量的代数和仍为正态变量;常数与正态变量的乘积仍为正态变量;正态变量的线常数与正态变量的乘积仍为正态变量;正态变量的线性函数仍为正态变量。性函数仍为正态变量。(2 2)正正态态变变量量的的和和(差差)的的均均数数等等于于正正态态变变量量均均数数的的和和(差差);常常数数与与正正态态变变量量乘乘积积的的均均数数等等于于常常数数与与变变量量均均数的乘积。数的乘积。(3 3)常常数数与与正正态态变变量量乘乘
17、积积的的方方差差等等于于常常数数的的平平方方与与正正态态变变量量方方差差的的乘乘积积;相相互互独独立立的的正正态态变变量量的的和和或或差差的的方差都等于正态变量方差的和。方差都等于正态变量方差的和。5.对数正态分布对数正态分布 若随机变量若随机变量X不服从正态分布,但不服从正态分布,但X的的对数对数(如如lnX、lgX等等)服从正态分布,则称服从正态分布,则称X服从对数正服从对数正态分布。态分布。二、频数分布表和频数分布图(二、频数分布表和频数分布图(P29)将将观观察察值值分分组组,统统计计各各组组段段的的频频数数,按按一一定定的的顺顺序序排排列列成成表表,称称为为频频数数分分布布表表(fr
18、equency distribution table)。将将频频数数分分布布表表绘绘制制成成图图,称称为为频频数数分分布布图图(frequency graph)。编编制制频频数数分分布布表表,绘绘制制频频数数分分布布图图,都都是是整整理理资资料料的的基基本本方方法法,可可以以提提示示资资料料的的分分布布特特征征和和分分布布类类型型,表表达达原原始始数数据据中中所所包包含含各各种种数数量量的的分分布布规规律律,且且便便于于发发现现特特异异值值。有有简简捷捷方方法法计计算算 平平均均值和标准差。值和标准差。例例3.1 测得测得148名正常人糖(名正常人糖(mmol/L)结果如下,试)结果如下,试求
19、频数分布图。求频数分布图。493 488 483 490 454 435 412 437 334 495 417 500 517 503 534 546 416 520用途用途:1.揭示资料的分揭示资料的分布特征和分布类型。布特征和分布类型。2.便于进一步计算统便于进一步计算统计指标和分析处理。计指标和分析处理。3.便于发现某些特大便于发现某些特大或特小的特异值。或特小的特异值。图像图像:对称、左偏、右:对称、左偏、右偏。偏。特征特征:集中、离散:集中、离散三、集中趋势的描述(三、集中趋势的描述(P30)P30)1、均数、均数总体平均数总体平均数:例如一个小的理论总体,其全体取:例如一个小的理
20、论总体,其全体取值为:值为:1,6,4,5,6,3,8,7,可以表示为:,可以表示为:X1=1,X2=6,X3=4,X4=5,X5=6,X6=3,X7=8,X8=7(1.1)使使用用字字母母 N 来来表表示示总总体体容容量量,上上面面理理论论总总体体容容量为量为N=8总体平均数总体平均数(念作(念作“mu”)就是)就是公式公式1.1 作为总体平均数的代数缩写式就是:作为总体平均数的代数缩写式就是:公式公式1.2 作为样本平均数的代数缩写式就是:作为样本平均数的代数缩写式就是:从从(1.1)所所示示总总体体1,6,4,5,6,3,8,7,可可以以抽抽出出56种种容容量量为为3的的样样本本,但但是
21、是只只有有四四个个样样本本均均数数与与总体均数相同,即:总体均数相同,即:样本样本 和和 X3,X6,X7 4+3+8 5X2,X3,X4 6+4+5 5X5,X3,X4 6+4+5 5X8,X6,X4 7+3+5 5要要使使每每一一个个样样本本均均数数是是的的无无偏偏估估计计取取决决于于样样本本所所含含的的值值以以及及样样本本容容量量的的实实际际大大小小我我们们期期望望全全部部可可能能平平均均值值的的平平均均值值与与总总体体参参数数相相等等事事实实上上,这这个个定定义就是总体均数的一个无偏估计义就是总体均数的一个无偏估计如如果果把把 56 种种容容量量为为3的的样样本本均均数数求求出出来来,
22、再再求求平平均均数数的的平平均均数数,就就得得到到平平均均值值5,也也即即是是总总体体均均数数,记记得得吗吗?总总体体数数量量太太大大以以至至难难以以完完全全进进行行调调查查,于于是是依依靠靠单一样本去估计或逼近总体特征单一样本去估计或逼近总体特征2.中位数中位数M(Median)中位数中位数M是排序观察值的中间值当一组数据按照是排序观察值的中间值当一组数据按照从小到大的顺序排列起来时,值的深度从小到大的顺序排列起来时,值的深度d=(n+1)/2,是,是它相对于极端值(末端)所在的位置它相对于极端值(末端)所在的位置它不是由全部它不是由全部观察值综合计算出来的,而是由居中位置的观察值所观察值综
23、合计算出来的,而是由居中位置的观察值所决定,因此它不受个别特小或特大的观察值的影响,决定,因此它不受个别特小或特大的观察值的影响,应用范围较广。应用范围较广。例例3.4 10例例由由伤伤寒寒杆杆菌菌引引起起伤伤寒寒的的患患者者潜潜伏伏期期为为6,8,11,12,14,15,16,21,29,34天天,求求中中位位数数。因因n=10,为为偶偶数数,居居中中的的两两个个位位次次为为10/2=5,1+10/2=6,这这两两个个位位次次上上的的观观察察值值为为14和和15,(14+15)/2=14.5(天天),即为所求的中位数。,即为所求的中位数。例例3.5 治治愈愈9名名脾脾虚虚泄泄泻泻患患儿儿所所
24、用用天天数数分分别别为为2,3,3,3,4,5,6,9,16,求求中中位位数数。因因n=9,是是奇奇数数,居居中中的的第第(9+1)/2=5位位次次上上的的观观察察值值为为4,即中位数为即中位数为4天。天。3.百分位数百分位数Px(percentile)一种位置指标。将一种位置指标。将n个观察值从小到大依次排列,再把它分成个观察值从小到大依次排列,再把它分成100等份,对应于第等份,对应于第x%位次上的数值即第位次上的数值即第x百分位数,记为百分位数,记为Px。用途:。用途:1.可用百分位数求医学参考值范围可用百分位数求医学参考值范围(reference ranges)或个体容许区间等统计量的
25、界限或个体容许区间等统计量的界限2.在假设检验中用作拒绝或接受检验假设的临界值。在假设检验中用作拒绝或接受检验假设的临界值。众数(众数(MODE)指在一个数据集合里面出现次数最多的数指在一个数据集合里面出现次数最多的数.小结小结 定量资料中,无论平均数是连续的还是离散的定量资料中,无论平均数是连续的还是离散的,它它都是一个有目的的度量无论一个变量是否能够排序都是一个有目的的度量无论一个变量是否能够排序(包括定量资料),都能够计算出中位数(包括定量资料),都能够计算出中位数 样本中位数所含信息比样本平均数要少,这是因为样本中位数所含信息比样本平均数要少,这是因为中位数仅仅使用了排序信息而没有使用
26、它的测量值信中位数仅仅使用了排序信息而没有使用它的测量值信息,但是中位数可以抵消离群值的影响极端值或离息,但是中位数可以抵消离群值的影响极端值或离群值群值(outliers)能够大大地影响样本平均数,然而它能够大大地影响样本平均数,然而它们对中位数的影响却很小们对中位数的影响却很小 考考虑虑例例3.6,平平均均数数为为=16.6,而而中中位位数数=14.5cm 假假如如说说X7被被错错误误地地记记为为160而而不不是是16的的话话,平平均均数数会会变变成成30cm,而中位数仍然保持,而中位数仍然保持=14.5cm 四、四、离散趋势的描述离散趋势的描述(P33)(P33)例例 下下表表给给出出两
27、两个个金金枪枪鱼鱼样样本本的的重重量量(kg)度度量量,怎怎样表现样本之间的差异呢?样表现样本之间的差异呢?样本样本1 8.9 9.6 11.2 9.4 9.9 10.9 10.4 11.0 9.7两样本还具有相同的众数两样本还具有相同的众数:9.9样本之间的差异是以观测值的分散或离散来表示,第样本之间的差异是以观测值的分散或离散来表示,第一个样本比第二个样本包含有更多的信息,较之第二一个样本比第二个样本包含有更多的信息,较之第二个样本,第一个样本的观测值更集中于平均值,因此个样本,第一个样本的观测值更集中于平均值,因此我们需要描述分散或离差的度量来反映其差别我们需要描述分散或离差的度量来反映
28、其差别样本样本2 3.1 17.0 9.9 5.1 18.0 3.8 10.0 2.9 21.2极差(极差(range)一一组组资资料料中中最最大大值值与与最最小小值值之之差差就就称称为为极极差差:极极差差=XnX1 总体极差总体极差=XNX1 这这里里X n和和X1称称为为样样本本极极差差限限度度(sample range limits)两两样样本本的的极极差差都都反反映映出出一一些些分分散散差差别别,但但是是极极差差是是一一个个相相当当粗粗略略的的估估计计,因因为为它它只只使使用用了了两两个个数数据据点点,某某些些时时候候还还取取决决于于样样本本容容量量随随样样本本容容量量的的增增大大,我
29、我们们会会预预料料到到最最大大的的和和最最小小的的观观测测值值会会变变得得更更加加极极端端,即即便便总总体体极极差差不不变变,但但是是样样本本极极差差也也会会变变大大样样本本最最大大值值最最小小值值与与总总体体最最大大最最小小值值不不同同所所以以样样本本极极差差低低估估了总体极差,属于有偏估计了总体极差,属于有偏估计方差(方差(variance)称称xi=Xi 为为离离差差(deviates),有有时时为为正正(观观测测值值大于平均值),有时为负(观测值小于平均值)。大于平均值),有时为负(观测值小于平均值)。例:设有一组数据例:设有一组数据 X1=2,X2=3,X3=1,X4=8,X5=6=
30、4,偏差为:,偏差为:X1=2,X2=1,X3=3,X4=4,X5=2 那么偏差之和为那么偏差之和为0,即,即结论:观测值的离差之和为结论:观测值的离差之和为0。公式公式 校正的平方和公式就是样本方差:校正的平方和公式就是样本方差:回回到到例例,样样本本1的的方方差差是是0.641kg2,样样本本2 的的方方差差是是49.851 kg2,这这反反映映出出在在样样本本2里里有有较较大大的的分分散散(spread)度)度样本方差是总体方差的样本方差是总体方差的无偏估计无偏估计。在在一一定定容容量量的的样样本本里里面面,“无无偏偏“即即意意味味着着全全部部可可能能的的s2 值值的平均值等于总体方差值
31、的平均值等于总体方差值2公式公式 校正的平方和公式是校正的平方和公式是 未校正的平方和未校正的平方和 校正条件校正条件 公式公式 利用样本平方和的计算公式计算样本方差的公式利用样本平方和的计算公式计算样本方差的公式是是 返回例中的样本返回例中的样本2,Xi=92,Xi2=1318.92,n=9,所以所以 标准差标准差SD(Standard Deviation)公式公式 更更自然的公式是标准差,它是方差的正平方自然的公式是标准差,它是方差的正平方根:根:再考虑金枪鱼的例,样本再考虑金枪鱼的例,样本1:s1=0.80kg,样本,样本2:s2=7.06kg,清楚反映了第,清楚反映了第2个样本比第个样
32、本比第1个样本变异较大个样本变异较大 五、五、容许区间与参考值范围容许区间与参考值范围 1.容许区间容许区间(tolerance limit of population)指的是指的是总体中绝大多数个体观察值可能出现的范围。严格说,总体中绝大多数个体观察值可能出现的范围。严格说,总体中总体中100(1)%个体某种指标的所在范围,称为个体某种指标的所在范围,称为该指标的该指标的100(1)%容许区间;容许区间;(1)称为个体某称为个体某指标值落入该范围的可信度。指标值落入该范围的可信度。1)双侧双侧(1)容许区间容许区间 按标准正态变量值的分布按标准正态变量值的分布规律规律P(u/2 u u/2)
33、=1有有 从而从而P(u/2 x u)=1,P(u u)=1,P(x(u),或,或x (+u)(3.30)2.医学参考值范围医学参考值范围常用大样本资料的常用大样本资料的 和和s分别作为分别作为和和的估计值,所计算的估计值,所计算的容许区间常称为参考值范围的容许区间常称为参考值范围。医学参考值范围通常是从医学参考值范围通常是从对健康人的观察中取得,故亦称医学正常值范围,简称正对健康人的观察中取得,故亦称医学正常值范围,简称正常值范围。如常值范围。如95正常值范围的含义是指样本中有正常值范围的含义是指样本中有95的的个体其测定值在所求的范围之内。个体其测定值在所求的范围之内。双侧双侧95%的界限
34、值为:的界限值为:1.96s。(3.32)单侧单侧95%的上限值为:的上限值为:+1.6 45s。(3.33)单侧单侧95%的下限值为:的下限值为:-1.6 45s。(3.34)例例3.13 若已知健康女大学生血清总蛋白含量服从正态分若已知健康女大学生血清总蛋白含量服从正态分布,例布,例3.3资料资料n=100,已算出,已算出=73.708 g/L,s=3.8759 g/L,求健康女大学生血清总蛋白含量的,求健康女大学生血清总蛋白含量的95%参考值范参考值范围。围。因血清总蛋白含量不宜过高或过低,本例宜用双侧公因血清总蛋白含量不宜过高或过低,本例宜用双侧公式:式:1.96s=73.7081.9
35、63.8759=(66.1,81.3)g/L 0.01 2.326 2.5760.05 1.645 1.9600.10 1.282 1.645表表3-5 常用常用u界值表界值表单侧单侧u双侧双侧u2制定医学参考值范围的注意事项制定医学参考值范围的注意事项 1)样本含量样本含量;2)结合专业结合专业;3)根据研究要求和资料的根据研究要求和资料的特点特点;3)根据使用该参考值的目的考虑根据使用该参考值的目的考虑 第七节第七节 离群值的取舍离群值的取舍 测测量量数数据据中中有有时时会会有有个个别别过过大大或或过过小小,远远离离均均数数的的可可疑疑数数值值,这这种种数数值值称称为为极极端端值值或或离离
36、群群值值(outlier)。极极端端值值有有两两种种可可能能:可可能能是是测测量量值值随随机机波波动动的的极极度度表表现现,即即极极值值,它它虽虽然然与与其其余余数数据据相相差差较较远远,但但仍仍然然是是处处于于统统计计上上所所允允许许的的合合理理误误差差范范围围之之内内。极极端端值值也也可可能能是是与与其其余余数数据据不不属属于于同同一一总总体体的的离离群群值值。如如果果在在测测量量数数据据中中混混有有离离群群值值,必必然然会会歪歪曲曲试试验验结结果果,此此时时若若能能将将该该值值舍舍弃弃,将将使使结结果果更更符符合合客客观观实实际际情情况况。但但若若将将本本来来不不是是离离群群的的测测量量
37、值值主主观观地地作作为为离离群群值值舍舍弃弃,虽虽然然得得到到分分散散很很小小、精精度度很很高高的的结结果果,而而此此结结果果实实质质上上是是虚虚假假的的,并并不不是是客客观观情情况况的的真真实实反反映映。所所以以怎怎样样正正确取舍极端值,是实践中经常碰到的问题。确取舍极端值,是实践中经常碰到的问题。1.计量资料判断离群值计量资料判断离群值计计量量资资料料判判断断极极端端值值是是否否离离群群值值,常常用用3s法法、格格拉拉布斯法、布斯法、Q检验法、间距法。检验法、间距法。.X3s法法XX3s法适用于正态分布资料,且样本含量较大法适用于正态分布资料,且样本含量较大(n60)。以)。以 xj 代表
38、极端值,按正态分布理论,代表极端值,按正态分布理论,离群离群值与平均值差值与平均值差的绝对值大于的绝对值大于2的概率为的概率为1/20,大于,大于3的概的概率仅约为率仅约为1/370。按小概率原理,小概率事件在一次测。按小概率原理,小概率事件在一次测量中实际是不可能发生的,量中实际是不可能发生的,2与与3可认为统计上允许的可认为统计上允许的合理误差范围,而超出此范围的数据则为极端值。因合理误差范围,而超出此范围的数据则为极端值。因此,有人将此,有人将3作为界值,根据绝对值是否大于作为界值,根据绝对值是否大于3作出判作出判断。也就是说,可以根据断。也就是说,可以根据X X3sX X3s范围内是否
39、包括范围内是否包括xj作出判断:当作出判断:当xj在在X X3sX X3s范围之外时可舍弃,范围之外时可舍弃,在此范围之内时保留。在此范围之内时保留。.格鲁布斯法格鲁布斯法格拉布斯法(格拉布斯法(Grubbs)适用于正态分布资料。)适用于正态分布资料。xj 表示表示极端值,计算包括极端值极端值,计算包括极端值 xj 在内的测量值与在内的测量值与s,总体均,总体均数数及标准差及标准差已知或未知时计算统计量已知或未知时计算统计量 T 的绝对值公的绝对值公式分别为式分别为 T 或或T (3-38)按第一类错误概率按第一类错误概率和样本含量和样本含量n,查如表,查如表3-6所示所示的格鲁布斯的格鲁布斯
40、T,n 界值表,与界值表,与 T 的绝对值比较。若的绝对值比较。若T界值界值T,n,则不能判极端值,则不能判极端值xi为离群值。若为离群值。若TT,n,则可判,则可判 xj 为离群值,应舍去。为离群值,应舍去。.Q检验法检验法 Q 检验法不要求资料服从正态分布。数据从小到大排检验法不要求资料服从正态分布。数据从小到大排列为列为x1,x2,x3,xn1,xn。极差。极差Rxnx1,最,最小值小值 x1 或最大值或最大值 xn 为极端值时计算统计量为极端值时计算统计量 Q 的公式的公式分别为分别为 表3-6检验正态分布资料极端值用格拉布斯T,n界值表 Q 或或 Q 若若Q Q1/31/3,则极端值
41、是离群值,应舍弃。,则极端值是离群值,应舍弃。【例【例3.15】研究人工培植人参中】研究人工培植人参中M物质的含量(物质的含量(g),),76次测得的结果为次测得的结果为40.0,41.0,41.5,41.6,41.6,41.9,42.5,43.5,43.8,44.2,60.2。检查无误,对。检查无误,对于最小值于最小值 x140.0 和最大值和最大值 x7660.2,找不出原因。,找不出原因。在下面条件下,分别判断是否为离群值。在下面条件下,分别判断是否为离群值。若若已已知知M物物质质的的含含量量服服从从正正态态分分布布,计计算算得得到到X42.16g,S2.150g;解:若用解:若用 X3
42、 S法计算,则可以得到法计算,则可以得到(X3S,X3S)(35.7,48.6)最最小小值值x140.0在在此此范范围围内内不不是是局局外外值值。最最大大值值x7660.2在范围外是离群值,应舍弃。在范围外是离群值,应舍弃。若用格鲁布斯法计算,对于最小值若用格鲁布斯法计算,对于最小值x140.0,计算得到,计算得到 T =1.01 =1.01查查表表3-6,和和未未知知时时T0.05,502.96,T0.05,603.03,|T|T0.05,76,x140.0不是离群值。不是离群值。对最大值对最大值x7660.2,类似计算得到,类似计算得到T|8.39T0.05,76,故,故60.2是离群值,
43、应舍弃。是离群值,应舍弃。若不若不知人参中知人参中M物质的含量是否服从正态分布。物质的含量是否服从正态分布。极差极差Rxnx160.240.020.2,对于最小值,对于最小值x140.0,计算得到,计算得到 Q =0.0495由于由于Q1/3,故,故x140.0不是离群值,应保留。不是离群值,应保留。对于最大值对于最大值x7660.2,类似计算得到,类似计算得到Q0.79211/3,故,故60.2是离群值,应舍弃。是离群值,应舍弃。.间距法间距法间间距距法法不不要要求求正正态态分分布布资资料料。由由上上、下下四四分分位位数数P75、P25,计算四分位间距,计算四分位间距QR,即,即QRP75P
44、25(3-40)计算上或下截界值计算上或下截界值CU、CL的公式分别为的公式分别为CU P752QR 或或CL P252QR(3-41)大于上截界值大于上截界值CU或小于下截界值或小于下截界值CL的数据可视为局的数据可视为局外值,应舍弃。外值,应舍弃。【例例3.16】某某资资料料的的上上四四分分位位数数P75205(109/L),下下四四分分位位数数P25141(109/L)。若若该该资资料料中中有有找找不不出出任何原因的小数据任何原因的小数据 80,大数据,大数据378,能否剔除?,能否剔除?解解:计算计算 QR20514164(109/L)CL14126413,CU205264333小数据
45、小数据80下截界值下截界值CL,不是离群值。大数据,不是离群值。大数据378上截界值上截界值CU是离群值,应剔除。是离群值,应剔除。3注意注意 周密实验设计下获得的实验数据一般都不应随意舍周密实验设计下获得的实验数据一般都不应随意舍弃,否则实验结果的真实性将受破坏。如果有个别数弃,否则实验结果的真实性将受破坏。如果有个别数据过份地偏大偏小,也不要在未查清原因的情况下盲据过份地偏大偏小,也不要在未查清原因的情况下盲目将其舍弃。目将其舍弃。在在一一组组观观测测值值中中极极端端值值总总是是少少数数,一一般般认认为为一一侧侧舍舍弃弃的的数数据据不不应应多多于于2个个。若若个个数数较较多多,则则应应从从实实验验要要素的选择及实验方法、条件等方面查找原因。素的选择及实验方法、条件等方面查找原因。不不论论可可否否剔剔除除极极端端值值,应应在在论论文文的的适适当当地地方方进进行行说说明明,以以正正确确反反映映事事物物的的全全貌貌。对对待待极极端端值值务务必必进进行行认真分析,有时极端值可能导致意外发现。认真分析,有时极端值可能导致意外发现。