《数值变量资料的统计描述.pptx》由会员分享,可在线阅读,更多相关《数值变量资料的统计描述.pptx(137页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第九章 数值变量资料的统计分析第1页/共137页统计学描述:选用恰当统计量结合恰当统计图、表,描述资料的分布规律或数理特征。统计学推断:样本总体,统计量参数。分析数据:第2页/共137页第一节 数值变量资料的统计描述n数值变量资料的统计描述,描述什么?n描述的对象:数值变量资料,群体第3页/共137页群群体体特特征征的的描描述述:一一般般先先有有一一个个变变量量,然然后后会会有有一系列的变量值,这些变量值就是一个一系列的变量值,这些变量值就是一个群体群体。针针对对这这样样一一个个群群体体,你你想想知知道道什什么么?(共共性性与与特特性,有群体就有变异)性,有群体就有变异)同同样样是是计计量量资
2、资料料,但但其其特特点点又又各各不不相相同同(分分布布问问题:正态与非正态,计算均数时也不同)题:正态与非正态,计算均数时也不同)第4页/共137页 对对数数值值变变量量资资料料进进行行统统计计分分析析的的一一般般步步骤骤,是是先先对对观观察察测测量量得得到到的的变变量量值值(即即观观察察值值)进进行行统统计计描描述述,再再在在此此基基础础上上进进行行深深入入的的统统计计推推断断。统统计计描描述述的的工工作作主主要要是是在在编编制制频频数数表表的的基基础上描述资料的础上描述资料的集中位置集中位置和和离散程度离散程度。第5页/共137页主要内容频数表频数表集中趋势集中趋势离散趋势离散趋势正态分布
3、正态分布正常值范围估计正常值范围估计第6页/共137页一、数值变量资料的频数分布 数值变量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。(一)编制频数分布表和绘制频数分布图 第7页/共137页 频数:当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,称为该组的频数。频数表(频数分布):表示各组及它们对应的组频数的表,为频数表或频数分布。第8页/共137页例9.1 某地用随机抽样的方法对140名健康成年男性血清尿素氮(BUN)浓度进行检测,所得数据如下,请编制频数表和观察频数分布情况。6.005.283.905.304
4、.203.905.605.664.104.004.503.774.344.304.225.305.133.794.805.204.702.945.904.502.105.605.902.854.905.633.214.663.005.963.454.223.504.233.903.884.244.882.483.403.263.213.604.532.734.154.604.354.965.615.875.014.335.744.873.963.003.933.155.003.443.502.854.874.603.404.793.026.234.982.895.826.305.205.403
5、.002.804.434.505.526.404.865.904.703.474.664.785.702.264.103.705.403.704.374.206.104.805.105.552.975.113.263.046.014.022.692.525.216.554.284.455.154.455.373.803.734.492.442.763.333.016.433.552.63第9页/共137页组距分组的几个概念组距分组的几个概念1.下 限:一个组的最小值2.上 限:一个组的最大值3.组 距:上限与下限之差4.组中值:下限与上限之间的中点值下限值+上限值2组中值第10页/共137页频
6、数表的编制步骤频数表的编制步骤:(1)求极差(range):即最大值与最小值之差,又称为全距。R=X最大-X最小6.552.10=4.45(mmol/l)(2)决定组数、组段和组距:根据研究目的和样本含量n 确定分组组数。相邻两组段下限值之差称组距,组距=极差/组数。为方便计,组距为极差的十分之一,再略加调整。本例拟分12组。4.45/12 =0.37 0.4(mmol/l)制定频数表的目的是为了简化资料,显示出数据的分布规律,故组段数不易过多,但也不能过少,否则会掩盖数据的分布规律。第11页/共137页(3)列出组段 每个组段的起点为该组下限,终点为上限,上限下限组距,第一组段包含最小值,最
7、后组段包含最大值。各组段不能重叠,即同一个数据不能出现在两个组段内,所以每一个组段都应该是半开半闭区间:下限,上限)第一个组段:2.00,第二个组段:2.40第十二个组段:6.406.80或6.40,6.80*:最后一个组段应该同时标明上限和下限第12页/共137页(4)列表划记:采用划记法分别将原始资料中各变量值在频数表中列出来,并且统计各组段变量值的个数,即频数。14014084.29 84.29 13.57 13.57 15.71 15.71 9.29 9.29 22221313正正正正2.802.80-100.00 100.00-合计合计100.00 100.00 2.14 2.14
8、1401403 36.406.406.806.8097.86 97.86 4.28 4.28 1371376 6正正6.006.0093.57 93.57 9.29 9.29 1311311313正正正正5.605.6010.00 10.00 1181181414正正正正5.205.2074.29 74.29 11.43 11.43 1041041616正正正正4.804.8062.86 62.86 12.86 12.86 88881818正正正正正正4.404.4050.00 50.00 70701919正正正正正正4.004.0036.43 36.43 10.71 10.71 515115
9、15正正正正正正3.603.6025.71 25.71 10.00 10.00 36361414正正正正3.203.206.43 6.43 5.00 5.00 9 97 7正正2.402.401.43 1.43 1.43 1.43 2 22 22.002.00累计频率(累计频率(%)%)频率(频率(%)累计频数累计频数频数频数划计划计尿素氮浓度尿素氮浓度第13页/共137页频数分布图第14页/共137页(二)、频数表和频数分布图用途(二)、频数表和频数分布图用途1 1描述频数分布的类型描述频数分布的类型(对称分布(对称分布、偏态分布)、偏态分布)2 2描述频数分布的特征描述频数分布的特征(集中
10、趋势集中趋势 离散趋势)离散趋势)3 3便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值4 4便于便于进一步做统计分析进一步做统计分析和处理(加权)和处理(加权)第15页/共137页(1 1)对称分布)对称分布 :若各组段的频数以中心位置左右两侧大体对称,若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布就认为该资料是对称分布1描述频数分布的类型(对称分布、偏态分布)对称分布对称分布对称分布第16页/共137页(2 2)偏态分布)偏态分布 :1 1)右偏态分布(正偏态分布):右侧的组)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。段数多于左侧
11、的组段数,频数向右侧拖尾。2 2)左偏态分布(负偏态分布)左偏态分布(负偏态分布):左侧的组段左侧的组段数多于右侧的组段数,频数向左侧拖尾。数多于右侧的组段数,频数向左侧拖尾。第17页/共137页正偏态分布正偏态分布正偏态分布正偏态(右偏态)正偏态分布第18页/共137页负偏态(左偏态)负偏态分布负偏态分布负偏态分布负偏态分布第19页/共137页频数分布的类型对称分布对称分布对称分布正偏态分布正偏态分布正偏态分布负偏态分布负偏态分布负偏态分布返回第20页/共137页2 2描述频数分布的特征描述频数分布的特征图图9-19-1(P P288288)数据的频数分布特征:)数据的频数分布特征:数据数据
12、变异(离散)变异(离散)的范围在的范围在 2.002.006.80(mmol/L6.80(mmol/L )数据数据集中(平均)集中(平均)的组段的组段在在 2.802.806.00(mmol/L6.00(mmol/L )之间,尤以组段的人数之间,尤以组段的人数 3.603.605.205.20 (mmol/L(mmol/L )最多最多,且上下组段的频数且上下组段的频数分布基本对称。分布基本对称。返回第21页/共137页3 3便于发现一些特大或特小的可疑便于发现一些特大或特小的可疑值值返回第22页/共137页二、集中趋势的描述 (:掌握描述集中趋势指标的概念、计算和应用条件掌握描述集中趋势指标的
13、概念、计算和应用条件)统统计计上上使使用用平平均均数数这这一一指指标标体体系系来来描描述述一一组组变变量量值值的集中趋势或平均水平。的集中趋势或平均水平。平平均均值值是是一一组组(群群)数数据据典典型型或或有有代代表表性性的的值值。这这个个值值趋趋向向于于落落在在根根据据数数据据大大小排列的数据的中心小排列的数据的中心。第23页/共137页常用的平均数有常用的平均数有:算术均数(均数)(mean)几何均数(geometric mean)中位数(median)百分位数(percentile)第24页/共137页(一)、算术均数算术均数:简称均数(算术均数:简称均数(mean)定义:是一组变量值之
14、和除以变量值个数所得的商。意义:一组呈对称分布的观察值在数量上的平均水平。应用:正态分布(或近似正态或对称分布)资料。总体均数:样本均数:第25页/共137页1、计算方法(1 1)直接计算法)直接计算法 公式:例例9-2 9-2 某某班班级级中中1010名名女女孩孩身身高高(cmcm)的的测测量量值值分分别别为为:132.4132.4,151.3151.3,126.8126.8,138.1138.1,146.6146.6,139.5139.5,154.2154.2,147.5147.5,148.1148.1,137.6137.6,求算术平均数。,求算术平均数。=(132.4+151.3+126
15、.8+138.1+146.6+139.5+154.2+147.5+148.1+=(132.4+151.3+126.8+138.1+146.6+139.5+154.2+147.5+148.1+137.6)/10=142.2(cm)137.6)/10=142.2(cm)第26页/共137页(2)加权法(利用频数表)公式:k:频数表的组段数 f:频数 :组中值,其中i=1,2,k。第27页/共137页组段组段组段组段频数频数频数频数f fi i组中值组中值组中值组中值x xi if fi ix xi if fi ix xi i2 22.002.002.002.002 2 2 22.202.204.4
16、04.409.689.682.402.402.402.407 7 7 72.602.6018.2018.2047.3247.322.802.802.802.80131313133.003.0039.0039.00117.00117.003.203.203.203.20141414143.403.4047.6047.60161.84161.843.603.603.603.60151515153.803.8057.0057.00216.60216.604.004.004.004.00191919194.204.2079.8079.80335.16335.164.404.404.404.401818
17、18184.604.6082.8082.80380.88380.884.804.804.804.80161616165.005.0080.0080.00400.00400.005.205.205.205.20141414145.405.4075.6075.60408.24408.245.605.605.605.60131313135.805.8075.4075.40437.32437.326.006.006.006.006 6 6 66.206.2037.2037.20230.64230.646.406.406.406.406.806.806.806.803 3 3 36.606.6019.8
18、019.80130.68130.68合计合计合计合计140 140 140 140(f fi i)616.80(616.80(f fi ix xi i)2875.362875.36表9-3 140名成年男子血清BUN浓度(mmol/L)均数与标准差计算用表第28页/共137页(二二)、几何均数(几何均数(geometric mean)u定义:用G 表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。u其适用条件是:当一组观察值为非对称分布且其差距较大时,用均数表示其平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。第29页/共
19、137页几何均数计算公式:几何均数:变量对数值的算术均数的反对数。n计算几何均数的观察值应大于零 1.直接法(当观察例数少(当观察例数少 n50 n100 中位数为多少?第39页/共137页(2 2).频数表计算中位数和百分位频数表计算中位数和百分位数数下限值L上限值Ui;fm中位数M第40页/共137页例例 频数表中位数的计算频数表中位数的计算血糖血糖(mol/L)(mol/L)组段组段组中值组中值()频数频数(f)(f)累计频数(累计频数(ff)频率频率(%)(%)累计频率累计频率(%)(%)3.603.603.70 3.70 3 3 3 32.27 2.27 2.27 2.27 3.80
20、3.803.90 3.90 3 3 6 6 2.27 2.27 4.55 4.55 4.004.004.10 4.10 8 8 14 14 6.06 6.06 10.61 10.61 4.204.204.30 4.30 23 23 37 37 17.42 17.42 28.03 28.03 4.404.404.50 4.50 24 24 61 61 18.18 18.18 46.21 46.21 4.604.604.70 4.70 25 25 86 86 18.94 18.94 65.15 65.15 4.804.804.90 4.90 20 20 106 106 15.15 15.15 80
21、.30 80.30 5.005.005.10 5.10 12 12 118 118 9.09 9.09 89.39 89.39 5.205.205.30 5.30 10 10 128 128 7.58 7.58 96.97 96.97 5.405.405.605.605.50 5.50 4 4 132 132 3.03 3.03 100.00 100.00 合计合计132(fi)132(fi)100.00 100.00 n n4.60+(0.20/25)*132/2-61=4.64第41页/共137页 百分位数示意图(二)百分位数(percentile)n n把一组数据从小到把一组数据从小到大
22、排列,分成大排列,分成100100等份,各等份含等份,各等份含1%1%的观察值,分割界的观察值,分割界限上的数值就是百限上的数值就是百分位数。分位数。n中位数是第50百分位数,用P50表示。第42页/共137页第43页/共137页公式:公式:第44页/共137页 当 时,公式(9-7)即为中位数的计算公式:第45页/共137页血铅(血铅(umol/l)频数频数f累计频数累计频数fi累计频数(累计频数(%)022226.470.25365817.060.50238123.820.754212336.181.004116448.241.255521964.411.5036255751.752828
23、383.242.001529887.652.252432294.712.50632896.472.75933799.123.003.253340100例 9.7 为了解本地儿童体内铅负荷的现状,某市儿保所2006年以随机抽样的方法调查了该市340名7岁以下儿童的血铅含量,试计算该资料的中位数和P25、P75、P95第46页/共137页第47页/共137页三种平均数的特点v算术均数:算术均数:通常被认为是最佳集中趋势的度量值。如通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特大或特果资料观察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变得不稳
24、定而小值)或资料呈偏态分布,算术均数就变得不稳定而失去代表性。失去代表性。正态分布正态分布v几何均数几何均数一般只适宜于一般只适宜于等比级数等比级数资料。对于这类资料,资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。用几何均数反映集中趋势比算术均数或中位数更合适。v中位数中位数不受其前后其他数值(特别是极端值)的影响。不受其前后其他数值(特别是极端值)的影响。但如果数据呈明显不同且差异很大,这时中位数可能但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。不适宜作为集中趋势的度量值了。偏态分布偏态分布第48页/共137页反反映映集集中中趋趋势势的的指
25、指标标(平平均均数数),表表示示一一组组观观察察值值的的平平均均水水及及集集中中特特性性,并并可可作作为为总总体体的的一一个个代代表表值值加加以以应应用用。但是它没有表达其所代表的但是它没有表达其所代表的总体中各个个体之间的差异总体中各个个体之间的差异。统统计计学学中中把把个个体体间间的的差差异异称称为为变变异异性性(variationvariation)。所所谓谓变变异异性性是是指指在在同同质质条条件件下下的的观观察察单单位位,其其同同一一标标志志的数据间的差异性。的数据间的差异性。用用以以描描述述一一组组数数值值变变量量资资料料观观察察值值之之间间参参差差不不齐齐的的程程度度,即离散程度或
26、变异度的指标,称为即离散程度或变异度的指标,称为离散指标或变异指标离散指标或变异指标。三、离散趋势的描述第49页/共137页盘编号盘编号盘编号盘编号甲甲甲甲乙乙乙乙丙丙丙丙1 1 1 15605605605605205205205205105105105102 2 2 25405405405405105105105105055055055053 3 3 35005005005005005005005005005005005004 4 4 44604604604604904904904904954954954955 5 5 544044044044048048048048049049049049
27、0合计合计合计合计250025002500250025002500250025002500250025002500均数均数均数均数500500500500500500500500500500500500 例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙第50页/共137页第51页/共137页常用统计指标:全距(range)四分位数间距(quartile interval)方差和标准差(variance&standard deviation)变异系数(CV coefficient of variation)第52页/共137页全距,用R表示
28、:即一组变量值最大值与最小值之差,亦称极差。对于书中例9-1数据,有简单,但仅利用了两端点值,稳定性差。(一)全距(Range)R6.552.10=4.45(mmol/l)R R越大,变异度越大越大,变异度越大;R R越小,变异度越小。越小,变异度越小。第53页/共137页(二二)四分位数间距(四分位数间距(quartile range)u四分位数间距,用Q表示,将一组资料所有变量值由小到大排序后,分成四个数目相等的段落,上四分位数和下四分位数之差就是:u公式:Q=u下四分位数:u上四分位数:意义:四分位数相当于中间一半变量值的极差,适用于偏态资料或两端无确定数据的资料第54页/共137页第5
29、5页/共137页优点:与极差相比,不受两端最大值,最小值的影响,比较稳定缺点:没有考虑到每一个具体变量值的变异程度第56页/共137页v全距全距和和四分位数间距四分位数间距都未全面考虑观察值的变都未全面考虑观察值的变异情况,为了克服该缺点,需计算总体中每个异情况,为了克服该缺点,需计算总体中每个观察值观察值x x与总体均数与总体均数 的差值的差值(x-x-),),称为称为离离均差均差。(三)、方差第57页/共137页(60-72)(66-72)(72-72)(78-72)(84-72)-12 -6 0 6 12(60-72)2 (66-72)2(72-72)2 (78-72)2(84-72)2
30、 144 36 0 36 14460 66 72 78 84第58页/共137页 由于由于(x-x-)=0=0,不能反映变异的大小,不能反映变异的大小,而用离均差平方和而用离均差平方和 (x-x-)2 2(sum of deviation sum of deviation from meanfrom mean)反映。同时还要考虑到观察值个数)反映。同时还要考虑到观察值个数 N N 的影响,用其均数,即得到的影响,用其均数,即得到总体的方差总体的方差,用,用 2 2表示。表示。公式为:公式为:第59页/共137页总体方差样本方差方差(variance)是离均差平方和的均数,反映一组数据的平均离散
31、水平。l由于在实际工作中,往往得到的样本资料,总体均数是未知的,所以只能用样本均数 作为的估计值,即用 代替 ,用样本例数 n 代替N。但按公式计算的结果 通常比实际的 低。所以用n来代替 N 进行校正。得到样本方差 自由自由度度离均差平方和 SS第60页/共137页自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数()2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 =5。当 =5 确定后,x1,x2和x3有两个数据可以自由取值,另一个
32、则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值第61页/共137页(四)标准差(standard deviation)v方差方差可以比较全面地反映变量值的变异情况,可以比较全面地反映变量值的变异情况,但其方差的单位是原单位的平方但其方差的单位是原单位的平方,故引入,故引入标准标准差差的概念。的概念。v标准差:标准差:将方差开平方,恢复成原度量单位,将方差开平方,恢复成原度量单位,得到总体的标准差得到总体的标准差 和样本标准差和样本标准差S。第62页/共137页样本标准差用 表示,其度量单位与均数一致,所以最常用。离均差平方和SS总体标准差 用表示公 式:公 式:第6
33、3页/共137页 标准差的公式还可以写成:利用频数表计算标准差的公式为:第64页/共137页离散趋势的描述离均差和离均差和离均差平方和离均差平方和总体方差总体方差样本方差样本方差总体标准差总体标准差样本标准差样本标准差 第65页/共137页例 对以下数据:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。第66页/共137页例有3组同龄男孩的体重()测量值如下,其平均体重都是30(),试分析其离散程度。分组分组观察值观察值()全距全距全距全距 R R QQS甲组甲组262830323430843.16乙组乙组2427303336301264.74丙组丙组26293
34、0313430822.92丙丙丙丙组组*乙乙乙乙组组*甲甲甲甲组组*体重体重体重体重232324242525262627272828292930303131323233333434353536363737()第67页/共137页血糖血糖(mol/L)(mol/L)组段组段频数频数()()组中值组中值()3.603.603 3 3.70 3.70 11.10 11.10 41.07 41.07 3.803.803 3 3.90 3.90 11.70 11.70 45.63 45.63 4.004.008 8 4.10 4.10 32.80 32.80 134.48 134.48 4.204.20
35、23 23 4.30 4.30 98.90 98.90 425.27 425.27 4.404.4024 24 4.50 4.50 108.00 108.00 486.00 486.00 4.604.6025 25 4.70 4.70 117.50 117.50 552.25 552.25 4.804.8020 20 4.90 4.90 98.00 98.00 480.20 480.20 5.005.0012 12 5.10 5.10 61.20 61.20 312.12 312.12 5.205.2010 10 5.30 5.30 53.00 53.00 280.90 280.90 5.40
36、5.405.605.604 4 5.50 5.50 22.00 22.00 121.00 121.00 合计合计132132 614.20 614.20 2878.92 2878.92例 频数表法计算标准差。第68页/共137页标准差的基本内容是标准差的基本内容是 “离均差离均差”,它显示一组变量值与其均数的间距,故标准差,它显示一组变量值与其均数的间距,故标准差直接地直接地、总结地、平均地总结地、平均地描述了变量值的离散程度。描述了变量值的离散程度。第69页/共137页标准差应用1.反映一组资料的离散程度2.计算变异系数3.计算标准误4.结合均数与正态分布规律估计正常值范围第70页/共137
37、页(五)变异系数u变异系数(coefficient of variation,CV)u常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。第71页/共137页例:某地例:某地7 7岁男孩身高的均数为岁男孩身高的均数为123.10 cm123.10 cm,标,标准差为准差为4.714.71cmcm;体重均数为;体重均数为22.29kg22.29kg,标准差,标准差为为2.262.26kg,kg,比较其变异度?比较其变异度?(观察指标单位不同)第72页/共137页均数相差较大时:第73页/共137页平均数与变异度的关系 平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明
38、计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差 第74页/共137页平均数与变异度的关系通常,平均数与变异指标一起描述资料的分布特征。用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距中位数和四分位数间距描述偏态分布资料特征。描述偏态分布资料特征。第75页/共137页资料的指标描述是统计描述的一个重要的组成部分是统计描述的一个重要的组成部分定量资料的统计指标定量资料的统计指标平均水平指标:平均水平指标:算术均数、几何均数、中位数等。离散程度指标:离散程度指标:全距、四分位数间距、方差、标准差、变异系数。第76页/共137页第77页/
39、共137页描述性统计量归纳描述性统计量归纳集中趋势集中趋势的指标的指标离散趋势离散趋势指标指标适用的资料类型适用的资料类型1.1.算术平均数算术平均数方差及标准差方差及标准差方差及标准差方差及标准差对称分布,特别是对称分布,特别是正态或近似正态分布资料。正态或近似正态分布资料。2.2.几何平均数几何平均数几何标准差几何标准差几何标准差几何标准差适用于对数正态适用于对数正态或近似对数正态分布资料或近似对数正态分布资料3.3.中位数中位数 四分位数间距四分位数间距四分位数间距四分位数间距或百分位数或百分位数或百分位数或百分位数分布不规则的资料,分布不规则的资料,分布不规则的资料,分布不规则的资料,
40、分散程度大的资料分散程度大的资料分散程度大的资料分散程度大的资料第78页/共137页第二节 正态分布及其应用v正态分布又称正态分布又称GaussGauss分布是一分布是一个重要的连续型概率分布个重要的连续型概率分布。物理学家、数学家卡尔弗里德里希高斯 第79页/共137页正态分布的重要性正态分布的重要性v医学研究中的许多正常人生理、生化指标服从医学研究中的许多正常人生理、生化指标服从或近似服从正态分布;或近似服从正态分布;v很多统计方法是建立在正态分布的基础之上的;很多统计方法是建立在正态分布的基础之上的;v很多非正态分布的资料转化为正态分布。因此,很多非正态分布的资料转化为正态分布。因此,正
41、态分布是统计分析方法的重要基础。正态分布是统计分析方法的重要基础。第80页/共137页 设设想想当当原原始始数数据据的的频频数数分分布布图图的的观观察察人人数数逐逐渐渐增增加加且且组组段段不不断断分分细细时时,图图9-19-1中中的的直直条条就就不不断断变变窄窄,其其顶顶端端则则逐逐渐渐接接近近于于一一条条光光滑滑的的曲曲线线。这这条条曲曲线线形形态态呈呈钟钟形形,两两头头低低、中中间间高高,左左右右对对称称,近近似似于于数数学学上上的的正正态态分分布布。在在处处理理资料时,我们就把它看成是资料时,我们就把它看成是正态分布。正态分布。一、正态分布的概念一、正态分布的概念第81页/共137页第8
42、2页/共137页第83页/共137页当X服从正态分布记作XN(,2)n其中为总体均数,2为总体方差第84页/共137页服从正态分布的变量X的概率密度函数f(X)为式中,式中,为总体均数;为总体均数;为总体标准差;为总体标准差;=3.14159=3.14159为圆周率;为圆周率;e e为自然对数的底为自然对数的底(e2.71828),X(e2.71828),X为变量。为变量。第85页/共137页二二、正态分布的特征正态分布的特征(3)正态分布有两个参数,即位置参数和形态参数。若固定,改变值,曲线沿着X轴平行移动,其形状不变若固定,越小,曲线越陡峭;反之,越大,曲线越平坦 第86页/共137页xf
43、(x)CAB 和 对正态曲线的影响第87页/共137页第88页/共137页第89页/共137页(4 4)正态曲线下的面积分布有一定的规律。)正态曲线下的面积分布有一定的规律。累积面积可通过对概率密度函数累积面积可通过对概率密度函数f f(X X)积分求得积分求得第90页/共137页第91页/共137页正态曲线面积分布示意图 第92页/共137页正态分布是一个分布族,对应于不同的参数和会产生不同位置、不同形状的正态分布。标准正态分布为实际应用方便,将一般正态分布转换为标准正态分布。转换公式为:u称为标准正态变量 服从标准正态分布的变量u的概率密度函数f(u)为第93页/共137页用N(0,1)表
44、示,即u值的均数为0,标准差为1的正态分布。标准正态变换 第94页/共137页(1)正态分布 (2)标准正态分布图9-4 正态分布与标准正态分布的面积与纵高按式(9-16),根据X的不同取值,绘出正态分布的图形(1)。按式(9-17),根据u的不同取值,绘出标准正态分布的图(2)。Xu第95页/共137页 正态分布 标准正态分布第96页/共137页正态分布曲线的三个特点正态分布曲线的三个特点v集中性 v对称性v均匀变动性第97页/共137页集中性中等大小的数据居多,较大的和较小的数据少些,即例数集中在中等大小的数据附近。第98页/共137页对称性 以均数为中心,大于它和小于它的数据的例数是对称
45、的。第99页/共137页均匀变动性 例数由少增多或由多减少的过程是逐渐变化的,即均匀分布的。在分析数例数由少增多或由多减少的过程是逐渐变化的,即均匀分布的。在分析数据时,均匀性是一个很重要的特点。据时,均匀性是一个很重要的特点。如果,随着变量值的变异,例数突然地增多或突然地减少,或长距离地间断,都表示资料的同质性可能较差,应进一步查明原因。第100页/共137页正态分布的特征正态分布是单峰分布:X=(峰)正态分布以均数为中心,左右完全对称。正态分布有两个参数(parameter)。某些指标经变换后服从正态分布。正态曲线下的面积分布有一定的规律。第101页/共137页标准正态分布曲线下的面积的计
46、算 求u值,用u值查表,得到所求区间面积占总面积的比例。曲线下对称于0 0的区间,面积相等。曲线下总面积为100100或1 1。第102页/共137页正态曲线下的面积特点横轴上曲线下的面积为1;正态曲线和标准正态曲线下,横轴上分别对称于或0的面积相等;常用的分布点有:正态分布 标准正态分布 面积 1 +1 1 +1 68.27%1.96 +1.96 1.96+1.96 95.00%2.58 +2.58 2.58+2.58 99.00%第103页/共137页图9-6 正态曲线与标准正态曲线的面积分布第104页/共137页为了省去计算的麻烦,编制成了“标准正态分布曲线下的面积”(表9-8)。通过查
47、表可求出正态曲线下某区间的面积,进而估计该区间观察例数占总例数的百分数或变量值落在该区间的概率。第105页/共137页第106页/共137页三、正态分布的应用(1)估计变量值的频数分布(2)制定参考值范围(3)质量控制(4)正态分布是很多统计方法的基础第107页/共137页例 已得某地110名7岁男童身高 ,现欲估计该地身高界于116.5cm 到119.0cm范围内的7岁男童 比 例 及 110名 7岁 男 童 中 身 高 界 于116.5119.0cm范围的人数。(一)估计变量值的频数分布第108页/共137页如:(x1,x2)(u1,u2)查u界值表求出面积第109页/共137页第110页
48、/共137页v参考值范围(参考值范围(reference ranges)医学参考值是指正医学参考值是指正常人的各种生理、生化数常人的各种生理、生化数据,组织或排泄物中各种成分的含量。据,组织或排泄物中各种成分的含量。v由于存在个体差异,生物医学数据并非常数而由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用是在一定范围内波动,故采用医学参考值范围医学参考值范围(medical reference range)作为判定正常和作为判定正常和异常的参考标准。异常的参考标准。(二)医学参考值范围第111页/共137页医医学学参参考考值值(reference value)是是指指正正常常
49、人人的的各各种种生生理理、生生化化数数据据,组组织织或或排排泄泄物物中中各各种成分的含量。种成分的含量。医医学学参参考考值值范范围围是是指指正正常常人人指指标标测测定定值值的的波波动动范范围围,参参考考值值范范围围在在诊诊断断方方面面可可用用于于划划分分正常正常或或异常。异常。、意义第112页/共137页医学参考值范围医学参考值范围(reference ranges)为什么波动?为什么波动?“个体变异个体变异”同一指标的数据因人而异同一指标的数据因人而异同一个体的数据随环境、时间等改变而同一个体的数据随环境、时间等改变而变变第113页/共137页为什么要确定一个范围?为什么要确定一个范围?既然
50、同属正常人,就不能以甲的数据为标准,既然同属正常人,就不能以甲的数据为标准,认为乙异常;亦不能以甲此时的数据为标准,认认为乙异常;亦不能以甲此时的数据为标准,认为彼时的异常。所以必须确定一个波动范围。如为彼时的异常。所以必须确定一个波动范围。如WBC:400010000个个/mm3“正常正常”是一个相对的概念是一个相对的概念 “正常人正常人”是指排除了影响所研究指标的疾病是指排除了影响所研究指标的疾病和有关因素的人。和有关因素的人。第114页/共137页横向分析临床医生判断正常与异常的参考依据 动态分析如某个地区不同时期发汞的正常值,可反映环境污染的动态变化或环保效果第115页/共137页、制