《医学统计学--绪论(第1章)2 (1).ppt》由会员分享,可在线阅读,更多相关《医学统计学--绪论(第1章)2 (1).ppt(67页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第二章第二章计量资料的统计描述计量资料的统计描述第一节第一节 频数分布频数分布 一、频数分布表一、频数分布表 将变量值化分为若干个组段,清点并将变量值化分为若干个组段,清点并记录各组段变量值的个数,称为频数表。记录各组段变量值的个数,称为频数表。了解变量值的分布情况了解变量值的分布情况。组组 段段频数(频数(f f)频数构成比(频数构成比(%)2.302.30 1 1 0.990.99 2.602.60 3 3 2.972.97 2.902.90 6 6 5.945.94 3.203.20 8 8 7.927.92 3.503.50 1717 16.8316.83 3.803.80 2020
2、 19.8019.80 4.104.10 1717 16.8316.83 4.404.40 1212 11.8811.88 4.704.70 9 9 8.918.91 5.005.00 5 5 4.954.95 5.305.30 2 2 1.981.98 5.605.605.905.90 1 1 0.990.99 合合 计计 101101100.00100.00101101名正常成年女子血清总胆固醇名正常成年女子血清总胆固醇(mmol/L)频数分布频数分布1.1.求极差求极差:也称全距也称全距(Range)(Range)R=R=最大值最小值最大值最小值=5.71-2.35=3.36=5.71-
3、2.35=3.362.2.确定组段数(取确定组段数(取10-1510-15组)和组距:组)和组距:组距组距(i)=(i)=全距全距组段数组段数=3.3610=0.3360.30=3.3610=0.3360.303.3.写出组段:写出组段:起始组段取小于或等于最小值的数,最后组段包起始组段取小于或等于最小值的数,最后组段包含最大值。含最大值。LXLXU U。4.4.分组划计并统计频数。分组划计并统计频数。编制频数表的步骤编制频数表的步骤:二、频数分布图二、频数分布图三、频数表和频数分布图的用途三、频数表和频数分布图的用途1.1.描述频数分布的类型描述频数分布的类型 正态分布正态分布 正(右)偏态
4、分布、负(左)偏态分布正(右)偏态分布、负(左)偏态分布2.2.描述频数分布特征描述频数分布特征 变异范围、统计分布规律(对称性、集变异范围、统计分布规律(对称性、集 中位置、在各组段出现的频率等)中位置、在各组段出现的频率等)3.3.便于发现资料中的可疑值。便于发现资料中的可疑值。4.4.便于进一步做统计分析和处理。便于进一步做统计分析和处理。g 第二节第二节 集中趋势的描述集中趋势的描述计量数据统计描述指标:计量数据统计描述指标:集中趋势指标:集中趋势指标:描述一组描述一组同质同质的的变量值变量值的集中位置或的集中位置或平均水平平均水平。常用的有:算术均数、几何均数、中位数。常用的有:算术
5、均数、几何均数、中位数。离散趋势指标:离散趋势指标:描述一组同质变量值的离散程度或变异大小。描述一组同质变量值的离散程度或变异大小。常用的有:极差、四分位数间距、方差、标准常用的有:极差、四分位数间距、方差、标准差、变异系数。差、变异系数。一、算术均数一、算术均数(arithmetic mean)简称均数简称均数(mean),适用正态或近似正态分布资料。适用正态或近似正态分布资料。组组 段段频数频数(f)(f)组中值组中值(X)(X)fXfX 2.302.30 1 12.452.45 2.452.45 2.602.60 3 32.752.75 8.258.25 2.902.90 6 63.05
6、3.05 18.3018.30 3.203.20 8 83.353.35 26.8026.80 3.503.50 17173.653.65 62.0562.05 3.803.80 20203.953.95 79.0079.00 4.104.10 17174.254.25 72.2572.25 4.404.40 12124.554.55 54.6054.60 4.704.70 9 94.854.85 43.6543.65 5.005.00 5 55.155.15 25.7525.75 5.305.30 2 25.455.45 10.9010.90 5.605.605.905.90 1 15.75
7、5.75 5.755.75 合计合计 101101 409.75409.75101101名正常成年女子血清总胆固醇名正常成年女子血清总胆固醇(mmolmmol/L)/L)算术均数计算算术均数计算CASIO fx-3600PCASIO fx-3600P计算器统计功能计算器统计功能 步骤步骤 键键 盘盘 说说 明明 1.MOOD 3 进入进入SD统计功能统计功能 2.INV AC 清除原有数据清除原有数据 3.2.35 DATA 输入数据输入数据 4.21 DATA 3.32 DATA 4.INV 1(数字键)数字键)显示计算的显示计算的 5.INV 3(数字键)数字键)显示计算的显示计算的 S
8、6.Kout 3(数字键)数字键)显示计算的显示计算的 n 7.Kout 1(数字键)数字键)显示计算的显示计算的CASIO fx-3600PCASIO fx-3600P计算器统计功能计算器统计功能 步骤步骤 键键 盘盘 说说 明明 1.MOOD 3 进入进入SD统计功能统计功能 2.INV AC 清除原有数据清除原有数据 3.2.451 DATA 输入数据输入数据 2.753 DATA 后为频数后为频数 3.056 DATA 4.INV 1(数字键)数字键)显示计算的显示计算的 5.INV 3(数字键)数字键)显示计算的显示计算的 S 6.Kout 3(数字键)数字键)显示计算的显示计算的
9、n 7.Kout 1(数字键)数字键)显示计算的显示计算的二、几何均数二、几何均数(geometric mean)适用于经对数转换后呈正态分布资料,常用于适用于经对数转换后呈正态分布资料,常用于数据呈倍数变化的资料。数据呈倍数变化的资料。表表2-4 69例类风湿关节炎患者血清例类风湿关节炎患者血清EBV-VCA-lgG 抗体滴度的测定结果抗体滴度的测定结果滴度倒数滴度倒数(X)人数人数(f)lgX f lgX10 41.0000 4.000020 31.3010 3.903040101.602116.021080101.903119.0310160112.204124.2451320152.5
10、05137.5765640142.806239.28681280 23.1072 6.2144合计合计69150.27782.结论:结论:69例类风湿关节炎患者血清例类风湿关节炎患者血清EBV-VCA-lgG抗体平均滴度为抗体平均滴度为1:150.6。三、中位数三、中位数与百分位数与百分位数(一)中位数(一)中位数(median)将一组变量值由小到大依次排列,居以中间将一组变量值由小到大依次排列,居以中间位次的观察值。位次的观察值。适用各种分布类型资料,尤其是偏态分布资适用各种分布类型资料,尤其是偏态分布资料和一端或两端无确切数值的资料。料和一端或两端无确切数值的资料。X X:5 5,5 5,
11、6 6,7 7,2020,位次:位次:1 2 3 4 51 2 3 4 523 23 6 6中位数中位数(M):6 6 6.56.5(二)百分位数(二)百分位数(percentile)是一种位置指标,用是一种位置指标,用 P PX X 来表示。来表示。将将n n个变量值从小到大依次排列,再把它们的个变量值从小到大依次排列,再把它们的位次转换为百分位。对应于位次转换为百分位。对应于X%位次的数值位次的数值即为第即为第X百分位数。百分位数。变量值:变量值:5 5 8 89 758 位位 次:次:1 2 3 75 150 百分位次:百分位次:0.7%2%50%100%一个一个P PX X将全部变量值
12、分为两部分,在不包含将全部变量值分为两部分,在不包含 P PX X的全部变量值中有的全部变量值中有X%的变量值比它小,的变量值比它小,有有(100-X)%的变量值比它大。的变量值比它大。PX是一个界值。是一个界值。M实际上是第实际上是第50百分位数。百分位数。1.1.直接计算法直接计算法 用用 nX%确定确定PX 的位次的位次。当当 nX%带有小数位时:带有小数位时:trunc(a)表示对数字取其整数。表示对数字取其整数。当当 nX%为整数时:为整数时:细菌性痢疾治细菌性痢疾治愈者愈者(n=120)1 2 3 4 5 6 7 8 9 117 118 119 120 住住 院院 天天 数数 1
13、2 2 2 3 3 4 4 5 40 40 42 452.频数表频数表法法L LX X:第:第X X百分位数所在组段的百分位数所在组段的下限下限i iX X:第:第X X百分位数所在组段的百分位数所在组段的组距组距f fX X:第:第X X百分位数所在组段的百分位数所在组段的频数频数 :第:第X X百分位数所在组段百分位数所在组段上一组段累计频数上一组段累计频数表表2-5 某地某地118名链球菌咽喉炎患者潜伏期名链球菌咽喉炎患者潜伏期天数天数人数人数 f f累计频数累计频数累计频率累计频率%12443.424172117.836325344.948247765.360189580.572121
14、0790.784511294.996411698.31082118100.0第三节第三节 离散趋势的描述离散趋势的描述 描述计量资料数据间离散程描述计量资料数据间离散程度的指标度的指标 变异指标变异指标常用的指标有:常用的指标有:极差极差,四分位间距,四分位间距,方差、标准差、变异系数方差、标准差、变异系数几个常用的变异指标几个常用的变异指标一、极差(极差(Range):):用(用(R)表示,表示,即一组数据的即一组数据的R=最大值最大值 最小值最小值意义:意义:R值越大,表示该组数据的变异值越大,表示该组数据的变异越大。越大。缺点:数据利用不全,部分信息损失缺点:数据利用不全,部分信息损失,
15、在例数少时结果不稳定。在例数少时结果不稳定。例例2-10 三组同龄男孩的身高值(三组同龄男孩的身高值(cm)R 甲组甲组 90 95 100 105 110 100 20 乙组乙组 96 98 100 102 104 100 8 丙组丙组 96 99 100 101 104 100 8 二、四分位数间距二、四分位数间距四分位数间距:常用四分位数间距:常用QR表示表示:计算:用百分位数法计算数据第计算:用百分位数法计算数据第75%与第与第25%位数之差。位数之差。QR=P75%-P25%作为变异指标比极差稳定。作为变异指标比极差稳定。常用于表示偏常用于表示偏态分布资料的变异。态分布资料的变异。例
16、:例:QR=P75%-P25%=67.739.2=28.5(天)天)表示方法表示方法:Md(QR)M=51天,(天,(QR=28.5天)天)三、标准差和方差标准差和方差(Standard deviation and variance)公式公式 标准差标准差方差方差方差方差总体方差总体方差总体标准差总体标准差标准差计算公式标准差计算公式总体(理论)总体(理论)样本标样本标准差准差标准差的简化计算公式:标准差的简化计算公式:(2-14)例数较少例数较少(2-15)频数表频数表资料资料例2-10 甲组5名同龄男孩的身高值(cm)X X2 90 8100 95 9025 100 10000 105 1
17、1025 110 12100 例例2-10 三组同龄男孩的身高值三组同龄男孩的身高值(cm)R S甲组甲组 90 95 100 105 110 100 20 7.91乙组乙组 96 98 100 102 104 100 8 3.16丙组丙组 96 99 100 101 104 100 8 2.92标准差的意义:标准差的意义:反映一组数据平均的离散水平,单位相同反映一组数据平均的离散水平,单位相同时,时,S越小,表示数据的变异程度越小,同越小,表示数据的变异程度越小,同时表示该组均数的代表性越大。时表示该组均数的代表性越大。表表2-1 101名正常女子血清胆固醇值名正常女子血清胆固醇值组段组段(
18、X)频数频数(f)fX fx 22.302.45 12.456.002.602.75 38.2522.692.903.05 618.3055.823.203.35 83.503.65 173.803.95 204.104.25 174.404.55 124.704.85 95.005.15 55.305.45 25.6-5.95.75 1四、变异系数四、变异系数(CV)应用应用:1.单位不同时组间变异程度的比较单位不同时组间变异程度的比较。2.比较组单位相同比较组单位相同,但均数相差悬但均数相差悬殊的组殊的组 间变异程度间变异程度.意义:意义:CV越大,表示数据变异越大。越大,表示数据变异越大
19、。常用于衡量方法、仪器的精密度常用于衡量方法、仪器的精密度。公式:公式:1.1.单位不同时组间变异程度的比较单位不同时组间变异程度的比较。S 某地不同年龄组男童身高(某地不同年龄组男童身高(cm)年龄组年龄组 S CV%1-2月月 56.3 2.1 3.735-6月月 66.5 2.2 3.313-3.5岁岁 96.1 3.1 3.225-5.5岁岁 107.8 3.3 3.06结论:随着年龄增加,身高的变异变小。结论:随着年龄增加,身高的变异变小。2.比较组单位相同比较组单位相同,但均数相差悬殊的但均数相差悬殊的组间变异程度比较组间变异程度比较.如表。如表。计量数据的统计描述小结计量数据的统
20、计描述小结 1.在医学杂志中,正态或近似正态资料,在医学杂志中,正态或近似正态资料,常以常以 的形式表达,的形式表达,描述和比较描述和比较数据数据的平均水平和离散程度。的平均水平和离散程度。例 两组患者年龄(岁)的比较两组患者年龄(岁)的比较组别组别 n 试验组试验组 12 45.9 3.7 对照组对照组 10 50.5 13.0 两组患者随机化后基线情况的比较两组患者随机化后基线情况的比较2.偏态分布或特定资料(生存时间、病偏态分布或特定资料(生存时间、病程、潜伏期时间等)用中位数和四分位程、潜伏期时间等)用中位数和四分位间距描述。间距描述。表达形式:表达形式:M,(,(QR)3.等比数据和
21、正偏态数据可用几何均数等比数据和正偏态数据可用几何均数和几何标准差描述和几何标准差描述表达形式:表达形式:GSG第二章第二章 统计描述统计描述第四节第四节 正态分布正态分布(Normal distribution)正态分布(正态分布(Normal Distribution)概述:概述:正态分布是描述连续型正态分布是描述连续型变量变量值值分布的曲线,医学资料许分布的曲线,医学资料许多服从正态分布。多服从正态分布。直方图的频数分布与正态分布直方图的频数分布与正态分布(见图(见图2-4)图图2-4 频数分布与正态分布示意图频数分布与正态分布示意图一、正态分布的概念和特征一、正态分布的概念和特征1.正
22、态分布曲线的数学函数表达式:正态分布曲线的数学函数表达式:X为连续随机变量,为连续随机变量,为为X值的总体均数,值的总体均数,2 为总体方差,记为为总体方差,记为XN(,2)(-X )(2-17)2、正态分布曲线理论上的特征、正态分布曲线理论上的特征(1)以X=为中心为中心,左右左右X值对称性减值对称性减少。少。(2)在X=处曲线最高,处曲线最高,f(X=)为最为最大值。大值。3.、决定决定 正态分布曲线位置和形状正态分布曲线位置和形状固定固定,随,随 不同,曲线位置不同,称不同,曲线位置不同,称为为位置参数,位置参数,固定固定,越大,曲线形状不同,越大,曲线形状不同,称称为为形状参数,正态分
23、布是一个分布族。形状参数,正态分布是一个分布族。图图2-5 正态分布参数位置变化示意图正态分布参数位置变化示意图图图2-6 正态分布变异度不同变化示意图正态分布变异度不同变化示意图4.理论上,有中位数理论上,有中位数=均数(均数()5.任何正态分布的任何正态分布的X通过通过u值值转换后转换后,称为标称为标准化的正态分布,即准化的正态分布,即u N(=0,2=1)标准正态分布方程标准正态分布方程u为标准化变为标准化变量值量值三、正态曲线下面积(概率)的分三、正态曲线下面积(概率)的分布及估计方法布及估计方法1.曲线下曲线下a b区间面积的含义区间面积的含义(1)表示)表示X值在值在a b区间占全
24、部变量值的百区间占全部变量值的百分比或表示分比或表示X值在值在a b区间出现的区间出现的概率概率(P)。)。(2)X在曲线下整个面积分布为在曲线下整个面积分布为100%或或X值在曲线范围内出现的概率为值在曲线范围内出现的概率为1。2.估计曲线下面积的方法估计曲线下面积的方法将变量值(将变量值(X)转换为转换为u值后,查标准正值后,查标准正态分布表(态分布表(P520),),可估计曲线下可估计曲线下a b区区间的面积。间的面积。(2-21)表示从表示从到到u值范值范围内围内X分布面积分布面积标准正态分布曲线下面积标准正态分布曲线下面积例:标准正态变量值例:标准正态变量值u=(-1,1)和)和u=
25、(-1.96,1.96)区间的面积(概率)各为多少?区间的面积(概率)各为多少?同理:同理:u=(-2.58,2.58)区间的面积为区间的面积为0.99记为:记为:有有:变量值分布变量值分布的范围表达的范围表达X占的百占的百分比分比(%)68.27%95.00%99.00%任意正态分布变量值任意正态分布变量值(X)理论上分布规律理论上分布规律3.医学常用的三个医学常用的三个X 分布范围及分布范围及u界值界值(1)X值分布范围值分布范围u0.05/2=1.96 (双侧)双侧)u0.01/2=2.58(双侧)双侧)u0.05=1.64 (单侧)单侧)u0.01=2.33(单侧)单侧)(2)统计中常
26、用尾部面积的统计中常用尾部面积的u值,记值,记 ,称为,称为u界值。界值。三、正态分布的应用三、正态分布的应用 1.估计正态分布估计正态分布X值在特定值范围内的值在特定值范围内的分布比例。例:分布比例。例:2.制定某临床指标的的参考值范围制定某临床指标的的参考值范围 3.利用利用 估计变量值的范围或估计变量值的范围或对极端值做取舍。对极端值做取舍。4.许多统计方法的统计推断建立在正许多统计方法的统计推断建立在正态分布基础上态分布基础上。例例2.14 101名正常成年女子的血清总胆名正常成年女子的血清总胆固醇固醇 ,。试估计。试估计该总体正常女子血清总胆固醇在该总体正常女子血清总胆固醇在4mmo
27、l/l以以下者的百分比。下者的百分比。解:假定该资料服从正态分布,将解:假定该资料服从正态分布,将X1=4转换为转换为u值,查正态分布表值,查正态分布表用用查表标准正态变量(标准正态变量(u1)=0.09 该地正常女子血清总胆固醇在该地正常女子血清总胆固醇在4mmol/l以下者的百分比为以下者的百分比为46.41%。第五节 医学参考值范围的制定一概念一概念医医学学参参考考值值是是指指包包括括绝绝大大多多数数“正正常常人人”的的各各种种生生理理及及生生化化指指标标常常数数,也也称称正正常值。常值。由由于于存存在在个个体体差差异异,正正常常值值并并非非为为常常数数,而而是是在在一一定定范范围围内内
28、波波动动,医医学学上上常常用用95%或或99%的的分分布布范范围围作作为为判判定定正正常常和和异常的参考标准异常的参考标准。二、医学参考值制定时注意问题:二、医学参考值制定时注意问题:1.确定诊断指标为确定诊断指标为“定性定性”或或“定量定量”2.有无有无“金标准方法金标准方法”考核考核3.计量资料考虑制定单侧诊断界值还计量资料考虑制定单侧诊断界值还是双侧诊断界值是双侧诊断界值4.有足够的样本例数(一般不低于有足够的样本例数(一般不低于100例)例)三、计量资料参考值的制定三、计量资料参考值的制定1.正态分布法(一般要对资料进正态分布法(一般要对资料进行正态性检验)行正态性检验)双侧双侧 参考
29、值范围公式:参考值范围公式:单侧单侧 参考值范围公式:参考值范围公式:下限值或下限值或上限值上限值例例2-15 估估计计例例2-1某某单单位位101名名正正常常成成年年女女子子血血清清总总胆胆固固醇醇的的参参考考值值范范围围。假假设设该资料服从正态分布。该资料服从正态分布。已知:已知:计算计算95%的参考范围(双侧)的参考范围(双侧)结结论论:正正常常成成年年女女子子血血清清总总胆胆固固醇醇95%的参考值范围为的参考值范围为2.78-5.34(mmol/l)2.百分位数法百分位数法偏态分布资料医学参考值范围的制定通偏态分布资料医学参考值范围的制定通常采用百分位数法,。常采用百分位数法,。双侧双
30、侧 参考值范围:参考值范围:单侧单侧 参考值范围:参考值范围:或或例:讲义例:讲义常用常用=0.05上限值上限值下限值下限值表表 例:例:102名名3岁以下儿童岁以下儿童LgA含量含量组段(组段(d)频数频数 累计频数累计频数 位次范围位次范围 0-29 29 1-2915-32 61 30-61 30-18 79 62-7945-14 93 80-9360-4 97 94-9775-0 97 9790-0 97 97105-2 99 98-99120-1 100 100135-2 102 101-102合计合计 102例:102名名3岁以下儿童岁以下儿童LgA含量含量该地该地3岁以下儿童岁以
31、下儿童LgA含量的分布最小、最含量的分布最小、最大范围为大范围为0-135(单位),由上式可见,该(单位),由上式可见,该资料不服从正态分布。资料不服从正态分布。变量值变量值95%的分布范围的分布范围正态分布要求正态分布要求本节要求:本节要求:1.正态分布理论上的正态分布理论上的4点特征点特征2.能正确使用标准正态分布表(利用能正确使用标准正态分布表(利用u值)值)3.掌握正态分布的三个常用的分布规律。掌握正态分布的三个常用的分布规律。小结:小结:正态分布法和百分位数法可以对个体做正态分布法和百分位数法可以对个体做评价,可以了解一定范围评价,可以了解一定范围X值的比例。值的比例。1.1.直接计算法直接计算法 用用 nX%确定确定PX 的位次的位次。当当 nX%带有小数位时:带有小数位时:trunc(a)表示对数字取其整数。表示对数字取其整数。当当 nX%为整数时:为整数时: