《医学统计学-第二章-计量资料的统计描述课件.ppt》由会员分享,可在线阅读,更多相关《医学统计学-第二章-计量资料的统计描述课件.ppt(112页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章 计量资料的统计描述讲述内容:讲述内容:第一节第一节 频数分布频数分布第二节第二节 集中趋势的描述集中趋势的描述第三节第三节 离散趋势的描述离散趋势的描述第四节第四节 正态分布正态分布第五节第五节 医学参考值范围的制定医学参考值范围的制定1计量资料(定量资料、数值变量资料)计量资料(定量资料、数值变量资料)总体:总体:有限或无限个(定量)变量值有限或无限个(定量)变量值样本:样本:从总体随机抽取的从总体随机抽取的n个变量值:个变量值:X1,X2,X3,Xnn为样本例数(样本大小、样本含量)为样本例数(样本大小、样本含量)2统计描述统计描述描述其分布规律描述其分布规律1 1、用频数分布表(
2、图)、用频数分布表(图)要求:大样本要求:大样本 如如 n n30302 2、用统计指标、用统计指标 描述描述 集中趋势集中趋势 离散趋势离散趋势3第一节 频数分布 频数分布:通常是针对样本而言。对于连续变量,频数分布为n个变量值在各变量值区间内的变量值个数的分配。对于离散变量,频数分布为n个变量值在各(或各几个)变量值处的变量值个数的分配。46制表步骤 了解分布 1.求极差(range)极差也称全距,即最大值和最小值之差,记作R。本例 72确定组距(i):组段数通常取组 10-15组本例组距 84归组、统计频数 第1组段 2.30第2组段 2.60 第3组段 2.90第4组段 3.20第5组
3、段 3.50 第末组段 5.605.9010表2-1 101名正常成年女子的血清总胆固醇(mmol/L)频数分布 11 二、频数分布图 横坐标指标 纵坐标频数形象化13三、频数表和频数分布图用途(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布(2)偏态分布:1描述频数分布的类型*15右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。表2-3 115名正常成年女子血清转氨酶(mmol/L)含量分布16左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。表2-4 101名正常人的血清肌红蛋白
4、()含量分布18192描述频数分布的特征变异的范围在2.305.90有明显的统计分布规律,数据主要集中在3.504.70 之间,尤以组段的人数3.804.10 最多,且上下组段数的频数分布基本对称。203便于发现一些特大或特小的可疑值*214便于进一步做统计分析和处理22一、均数(mean)意义:可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。适用范围:对称分布,尤其是正态分布尤其是正态分布符号:241、计算方法(1)直接法 25 举例:试计算4,4,4,6,6,8,8,8,10的均数?2628(2)加权法(频数表法):k:频数表的组段数,f:频数,X:组中值。29
5、计算结果:31二、几何均数(geometric mean)意义:可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。适用范围:对数转换后呈对称分布,尤尤其是对数正态分布其是对数正态分布符号:(样本)321、计算方法 (1).直接法 公式:或33 例:某公司五名职员的薪水分别是:10,100,1000,10000,100000。34 例2-4 某地5例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为,10,20,40,160,求几何均数。35(2)加权法公式:36 例2-5 69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(
6、2)栏,求其平均抗体滴度。37 故例类风湿关节炎患者血清EBV-VCA-lgG抗体的平均滴度为:1:150.6。38三、中位数与百分位数三、中位数与百分位数39(一)中位数(median)意意义义:是是将将n个个变变量量值值从从小小到到大大排排列列,位位置置居于中间的那个变量值。居于中间的那个变量值。适用范围:理论上:任何分布资料;实际上:偏态分布资料,和一端或两端无确 切数值的资料,分布不明的资料。符号:(样本)40 1,3,7,55,86,100,中位数为多少?1,3,7,55,100,中位数为多少?41计算公式:n为奇数时 n为偶数时 42例2-6 7名病人患某病的潜伏期分别为2,3,4
7、,5,6,9,16天,求其中位数。本例n=7,为奇数 例2-7 8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。本例n=8,为偶数 43例2-8 试计算表2-2某医院1123名产后出血孕妇人工流产次数的中位数。44(二)百分位数(percentile)451直接计算法直接计算法 设有X个原始数据从小到大排列,第X百分位数的计算公式为:当 带有小数位:当 为 整数时:46 例2-9 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大的排列如下,试求第5百分位数和第99百分位数。患 者:住院天数:47 48(2)带有小数,故取整后trunc(1
8、18.8)=118492频数表法频数表法 50 当 时,公式(2-9)即为中位数的计算公式51 例2-10 某地118名链球菌咽喉炎患者的潜伏期频数表见表2-6第(1)、(2)栏,试分别求中位数及第25、第75百分位数。52 53 54 小结:集中趋势的描述平均数 平均数:描述一组变量值的集中位置或平均水平的指标体系。不同的分布使用不同的指标 (算术)均数:对称分布,尤其是正态分布 几何均数:对数转换后呈对称分布,尤其是对数正态分布 中位数:一般偏态分布55第三节第三节 离散趋势的描述离散趋势的描述 用变异指标来描述一组变量值的变异程度或离散趋势:不同的分布使用不同的变异指标不同的分布使用不同
9、的变异指标 极差 四分位数间距 方差或标准差 变异系数56例例2-11 2-11 试计算下面三组同龄男孩的身高均数和极差。试计算下面三组同龄男孩的身高均数和极差。甲组:甲组:乙组:乙组:丙组:丙组:57一、极差 极差(R):即一组变量值最大值与最小值之差。适用范围:任何计量资料,是参考变异指标58二、四分位数间距二、四分位数间距 四分位数间距,用QR表示:下四分位数:上四分位数:适用范围:与中位数配套用59 四分位数间距可以看成一半变量值的极差。四分位数间距可以看成一半变量值的极差。60三、方差与标准差三、方差与标准差 1.方差(variance)也称均方差(mean square devia
10、tion),反映一组数据的平均离散水平。总体方差、标准差用 、表示;样本方差、标准差用 、表示.适用范围:与均数配套用61 2.总体标准差公式:样本标准差公式:62 标准差的公式还可以写成:利用频数表计算标准差的公式为63例2-13 续例2-10,计算三组资料的标准差。甲组:641.1.直接计算法直接计算法S S2.2.频数表法频数表法S=S=65四、变异系数四、变异系数(coefficient of variation)变变异异系系数数记记为为 ,多多用用于于观观察察指指标标单单位位不不同同时时,变变异异程程度度的的比比较较;或或均均数数相相差差较较大大时时,变变异异程度的比较。其计算公式为
11、程度的比较。其计算公式为主要用于描述对称分布(特别是正态分布)资料的相对变异程度66 某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.29kg,标准差为2.26kg,比较其变异度。67 小结:离散趋势的描述变异指标 变异指标:描述一组变量值的离散趋势或变异程度的指标体系。不同的分布使用不同的变异指标 极差:任何计量资料,是参考变异指标 四分位数间距:与中位数配套用 标准差:与均数配套用 变异系数:描述对称分布(特别是正态分布)资料的相对变异程度,比较用68 正态分布正态分布第四节第四节69 正态分布是正态分布是最常见、最重要最常见、最重要的一种的一种连连续型续型分布
12、,为分布,为对称对称分布分布实际实际频数分布:中间频数多,两端频数频数分布:中间频数多,两端频数 越来越少,且左右大致对称越来越少,且左右大致对称理论理论频数分布:正态曲线(高斯曲线)频数分布:正态曲线(高斯曲线)7071一、正态分布的概念和特征一、正态分布的概念和特征1正态分布曲线的数学函数表达式 ,722 2正态分布的特征正态分布的特征()7374 图图2-5 2-5 正态分布位置变换示意图正态分布位置变换示意图 =0=-17500.10.20.30.40.50.60.70.80.9-6-5-4-3-2-10123456 图图2-6正态分布形态变换示意图正态分布形态变换示意图76正态曲线下
13、的面积分布有一定的规律正态曲线下的面积分布有一定的规律面积通过积分得来面积通过积分得来:77图2-7 正态曲线面积分布示意图 78正态曲线有无数条正态曲线有无数条,因因与与的不同而不同的不同而不同,每条曲每条曲线均以线均以为中心呈对称性分布为中心呈对称性分布。正态曲线下的面积总和为正态曲线下的面积总和为100%或或1,并且有,并且有三个三个常用常用的面积规律。的面积规律。每条正态曲线下的面积都需通过对该曲线的函数每条正态曲线下的面积都需通过对该曲线的函数式式求积分求积分来获得,但由于来获得,但由于函数式各不相同,因而函数式各不相同,因而十分困难十分困难。小小 结结79二、标准正态分布二、标准正
14、态分布801、标准正态转换、标准正态转换如果如果X1,X2,X3XNXN(,2)即即X 服从正态分布,服从正态分布,X为正态变量为正态变量令令则则 uN(0,1)即即u 服从标准正态分布服从标准正态分布,u 为标准正态变量为标准正态变量818283X0z84标准正态分布只有一条曲线,其中标准正态分布只有一条曲线,其中 u=0,u=12、标准正态分布的概率密度函数、标准正态分布的概率密度函数85一个高峰一个高峰:位于中央均数(位于中央均数(0)处)处对称性:对称性:以以0为中心为中心,左右完全对称左右完全对称两个参数:两个参数:=0:位置参数:位置参数=1:形态参数:形态参数3、标准正态分布的特
15、征、标准正态分布的特征86标准正态曲线下的面积分布规律标准正态曲线下的面积分布规律面积通过积分得来面积通过积分得来:87标准正态分布曲线下的面积示意图标准正态分布曲线下的面积示意图01.96-1.962.58-2.5895%99%-1168.27%88ua/2:标准正态分布曲线下标准正态分布曲线下双尾面积双尾面积之和之和为为a时所时所对应的对应的u值的简记。值的简记。ua:标准正态分布曲线下标准正态分布曲线下单尾面积单尾面积(左侧或右侧)(左侧或右侧)为为a时所对应的时所对应的u值的简记。值的简记。4、标准正态分布表(、标准正态分布表(z值表)值表)P803891.961.9695%0.050
16、901.641.6490%0.0500.0591参考范围参考范围1-a(%)单侧单侧ua双侧双侧ua/2800.841.28901.281.64951.641.96992.332.58常用常用u界值表界值表92 小小 结结标准正态分布曲线仅一条标准正态分布曲线仅一条=0=0,=1=1。标准正态分布曲线的面积可通过标准正态分布曲线的面积可通过查查 u值表获得值表获得,而,而且有且有三个常用的面积规律三个常用的面积规律。普通的普通的正态分布曲线正态分布曲线下某区间的面积可下某区间的面积可通过通过 u转换,转换,查查 u值表获得。值表获得。93949596 正态分布的理论应用正态分布的理论应用:1
17、1、可估计频数分布、可估计频数分布 2 2、许多统计方法的基础,、许多统计方法的基础,3 3、用于质量控制、用于质量控制 4 4、制定医学参考值范围、制定医学参考值范围。97 第五节第五节 医学参考值范围的制定医学参考值范围的制定98 医医学学参参考考值值(reference reference valuevalue)是是指指包包括括绝绝大大多多数数正正常常人人的的人人体体形形态态、机机能能和和代代谢谢产产物物等等各各种种生生理理及及生生化化指指标标常常数数,也也称称正正常值。常值。由由于于存存在在个个体体差差异异,生生物物医医学学数数据据并并非非常常数数而而是是在在一一定定范范围围内内波波动
18、动,故故采采用用医医学学参参考值范围作为判定正常和异常的参考标准考值范围作为判定正常和异常的参考标准。一、基本概念一、基本概念99 并不并不是指机体任何器官,组织的形态和机是指机体任何器官,组织的形态和机能能都正常的健康人都正常的健康人,而是而是排除了排除了影响所研影响所研究指标的究指标的疾病和异常疾病和异常的同质人群。的同质人群。二、二、“正常人正常人”的含义的含义100双侧双侧:某指标无论过高过低均异常某指标无论过高过低均异常 血清总胆固醇无论血清总胆固醇无论过低或过高过低或过高均属异常均属异常 白细胞数无论白细胞数无论过低或过高过低或过高均属异常均属异常单侧单侧:某指标仅过高或仅过低异常
19、某指标仅过高或仅过低异常 血清转氨酶血清转氨酶仅过高异常仅过高异常(单侧上限)(单侧上限)肺活量肺活量仅过低异常仅过低异常 (单侧下限)(单侧下限)三、确定单、双侧三、确定单、双侧(结合专业知识)(结合专业知识)1011、医学参考值范围有、医学参考值范围有80%、90%、95%、99%等,等,最常用的为最常用的为95%。四、确定百分比四、确定百分比(结合结合误诊与漏诊危害大小误诊与漏诊危害大小)2 2、根据该指标所诊断疾病在临床中误诊与漏诊危根据该指标所诊断疾病在临床中误诊与漏诊危害性大小来选择,若误诊危害大,则可考虑选害性大小来选择,若误诊危害大,则可考虑选99%99%,反之选,反之选80%
20、80%。102计算医学参考值范围的常用方法:计算医学参考值范围的常用方法:正态分布法:正态分布法:资料分布近似正态资料分布近似正态百分位数法:百分位数法:资料分布呈偏态资料分布呈偏态五、选择计算方法五、选择计算方法(结合资料分布)(结合资料分布)103要求要求:,资料呈正态分布,资料呈正态分布 双侧参考值范围:双侧参考值范围:双侧双侧95参考值范围:参考值范围:单侧参考值范围单侧参考值范围:单侧单侧95参考值范围参考值范围:(下限)下限)或或 (上限)(上限)1、正态分布法、正态分布法104 例例2-15估计例估计例2-1某单位某单位101名正常成年女子血名正常成年女子血清总胆固醇的清总胆固醇
21、的95%参考值范围参考值范围。105106要求要求:偏态分布资料,样本含量较正态分偏态分布资料,样本含量较正态分 布法要多布法要多(100)(100)双侧参考值范围双侧参考值范围:常用双侧常用双侧95%95%参考值范围:参考值范围:单侧参考值范围:单侧参考值范围:常用单侧常用单侧95%95%参考值范围:参考值范围:或或2、百分位数法、百分位数法107 例例2-16测得某年某地测得某年某地282名正常人的尿汞名正常人的尿汞值如下表,试制定正常人尿汞值的值如下表,试制定正常人尿汞值的95%参考值参考值范围。范围。108 表2-8 某年某地282名正常人尿汞值()测量结果 109 鉴于正常人的尿汞值为偏态分布,且过高为异鉴于正常人的尿汞值为偏态分布,且过高为异常,故用百分位数法计算上侧界值即第常,故用百分位数法计算上侧界值即第9595百分位数百分位数 故故该该地地正正常常人人的的尿尿汞汞值值的的95%95%医医学学参参考考值值范范围围为为43.6(43.6(g g/L)/L)。110练练 习习 题题 一、最佳选择题一、最佳选择题 全做全做 二、计算分析题二、计算分析题 全做全做111112