《变异程度的统计描述优秀课件.ppt》由会员分享,可在线阅读,更多相关《变异程度的统计描述优秀课件.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、变异程度的统计描述第1页,本讲稿共55页离散趋势(dispersion tendency)指标三组同年龄、同性别儿童的体重(kg)甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34 30 30 30 第2页,本讲稿共55页 全距表示一群变量值的最大值与最小值之差,全距表示一群变量值的最大值与最小值之差,反映个体差异的范围,用反映个体差异的范围,用R R表示。全距大,说明表示。全距大,说明变异度大;反之,说明变异度小。变异度大;反之,说明变异度小。甲组甲组 26 28 30 32 3426 28 30 32 34 乙组乙组 24 27 30
2、 33 3624 27 30 33 36R=8R=8R=12R=12全距(range)第3页,本讲稿共55页1.不能全面反映资料的离散程度;2.不稳定,易受极端值的影响,抽样 误差大。优点缺点1.表示变异范围,简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等;2.各种分布类型的资料均可用。全距(range)第4页,本讲稿共55页四分位数间距(quartile interval)四分位数间距是上四分位数(QU=P75)和下四分位数(QL=P25)之差,用Q表示(QU-QL)。该数值越大,说明变异度越大;反之,说明变异度越小。第5页,本讲稿共55页某地某地630630名正常女性
3、血清甘油三脂含量名正常女性血清甘油三脂含量(mg/dl)(mg/dl)甘油三脂频数 累计频数累计频率(%)0.10 27 27 4.30.40169196 31.10.70167363 57.61.00 94457 72.51.30 81538 85.41.60 42580 92.11.90 28608 96.52.20 14622 98.72.50 4626 99.42.80 3629 99.83.10 1630100.0 合计630-第6页,本讲稿共55页 L:组段的下限;iM:组距;fx:频数;fL:Px所在组段之前的累积频数。第7页,本讲稿共55页1.与中位数配套,用于偏态分布资料及分
4、布的一端或两端无确切数值的资料;2.比全距稳定。未考虑到每个观察值的变异度。优点缺点 四分位数间距(quartile interval)第8页,本讲稿共55页方差(variance)自由度自由度n限制条件的个数,用限制条件的个数,用表示。表示。(n1):当):当 选定时,选定时,n个变量值个变量值 中能自由变动的变量值的个数。中能自由变动的变量值的个数。第9页,本讲稿共55页二、平均差距指标二、平均差距指标(一)平均偏差(一)平均偏差(Mean Difference(Mean Difference)如对于例如对于例3.13.1:甲患者:甲患者:乙患者:乙患者:特点:直观,易理解;但由于用了绝对
5、值,不便于数学处理,实际中很少使用。第10页,本讲稿共55页(二)离均差平方和(二)离均差平方和(Sum of SquareSum of Square,SSSS)为为了了克克服服平平均均偏偏差差的的缺缺点点,可可以以不不通通过过取取绝绝对对值值,而而是是通通过过取取平平方方来来避避免免正正负负抵抵消消,即即使使用用离离均均差差平平方方和和,其计算公式为其计算公式为 SS SS 通常作为一个中间统计量使用。通常作为一个中间统计量使用。第11页,本讲稿共55页(三)方差(三)方差 (Variance)(Variance)方差是将离均差平方和再取平均,即方差是将离均差平方和再取平均,即 注意:对于样
6、本资料,分母用的是注意:对于样本资料,分母用的是n n-1-1,称为自由,称为自由度度(degree of freedom(degree of freedom,df)df)。方差的特点:便于数学上的处理,但由于有平方,方差的特点:便于数学上的处理,但由于有平方,度量衡发生变化,不便于实际应用。度量衡发生变化,不便于实际应用。第12页,本讲稿共55页(1)方差越大,资料的离散程度越 大(全面考虑了每个观察值);(2)不受观察值个数的影响。优点缺点 一些资料不适用于以平方表示。方差(variance)第13页,本讲稿共55页(四)标准差(四)标准差(Standard Deviation)将方差取平
7、方根,还原成与原始观察值单位相同的将方差取平方根,还原成与原始观察值单位相同的变异量度即为标准差:变异量度即为标准差:例如对于例例如对于例3.13.1经计算有经计算有 甲患者:甲患者:同理乙患者:第14页,本讲稿共55页例例 三组同年龄、同性别儿童的体重(三组同年龄、同性别儿童的体重(kgkg)甲组甲组 26 28 30 32 3426 28 30 32 34乙组乙组 24 27 30 33 3624 27 30 33 36丙组丙组 26 29 30 31 34 26 29 30 31 34 直接法直接法第15页,本讲稿共55页加权法第16页,本讲稿共55页14岁女孩身高平均值与标准差(cm)
8、加权法计算用表身高(cm)频数(fi)组中值(X)f i Xif i Xi21242126252317521283130390507001321113414741975161362213830364189681403914255387863961442714639425755321481615024003600001525154770118580156315847474892160164216232452488合计130(fi)18600(f i Xi)2666824(f i Xi2)第17页,本讲稿共55页标准差应用标准差应用1.表示观察值分布的离散程度。均数相近、度表示观察值分布的离散程度
9、。均数相近、度量单位相同的条件下,量单位相同的条件下,S越大,观察值的变越大,观察值的变异程度越大,均数的代表性越差。异程度越大,均数的代表性越差。2.结合均数计算结合均数计算CV。3.结合均数描述正态分布资料的分布特征和估计结合均数描述正态分布资料的分布特征和估计医学参考值范围医学参考值范围4.结合样本含量计算标准误。结合样本含量计算标准误。第18页,本讲稿共55页(五)变异系数五)变异系数(Coefficient of Variation)(Coefficient of Variation)主要用于对均数相差较大或单位不同的几组观察值的主要用于对均数相差较大或单位不同的几组观察值的变异程度
10、进行比较。变异程度进行比较。例例3.3 3.3 测测得得某某地地成成年年人人舒舒张张压压均均数数为为77.5mmHg,77.5mmHg,标标准准差差为为10.7mmHg10.7mmHg;收收缩缩压压均均数数为为122.9mmHg,122.9mmHg,标标准准差差为为17.1mmHg17.1mmHg。试比较舒张压和收缩压的变异程度。试比较舒张压和收缩压的变异程度。第19页,本讲稿共55页变异系数 Coefficient of variation(CV)应用1.1.表示数据分布的相对离散程度表示数据分布的相对离散程度2.2.比较均数相差悬殊的两组或多组资料的离比较均数相差悬殊的两组或多组资料的离散
11、程度散程度3.3.比较度量衡单位不同的两组或多组比较度量衡单位不同的两组或多组资料的变异程度资料的变异程度第20页,本讲稿共55页 某某 地地2020岁岁 男男 子子160160人人,身身 高高 均均 数数 为为166.06cm166.06cm,标标准准差差为为4.95cm4.95cm;体体重重均均数数为为53.72kg53.72kg,标标准准差差为为4.96kg4.96kg。比比较较身身高高与与体体重重的变异程度。的变异程度。2020岁男子体重的变异程度比身高的岁男子体重的变异程度比身高的变异程度大。变异程度大。第21页,本讲稿共55页 某地不同年龄女童的身高(cm)资料如下表所示。试比较不
12、同年龄身高的变异程度。某地不同年龄女童身高的变异程度年龄组 人数 均数 标准差 CV(%)12月 100 56.3 2.1 3.756月 120 66.5 2.2 3.333.5岁 300 96.1 3.1 3.255.5岁 400 107.8 3.3 3.1第22页,本讲稿共55页小结小结全距与四分位数间距:全距与四分位数间距:后者较稳定,但均不能综后者较稳定,但均不能综合反映各观察值的变异程度。合反映各观察值的变异程度。标准差标准差:最为常用,对正态分布尤为重要:最为常用,对正态分布尤为重要变异系数变异系数:可用于多组资料间度量衡单位:可用于多组资料间度量衡单位不同或均数相差悬殊时作变异度
13、的比较。不同或均数相差悬殊时作变异度的比较。以上指标都是数值越小,说明观察值以上指标都是数值越小,说明观察值的变异度越小,均数的代表性越好。的变异度越小,均数的代表性越好。平均指标和变异指标常配套使用平均指标和变异指标常配套使用 如如 正态分布:均数、标准差;正态分布:均数、标准差;偏态分布:中位数、四分位间距偏态分布:中位数、四分位间距第23页,本讲稿共55页练习:练习:某某市市19741974年年为为了了解解该该地地居居民民发发汞汞的的基基础础水水平平,为为汞汞污污染染的的环环境境监监测测积积累累资资料料,调调查查了了留留住住该该市市一一年年以以上上,无无明明显显肝肝、肾肾疾疾病病,无无汞
14、汞作作业业接接触触史史的的居居民民238238人人的的发发汞含量汞含量(mol/kg)如下如下:用何种指标说明本资料的集中位置和变异程度较好?并计算之。发汞值1.5 3.5 5.57.5 9.5 11.513.515.517.519.5人数2066604818166103第24页,本讲稿共55页 某检验师测定了10名正常成年钢铁工人的血红蛋白值(g/dl)和红细胞数(万/mm3)如下,试比较这两个检测项目的结果哪个变异性大?血红蛋白(g/dL)13.0 13.6 14.0 14.5 14.6 14.7 15.2 15.5 15.8 16.0血细胞数(万/mm3)510 515 517 518
15、520 522 524 525 528 530第25页,本讲稿共55页238名正常人发汞值(g/g)的频数表发汞值频数累计频数 累计频率(%)0.320208.40.7668636.11.16014661.31.54819481.51.91821289.12.31622895.82.7623498.33.1123598.73.5023598.73.94.33238100.0第26页,本讲稿共55页正态分布和医学参考值范围要求:要求:掌掌握握:正正态态分分布布及及其其特特征征,正正态态曲曲线线下下面积分布的规律。面积分布的规律。熟熟悉悉:医医学学参参考考值值范范围围,参参考考值值范范围围估估计计
16、的的步步骤骤,参参考考值值范范围围估估计计的的正正态态分分布布法法和百分位数法。标准正态分布。和百分位数法。标准正态分布。了了解解:参参考考值值范范围围估估计计的的对对数数正正态态分分布布法。法。第27页,本讲稿共55页图3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图 一、正态分布(Normal Distribution)正态分布曲线:正态分布曲线:高峰位于中央,两侧逐渐下降、低平,左右完全对称、高峰位于中央,两侧逐渐下降、低平,左右完全对称、两端不与横轴相交的钟型曲线。两端不与横轴相交的钟型曲线。正态分布:正态分布:以均数为中心,中间多,两侧呈对称性逐渐减少的钟型分布。以均数为中心
17、,中间多,两侧呈对称性逐渐减少的钟型分布。第28页,本讲稿共55页正态分布的密度函数f(x)为:由上式可见,正态分布的图形由 和 所决定,XN(,2)第29页,本讲稿共55页主要特征:1.以 为中心的对称分布 2.钟型曲线 3.曲线下面积分布有规律 4.两个参数决定位置和变异 图3-2 正态分布曲线下的面积 图3-3 三种不同均值的正态分布 图3-4 三种不同标准差的正态分布 第30页,本讲稿共55页正态曲线下的面积F(x)的计算:第31页,本讲稿共55页标准正态变换(u变换)u为标准正态变量或标准正态离差u变换的特点:若X服从正态分布,则u服从 标准正态分布标准正态分布:指均数为0、标准差为
18、1的正态分布,记为N(0,1)二、标准正态分布(Standard Normal Distribution)第32页,本讲稿共55页表中曲线下面积为-u 的面积;即 P(u)可以利用标准正态分布表求出与原始变量X 有关的概率值。第33页,本讲稿共55页1.标准正态分布:求曲线下(u1,u2)范围内的面积。(1)u 0:查表,分别求从查表,分别求从-到到u2与与 从从-到到u1的面积;的面积;两者之差为所求面积。两者之差为所求面积。u2u1 u1 u2 第34页,本讲稿共55页例:u1=-1.50,u2=-0.31则(-1.50,-0.31)范围内的面积第35页,本讲稿共55页(2)u 0:利用正
19、态分布的对称性求曲线:利用正态分布的对称性求曲线 下从下从-到到u范围的面积。范围的面积。例:从例:从-到到u=1.76范围内的面积。范围内的面积。1.761.760.03921-0.0392=0.96080.0392第36页,本讲稿共55页 2.非标准正态分布:求曲线下任意(x1,x2)范围内的面积。第37页,本讲稿共55页(1)先作标准正态变换;(2)再查标准正态分布表求得面积。例:已知110名7岁男童身高 。现欲估计该地身高界于116.5cm到119.0cm范围内7岁男童比 例及110名7岁男童中身高界于此值范 围内的人数。第38页,本讲稿共55页 (1)标准正态分布变换:(2)查表得:
20、查表得:第39页,本讲稿共55页 (3)求D:估计该地身高界于估计该地身高界于116.5116.5119.0cm119.0cm范围内的范围内的7 7岁男童比例为岁男童比例为13.92%13.92%;估计估计110110名名7 7岁男童中有岁男童中有1515名男童的身高界名男童的身高界于于116.5116.5119.0cm119.0cm范围内。范围内。11013.9215第40页,本讲稿共55页思考题:思考题:该地该地80%80%的男孩身高集中的范围?的男孩身高集中的范围?第41页,本讲稿共55页三、正态分布的应用 1.估计频数分布 例:出生体重低于2500g为低体重儿。若由某项研究得某地婴儿出
21、生体重均数为3200g,标准差为350g,估计该地当年低体重儿所占的比例。查表查表 ,即从,即从-到到2500的比例为的比例为2.28%,故估计该地,故估计该地当年低体重儿所占的比例为当年低体重儿所占的比例为2.28%。第42页,本讲稿共55页2.制定医学参考值范围 (Reference Value Range)3.质量控制 为了控制实验中的误差,实验室的质量控制中,常以 作为上、下警戒限;以 作为上、下控制限。(2s和3s是1.96s与2.58s的近似值)。4.统计处理方法的基础第43页,本讲稿共55页+3 +2 +-2 -3 第44页,本讲稿共55页 一、基本概念一、基本概念 通常指正常人
22、通常指正常人(排除了对所研究指标有影响的疾病和有(排除了对所研究指标有影响的疾病和有关因素的特定人群)关因素的特定人群)的解剖、生理、生化、免疫及组织的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要目的:用代谢产物的含量等各种数据的波动范围。主要目的:用于临床疾病诊断。最常用的是于临床疾病诊断。最常用的是95%95%参考值范围。参考值范围。第三节 医学参考值范围 (Reference Value Range)确定95%参考值范围示意图第45页,本讲稿共55页 二、医学参考值范围的制定方法二、医学参考值范围的制定方法 (一)选择足够数量的正常人作为参照样本一)选择足够数量的
23、正常人作为参照样本 选择参照样本必须要考虑可能影响所要制定参考值范选择参照样本必须要考虑可能影响所要制定参考值范围指标的各种疾病及干扰因素,将这些人排除在外。例围指标的各种疾病及干扰因素,将这些人排除在外。例如在制定血清谷丙转氨酶活性正常值时,选取正常人如在制定血清谷丙转氨酶活性正常值时,选取正常人的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药史等。同时可能需要考虑性别、年龄、民族、无特殊用药史等。同时可能需要考虑性别、年龄、民族、地理位置等因素。样本含量一般要较大,如地理位置等因素。样本含量一般要较大,如n n120120。第46页
24、,本讲稿共55页(二)对选定的参照样本进行准确的测定(二)对选定的参照样本进行准确的测定 为为保保证证原原始始数数据据可可靠靠,要要严严格格控控制制检检测测误误差差,包包括括分分析析仪仪器器的的灵灵敏敏度度、试试剂剂的的纯纯度度、操操作作技技术术及及标标准准的的掌掌握握等等,同同时时必必须须对对测测量量条条件件做做出出统统一一的的规规定定和和说说明明,如如临临床床化化验验参参考考值值范范围围的的制制定定,应应对对收收集集样样本本时时的的环环境境和和生生理理条条件件(温温度度、季季节节、体体育育活活动动强强度度、饮饮食食、妊妊娠娠等等),收收集集、转转运运和和储储藏藏样样品品的的方方法法及及时时
25、间间有有明明确的规定。确的规定。第47页,本讲稿共55页(三)决定取单侧范围还是双侧范围值(三)决定取单侧范围还是双侧范围值 有有些些指指标标如如白白细细胞胞数数过过高高或或过过低低均均属属异异常常(a)(a),故故其其参参考考值值范范围围需需要要分分别别确确定定下下限限和和上上限限,称称作作双双侧侧。有有些些指指标标如如2424小小时时尿尿糖糖含含量量仅仅在在过过高高(b)(b)、肺肺活活量量仅仅在在过过低低时时为为异异常常(c)(c),只需确定其上限或下限,称作单侧参考值范围。,只需确定其上限或下限,称作单侧参考值范围。(a)白细胞数参考值范围(b)24小时尿糖参考值范围(c)肺活量参考值
26、范围第48页,本讲稿共55页(四)选择适当的百分范围(四)选择适当的百分范围 参考值的百分范围应根据资料的性质和研究目的选择,参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。同的假阳性率和假阴性率。若主要目的为减少假阳性(如确诊病人)若主要目的为减少假阳性(如确诊病人)大大 减少假阴性(如初筛病人)减少假阴性(如初筛病人)小小图3-6 正常人和病人数据分布重叠第49页,本讲稿共55页(五)估计参考值范围的界限(五)估计参考值范围的界限 参考值范围估计主要有百分位数法和正态分布
27、法。参考值范围估计主要有百分位数法和正态分布法。百分范围(%)单 侧 双 侧 下限 上限 下限 上限 95 P5 P95 P2.5 P97.5 99 P1 P99 P0.5 P99.5百分范围(%)单 侧 双 侧 下限 上限 下限 上限 95 99 表3-2 参考值范围所对应的百分位数 表3-3 参考值范围所对应的正态分布区间 第50页,本讲稿共55页 例例3.4 3.4 若已算得某地正常成年男子红细胞数的均数为若已算得某地正常成年男子红细胞数的均数为4.78104.78101212/L,/L,标准差为标准差为0.38100.38101212/L,/L,试估计该地成年男子红试估计该地成年男子红
28、细胞数的细胞数的95%95%参考值范围。参考值范围。例例3.5 3.5 见第二章表见第二章表2-42-4资料。为该地区资料。为该地区5050岁岁6060岁女性高岁女性高血脂诊断与治疗提供参考依据,试估计血清甘油三脂含量的血脂诊断与治疗提供参考依据,试估计血清甘油三脂含量的95%95%单侧参考值范围。单侧参考值范围。下限:上限:即95%单侧参考值范围为小于2.098mmol/L。第51页,本讲稿共55页对数正态分布法 适用于对数正态分布资料 双侧上界 双侧下界 单侧上界 单侧下界第52页,本讲稿共55页例:某市调查了例:某市调查了200例正常成人血铅含量,估计例正常成人血铅含量,估计该市成人血铅
29、含量该市成人血铅含量95%医学参考值范围。医学参考值范围。单侧上界单侧上界 第53页,本讲稿共55页小小 结结 1.1.描描述述一一组组观观察察值值,除除需需要要表表示示其其平平均均水水平平外外,还还要要说说明明它它的离散或变异的情况。的离散或变异的情况。2.2.衡衡量量变变异异程程度度大大小小的的指指标标有有多多种种:极极差差、四四分分位位数数间间距距、方方差差、标标准准差差和和变变异异系系数数。其其中中应应用用最最多多的的是是标标准准差差和和变变异异系数。系数。3.3.标标准准差差与与均均数数结结合合能能够够完完整整地地描描述述一一个个正正态态分分布布。对对任任何何参参数数的的正正态态分分
30、布布,都都可可以以通通过过一一个个简简单单的的变变量量变变换换化化成成标标准准正正态态分分布布。利利用用正正态态分分布布可可以以很很容容易易地地确确定定其数值出现在任意指定范围内的概率。其数值出现在任意指定范围内的概率。第54页,本讲稿共55页 4.4.医学参考值范围指医学参考值范围指“正常参照人群正常参照人群”的解剖、生理、生化、免疫及的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要用作划分正常人与异组织代谢产物的含量等各种数据的波动范围。主要用作划分正常人与异常人的界线。常人的界线。5.5.医学参考值范围的制定需要按照一定步骤进行。实际中最医学参考值范围的制定需要按照一定步骤进行。实际中最好结合正常人和病人的数据分布特点,权衡假阳性和假阴性的好结合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例,选择一个适当的百分范围,最常用的百分界限是比例,选择一个适当的百分范围,最常用的百分界限是95%95%。6.6.参考值范围估计的方法有多种,其中最基本的有百分位数法参考值范围估计的方法有多种,其中最基本的有百分位数法和正态分布法。正态法的优点是结果较稳定,但对资料要求严格;和正态分布法。正态法的优点是结果较稳定,但对资料要求严格;百分位数法适合于任何分布类型的资料,但要求大样本。百分位数法适合于任何分布类型的资料,但要求大样本。第55页,本讲稿共55页