《变异程度的统计描述讲稿.ppt》由会员分享,可在线阅读,更多相关《变异程度的统计描述讲稿.ppt(65页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、变异程度的统计描述第一页,讲稿共六十五页哦掌握掌握:描述数据分布离散趋势的指标;正态分布的概念和特征、描述数据分布离散趋势的指标;正态分布的概念和特征、标准正态分布下面积分布规律。标准正态分布下面积分布规律。熟悉熟悉:医学参考值范围的意义和计算;医学参考值范围的意义和计算;了解:了解:正态分布表正态分布表、正态分布的应用。、正态分布的应用。第二页,讲稿共六十五页哦描述数值变量资料的分布特征必须从集中趋势和离散趋描述数值变量资料的分布特征必须从集中趋势和离散趋势两方面来进行,缺一不可。势两方面来进行,缺一不可。例例:三组同年龄女大学生体重三组同年龄女大学生体重(kg)kg)如下如下,试分析其分布
2、特征试分析其分布特征。甲组甲组 46 48 51 53 57 =51 乙组乙组 44 47 52 55 57 =51 丙组丙组 45 49 50 55 56 =51xxxR=11R=13R=11第三页,讲稿共六十五页哦一、极差和四分位数间距一、极差和四分位数间距(一)极差(一)极差(range)R,也称全距。也称全距。例:例:甲、乙两人高血压患者测量甲、乙两人高血压患者测量5天的收缩压天的收缩压(mmHg)得:得:甲甲 162 145 178 142 186 =162.6 乙乙 164 160 163 159 166 =162.4x第一节衡量变异程度的指标第一节衡量变异程度的指标x R甲甲=1
3、86-142=44 R乙乙=166-159=7第四页,讲稿共六十五页哦 四分位数间距四分位数间距(quartile interval,Q)其间包含了全部观察值的一半,单位与其间包含了全部观察值的一半,单位与原观察值相同。原观察值相同。四分位数间距越大,则数据的变异度越四分位数间距越大,则数据的变异度越大;反之,说明变异度越小。大;反之,说明变异度越小。(二)四分位数间距(二)四分位数间距(quartile)Q第五页,讲稿共六十五页哦0 25 5075 100四分位数间距与中位数一起可全面描述偏态分布资四分位数间距与中位数一起可全面描述偏态分布资料的分布特征。料的分布特征。)/(7.13530)
4、8145775.0630(13075dlmgP)/(32.630)1692725.0630(4025dlmgPQ=135.7-63.2=72.5(mg/dl)第六页,讲稿共六十五页哦 例例2.4某地某地630名正常女性血清甘油三酯含量的频数表名正常女性血清甘油三酯含量的频数表甘油三酯(甘油三酯(mg/dl)频数累积频数累积频率频数累积频数累积频率(1)(2)()(3)(4)1027274.3 40 169 196 31.1 70 167 363 57.6 100 94 457 72.5 130 81 538 85.4 160 42 580 92.1 190 28 608 96.5 220 14
5、 622 98.7 250 4 626 99.4 280 3 629 99.8 310 1 630 100.0 合计合计 630 第七页,讲稿共六十五页哦(一)平均偏差(一)平均偏差(mean difference)nX-X平均偏差二、离均差平方和、方差、标准差和变异系数二、离均差平方和、方差、标准差和变异系数第八页,讲稿共六十五页哦例:例:对甲乙两名高血压患者连续观察对甲乙两名高血压患者连续观察5天,测得的收天,测得的收缩圧分别为:缩圧分别为:甲患者(甲患者(mmHg)162145178142186 =162.6乙患者(乙患者(mmHg)164160163159166 =162.4xx)15
6、.52(mmHg5162.6186162.6145162.6162甲患者平均偏差2.32(mmHg)5162.4166162.4160162.4164乙患者平均偏差甲患者的血压波动较乙患者大。甲患者的血压波动较乙患者大。第九页,讲稿共六十五页哦 平均偏差是一个很直观的变异度量,但平均偏差是一个很直观的变异度量,但由于使用了绝对值,在数学上由于使用了绝对值,在数学上使它在应用上受到很大的限制使它在应用上受到很大的限制,为了克服平均偏差使用绝对值不便进一为了克服平均偏差使用绝对值不便进一步运算的缺点,可以不通过取绝对值,步运算的缺点,可以不通过取绝对值,而是而是第十页,讲稿共六十五页哦(二)离均差
7、平方和(二)离均差平方和(sum of square,SS)nXXXXXX2222)()()(第十一页,讲稿共六十五页哦(三三)方差与标准差方差与标准差(variance,standard deviation,S 或或SD)NX22)(1)(22nxXSNX2)(1)(2nxXSN-1 称自由度称自由度Degree of freedom第十二页,讲稿共六十五页哦1)(1222nnxxnxxS第十三页,讲稿共六十五页哦例例3.1 对甲乙两名高血压患者连续观察对甲乙两名高血压患者连续观察5天,测得的收缩天,测得的收缩压分别为:压分别为:甲患者甲患者(mmHg)162 145 178 142 186
8、 =162.6乙患者乙患者(mmHg)164 160 163 159 166 =162.4甲患者:甲患者:X162145178142186813 X216221452.1862=133713甲甲乙乙)(49.19155/8131337131/)(222mmHgnnXXS)(88.2155/8121319021/)(222mmHgnnXXSxx第十四页,讲稿共六十五页哦大样本频数表资料可用下列公式计算标准差:大样本频数表资料可用下列公式计算标准差:122nnfxfXS第十五页,讲稿共六十五页哦例例3.2根据第根据第2章表章表22资料计算其标准差资料计算其标准差红细胞数红细胞数 组中值组中值(x)
9、频数频数(f)fx fx2(1)(2)(3)(4)=(2)(3)(5)=(2)(4)3.80 3.902 7.80 30.42 4.00 4.10 6 24.60 100.86 4.20 4.30 11 47.30 203.39 4.40 4.50 25 112.50 506.25 4.60 4.70 32 150.40 706.88 .5.80 5.90 1 5.90 34.81 合计合计 140 669.80 3224.2038.01140140/8.6692.32241/)(222nnfXfXS(1012/L)第十六页,讲稿共六十五页哦 在所有的变异指标中,标准差或方差在所有的变异指标中
10、,标准差或方差是其它变异指标所不能比拟的。是其它变异指标所不能比拟的。如根据如根据来自总体的几个样本的标准差可以直接来自总体的几个样本的标准差可以直接求得合并样本的标准差,而不必根据合求得合并样本的标准差,而不必根据合并样本重新计算。并样本重新计算。第十七页,讲稿共六十五页哦计量资料的主要描述性指标及其适用条件计量资料的主要描述性指标及其适用条件主要指标主要指标 适用条件适用条件 、s 对称分布、正态或近似正态分布资料对称分布、正态或近似正态分布资料G、lg-1Slgx 等比级数或对数正态分布资料等比级数或对数正态分布资料 M、Q 偏态分布、分布不明或分布末端无确偏态分布、分布不明或分布末端无
11、确 定值的资料定值的资料 x第十八页,讲稿共六十五页哦用标准差比较两个样本的变异程度时需注意:用标准差比较两个样本的变异程度时需注意:1.两组数据的两组数据的2.(标准差使用的度量衡单位与(标准差使用的度量衡单位与 原始数据相同)原始数据相同)第十九页,讲稿共六十五页哦(五)变异系数(五)变异系数(coefficient of variation,CV)例例3.3已知:舒张压均数为已知:舒张压均数为77.5 标准差为标准差为10.7 收缩压均数为收缩压均数为122.9 标准差为标准差为17.1舒张压舒张压%8.13%1005.777.10%100XSCV%9.13%1009.1221.17%1
12、00XSCV可见两种指标的变异度几乎没有什么差别。可见两种指标的变异度几乎没有什么差别。收缩压收缩压第二十页,讲稿共六十五页哦例例7.10 某地调查某地调查110名名20男大学生,其身高均数为男大学生,其身高均数为172.73cm,标准差为标准差为4.09cm;其体重均数为其体重均数为,标准差为标准差为,试比较两者变异程度。试比较两者变异程度。身高身高体重体重%37.2%10073.17209.4%100XsCV%45.7%10004.5510.4%100XsCV第二十一页,讲稿共六十五页哦指高峰位于中央(均数所在处)、两测逐渐降低指高峰位于中央(均数所在处)、两测逐渐降低且左右对称、不与横轴
13、相交的光滑的曲线。且左右对称、不与横轴相交的光滑的曲线。以某地以某地140名正常男子红细胞数资料为例:名正常男子红细胞数资料为例:正态分布曲线:正态分布曲线:第二十二页,讲稿共六十五页哦表表22某地某地140名正常男子红细胞数的频数表名正常男子红细胞数的频数表红细胞数红细胞数 划记划记 组中值频数频率组中值频数频率 (1)()(2)(3)()(4)(5)3.80 T 3.90 2 1.44.00 正一正一 4.10 6 4.3 4.20 正正一正正一 4.30 11 7.9 4.40 正正正正正正正正正正 4.50 25 17.9 4.60 正正正正正正正正正正正正T 4.70 32 22.9
14、 4.80 正正正正正正正正正正 T 4.90 27 19.3 5.00 正正正正正正T 5.10 17 12.1 5.20 正正正正 T 5.30 13 9.3 5.40 5.50 4 2.9 5.60 T 5.70 2 1.4 5.806.00 一一 5.90 1 0.7L/1012第二十三页,讲稿共六十五页哦第二十四页,讲稿共六十五页哦 若横坐标为红细胞数若横坐标为红细胞数(变量值变量值X),第,第i组的组的组距和人数分别用组距和人数分别用Xi和和fi表示,则在表示,则在(X,X+Xi)区间内每单位红细胞数的频率区间内每单位红细胞数的频率为为:f(X)称作密度函数称作密度函数 iiXnf
15、Xf/)/()(第二十五页,讲稿共六十五页哦)/()(nfXXfii矩形面积等于红细胞在这一区间内出现的频率矩形面积等于红细胞在这一区间内出现的频率第二十六页,讲稿共六十五页哦第二十七页,讲稿共六十五页哦第二十八页,讲稿共六十五页哦第二十九页,讲稿共六十五页哦正态分布的密度函数:正态分布的密度函数:222)(21)(XeXfnX2)(在在 和和 未知的情况下,可用和未知的情况下,可用和S作为作为 和和 的的估计值估计值。x-x 第三十页,讲稿共六十五页哦正态分布的几个特征正态分布的几个特征 以均值以均值为中心,左右对称为中心,左右对称 曲线下的面积集中在以均数为中心的部分,越远曲线下的面积集中
16、在以均数为中心的部分,越远离中心,曲线下面积越小。离中心,曲线下面积越小。正态曲线下面积分布有一定规律:正态曲线下面积分布有一定规律:范围内的面积为范围内的面积为68.3%范围内的面积为范围内的面积为95.0%范围内的面积为范围内的面积为99.0%正态分布有两个参数,正态分布有两个参数,和和96.158.2第三十一页,讲稿共六十五页哦第三十二页,讲稿共六十五页哦第三十三页,讲稿共六十五页哦第三十四页,讲稿共六十五页哦二、标准正态分布二、标准正态分布(Standard normal distribution)是均数为是均数为0,标准差为,标准差为1的正态分布。的正态分布。对任何参数对任何参数和和
17、的正态分布,都可以通的正态分布,都可以通过一个简单的变量变化转成标准正态分过一个简单的变量变化转成标准正态分布,即布,即xu第三十五页,讲稿共六十五页哦标准正态分布的密度函数标准正态分布的密度函数2221)(ueuuudueu2221)(u分布函数求标准分布函数求标准正态曲线下的面正态曲线下的面积。积。标准正态分布的分布函数标准正态分布的分布函数222)(21)(XeXf当均数为当均数为0,标准,标准差为差为1时时第三十六页,讲稿共六十五页哦第三十七页,讲稿共六十五页哦第三十八页,讲稿共六十五页哦例如:例如:成年男子红细胞数近似服从正态分布,成年男子红细胞数近似服从正态分布,均数为均数为4.7
18、8(1012/L),标准差为,标准差为0.38(1012/L)。现想知道红细胞数在。现想知道红细胞数在4 1012/L以下所占的比例?以下所占的比例?一旦完成了这种变换,就可以利用标准正态分一旦完成了这种变换,就可以利用标准正态分布表求出与原始变量布表求出与原始变量X有关的概率值。有关的概率值。可以先将变换为相应的可以先将变换为相应的u值,即:值,即:第三十九页,讲稿共六十五页哦例:例:Xu05.238.078.44Xu查附表查附表1(P194),标准正态曲线下左侧尾部面积,得,标准正态曲线下左侧尾部面积,得(-2.05)=0.0202,即在,即在41012/L以下者占总人数的以下者占总人数的
19、2.02%。第四十页,讲稿共六十五页哦 若需要求出在若需要求出在4 41012/L5.51012/L范围范围内所占的比例,可以通过下面计算获得。内所占的比例,可以通过下面计算获得。)38.078.44()38.078.45.5()5.500.4(XP)05.2()89.1(10202.0)0294.01(9504.0总体平均数总体平均数总体标准差总体标准差即在即在41012/L 5.51012/L范围内范围内占总人数的占总人数的95.04%。第四十一页,讲稿共六十五页哦例:成年男子红细胞数近似服从正态分布,均数为例:成年男子红细胞数近似服从正态分布,均数为4.78 4.78(1012/L)标准
20、差为标准差为0.38 0.38(1012/L),现,现想知道红细胞数在想知道红细胞数在4 41012/L5.51012/L范围内范围内所占的比例。所占的比例。05.238.078.44Xu第一步:进行第一步:进行U变换变换89.138.078.45.5Xu第四十二页,讲稿共六十五页哦第二步:查附表第二步:查附表1,标准正态分布曲线下面积。,标准正态分布曲线下面积。(-2.05)=0.0202(-1.89)=0.02949706.00294.01第四十三页,讲稿共六十五页哦)05.2()89.1(1 0202.0)0294.01(9504.0)38.078.44()38.078.45.5()5.
21、500.4(XP第四十四页,讲稿共六十五页哦正态分布的应用正态分布的应用 是各种统计推断方法的理论基础是各种统计推断方法的理论基础 可进行医学参考值范围的估计可进行医学参考值范围的估计 可进行误差分析和检测的质量控制可进行误差分析和检测的质量控制第四十五页,讲稿共六十五页哦第三节第三节 医学参考值范围医学参考值范围 医学参考值范围医学参考值范围(refrence value range)又又称正常值范围称正常值范围(normal range)。指正常人。指正常人的解剖、生理、生化、免疫及组织代谢的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动产物的含量等各种数据的波动范围。范围。一
22、、医学参考值范围的概念一、医学参考值范围的概念第四十六页,讲稿共六十五页哦1 1、临床实践:着眼于个体,作为划分正常、临床实践:着眼于个体,作为划分正常人与异常人的界线。人与异常人的界线。2 2、预防医学实践:着眼于群体,如评价儿、预防医学实践:着眼于群体,如评价儿童的发育水平。童的发育水平。第四十七页,讲稿共六十五页哦二、医学参考值范围的制定方法二、医学参考值范围的制定方法1.选择足够数量的正常人作为参照样本选择足够数量的正常人作为参照样本2.对选定的正常人进行准确的测定对选定的正常人进行准确的测定3.决定取单侧范围还是双侧范围值决定取单侧范围还是双侧范围值4.选择适当的百分范围选择适当的百
23、分范围5.选择适当的方法估计参考值范围的界限选择适当的方法估计参考值范围的界限第四十八页,讲稿共六十五页哦第四十九页,讲稿共六十五页哦青光眼病人和正常人眼内压分布图青光眼病人和正常人眼内压分布图 受检人数受检人数正常人正常人14 16 18 20 22 24 26 28 30 32 34 36 38 眼内压眼内压重重叠叠区区若将眼内压的阳性诊断标准定若将眼内压的阳性诊断标准定为为22mmHg,所有患者均被判为,所有患者均被判为阳性。但是,眼内压在阳性。但是,眼内压在22-26mmHg之间的正常人被误判为阳之间的正常人被误判为阳性性(假阳性假阳性),造成误诊。,造成误诊。若将眼内压的阳性诊断标准
24、定若将眼内压的阳性诊断标准定为为26mmHg,所有的正常人均被判,所有的正常人均被判为阴性。但是,眼内压在为阴性。但是,眼内压在22-26mmHg之间的患者被误判为阴之间的患者被误判为阴性性(假阴性假阴性),造成漏诊。,造成漏诊。第五十页,讲稿共六十五页哦表表3-2 参考值范围所对应的百分位数参考值范围所对应的百分位数百分范围百分范围(%)单侧单侧 双侧双侧(对称对称)下限下限 上限上限 下限下限 上限上限 95 P5 P95 P2.5 P97.5 99 P1 P99 P0.5 P99.5 表表3-3 参考值范围所对应的正态分布区间参考值范围所对应的正态分布区间 百分范围百分范围(%)单侧单侧
25、 双侧双侧(对称对称)下限下限 上限上限 下限下限 上限上限 95 -1.645s +1.645s -1.96s +1.96s 99 -2.33s +2.33s -2.58s +2.58s xxxxxxxx第五十一页,讲稿共六十五页哦1.正态分布法正态分布法 适用于正态或近似正态分布适用于正态或近似正态分布资料资料 双侧界值:双侧界值:单侧上界:单侧上界:单侧下界:单侧下界:sx96.1sx645.1sx645.1第五十二页,讲稿共六十五页哦求:求:该地成年男子红细胞数的该地成年男子红细胞数的95%参考值范围。参考值范围。LLx/010.38s /1078.41212)/10(52.538.0
26、96.178.496.112Lsx)/10(04.438.096.178.496.112LsxLL/1052.5/1004.41212 下限:下限:上限上限:例:已知例:已知第五十三页,讲稿共六十五页哦2.对数正态分布法对数正态分布法 适用于对数正态分布资料适用于对数正态分布资料 双侧界值:双侧界值:单侧上界:单侧上界:单侧下界:单侧下界:3.百分位数法百分位数法 常用于偏态分布资料常用于偏态分布资料 双侧界值:双侧界值:P2.5和和 P97.5 单侧上界:单侧上界:P95 单侧下界:单侧下界:P5)96.1(lglglg1xxsx)645.1(lglglg1xxsx)645.1(lglglg
27、1xxsx第五十四页,讲稿共六十五页哦 例例2.4某地某地630名正常女性血清甘油三酯含量的频数表名正常女性血清甘油三酯含量的频数表甘油三酯甘油三酯(mmol/L)频数累积频数累积频率频数累积频数累积频率(1)(2)()(3)(4)0.1027274.3 0.40 169 196 31.1 0.70 167 363 57.6 1.00 94 457 72.5 1.30 81 538 85.4 1.60 42 580 92.1 1.90 28 608 96.5 2.20 14 622 98.7 2.50 4 626 99.4 2.80 3 629 99.8 3.10 1 630 100.0 合计
28、合计 630 第五十五页,讲稿共六十五页哦)/(0982.230.0)2858095.0630(90.195LmmolPxxLxiffxnLP)%(第五十六页,讲稿共六十五页哦不同方法比较:不同方法比较:是结果比较稳定,在样本含量不是很是结果比较稳定,在样本含量不是很大的情况下(大的情况下(n100)仍然能够处理;仍然能够处理;适用范围较广,故在实际中较为常用适用范围较广,故在实际中较为常用。但因两端数据波动较大,使用百分位数。但因两端数据波动较大,使用百分位数法必须有较大样本含量,否则结果不稳定法必须有较大样本含量,否则结果不稳定。第五十七页,讲稿共六十五页哦例例 8-11 某年某市调查了某
29、年某市调查了200例正常例正常成人血铅含量(成人血铅含量(g/100g)如下,试估如下,试估计该市成人血铅含量计该市成人血铅含量95医学参考值医学参考值范围。范围。第五十八页,讲稿共六十五页哦200个血铅测量值个血铅测量值第五十九页,讲稿共六十五页哦组段组段 频数频数f 3 36 8 39 13 47 18 20 23 18 28 16 33 3 38 7 43 1 48 1 53 1 5862 1 200名血铅频数表名血铅频数表第六十页,讲稿共六十五页哦组段组段 频数频数f 累计频数累计频数 f 累计频率()累计频率()3 36 36 18.08 39 75 37.513 47 122 61
30、.0 18 20 152 76.023 18 170 85.028 16 186 93.033 3 189 94.538 7 196 98.043 1 197 98.548 1 198 99.053 1 199 99.55862 1 200 100.0 200名血铅频数表及名血铅频数表及P95计算表计算表第六十一页,讲稿共六十五页哦)100/(71.38)189%95200(753895ggP求求95%95%的单侧上界:的单侧上界:第六十二页,讲稿共六十五页哦对数组段对数组段 频数频数f 组中值(组中值(lgX)flgX f(lgX)20.45 1 0.5 0.5 0.250.55 5 0.6
31、 3.0 1.800.65 10 0.7 7.0 4.900.75 20 0.8 16.0 12.800.85 11 0.9 9.9 8.910.95 21 1.0 21.0 21.01.05 29 1.1 31.9 35.091.15 25 1.2 90.0 36.01.25 30 1.3 39.0 50.71.35 20 1.4 28.0 39.21.45 16 1.5 24.0 36.01.55 8 1.6 12.8 20.481.65 3 1.7 5.1 8.671.751.84 1 1.8 1.8 3.24合计合计 200 230.0 279.04x200名血铅值对数变换后的频数表及
32、名血铅值对数变换后的频数表及 lgX、SlgX计算表计算表第六十三页,讲稿共六十五页哦15.1200230lgffXX27.0120020023004.2791)(lg222fffXfXS)27.0645.115.1(lg)645.1(lglglg1xxSX39.278(39.278(g/100g)5.0839.28第六十四页,讲稿共六十五页哦掌握掌握:描述数据分布离散趋势的指标;正态分布的概念和特征、标描述数据分布离散趋势的指标;正态分布的概念和特征、标准正态分布下面积分布规律。准正态分布下面积分布规律。熟悉熟悉:医学参考值范围的意义和计算;医学参考值范围的意义和计算;了解:了解:正态分布表正态分布表、正态分布的应用。、正态分布的应用。第六十五页,讲稿共六十五页哦