第二节 数值变量资料的统计分析-统计描述.ppt

上传人:asd****56 文档编号:87446982 上传时间:2023-04-16 格式:PPT 页数:61 大小:1.71MB
返回 下载 相关 举报
第二节 数值变量资料的统计分析-统计描述.ppt_第1页
第1页 / 共61页
第二节 数值变量资料的统计分析-统计描述.ppt_第2页
第2页 / 共61页
点击查看更多>>
资源描述

《第二节 数值变量资料的统计分析-统计描述.ppt》由会员分享,可在线阅读,更多相关《第二节 数值变量资料的统计分析-统计描述.ppt(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第二节第二节 数值变量资料的统计分析数值变量资料的统计分析 统计描述统计描述 Descriptive Statistics信阳职业技术学院信阳职业技术学院 赵玉霞赵玉霞一 数值变量资料的频数表二 集中趋势指标三 离散程度指标四 正态分布及其应用 主要主要内容内容 学习目标 1.1.说出频数表的编制方法,频数分布的两种趋势;说出频数表的编制方法,频数分布的两种趋势;2.2.学会数值变量资料常用指标学会数值变量资料常用指标(平均水平、离散程平均水平、离散程度度)的计算方法的计算方法 3.3.描述正态分布的基本特征与内容,了解医学参考描述正态分布的基本特征与内容,了解医学参考值范围的估计方法值范围的

2、估计方法编号血清甘油三脂编号血清甘油三脂10.5120.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.711601.771.77表 160名正常成年女子的血清甘油三酯(mmol/L)一、频数表(frequency table)组段组段 划划 记记 频数,频数,f f0.50.5 3 30.60.6正正9 90.70.7正正正正12120.80.8正正正正13130.90.9正正正正正正17171.01.0正正正正正正18181.11.1正正正正正正正正20201.21.2正正正正正正1

3、8181.31.3正正正正正正17171.41.4正正正正13131.51.5正正9 91.61.6正正 8 81.71.71.81.8 合合计计 3 3160160 1.频数表的编制(1)求求极差极差(range):即最大值与最小值之差,:即最大值与最小值之差,又称为全距。又称为全距。本例极差:本例极差:R=1.770.51=1.26(mmol/L)(2)决定决定组数组数、组段组段和和组距组距:根据研究目的和:根据研究目的和样本含量样本含量n确定。组距确定。组距=极差极差/组数,通常分组数,通常分10-15个组,为方便计,组距参考极差的十分之个组,为方便计,组距参考极差的十分之一一,再略加调

4、整。再略加调整。本例本例i=R/10=1.26/10=0.1260.1。(3)列出组段:第一组段的列出组段:第一组段的下限略小于最小值下限略小于最小值,最后一个组段最后一个组段上限必须包含最大值上限必须包含最大值,其它组,其它组段上限值忽略。段上限值忽略。(4)划记计数划记计数:用划记法将所有数据归纳到各:用划记法将所有数据归纳到各组段,得到各组段的频数。组段,得到各组段的频数。集中趋势集中趋势(central tendency):变量值集中位变量值集中位置。本例在组段置。本例在组段“1.1”。平均水平指标平均水平指标离散趋势离散趋势(tendency of dispersion):变量值围变

5、量值围绕集中位置的分布情况。本例绕集中位置的分布情况。本例0.91.4,共有,共有90人,占人,占56;离;离“中心中心”位置越远,频数位置越远,频数越小;且围绕越小;且围绕“中心中心”左右对称。左右对称。变异水平指标变异水平指标 2.频数表的分布特征 组段组段 频数,频数,f f0.50.53 30.60.69 90.70.712120.80.813130.90.917171.01.018181.11.120201.21.218181.31.317171.41.413131.51.59 91.61.68 81.71.71.81.8 合合计计3 31601601.正态分布normal dist

6、ribution(图2-1)2.左偏态(skewed to the right),也称正偏态(positive skewed)(图2-2)3.右偏态(skewed to the left),也称负偏态(negative skewed)(图2-3)3.正态分布与偏态分布.计量资料频数分布与图示正态分布 组段组段 频数,频数,f f0.50.53 30.60.69 90.70.712120.80.813130.90.917171.01.018181.11.120201.21.218181.31.317171.41.413131.51.59 91.61.68 81.71.71.81.8 合合计计3

7、3160160中间高、两边低、左右对称中间高、两边低、左右对称如果观察例数逐渐增多,组段不断分细,如果观察例数逐渐增多,组段不断分细,频数频数分布分布“中间高,两侧低中间高,两侧低”的特征会越来越明显的特征会越来越明显 直方图顶端的连线就会逐渐形成一条高峰位于中央直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线图横轴相交的光滑曲线图“中间高、两边低、左右对中间高、两边低、左右对称称”正正偏偏态态分分布布:长长尾尾向向右右延延伸伸负负偏偏态态分分布布:长长尾尾向向左左延延伸伸计量资料频数分布与图

8、示偏态分布总称为平均数(average)反映了资料的集中趋势(central tendency)。常用的有:二 集中趋势指标算术均数算术均数算术均数算术均数几何均数几何均数几何均数几何均数 GG中位数中位数中位数中位数 MM正态正态正态正态分布分布分布分布非正态非正态非正态非正态分布分布分布分布可转换为可转换为可转换为可转换为正态分布正态分布正态分布正态分布其他分布其他分布其他分布其他分布GGMM计量资料的分布与平均数的关系 算术均数(mean)2.常用表示 总体均数,表示样本均数。1.简称均数3.应用条件:适用于正态或近似正态的资料。X Xf f(X X)m m均数计算方法为求和符号,读成s

9、igma 加权法:加权法:利用利用频数表频数表,用,用组中值组中值计算计算直接计算法:直接计算法:用原始数据直接计算用原始数据直接计算用原始数据直接计算用原始数据直接计算加权法加权法:u当数据较少时,可用当数据较少时,可用直接法直接法计算计算u大样本,即资料数据较多时,常现将资料整大样本,即资料数据较多时,常现将资料整 理成理成频数表频数表,再用,再用加权法加权法计算计算u加权法的加权法的计算原理:以计算原理:以组中值组中值代替代替原始数据原始数据 组段组段 频数,频数,f f 组中值,组中值,X X fXfX0.50.53 30.550.551.651.650.60.69 90.650.65

10、5.855.850.70.712120.750.759.009.000.80.813130.850.8511.0511.050.90.917170.950.9516.1516.151.01.018181.051.0518.9018.901.11.120201.151.1523.0023.001.21.218181.251.2522.5022.501.31.317171.351.3522.9522.951.41.413131.451.4518.8518.851.51.59 91.551.5512.4012.401.61.68 81.651.6514.8514.851.71.71.81.8 合合计

11、计3 31.751.755.255.25160160182.30182.30加权计算法加权计算法1.计算组中值计算组中值:组中值指组段的中间值组中值指组段的中间值第一组段的组中值第一组段的组中值X=(0.5+0.6)2 =0.55第二组段的组中值第二组段的组中值X=(0.6+0.7)2 =0.65 其他组段以此类推其他组段以此类推2.计算各组的计算各组的fX即各组的即各组的f和和X的乘积的乘积第一组段的第一组段的fX=30.55=1.65第二组段的第二组段的fX=90.65=5.85 其他组段以此类推其他组段以此类推3.计算计算fX=182.30 ffXX =4.计算计算 =182.30/16

12、0=1.14加权法的原理加权法的原理 组段组段 频数,频数,f f 组中值,组中值,X X fXfX0.50.53 30.550.551.651.650.60.69 90.650.655.855.850.70.712120.750.759.009.000.80.813130.850.8511.0511.050.90.917170.950.9516.1516.151.01.018181.051.0518.9018.901.11.120201.151.1523.0023.001.21.218181.251.2522.5022.501.31.317171.351.3522.9522.951.41.4

13、13131.451.4518.8518.851.51.59 91.551.5512.4012.401.61.68 81.651.6514.8514.851.71.71.81.8 合合计计3 31.751.755.255.25160160182.30182.30在频数表中,在频数表中,160个数据的原个数据的原始数值已无法得知始数值已无法得知以组段以组段0.6为例,该组含为例,该组含9个个数据,数值均在数据,数值均在0.60.7之间,之间,如将如将7个数据值都以中间值个数据值都以中间值0.65代替,则该组段代替,则该组段fX=5.85,可看成是可看成是9个个0.65之和之和以此类推,以此类推,1

14、82.30实际是实际是160个组中值之和个组中值之和大样本资料可用直接法计算均数吗?大样本资料可用直接法计算均数吗?直接法和加权法公式中,分子内直接法和加权法公式中,分子内“X”X”的含义有何的含义有何区别?区别?同一资料用直接法和加权法计算均数,何种结果更同一资料用直接法和加权法计算均数,何种结果更精确?精确?均数与平均数有何区别?均数与平均数有何区别?讨论讨论适用条件适用条件:呈:呈倍数关系的等比资料倍数关系的等比资料或或对数正态分对数正态分布布(正偏态正偏态)资料资料,如抗体滴度资料如抗体滴度资料 几何均数(geometric mean)计算方法计算方法:1.直接计算法直接计算法 2.加

15、权法加权法几何均数几何均数:变量对变量对数值的数值的算术均数算术均数的的反对数反对数。几何均数(geometric mean)直接计算法如抗体滴度资料血清的抗体效价滴度的如抗体滴度资料血清的抗体效价滴度的倒数倒数分别为:分别为:10、100、1000、10000、100000,求几何均数。,求几何均数。此例的算术均数为此例的算术均数为22222,显然不能代表滴度的,显然不能代表滴度的平均水平。同一资料,几何均数平均水平。同一资料,几何均数 中位数中位数负偏态分布时:均数均数中位数中位数集中趋势指标小结 1.1.即计量资料分布与平均数的选择即计量资料分布与平均数的选择 2.2.计量资料的分布与统

16、计分析计量资料的分布与统计分析 分布类型 算术均数几何均数中位数 正态分布对数正态分布其他分布正态分布正态分布非正态分布非正态分布可转换为正态分布可转换为正态分布其他分布其他分布应用手段丰富应用手段丰富应用手段有限应用手段有限 反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:1.极差(Range)(全距)2.百分位数与四分位数间距 Percentile and Quartile range 3.方差 Variance 4.标准差Standard Deviation 5.变异系数 Coefficient of Variation 三 离散程度指标盘编号盘编号盘编号

17、盘编号 甲甲甲甲乙乙乙乙丙丙丙丙1 14404404804804904902 24604604904904954953 35005005005005005004 45405405105105055055 5560560520520510510合计合计250025002500250025002500均数均数500500500500500500 例例:设设甲甲、乙乙、丙丙三三人人,采采每每人人的的耳耳垂垂血血,然然后后红红细细胞胞计数,每人数计数,每人数5个计数盘,得结果如下个计数盘,得结果如下(万万/mm3)甲乙丙离散程度指标优点:简便优点:简便缺点:缺点:1.只利用了两个只利用了两个 极端值极

18、端值 2.n大,大,R也会大也会大 3.不稳定不稳定12040201.极差(Range)(全距)百分位数百分位数:数据从:数据从小到大小到大 排列排列;在第在第x百分位次所对应的百分位次所对应的值。记为值。记为Px。四分位间距四分位间距:QP75 P25P100(max)P75P50(中位数中位数)P25P0(min)Px2.百分位数与四分位数间距 Percentile and quartile range百分位数计算方法p 计算关键计算关键:p 计算公式计算公式:以以x%,找出,找出Px所在组段所在组段L:L:PxPx所在组段的下限所在组段的下限 i:i:PxPx所在组段的所在组段的组距组距

19、f fx x:PxPx所在组段的所在组段的频数频数 f fL L:为小于为小于L L的各组段的累计频数的各组段的累计频数 组段组段组段组段 频数,频数,频数,频数,f f 累计频数累计频数累计频数累计频数S S S Sf f累计频率累计频率累计频率累计频率0.50.53 33 31.9 1.9(0 01.91.9)0.60.69 912127.5 7.5(1.91.97.57.5)0.70.71212242415.0 15.0(7.57.515.015.0)0.80.81313373723.1 23.1(15.215.223.123.1)0.90.91717545433.8 33.8(23.1

20、23.133.833.8)1.01.01818727245.0 45.0(33.833.845.045.0)1.11.12020929257.5 57.5(45.045.057.557.5)1.21.2181811011068.8 68.8(57.557.568.868.8)1.31.3171712712779.4 79.4(68.868.879.479.4)1.41.4131314014087.5 87.5(79.479.487.587.5)1.51.59 914914993.1 93.1(87.587.593.193.1)1.61.68 815715798.1 98.1(93.193.19

21、8.198.1)1.71.71.81.8 合合合合计计计计3 3160160100.0 100.0(98.198.1100100)160160百分位数的计算例:计算例:计算P25从从累累计计频频率率可可见见,表表示示P25在在组组段段“0.90.9”P25=0.9+0.1x(160 x25%-37)/17 =0.92P75 =1.3+0.1x(160 x75%-110)/17 =1.36 Q=1.36-0.920.44例:计算例:计算P75从从累累计计频频率率可可见见,表表示示P75在在组组段段“1.31.3”(2)确定确定医学参考值范围医学参考值范围(reference range):指:指

22、所谓所谓“正常人正常人”的解剖、生理、生化等指标的的解剖、生理、生化等指标的波动范围波动范围。95医学参考值范围医学参考值范围表示有表示有95正常正常个体个体的测量值在的测量值在 此范围。此范围。百分位数的应用(1)中位数中位数M与与四分位间距四分位间距Q一起使用,描述偏一起使用,描述偏态分布资料的特征态分布资料的特征百分位数的应用确定医学参考值范围 P2.5P97.5 双侧双侧95%正常值范围:正常值范围:P2.5P97.5 单侧单侧95%正常值范围:正常值范围:P5(下限)(下限)适用于适用于偏态分布偏态分布资料资料 P5P95百分位数的应用确定医学参考值范围 例:例:1.确定正常成年男子

23、血红蛋白的确定正常成年男子血红蛋白的医学参考值范围医学参考值范围 双侧双侧:P2.5P97.5 2.2.确定正常成年男子尿铅的确定正常成年男子尿铅的医学参考值范围医学参考值范围 过低为异常过低为异常,单侧,单侧:P5(下限)(下限)方差方差(variance)也称也称均方差均方差(mean square deviation),样本观察值的离均差平方和的均值。,样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。表示一组数据的平均离散情况。应用条件应用条件:适用于:适用于正态或近似正态分布正态或近似正态分布资料资料 意义意义:方差大,表示观察值的变异度大;反:方差大,表示观察值的变异度大

24、;反之,方差小,表示观察值的变异度小。之,方差小,表示观察值的变异度小。3.方差离均差离均差 (X-)=0方差公式总体方差样本方差离均差平方和离均差平方和(X-)2 优点:考虑了每个数值 考虑观察值个数N 的影响 缺点:将原变量单位平方了方差优缺点 标准差标准差(standard deviation)即方差的正平方根;即方差的正平方根;其单位与原变量其单位与原变量X的单位相同。的单位相同。4.标准差 适用于适用于正态或近似正态分布正态或近似正态分布资料资料 S大,表示观察值的变异度大,数据分散大,表示观察值的变异度大,数据分散“矮胖矮胖”;应用条件应用条件:意义意义:反之,反之,S S小,表示

25、观察值的变异度小,数据集中小,表示观察值的变异度小,数据集中“瘦高瘦高”。标准差计算样本标准差样本标准差总体标准差总体标准差直接法直接法频数表法频数表法盘编号盘编号 甲甲乙乙丙丙甲甲2乙乙2丙丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计合计250025002500126040012510001250250标准差标准差50.9915.817.91标准差的计

26、算 组段组段 (1)(1)频数,频数,f f(3)(3)组中值,组中值,X X(4)(4)fXfX(5)=(3)(4)(5)=(3)(4)fXfX2 2(5)=(3)(4)(5)=(3)(4)2 20.50.53 30.550.551.651.650.91 0.91 0.60.69 90.650.655.855.853.80 3.80 0.70.712120.750.759.009.006.75 6.75 0.80.813130.850.8511.0511.059.39 9.39 0.90.917170.950.9516.1516.1515.34 15.34 1.01.018181.051.0

27、518.9018.9019.85 19.85 1.11.120201.151.1523.0023.0026.45 26.45 1.21.218181.251.2522.5022.5028.13 28.13 1.31.317171.351.3522.9522.9530.98 30.98 1.41.413131.451.4518.8518.8527.33 27.33 1.51.59 91.551.5513.9513.9521.62 21.62 1.61.68 81.651.6513.2013.2021.78 21.78 1.71.71.81.8 合合计计3 31.751.755.255.259.1

28、9 9.19 160160182.30182.30221.52 221.52 方差方差=(221.52-182.302/160)/(160-1)=0.0869标准差标准差=0.29方差、标准差的计算 观察指标单位不同,如身高、体重观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊同单位资料,但均数相差悬殊均数 标准差变异系数青年男子 身高170 cm6 cm3.5体重60 kg7 kg11.7 5.变异系数(coefficient of variation,CV)计算公式计算公式:适用条件适用条件:1极差较粗,适合于任何分布极差较粗,适合于任何分布2标准差标准差与均数的单位相同,最常用

29、,适合于近似正态分布与均数的单位相同,最常用,适合于近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征,常配套使用常配套使用 如如 正态分布正态分布:均数、标准差;:均数、标准差;偏态分布偏态分布:中位数、四分位间距:中位数、四分位间距变异指标小结 正态分布正态分布(normal distribution)也叫高斯分布)也叫高斯分布(Gaussian distribution),是最常见、最重要的一种连续),是最常见、最重要的一种连续型分布,频数分布高峰位于中部,

30、左右两侧大致对称。型分布,频数分布高峰位于中部,左右两侧大致对称。1.正态分布的特征正态分布的特征 2.标准正态分布标准正态分布 3.正态分布的应用正态分布的应用 四 正态分布分布及其应用图形特点图形特点:1.钟型钟型(中间高、两头低、中间高、两头低、左右对称左右对称)2.正态分布记为正态分布记为N(,2)或或N(,)3.为位置参数,为位置参数,决定曲决定曲线的位置;线的位置;为形态参为形态参数数决定曲线的形状决定曲线的形状4.最高处对应于最高处对应于X轴的值轴的值就是均数就是均数5.曲线下面积为曲线下面积为1X Xf f(X X)m m1.正态分布的特征 2.标准正态分布标准正态分布标准正态

31、分布(standard normal distribution)的两个参的两个参数为:数为:=0,=1 记为记为 N(0,1)经标准正态变量经标准正态变量 u 变换:一般正态分布变换:一般正态分布N(,2)被转化被转化为标准正态分布为标准正态分布N(0,1);其中;其中 一般正态分布为一个分布族一般正态分布为一个分布族一般正态分布为一个分布族一般正态分布为一个分布族:N(,2);标准正;标准正;标准正;标准正态分布只有一个态分布只有一个态分布只有一个态分布只有一个 N(0,1);这样简化了应用;这样简化了应用;这样简化了应用;这样简化了应用 0-11-1.961.96-2.582.5868.2

32、7%95.00%99.00%-+-1.96+1.96-2.58+2.5868.27%95.00%99.00%曲线下面积分布规律例例 mmol/L,试估计该地正常女子血清甘油三脂在试估计该地正常女子血清甘油三脂在1.10 mmol/L以下者占正以下者占正常女子血清甘油三脂总人数的百分比。常女子血清甘油三脂总人数的百分比。将将X=1.10代入标准正态变量变换公式,得:代入标准正态变量变换公式,得:查附表查附表1,在表的左侧找到,在表的左侧找到0.1,在表的上方找到,在表的上方找到0.04,两者的相交处为,两者的相交处为0.4443=44.43%。即该地正常女子血清。即该地正常女子血清甘油三脂在甘油

33、三脂在1.10mmol/L以下者,估计占总人数的以下者,估计占总人数的44.43%。mmol/L,计算正态曲线下面积实例44.43实例图示概念:概念:三、正态分布的应用参考值范围步骤步骤:1.从从“正常人正常人”总体中抽样:明确研究总体总体中抽样:明确研究总体 2.统一测定方法以控制系统误差。统一测定方法以控制系统误差。3.判断是否需要分组(如性别、年龄)确定。判断是否需要分组(如性别、年龄)确定。4.判断是判断是正态分布正态分布还是还是偏态分布偏态分布 4.根据专业知识决定单侧还是双侧。根据专业知识决定单侧还是双侧。指所谓指所谓“正常人正常人”的解剖、生理、生化等指标的波动范围的解剖、生理、

34、生化等指标的波动范围。单侧下限单侧下限-过低异常过低异常 单侧上限单侧上限-过高异常过高异常 双侧双侧-过高、过低均异过高、过低均异常常 单侧下限单侧下限异常异常正常正常单侧上限单侧上限异常异常正常正常异常异常正常正常双侧下限双侧下限双侧上限双侧上限异常异常3.正态分布的应用参考值范围双侧双侧100(1-)%正常值范围:正常值范围:单侧单侧100(1-)%正常值范围:正常值范围:双侧双侧100(1-)%正常值范围:正常值范围:单侧单侧100(1-)%正常值范围:正常值范围:双侧双侧95%正常值范围:正常值范围:单侧单侧95%正常值范围:正常值范围:3.正态分布的应用参考值范围参考值范围小结方法:法:1.正态分布法正态分布法 2.百分位数法百分位数法 双侧双侧95%正常值范围:正常值范围:单侧单侧95%正常值范围:正常值范围:双侧双侧95%正常值范围正常值范围:P2.5P97.5 单侧单侧95%正常值范围正常值范围:P5(下限)(下限)适用于偏态分布资料适用于偏态分布资料 请同学们做好练习和预习

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁