《数值变量资料的统计分析之统计描述.ppt》由会员分享,可在线阅读,更多相关《数值变量资料的统计分析之统计描述.ppt(103页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十六章 数值变量资料的统计分析,江海东,学习目的和要求,掌握: 1.集中趋势指标的计算与应用意义 2.离散趋势指标的计算与应用意义 3.数值变量资料的t检验 熟悉: 1.总体均数的区间估计 2.假设检验的意义和步骤 了解:数值变量资料的统计描述中频数表的制作,第一节 数值变量资料的统计描述,一、编制频数表(了解) 120名12岁男孩身高(cm)资料 142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5 134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0 145
2、.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1 143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4 150
3、.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4 134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.9,1.计
4、算全距(极差)R=最大值-最小值 2.确定组距 确定组段数:815组 确定组距 :组距i =全距/组段数 3.划分组段 4.统计频数,120名12岁男孩身高(cm)资料的频数分布,二、集中趋势指标(掌握),数值变量资料的集中趋势指标用平均数来描述。 常用的平均数有算数均数、几何均数、中位数,(一)算数均数,样本均数用 表示,2.应用条件 适用于呈对称分布或近似对称分布的资料。,3.计算方法,直接法 :变量值个数不多 公式为,加权法 : n 100,公式为,例,某年某市120名12岁健康男孩身高(cm)资料如下表,求其平均数。,142.3 156.6 142.7 145.7 138.2 141.
5、6 142.5 130.5 132.1 135.5 134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1 143.5 139.2 144.7 139.3 141.9 147.
6、8 140.5 138.9 148.9 142.4 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4 150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4 134.7 138.5 138.9 137.7 138.5 139.
7、6 143.5 142.9 146.5 145.4 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.9,120名12岁男孩身高(cm)资料,120名12岁男孩身高(cm)资料的频数分布,120名12岁健康男孩身高(cm)均数的加权法计算,(二)几何均数,1定义 将n个变量值的乘积开n次方所得的根即为几何均数。 符号 用G表示,2.适用条件:,数值变量呈倍数关系或呈对数正态分布,如抗体效价、抗体滴定度、疾病潜伏期,3.计算,例,5人的血清滴度分别为1:2、1:4、1:8、1:16、1:32,求平均滴度。,加权法:变量值个数较多或
8、变量值为频数表资料,二、几何均数(几何平均数),例2-4,某年某市100名儿童接种某种疫苗后,测定抗体滴度的资料如第(1)、(2)列所示,求该疫苗的抗体平均滴度。,(三)中位数和百分位数,中位数 1.定义 将一组变量值按大小顺序排列,位次居中的变量值即为中位数。 符号 用M表示,2.适用条件,变量值中出现特小或特大的数值 资料的分布呈明显偏态 变量值分布一端或两端无确定数值,只有小于或大于某个数值 资料的分布类型不清,3.计算方法,直接法 当变量值个数为奇数时计算公式为 M=,当变量值个数为偶数时计算公式为,例,某地11例某传染病患者,其潜伏期(天)分别为2,2,4,3,5,6,3,8,9,1
9、1,15,求其平均潜伏期。,例,如上例资料在第21天又发生1例该传染病患者,其平均潜伏期又为多少? 先将变量值按从小到大的顺序排列:2,2,3,3,4,5,6,8,9,11,15,21。,频数表法,编制中位数计算表,确定中位数所在的组段,计算中位数,计算公式,例,现有145例食物中毒病人,其潜伏期分布如下表的第(1)(2)栏,求中位数 。,145例食物中毒病人潜伏期分布表,可确定中位数所在组段是12,故L12,i6, fm38,n145, 63。 代入公式,得 M=12+(6/38)(145 50%63)=13.5(小时),百分位数,1定义 指将n个观察值从小到大依次排列,再把它分成100等份
10、,对应于 x%位的数值即为第x百分位数。 中位数是第50百分位数,用P50表示。 第25,第75,第95百分位数记为P25, P75 P95是统计学上常用的指标。,PX,X% (100-X)%,2计算方法,L:Px 所在组段下限 i:组距 n:总例数 f:Px所在组段频数 fL:小于L的各组段累计频数,145例食物中毒病人潜伏期分布表,求P25和P75,P25=6+(6/46)(14525%17) =8.51(小时) P75=18+(6/32)(14575%101) =19.45(小时),练习题,1.适用于对称分布或近似对称分布的资料的平均数为 A.算数均数 B.几何均数 C.中位数 D.百分
11、位数 答案:A,描述正态分布资料集中趋势的指标是( ) A.中位数 B.几何均数 C.算术平均数 D.标准差 答案:C (全国2011年4月高等教育自学考试预防医学(二)试题),2.描述一组偏态分布资料的平均水平,下列哪个指标较好 A算术均数 B几何均数 C百分位数 D中位数 答案:D,3.计算某抗体滴度的平均水平,一般宜选择 A算术均数 B几何均数 C中位数 D百分位数 答案:B,描述呈倍数关系的数值变量的指标是 A算术均数 B几何均数 C中位数 D百分位数 答案:B,三、离散趋势指标(掌握),离散趋势指标(掌握),三组同龄男孩体重(kg)如下:,甲组 90 95 100 105 110 均
12、数=100 (cm) 乙组 96 98 100 102 104 均数=100 (cm) 丙组 96 99 100 101 104 均数=100 (kg),平均水平指标仅描述一组数据的集中趋势,可作为总体均数的一个估计值。由于变异的客观存在,需要一类指标描述资料的离散趋势。,常用指标: 全距,四分位数间距,方差,标准差,变异系数,科学出版社卫生职业教育出版分社,极差(又称全距),R甲=11090=20( cm ) R乙=10496=8( cm ) R丙= 10496=8( cm ),甲组 90 95 100 105 110 均数=100 (cm) 乙组 96 98 100 102 104 均数=
13、100 (cm) 丙组 96 99 100 101 104 均数=100 (kg),缺点: 只用到最大、最小值,样本信息没能充分利用,不能反映所有数据的变异程度。 受样本含量影响较大,样本例数越多,R可能越大,2组观察值例数悬殊时不用R比较。 样本含量不变时,每次抽样得到的极差值相差较大,R稳定性较差。,优点: 表示变异范围,简单明了; 各种分布类型的资料均可用。,练习题,关于极差的描述错误的是 A.极差值大,离散度就大 B.极差可以反映所有数据的变异大小 C.极差受样本含量的影响较大 D.极差只能粗略的说明变量值的变动范围 答案:B,四分位数间距,四分位数间距,用Q表示: Q=,四分位数间距
14、越大,说明变异度越大;反之,说明变异度越小。,方差,方差也称均方差,反映一组数据的平均离散水平。,方差愈小,说明变量值的变异程度愈小;方差愈大,说明变异程度愈大。,样本方差用 表示,标准差,公式: 样本标准差用 表示 公式:,标准差的公式还可以写成 : 利用频数表计算标准差的公式为,测定了5名健康人第一小时末红细胞沉降率,分别是6、3、2、9、10mm,求标准差。,例,某年某市120名12岁健康男孩身高(cm)资料如下表,求其标准差。,142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5 134.5 148.8 134.4 14
15、8.8 137.9 151.3 140.8 149.8 143.6 149.0 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1 143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4 134.7 147.3 138.1 14
16、0.2 137.4 145.1 145.8 147.9 146.7 143.4 150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4 134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4 129.4 142.5 141.2 14
17、8.9 154.0 147.7 152.3 146.6 139.2 139.9,练习题,描述离散趋势的指标是A.标准差 B.中位数C.几何均数 D.算术均数 答案:A (全国2014年4月高等教育自学考试预防医学(二)试题),关于样本标准差的描述正确的是 A.样本标准差就是总体标准差 B.样本方差是样本标准差的正平方根 C.标准差有量纲,其量纲与原变量值相同 D.标准差可能为负值 答案:C,均数和标准差的关系是 A均数愈大,s愈大 B均数愈大,s愈小 Cs愈大,均数对各变量值的代表性愈好 Ds愈小,均数对各变量值的代表性愈好 答案:D,各观察值均加(或减)同一个不等于零的数后 A均数不变,标准
18、差改变 B均数改变,标准差不变 C两者均不变 D均数不变,标准差不一定改变 答案:B,变异系数,变异系数(,coefficient of variation,)记为,CV,,,多用于观察指标单位不,同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿,童,身高与成人身高变异程度的比较。,例,某地20岁男子160人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.72kg,标准差为4.96kg。试比较身高与体重的变异程度。,例,某地130名10岁女生体重均数为26.96 kg,标准差为3.9 kg;150名17岁女生体重均数为49.18 kg,标准差为5.3 kg,试比较
19、两个年龄别女生体重的离散程度。,练习题,关于变异系数下列描述错误的是 A.变异系数可以反映变量值的绝对值离散程度 B.变异系数是无量纲单位 C.变异系数可以用来比较不同单位指标间的变异度 D.变异系数消除了均数的大小对标准差的影响 答案:A,比较血压和脉搏两组数据变异度大小宜采用 A变异系数 B方差 C极差 D标准差 答案:A,设同一组7岁男童身高的均数是110cm,标准差是5cm,体重的均数是25kg,标准差是3kg,则比较二者变异程度的结论为 A身高的变异程度小于体重的变异程度 B身高的变异程度等于体重的变异程度 C身高的变异程度大于体重的变异程度 D单位不同,无法比较 答案:A,正态分布
20、,正态分布(normal distribution)又称高斯分布(Gaussian distribution),是一种重要的连续型分布,应用甚广,是许多统计方法的理论基础。,正态分布曲线,正态分布的特征,(4)正态曲线下的面积分布有一定的规律。,1范围内的面积占68.27。,1.96范围内的面积占95.00。,2.58范围内的面积占99.00。,标准正态分布,练习题,正态曲线的位置参数是指 A.均数 B.标准正态变量u C.标准差 D.样本标准差s 答案:A,正态分布N(,2),当恒定时,越大,则 A曲线沿横轴越向右移动 B曲线沿横轴越向左移动 C曲线形状和位置都不变 D观察值变异程度越大,曲
21、线越“胖” 答案:D,对于均数为标准差为正态分布,95的变量值分布范围为 A-+ B-196+196 C-258+258 D-+196 答案:B,正态曲线下、横轴上,从均数到+196的面积为 A95 B45 C975 D475 答案:D,关于标准正态分布的描述错误的是 A.标准正态分布可以表示为N(0,12) B.标准正态分布的均数等于0 C.标准正态分布的标准差等于1 D.标准正态分布(-11)的区间面积占总面积的95% 答案:D,医学参考值范围涉及到采用单侧界值还是双侧界值的问题,这通常依据医学专业知识而定。,双侧 : 血清总胆固醇无论过低或过高均属异常 白细胞数无论过低或过高均属异常 单
22、侧 : 1、血清转氨酶仅过高异常 2、肺活量仅过低异常,医学参考值范围有 、 、 等, 最常用的为 。 计算医学参考值范围的常用方法: 1、正态分布法 2、百分位数法,1、正态分布法: 许多生物医学数据服从或近似服从正态分布,如同年龄同性别儿童的身高值、体重值,同性别健康成人的红细胞数等;,公式:,即 不低于3.3L。,2、百分位数法,适用:各种分布资料特别是偏态分布资料,公式:,例2-17 测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的参考值范围。,正常人的尿汞值为偏态分布,且过高为异常,应计算第95百分位数,练习题,医学中确定参考值范围时应注意 A正态分布资料不能用均数标准差法 B正态分布资料不能用百分位数法 C偏态分布资料不能用均数标准差法 D偏态分布资料不能用百分位数法 答案:C,