《定量资料的统计描述指标.ppt》由会员分享,可在线阅读,更多相关《定量资料的统计描述指标.ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第一节第一节 频数分布表及频数分布图频数分布表及频数分布图 定量资料进行描述时,如果样本量较定量资料进行描述时,如果样本量较大,需要对原始资料进行整理,列出频大,需要对原始资料进行整理,列出频数分布表数分布表(frequency distribution frequency distribution tabletable),通过频数表以显示资料的分,通过频数表以显示资料的分布类型。布类型。一、离散型定量资料的频数分布一、离散型定量资料的频数分布 即变量的取值是不连续的即变量的取值是不连续的 如如19981998年某山区年某山区9696名孕妇产前检查次名孕妇产前检查次数资料:见数资料:见11
2、11页页表2-1 1998年某地96名孕妇产前检查次数分布检查次数(1)频 数(2)频率(%)(3)0 4 4.21 7 7.321111.531313.542627.152324.0 51212.5合计96 100.0 根据表2-1频数的分布可绘出频数分布图,见12页图2-1。图中横坐标表示产前检查次数,纵坐标表示各检查次数的孕妇例数占总孕妇数的频率各检查次数的孕妇例数占总孕妇数的频率(比例)。从图2-1其直条高度和分布情况看出,某地96名孕妇产前检查次数分布呈负偏态分布。正态分布见图2-2,正偏态分布见图2-3。二、连续型定量资料的频数分布二、连续型定量资料的频数分布频数表的划记步骤频数表
3、的划记步骤 :见12页 1、找出最大值和最小值,2、求极差R(Range)R=最大值-最小值 R=29.64-7.42=22.22 3、定组段数与组距:(1)确定组数K:根据样本例数 n大小而定,一般分10组左右,如样本较小,可少于10组;如样本较大时,可大于10组,以能反映出分布规律为原则以能反映出分布规律为原则。(2)定组距 i:即组与组间的距离,一般等距分组。i=R/K(极差/组数)=22.22/10=2.222 最终原则是取整、取偶数,所以本例 i=2 (3)定组段的上下限并划记:每个组段的起点(最小值)称为该组的下限(lower limit),终点(最大值)称为该组的上限(upper
4、 limit)。注意第一组段把最小值包括进去,最后一组第一组段把最小值包括进去,最后一组把最大值包括进去。把最大值包括进去。4、列表:统计各组段的频数:见表2-2 120名正常成男血清铁含量的频数分布组 段(1)划 记(2)频数 f(3)频 率(%)(4)610.83832.501065.001286.67141210.00162016.67182722.50201815.00221210.002486.672643.33283010.83合计120100.00三、频数分布表的用途三、频数分布表的用途 1、揭示资料的分布类型揭示资料的分布类型 频数分布可分为对称分布和偏态分布两种类型。对称分布
5、是指集中位置在中间,左右两侧频数大体对称的,对称分布包括正态分布,如第14页图2-2所示。偏态分布是指集中位置偏向一侧,频数分布不对称的。集中位置偏向左侧的,为正偏态,集中位置偏向右侧的,为负偏态。2、揭示频数分布的两个分布特征揭示频数分布的两个分布特征集中趋势和离散趋势集中趋势和离散趋势。如成年男子血清铁分布,大多集中在18组段,偏离18组段的越来越少。3、便于发现特大或特小的可疑值。以便于发现特大或特小的可疑值。以确定取舍确定取舍4、便于进一步选择方法计算统计指标便于进一步选择方法计算统计指标 第二节第二节描述集中趋势的统计指标描述集中趋势的统计指标 描述定量资料的分布特征的指标有两类,一
6、类是描述分布集中趋势的,另一类是描述分布的离散趋势的。今介绍描述定量资料分布集中趋势的指标平均数(平均数(average)。)。平均数平均数包括算算术均数、几何均数、中位数、术均数、几何均数、中位数、众数、调和均数。一、算术均数一、算术均数:简称均数简称均数 (mean,)总体均数用希腊字母总体均数用希腊字母,样本均数样本均数 样本例数用样本例数用 n 表示。表示。1、均数的适用范围:、均数的适用范围:对称分布,尤其正态或近似正态分对称分布,尤其正态或近似正态分布的资料。布的资料。2、均数的计算方法:、均数的计算方法:直接法(用于小样本)直接法(用于小样本)频率表法(用于大样本频率表法(用于大
7、样本)其中其中 f为各组段的频数,为各组段的频数,X0是各组的组中值,是各组的组中值,如p16表2-3第一组段的组中值是按均数的计算公式求得均数为按均数的计算公式求得均数为:二、几何均数二、几何均数G(geometric mean)由该公式可得到定义:n个观察值的乘积开个观察值的乘积开n次方所得的根次方所得的根即为几何均数。即为几何均数。1、G的的适用范围适用范围:变量值呈倍数关系的;变量值呈倍数关系的;对数正态分布的资料。对数正态分布的资料。2、几何均数的计算方法:、几何均数的计算方法:直接法(用于小样本)直接法(用于小样本)式中:式中:log 对数符号,对数符号,log-1反对数符号反对数
8、符号例如 7名慢性迁延性肝炎的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。计算其几何均数,即求平均滴度。G=1:64该7名慢性迁延性肝炎的HBsAg平均滴度为1:64。频率表法频率表法(用于大样本用于大样本)例如例如17页表页表2-4资料资料表表2-4 52例慢性肝炎的例慢性肝炎的HBsAg滴度资料滴度资料抗体滴度抗体滴度人数人数 f滴度倒数滴度倒数xlgxflgx1:162161.204122.408241:327321.5051510.536051:6411641.8061819.867981:128131282.1072127.39373
9、1:256122562.4082428.898881:51275122.7092718.96489合计合计52108.06977 G=1:119.74705即1:120 52名名慢慢性性肝肝炎炎的的HBsAg滴滴度度资资料料其其平平均均滴滴度度为1:120。三、中位数(三、中位数(median,M)是指一组观察值从小到大(或从大到小)是指一组观察值从小到大(或从大到小)顺序排列后居于中间位置的数。顺序排列后居于中间位置的数。即总数中有一半的数低于它,一半的数高于它。即总数中有一半的数低于它,一半的数高于它。1、M的适用范围的适用范围:理论上用于各种分布的资料。理论上用于各种分布的资料。实际用于
10、:实际用于:偏态分布资料;偏态分布资料;开口资料;分布类型不清的资料。开口资料;分布类型不清的资料。2、M的计算方法:的计算方法:小样本计算法:小样本计算法:当当n为奇数时为奇数时 M=x(中间)中间)当当n为偶数时为偶数时 M=(中间两位)中间两位)/2 注:按升序排列后的注:按升序排列后的如如 今有今有5名工人接触某有害物质后,引起中名工人接触某有害物质后,引起中毒的潜伏期分别是:毒的潜伏期分别是:1天,天,3天,天,5天,天,4天,天,8天。该天。该5位工人的平均潜伏期是多少天?位工人的平均潜伏期是多少天?大样本频数表资料,可用百分位数法大样本频数表资料,可用百分位数法计算:计算:百分位数(百分位数(percentile,Px):它表示一组观察值按升序排列,并它表示一组观察值按升序排列,并等分为等分为100等份,位居第等份,位居第x%位置的位置的数。数。其中,中位数其中,中位数M=P50式中,式中,Px:百分位数百分位数L:百分位数百分位数所在所在组下限;组下限;i:组距;组距;fx:百分位数所在组的频数;百分位数所在组的频数;fL:百分位数所在组之前的累计例数;百分位数所在组之前的累计例数;n:样本例数。样本例数。例:对例:对18页表页表2-5资料,求中位数:资料,求中位数: