《统计学超好教程2.pdf》由会员分享,可在线阅读,更多相关《统计学超好教程2.pdf(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、卫生统计学实习卫生统计学实习何平平北京大学公共卫生学院流行病与卫生统计学系何平平北京大学公共卫生学院流行病与卫生统计学系Tel:82801619统计描述统计描述第第164180页页实习二实习二医学统计资料类型医学统计资料类型?数值变量资料数值变量资料:又称为计量资料。变量值是定量的,有单位的,表示为数值的大小。:又称为计量资料。变量值是定量的,有单位的,表示为数值的大小。?无序分类资料无序分类资料:又称为计数资料。变量值是定性的,没有单位,表示为相互独立的类别。:又称为计数资料。变量值是定性的,没有单位,表示为相互独立的类别。?有序分类资料有序分类资料:又称为等级资料。变量值是定性的,没有单位
2、,各类别具有程度上的差异。:又称为等级资料。变量值是定性的,没有单位,各类别具有程度上的差异。注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。实习二 统计描述实习二 统计描述一、数值变量资料的统计描述一、数值变量资料的统计描述统计描述包括两个方面:统计描述包括两个方面:集中趋势的描述和离散趋势的描述集中趋势的描述和离散趋势的描述(一)数值变量资料的频数表(一)数值变量资料的频数表频数表(频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或
3、者人数),以描述数值变量资料的分布特征和分布类型。:当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。一、数值变量资料的统计描述一、数值变量资料的统计描述频数表的用途1.描述频数表的用途1.描述数值变量数值变量资料的分布特征集中趋势(资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。:频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。离散趋势(离散趋势(tendency of dispersion):从中
4、心到两侧,频数分布是逐渐减少的。反映了数据的离散程度或者变异程度。:从中心到两侧,频数分布是逐渐减少的。反映了数据的离散程度或者变异程度。(一)数值变量资料的频数表一、数值变量资料的统计描述(一)数值变量资料的频数表一、数值变量资料的统计描述频数表的用途2.描述数值变量资料的分布类型正态分布频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。常见近似正态分布。:集中位置居中,左右两侧频数基本对称。常见近似正态分布。偏态分布偏态分布:集中位置偏向一侧,频数分布不对称。正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。负偏态分布:集中位置偏向数值大的
5、一侧或者右侧,有较长的左尾部。:集中位置偏向一侧,频数分布不对称。正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。(一)数值变量资料的频数表一、数值变量资料的统计描述(一)数值变量资料的频数表一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述直方图及近似正态分布直方图及近似正态分布直方图及正偏态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(二)数值变量资料的频数分布图及
6、正态曲线一、数值变量资料的统计描述60.050.040.030.020.010.00.0120100806040200直方图及负偏态分布直方图及负偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述(三)集中趋势指标描述1.算数均数(均数1.算数均数(均数mean)适用于正态分布或者近似正态分布总体均数:适用于正态分布或者近似正态分布总体均数:;样本均数:;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述2.几何均数(2.几何均数(geometric mean,G)适用于
7、一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。此资料的原始数据为正偏态分布,取对数后,对数值为正态分布,所以又称为对数正态分布。适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。此资料的原始数据为正偏态分布,取对数后,对数值为正态分布,所以又称为对数正态分布。一、数值变量资料的统计描述(三)集中趋势指标描述一、数值变量资料的统计描述(三)集中趋势指标描述3.中位数(3.中位数(median,M)适用于偏态分布资料,或者分布类型未知,或者有不确定数据时。中位数是指将一组变量值从小到大排列,位次居中的变量值。适用于偏态分布资料,或者分布类型未知,或者有不确定数据时。中位数是指将一组变
8、量值从小到大排列,位次居中的变量值。一、数值变量资料的统计描述(三)集中趋势指标描述一、数值变量资料的统计描述(三)集中趋势指标描述4.注意事项4.注意事项1.对于偏态分布资料,中位数不受两端特大值和特小值的影响,1.对于偏态分布资料,中位数不受两端特大值和特小值的影响,只和位置居中的观察值有关只和位置居中的观察值有关。而均数受特大值和特小值的影响,会偏大或者偏小,所以对于偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势。2.。而均数受特大值和特小值的影响,会偏大或者偏小,所以对于偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势。2.中位数适合于任何分布类型的资料中位数
9、适合于任何分布类型的资料,对于正态分布,理论上中位数等于均数。,对于正态分布,理论上中位数等于均数。一、数值变量资料的统计描述(三)集中趋势指标描述一、数值变量资料的统计描述(三)集中趋势指标描述(四)离散趋势指标描述一、数值变量资料的统计描述(四)离散趋势指标描述一、数值变量资料的统计描述1.极差或者全距(1.极差或者全距(range,R):表示一组变量值中最大值和最小值之差。适合任何分布类型的资料。R最大值最小值计算简单,但是不能反映所有变量值的变异程度,易受最大值和最小值的影响,不稳定:表示一组变量值中最大值和最小值之差。适合任何分布类型的资料。R最大值最小值计算简单,但是不能反映所有变
10、量值的变异程度,易受最大值和最小值的影响,不稳定2.方差(2.方差(variance):表示一组变量值的平均离散程度。方差越大,离散或者变异程度越大。适合描述近似正态分布资料的离散趋势。:表示一组变量值的平均离散程度。方差越大,离散或者变异程度越大。适合描述近似正态分布资料的离散趋势。(四)离散趋势指标描述一、数值变量资料的统计描述(四)离散趋势指标描述一、数值变量资料的统计描述本页已使用福昕阅读器进行编辑。福昕软件(C)2 0 0 5-2 0 0 9,版权所有,仅供试用。3.标准差(3.标准差(standard deviation):是方差的开方,和均数的单位一致,也表示一组变量值的平均离散
11、程度。适合描述近似正态分布资料的离散趋势。:是方差的开方,和均数的单位一致,也表示一组变量值的平均离散程度。适合描述近似正态分布资料的离散趋势。(四)离散趋势指标描述一、数值变量资料的统计描述(四)离散趋势指标描述一、数值变量资料的统计描述(四)离散趋势指标描述一、数值变量资料的统计描述(四)离散趋势指标描述一、数值变量资料的统计描述4.四分位数间距(4.四分位数间距(quartile,Q):P75、P25分别表示第75百分位数和第25百分位数。分别表示第75百分位数和第25百分位数。Q P75P25注:注:适合描述任何分布类型资料的离散趋势,主要用于偏态分布资料。适合描述任何分布类型资料的离
12、散趋势,主要用于偏态分布资料。5.变异系数(5.变异系数(coefficient of variation,CV)用于描述数据的相对离散程度。用于描述数据的相对离散程度。100SCVX=CV CV:单位不同,均数相差悬殊:单位不同,均数相差悬殊S S:单位相同,均数相近:单位相同,均数相近(四)离散趋势指标描述一、数值变量资料的统计描述(四)离散趋势指标描述一、数值变量资料的统计描述(五)用EXCEL软件实现统计描述一、数值变量资料的统计描述(五)用EXCEL软件实现统计描述一、数值变量资料的统计描述1.计算均数1.计算均数AVERAGE(五)用EXCEL软件实现统计描述一、数值变量资料的统计
13、描述(五)用EXCEL软件实现统计描述一、数值变量资料的统计描述2.计算几何均数2.计算几何均数GEOMEAN(五)用EXCEL软件实现统计描述一、数值变量资料的统计描述(五)用EXCEL软件实现统计描述一、数值变量资料的统计描述3.计算中位数3.计算中位数MEDIAN(五)用EXCEL软件实现统计描述一、数值变量资料的统计描述(五)用EXCEL软件实现统计描述一、数值变量资料的统计描述4.计算样本标准差4.计算样本标准差STDEV(五)用EXCEL软件实现统计描述一、数值变量资料的统计描述(五)用EXCEL软件实现统计描述一、数值变量资料的统计描述5.计算样本方差5.计算样本方差VAR(五)
14、用EXCEL软件实现统计描述一、数值变量资料的统计描述(五)用EXCEL软件实现统计描述一、数值变量资料的统计描述6.计算四分位数间距6.计算四分位数间距QUARTILE选项中,0:最小值1:选项中,0:最小值1:P252:2:P503:3:P754:最大值4:最大值(六)用SPSS软件实现统计描述一、数值变量资料的统计描述(六)用SPSS软件实现统计描述一、数值变量资料的统计描述操作步骤:1.选择操作步骤:1.选择“FrequenciesFrequencies”描述性统计描述性统计频数频数(六)用SPSS软件实现统计描述一、数值变量资料的统计描述(六)用SPSS软件实现统计描述一、数值变量资
15、料的统计描述操作步骤:2.将变量选入变量框,点击操作步骤:2.将变量选入变量框,点击“StatisticsStatistics”列出频数表列出频数表变量变量(六)用SPSS软件实现统计描述一、数值变量资料的统计描述(六)用SPSS软件实现统计描述一、数值变量资料的统计描述操作步骤:2.选择相应描述性指标,点击操作步骤:2.选择相应描述性指标,点击“ContinueContinue”四分位数间距四分位数间距标准差方差极差最小值标准差方差极差最小值最大值最大值均数均数中位数中位数统计结果统计结果统计描述指标统计描述指标注:对于数值变量资料的原始数据,很少做频数表。在此仅为举例注:对于数值变量资料的
16、原始数据,很少做频数表。在此仅为举例严格来说,本例的例数太少,不适合计算四分位数间距。在此仅为举例严格来说,本例的例数太少,不适合计算四分位数间距。在此仅为举例频数频数百分比百分比 有效百分比有效百分比累计百分比累计百分比(六)用SPSS软件实现统计描述一、数值变量资料的统计描述(六)用SPSS软件实现统计描述一、数值变量资料的统计描述注:除了用注:除了用“FrequenciesFrequencies”外,还可以使用外,还可以使用“DescriptivesDescriptives”进行统计描述进行统计描述描述描述(七)正态分布和医学参考值范围的估计一、数值变量资料的统计描述(七)正态分布和医学
17、参考值范围的估计一、数值变量资料的统计描述任何正态分布经过任何正态分布经过u变换,都可以变换为标准正态分布(变换,都可以变换为标准正态分布(u分布)分布)N(,)N(0,1)Xu=1.正态分布的性质1.正态分布的性质2.医学参考值范围的估计(1)定义:2.医学参考值范围的估计(1)定义:同质总体中某研究指标大多数变量值的波动范围。常取95的医学参考值范围。同质总体中某研究指标大多数变量值的波动范围。常取95的医学参考值范围。(2)计算:正态分布法(2)计算:正态分布法(七)正态分布和医学参考值范围的估计一、数值变量资料的统计描述(七)正态分布和医学参考值范围的估计一、数值变量资料的统计描述本页
18、已使用福昕阅读器进行编辑。福昕软件(C)2 0 0 5-2 0 0 9,版权所有,仅供试用。(一)相对数(一)相对数1.构成比:构成比:某事物中各部分所占的比重。某事物中各部分所占的比重。二、分类资料的统计描述二、分类资料的统计描述构成比的性质:构成比的性质:各部分之和为各部分之和为100;某一部分的比重增加,则相应其它部分的比重减少。;某一部分的比重增加,则相应其它部分的比重减少。二、分类资料的统计描述(一)相对数二、分类资料的统计描述(一)相对数2.相对比:相对比:又称为比,是两个有关的指标之比又称为比,是两个有关的指标之比。3.率:率:某现象发生的频率或强度。某现象发生的频率或强度。4.
19、应用相对数的注意事项应用相对数的注意事项?率和构成比的区别率:某现象发生的频率或强度。构成比:某事物中各部分所占的比重。率和构成比的区别率:某现象发生的频率或强度。构成比:某事物中各部分所占的比重。构成比不能反映事物发生的频率或强度,因为它未考虑人口基数的影响。构成比不能反映事物发生的频率或强度,因为它未考虑人口基数的影响。?计算相对数的分母不宜过小。计算相对数的分母不宜过小。?率不能直接相加求平均。率不能直接相加求平均。二、分类资料的统计描述(一)相对数二、分类资料的统计描述(一)相对数5.用用EXCEL软件实现分类资料的统计描述软件实现分类资料的统计描述二、分类资料的统计描述(一)相对数二
20、、分类资料的统计描述(一)相对数计算构成比,其中用到计算构成比,其中用到“固定地址$B$6固定地址$B$6”二、分类资料的统计描述(一)相对数二、分类资料的统计描述(一)相对数5.用用EXCEL软件实现分类资料的统计描述软件实现分类资料的统计描述计算构成比,其中用到计算构成比,其中用到“固定地址$C$7固定地址$C$7”二、分类资料的统计描述(一)相对数二、分类资料的统计描述(一)相对数5.用用EXCEL软件实现分类资料的统计描述软件实现分类资料的统计描述计算率,其中用到相对地址B2计算率,其中用到相对地址B2二、分类资料的统计描述(一)相对数二、分类资料的统计描述(一)相对数5.用用SPSS
21、软件实现分类资料的统计描述软件实现分类资料的统计描述使用使用“FrequenciesFrequencies”命令命令列出的频数表中的百分比即为构成比或者率列出的频数表中的百分比即为构成比或者率二、分类资料的统计描述(二)标准化法二、分类资料的统计描述(二)标准化法1.意义:意义:要正确对各组进行比较,必须先按照统一的标准对各组的人口构成进行校正,然后计算出校正后的标准化率再进行比较。要正确对各组进行比较,必须先按照统一的标准对各组的人口构成进行校正,然后计算出校正后的标准化率再进行比较。2.基本思想:基本思想:采用统一的标准人口构成,以消除人口构成不同对总率的影响。采用统一的标准人口构成,以消
22、除人口构成不同对总率的影响。3.标准化率的计算:标准化率的计算:11221212N pN pNNpppNNN+=+()iiiiN pNppNN=为小组的预期(治愈、发病或者死亡)人数;为总预期(治愈、发病或者死亡)人数。为小组的预期(治愈、发病或者死亡)人数;为总预期(治愈、发病或者死亡)人数。iiN piiN p二、分类资料的统计描述(二)标准化法二、分类资料的统计描述(二)标准化法4.应用标准化法的注意事项:应用标准化法的注意事项:?选取的标准不同,标准化率的大小也不同,但选取同一标准的各组的标准化率的相对水平不变。选取的标准不同,标准化率的大小也不同,但选取同一标准的各组的标准化率的相对水平不变。?标准化率不能反映实际的发病或死亡水平,只是为了比较各组的标准化率的相对水平。标准化率不能反映实际的发病或死亡水平,只是为了比较各组的标准化率的相对水平。二、分类资料的统计描述(二)标准化法二、分类资料的统计描述(二)标准化法