《卫生学第九章 数值变量资料的统计分析.ppt》由会员分享,可在线阅读,更多相关《卫生学第九章 数值变量资料的统计分析.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第九章第九章数值变量资料的统计分析数值变量资料的统计分析1卫生学(第7版)第九章 数值变量资料的统计分析第一节第一节数值变量资料的统计描述数值变量资料的统计描述数值变量资料的统计描述数值变量资料的统计描述 对数值变量资料进行统计分析的一般步骤,是对数值变量资料进行统计分析的一般步骤,是先对观察测量得到的变量值(即观察值)进行统计先对观察测量得到的变量值(即观察值)进行统计描述,再在此基础上进行深入的统计推断。统计描描述,再在此基础上进行深入的统计推断。统计描述的工作主要是在编制频数表的基础上描述资料的述的工作主要是在编制频数表的基础上描述资料的集中位置和离散程度。集中位置和离散程度。2卫生学(
2、第7版)第九章 数值变量资料的统计分析一、一、数值变量资料的频数分布数值变量资料的频数分布二、二、平均水平指标平均水平指标三、三、离散程度指标离散程度指标3卫生学(第7版)第九章 数值变量资料的统计分析1.频数表频数表(frequencytable)的编制方法的编制方法2.频数分布的两个特征及两种类型频数分布的两个特征及两种类型3.频数表的用途频数表的用途特征特征离散趋势离散趋势类型类型一、数值变量资料的频数分布一、数值变量资料的频数分布集中趋势集中趋势对称分布对称分布偏态分布偏态分布4卫生学(第7版)第九章 数值变量资料的统计分析二、平均水平指标二、平均水平指标(掌握描述集中掌握描述集中掌握
3、描述集中掌握描述集中趋势趋势趋势趋势指指指指标标标标的概念、的概念、的概念、的概念、计计计计算和算和算和算和应应应应用条件用条件用条件用条件)描述一组观察值集中位置或平均水平描述一组观察值集中位置或平均水平的指标称为平均数(的指标称为平均数(average)。)。常用的常用的平均数有算术均数、几何均数和中位数。平均数有算术均数、几何均数和中位数。5卫生学(第7版)第九章 数值变量资料的统计分析1.算术均数(算术均数(arithmeticmean,)2.几何均数(几何均数(geometricmean,G)3.中位数(中位数(median,M)6卫生学(第7版)第九章 数值变量资料的统计分析三、离
4、散程度指标三、离散程度指标 (掌握描述离散掌握描述离散掌握描述离散掌握描述离散趋势趋势趋势趋势指指指指标标标标的概念、的概念、的概念、的概念、计计计计算和算和算和算和应应应应用条件用条件用条件用条件)多组资料均数相同,只说明其集中趋多组资料均数相同,只说明其集中趋势相同,各组数据内部观察值参差不齐的势相同,各组数据内部观察值参差不齐的程度可能不同。此时,常用极差、四分位程度可能不同。此时,常用极差、四分位数间距、方差、标准差和变异系数等指标数间距、方差、标准差和变异系数等指标来描述资料的离散程度。来描述资料的离散程度。7卫生学(第7版)第九章 数值变量资料的统计分析1.极差(极差(range,
5、R)2.四分位数间距四分位数间距(interquantilerange,IQR)3.方差(方差(variance,S2)4.标准差(标准差(standarddeviation,S)5.变异系数变异系数(coefficientofvariation,CV)8卫生学(第7版)第九章 数值变量资料的统计分析第二节第二节 正态分布和参考值范围的估计正态分布和参考值范围的估计一、正态分布一、正态分布二、正态分布的特征和曲二、正态分布的特征和曲线下面积分布的规律线下面积分布的规律9卫生学(第7版)第九章 数值变量资料的统计分析(一)医学参考值的意义(一)医学参考值的意义 医学参考值又称临床参考值或正常值,
6、是指医学参考值又称临床参考值或正常值,是指“正正常常”人体和动物的各种生理、生化人体和动物的各种生理、生化、组织代谢物中各组织代谢物中各种成分含量及人体对各种试验的反应值。广义的医学种成分含量及人体对各种试验的反应值。广义的医学参考值还包括各类参考值还包括各类“卫生标准卫生标准”。应注意的是,医学。应注意的是,医学参考值不是一个单一的数值,而是许多数值的集合或参考值不是一个单一的数值,而是许多数值的集合或全体,即是一个范围。全体,即是一个范围。三、三、参考值范围的估计参考值范围的估计10卫生学(第7版)第九章 数值变量资料的统计分析(二)制定参考值范围的基本步骤(二)制定参考值范围的基本步骤从
7、同质的总体中进行随机抽样从同质的总体中进行随机抽样 控制测量误差控制测量误差判定是否需要分组确定参考值范围判定是否需要分组确定参考值范围确定取单侧还是双侧确定取单侧还是双侧确定适当的百分范围确定适当的百分范围根据资料的分布类型选定适当的方法进行参考根据资料的分布类型选定适当的方法进行参考值范围的估计值范围的估计11卫生学(第7版)第九章 数值变量资料的统计分析(三)参考值范围的制定方法(三)参考值范围的制定方法(1)正态分布法:正态分布法:根据正态分布原理,根据正态分布原理,95%的参考值范围,的参考值范围,双侧为:双侧为:x1.96S单侧上限为:单侧上限为:x+1.645S单侧下限为:单侧下
8、限为:x1.645S12卫生学(第7版)第九章 数值变量资料的统计分析(2)百分位数法:百分位数法:对于偏态分布或未知分布的资料,参对于偏态分布或未知分布的资料,参考值范围的确定常用百分位数法,考值范围的确定常用百分位数法,95%的的参考值范围双侧为参考值范围双侧为P2.5P97.5,单侧上限单侧上限为为P95,单侧下限为单侧下限为P5。13卫生学(第7版)第九章 数值变量资料的统计分析第三节第三节 数值变量资料的统计推断数值变量资料的统计推断一、均数的抽样误差与标准误一、均数的抽样误差与标准误二、二、t t 分布分布三、三、总体均数的置信区间估计总体均数的置信区间估计四、四、假设检验的基本思
9、想和步骤假设检验的基本思想和步骤14卫生学(第7版)第九章 数值变量资料的统计分析 参数估计有两种方法:参数估计有两种方法:(1 1)点值估计:即直接用样本均数作为总体)点值估计:即直接用样本均数作为总体均数的估计值。均数的估计值。(2 2)区间估计:总体均数)区间估计:总体均数95%95%置信区间的涵置信区间的涵义为由样本均数确定的总体均数所在范围义为由样本均数确定的总体均数所在范围包含总体均数的可能性为包含总体均数的可能性为95%95%。三、三、总体均数的置信区间估计总体均数的置信区间估计15卫生学(第7版)第九章 数值变量资料的统计分析四、假设检验的基本思想和步骤四、假设检验的基本思想和
10、步骤 假设检验是用来判断样本与样本,样本与假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。成的统计推断方法。16卫生学(第7版)第九章 数值变量资料的统计分析 假设检验的基本思想假设检验的基本思想 假设检验的基本思想是利用小概率反证法假设检验的基本思想是利用小概率反证法思想。小概率事件(思想。小概率事件(P0.05)是指在一次试验是指在一次试验中基本上不大会发生的事件。反证法思想是先中基本上不大会发生的事件。反证法思想是先提出假设提出假设(检验假设检验假设H0),再用适当的统计方法再用适当的统计方法确定假设成
11、立的可能性大小,如可能性小确定假设成立的可能性大小,如可能性小,则则认为假设不成立,若可能性大,则还不能认为认为假设不成立,若可能性大,则还不能认为假设不成立。假设不成立。17卫生学(第7版)第九章 数值变量资料的统计分析 假设检验的基本步骤假设检验的基本步骤 第一步:提出检验假设,建立检验水准;第一步:提出检验假设,建立检验水准;第二步:选定统计方法,计算出统计量第二步:选定统计方法,计算出统计量 的值;的值;第三步:确定第三步:确定P 值,作出推断结论。值,作出推断结论。18卫生学(第7版)第九章 数值变量资料的统计分析第四节第四节t 检验和检验和u 检验检验 t 检验和检验和u 检验就是
12、统计量为检验就是统计量为t,u 的假设检的假设检验,两者均是常见的假设检验方法。当样本含量验,两者均是常见的假设检验方法。当样本含量n 较大时,样本均数符合正态分布,故可用较大时,样本均数符合正态分布,故可用u 检检验进行分析。当样本含量验进行分析。当样本含量n 较小,样本来自正态较小,样本来自正态分布,两样本相应的总体方差相等,则用分布,两样本相应的总体方差相等,则用t 检验。检验。19卫生学(第7版)第九章 数值变量资料的统计分析一、样本均数与总体均数的比较一、样本均数与总体均数的比较二、配对资料的比较二、配对资料的比较三、两个样本均数的比较三、两个样本均数的比较四、四、假设检验应注意的问
13、题假设检验应注意的问题20卫生学(第7版)第九章 数值变量资料的统计分析 假设检验应注意的问题假设检验应注意的问题(1)资料必须合乎随机化抽样原则;)资料必须合乎随机化抽样原则;(2)选用的假设检验方法应符合其应用条件;)选用的假设检验方法应符合其应用条件;(3)实际差别大小与统计意义的区别实际差别大小与统计意义的区别,要正确理要正确理解假设检验的结论;解假设检验的结论;21卫生学(第7版)第九章 数值变量资料的统计分析(4 4)根据专业及经验确定是选用单侧)根据专业及经验确定是选用单侧 检验还是双侧检验检验还是双侧检验;(5 5)判断结论时不能绝对化,应注意)判断结论时不能绝对化,应注意 无
14、论无论“接受接受”或拒绝检验假设,都或拒绝检验假设,都 有判断错误的可能性。有判断错误的可能性。假设检验应注意的问题假设检验应注意的问题22卫生学(第7版)第九章 数值变量资料的统计分析 第五节第五节 方差分析方差分析一、方差分析的基本思想一、方差分析的基本思想二、方差分析的应用条件二、方差分析的应用条件三、方差分析的主要内容三、方差分析的主要内容四、多个样本均数的两两比较四、多个样本均数的两两比较 23卫生学(第7版)第九章 数值变量资料的统计分析 方差分析的基本思想是把全部观察值之间的变异方差分析的基本思想是把全部观察值之间的变异(即总变异即总变异),按设计和需要分为两个或多个部分,其,按
15、设计和需要分为两个或多个部分,其自由度也分解为相应的部分。每一部分有一定意义,自由度也分解为相应的部分。每一部分有一定意义,其中至少有一部分表示各组均数间的变异,另一部分其中至少有一部分表示各组均数间的变异,另一部分表示误差。然后再计算变异间的比值表示误差。然后再计算变异间的比值F。若。若F 值接近值接近1,可认为处理因素无作用;若,可认为处理因素无作用;若F 值远大于值远大于1,且大于或,且大于或等于等于F 界值表中的某界值时,可认为处理因素有作用。界值表中的某界值时,可认为处理因素有作用。方差分析的基本思想方差分析的基本思想24卫生学(第7版)第九章 数值变量资料的统计分析方差分析的应用条
16、件方差分析的应用条件(1)各样本是相互独立的随机样本)各样本是相互独立的随机样本(2)各样本都来自正态总体)各样本都来自正态总体(3)各个总体方差相等)各个总体方差相等25卫生学(第7版)第九章 数值变量资料的统计分析方差分析的主要内容方差分析的主要内容 根据资料设计类型的不同,有以下两种方差分根据资料设计类型的不同,有以下两种方差分析的方法:析的方法:1.1.对成组设计的多个样本均数比较,应采用完全对成组设计的多个样本均数比较,应采用完全随机设计的方差分析,即单向方差分析。随机设计的方差分析,即单向方差分析。2.2.对随机区组设计的多个样本均数比较,应采用对随机区组设计的多个样本均数比较,应
17、采用配伍组设计的方差分析,即双向方差分析。配伍组设计的方差分析,即双向方差分析。26卫生学(第7版)第九章 数值变量资料的统计分析多个样本均数的两两比较多个样本均数的两两比较 经过方差分析若拒绝了检验假设,只能说经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。的基础上进行多个样本均数的两两比较。27卫生学(第7版)第九章 数值变量资料的统计分析小小结结一、一、数值变量资料常用统计方法一览表数值变量资料常用统计方法
18、一览表二、二、表达假设检验的结果时,应给出的表达假设检验的结果时,应给出的信息信息三、三、数值变量资料数据处理及分析中常数值变量资料数据处理及分析中常见差错的类型见差错的类型28卫生学(第7版)第九章 数值变量资料的统计分析数值变量资料常用统计分析方法一览表数值变量资料常用统计分析方法一览表名名称称统计符号统计符号主主要要应应用用均均数数或或反映计量正态资料的集中趋势反映计量正态资料的集中趋势标标准准差差s 或或 反映计量正态资料的离散趋势反映计量正态资料的离散趋势均数均数标准差标准差 xs 制定计量正态资料的参考值或正常值范围制定计量正态资料的参考值或正常值范围t 检验检验t 计量配对资料研
19、究;样本均数与总体均数计量配对资料研究;样本均数与总体均数比比较;两个小样本较;两个小样本均数比较;均数比较;数值变量资料常用统计分析方法一览表数值变量资料常用统计分析方法一览表29卫生学(第7版)第九章 数值变量资料的统计分析数值变量资料常用统计分析方法一览表数值变量资料常用统计分析方法一览表(续续1)名名称称统计符号统计符号主主要要应应用用u检验检验u 两大样本均数比较两大样本均数比较方差分析方差分析F 多个样本均数比较;多个样本均数比较;因素间交互作用研究;回归因素间交互作用研究;回归方程的线性假设检验等方程的线性假设检验等30卫生学(第7版)第九章 数值变量资料的统计分析表表达达假假设
20、设检检验验的的结结果果时时,最最好好同同时时给给出出以以下下信息:信息:选用的统计分析方法;统计量的具体取值及其自由度;假设检验的确切 P 值;有关总体参数的95%置信区间。表达假设检验的结果时,应给出的信息表达假设检验的结果时,应给出的信息31卫生学(第7版)第九章 数值变量资料的统计分析1.选用统计指标来描述平均水平和离散趋势时,使用正态分布方法表达呈偏态分布的资料(见例1、例2)2.忽视t 检验的使用条件,在多组均数比较中,用t 检验代替方差分析(见例3)数值变量资料数据处理及分析中数值变量资料数据处理及分析中常见差错的类型常见差错的类型32卫生学(第7版)第九章 数值变量资料的统计分析
21、【例例1】原先的资料表达形式(见下表)原先的资料表达形式(见下表)表表两组症状总积分比较(两组症状总积分比较(xs)组组别别症状总积分症状总积分试试验验组组0.931.02对对照照组组1.851.8933卫生学(第7版)第九章 数值变量资料的统计分析有些资料中的标准差比均数还大,这有些资料中的标准差比均数还大,这样的资料不服从正态分布,而是服从偏态样的资料不服从正态分布,而是服从偏态分布。分布。在选用统计指标来描述资料的平均选用统计指标来描述资料的平均水平和离散趋势时,主要应根据资料的分水平和离散趋势时,主要应根据资料的分布类型来选择合适的统计指标。布类型来选择合适的统计指标。34卫生学(第7
22、版)第九章 数值变量资料的统计分析 对于正态或近似正态分布的资料,常对于正态或近似正态分布的资料,常使用均数和标准差来描述;对于偏态分布使用均数和标准差来描述;对于偏态分布资料则应使用中位数和四分位数间距来描资料则应使用中位数和四分位数间距来描述。述。35卫生学(第7版)第九章 数值变量资料的统计分析【例例2 2】某人观察了某种沙门氏菌食物中某人观察了某种沙门氏菌食物中毒潜伏期,资料如下表。毒潜伏期,资料如下表。36卫生学(第7版)第九章 数值变量资料的统计分析表表 某种沙门氏菌食物中毒潜伏期(某种沙门氏菌食物中毒潜伏期(h h)潜伏期潜伏期(h)频数频数累计频数累计频数频率频率(%)0-25
23、2515.2412-588350.6124-4012375.0036-2314689.0248-1215896.3460-516399.3972-1164100.00合计合计16437卫生学(第7版)第九章 数值变量资料的统计分析作者采用计算均数的方法,计算得平均潜伏作者采用计算均数的方法,计算得平均潜伏期为期为27(h)的结论。)的结论。此结论欠妥,因为该资料的频数分布呈较明此结论欠妥,因为该资料的频数分布呈较明显的偏态,应该用中位数描述其集中趋势,本例显的偏态,应该用中位数描述其集中趋势,本例中位数为中位数为23.8(h)。因此结论应为该沙门氏菌食。因此结论应为该沙门氏菌食物中毒的潜伏期为
24、物中毒的潜伏期为23.8小时。小时。38卫生学(第7版)第九章 数值变量资料的统计分析【例例3】某某人人为为探探讨讨血血清清肌肌酸酸肌肌酶酶对对窒窒息息新新生生儿儿心心肌肌损损害害的的诊诊断断价价值值,对对57例例窒窒息息新新生生儿儿和和20例例同同期期住住院院无无窒窒息息史史的的新新生生儿儿的的血血清清肌肌酸酸肌肌酶酶进进行行了检测,结果见下表,各组间比较采用了检测,结果见下表,各组间比较采用t 检验。检验。表表 各组肌酸激酶(各组肌酸激酶(U/LU/L)的测定结果)的测定结果 比较组比较组例例数数肌酸激酶肌酸激酶(xs)P 值值对对照照组组20127.825.60.01轻度窒息组轻度窒息组
25、31314.745.1*0.01重度窒息组重度窒息组26690.213.9*0.01注:注:*表示该组与对照组比较,表示该组与对照组比较,*表示该组与其它组比较表示该组与其它组比较39卫生学(第7版)第九章 数值变量资料的统计分析作作者者采采用用t 检检验验对对每每两两个个组组的的均均数数进进行行了了比比较较,结结论论为为:三三组组肌肌酸酸激激酶酶的的差差别均有统计学意义。别均有统计学意义。40卫生学(第7版)第九章 数值变量资料的统计分析本本例例资资料料为为单单因因素素三三个个水水平平(三三组组均均数数)设设计计的的比比较较,两两两两间间比比较较采采用用t 检检验验欠欠妥妥。在在比比较较组组数数2时时,均均数数间间的的比比较较应应采采用用方方差差分分析析和和均均数数间间的的两两两两比比较较,以以减少犯减少犯型误差的概率。型误差的概率。(王伟)(王伟)41卫生学(第7版)第九章 数值变量资料的统计分析