《《正确选择统计方法》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《正确选择统计方法》PPT课件.ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、正确选择统计方法1内容提要内容提要n 1、临床试验中统计分析方法的正确应用、临床试验中统计分析方法的正确应用与评价;与评价;n 2、关于假设检验的问题;、关于假设检验的问题;n 3、临床试验中的样本含量;、临床试验中的样本含量;n 4、临床试验中的、临床试验中的PP与与ITT分析;分析;n 5、关于多中心临床试验。、关于多中心临床试验。2一、临床试验中统计分析一、临床试验中统计分析方法的正确应用与评价方法的正确应用与评价3临床试验中的统计分析临床试验中的统计分析n统计分析是建立正确数据基础之上,对于不准确,统计分析是建立正确数据基础之上,对于不准确,甚至是错误的数据,无论使用何种统计分析都无甚
2、至是错误的数据,无论使用何种统计分析都无法获得客观、真实和科学的分析结果。法获得客观、真实和科学的分析结果。n因此,统计学家应参与整个临床试验的全过程,因此,统计学家应参与整个临床试验的全过程,尤其是试验设计和实施过程,以确保试验数据的尤其是试验设计和实施过程,以确保试验数据的真实和准确性。真实和准确性。n一般不宜在临床试验结束或在数据收集工作完成一般不宜在临床试验结束或在数据收集工作完成之后,统计学家才参与统计分析工作。之后,统计学家才参与统计分析工作。4临床试验中的统计分析临床试验中的统计分析n随着计算机和软件的飞速发展,医学资料的随着计算机和软件的飞速发展,医学资料的统计分析已从繁琐的数
3、字计算中解脱出来,统计分析已从繁琐的数字计算中解脱出来,医学资料的统计分析已不再是数据的罗列和医学资料的统计分析已不再是数据的罗列和公式的堆砌,而是一门医学科研设计的艺术公式的堆砌,而是一门医学科研设计的艺术和信息表达的艺术。和信息表达的艺术。5临床试验中的统计分析临床试验中的统计分析n当前,临床科研工作者不需要对统计的数字计算当前,临床科研工作者不需要对统计的数字计算过程有深入了解,而应将其重点放在统计方法的过程有深入了解,而应将其重点放在统计方法的正确应用和分析结果的正确解释上,以保证临床正确应用和分析结果的正确解释上,以保证临床研究结果的分析、解释和结论的真实性和科学性。研究结果的分析、
4、解释和结论的真实性和科学性。n因此,在众多的统计分析方法中,如何正确应用因此,在众多的统计分析方法中,如何正确应用统计分析方法或评价统计分析结果,是当前临床统计分析方法或评价统计分析结果,是当前临床科研工作者急需解决的问题。科研工作者急需解决的问题。6统计方法的正确应用与统计方法的正确应用与评价要点评价要点n 统计分析方法的正确应用与评价要点:统计分析方法的正确应用与评价要点:n (1)研究者的统计分析目的;研究者的统计分析目的;n (2)数据资料类型;数据资料类型;n (3)科研设计方案;科研设计方案;n (4)数据的分布特征与数理统计条件。数据的分布特征与数理统计条件。7(一)、临床试验(
5、一)、临床试验 的统计分析目的的统计分析目的8n 根据研究者的研究目的,众多的统计分析根据研究者的研究目的,众多的统计分析方法大致可分为如下两大类:方法大致可分为如下两大类:n一、统计描述一、统计描述 (statistical description)n二、统计推断二、统计推断 (statistical inference)91统计描述统计描述n统计描述,是利用统计指标、统计图或表,对数统计描述,是利用统计指标、统计图或表,对数据资料所进行的最基本的统计分析,使其能反映据资料所进行的最基本的统计分析,使其能反映数据资料的基本特征,使研究者能准确、全面地数据资料的基本特征,使研究者能准确、全面地
6、了解数据资料所包涵的信息,以便对资料做进一了解数据资料所包涵的信息,以便对资料做进一步的分析。步的分析。n统计指标,如均数、标准差、率及构成比等;统计指标,如均数、标准差、率及构成比等;n统计表,如频数表、四格表、列联表等;统计表,如频数表、四格表、列联表等;n统计图,如直方图、饼图,散点图等。统计图,如直方图、饼图,散点图等。102统计推断统计推断n统计推断,是利用样本所提供的信息对总体进行统计推断,是利用样本所提供的信息对总体进行估计或推断,主要包括参数估计和假设检验两大估计或推断,主要包括参数估计和假设检验两大内容。内容。n参数估计,利用样本指标估计总体参数。常用可参数估计,利用样本指标
7、估计总体参数。常用可信区间,如均数的可信区间、率的可信区间。信区间,如均数的可信区间、率的可信区间。n假设检验,利用样本提供的信息比较两个或多个假设检验,利用样本提供的信息比较两个或多个总体之间有无差别,如总体之间有无差别,如 t 检验、检验、2检验等。检验等。113变量间的关系分析变量间的关系分析n研究者欲要研究某些因素间的相互联系时,可用研究者欲要研究某些因素间的相互联系时,可用变量间的关系分析方法。如直线相关与回归、多变量间的关系分析方法。如直线相关与回归、多元线性回归、元线性回归、Logistic回归、回归、Cox回归等分析方法,回归等分析方法,这些方法包含了统计描述和统计推断的内容。
8、这些方法包含了统计描述和统计推断的内容。n若要研究某个因素与一个或多个因素(变量)的若要研究某个因素与一个或多个因素(变量)的依存关系时,可用回归分析,如,利用直线回归依存关系时,可用回归分析,如,利用直线回归方程,可由儿童的年龄推算其体重。方程,可由儿童的年龄推算其体重。n若要研究因素间相关的密切程度和方向时,可用若要研究因素间相关的密切程度和方向时,可用相关分析,如高血脂与冠心病、慢性宫颈炎与宫相关分析,如高血脂与冠心病、慢性宫颈炎与宫颈癌等的相关分析。颈癌等的相关分析。12(二)、资料类型与(二)、资料类型与试验效应指标的选择试验效应指标的选择13资料类型资料类型数值变量(计量资料)数值
9、变量(计量资料)分类变量分类变量无序分类变量(计数资料)无序分类变量(计数资料)有序分类变量(等级资料)有序分类变量(等级资料)14效应指标的选择原则效应指标的选择原则n尽量选择客观指标尽量选择客观指标(变量变量);多用计量指标少用或不用计数指标。多用计量指标少用或不用计数指标。n尽量选择精确性高的指标尽量选择精确性高的指标(变量变量);应选择准确度与精密度都要好的指标,若两应选择准确度与精密度都要好的指标,若两者不能同时俱全时,则以准确度高的指标为好。者不能同时俱全时,则以准确度高的指标为好。n尽量选择敏感性高的指标尽量选择敏感性高的指标(变量变量);使实验效应能更好地表现出来。使实验效应能
10、更好地表现出来。15效应指标与统计方法效应指标与统计方法n多数情况下,数值变量资料提供的信息量最为完多数情况下,数值变量资料提供的信息量最为完整和充分,可进行统计分析的手段也较为丰富、整和充分,可进行统计分析的手段也较为丰富、经典和可靠,与之相比,分类变量在这些方面都经典和可靠,与之相比,分类变量在这些方面都不如数值变量资料。不如数值变量资料。n因此,在临床实验设计时,应尽可能地选择量化因此,在临床实验设计时,应尽可能地选择量化指标反映其效应,尽可能少用分类变量,一般不指标反映其效应,尽可能少用分类变量,一般不宜将数值变量的指标转变为分类变量后再做统计宜将数值变量的指标转变为分类变量后再做统计
11、分析。分析。16分类指标的数量化(分类指标的数量化(1)n两分类无序变量,如:男两分类无序变量,如:男=1,女,女=0;或男;或男=0,女女=1n多分类无序变量,可使用进行哑变量赋值,如多分类无序变量,可使用进行哑变量赋值,如某变量的类别数为某变量的类别数为K,可使用,可使用K-1个变量进行赋值,个变量进行赋值,如:如:ABO血型的哑变量设置,可用三个变量血型的哑变量设置,可用三个变量X1、X2和和X3来表达,其取值如下示例:来表达,其取值如下示例:17分类指标的数量化(分类指标的数量化(2)n ABO血型的哑变量赋值举例血型的哑变量赋值举例 X1 X2 X3 O型型 1 0 0 A型型 0
12、1 0 B型型 0 0 1 AB型型 0 0 018等级指标的数量化等级指标的数量化n等级变量(有序分类),可有两种赋值方法,等级变量(有序分类),可有两种赋值方法,第一种方法是按连续性变量赋值:如病情的第一种方法是按连续性变量赋值:如病情的严重程度用严重程度用X来表达,其取值若为来表达,其取值若为“轻、中、轻、中、重重”,可赋值为:,可赋值为:轻:轻:X=1、中:、中:X=2、重:、重:X=3 或,轻:或,轻:X=3、中:、中:X=2、重:、重:X=1,等。,等。n第二种方法是采用前述的哑变量赋值。第二种方法是采用前述的哑变量赋值。19常见问题常见问题n错误地转换指标的类型,一般不宜将数值指
13、错误地转换指标的类型,一般不宜将数值指标转换为分类指标。如将数值指标转换为标转换为分类指标。如将数值指标转换为“有效、无效有效、无效”,或将其转换为,或将其转换为“轻、中、重轻、中、重”等。等。n资料类型的错判,如:数值变量错判为分类资料类型的错判,如:数值变量错判为分类变量,等级资料错判为计数资料。变量,等级资料错判为计数资料。20等级资料错判为计数资料一等级资料错判为计数资料一组别痊愈有效进步无效2P甲药251150208.5260.036乙药15174034Wilcoxon组别轻中重合计2P第一组181230607.9000.019第二组15261960Wilcoxon21等级资料错判为
14、计数资料二等级资料错判为计数资料二组别无效好转显效合计甲组217432乙组1310629丙组15131341合计493023102卡方检验:2 秩和检验:22(三)、临床试验设(三)、临床试验设计方案与统计分析计方案与统计分析23设计与统计设计与统计n根据不同的研究目的,采用不同的统计设计方案,根据不同的研究目的,采用不同的统计设计方案,既可较好的控制临床试验的偏倚,又可达到事半既可较好的控制临床试验的偏倚,又可达到事半功倍的效果。功倍的效果。n统计方法中的公式和定理,在其建立和推导过程统计方法中的公式和定理,在其建立和推导过程中,涉及到科研设计的方案。不同的设计方案,中,涉及到科研设计的方案
15、。不同的设计方案,数据的统计分析方法也不尽相同。数据的统计分析方法也不尽相同。n一个质量良好的临床试验,必须要有良好的临床一个质量良好的临床试验,必须要有良好的临床试验设计为前提,而质量较差的临床试验无论使试验设计为前提,而质量较差的临床试验无论使用何种统计方法,也无法改变临床试验的质量。用何种统计方法,也无法改变临床试验的质量。24设计方案设计方案n以时间来划分设计方案:以时间来划分设计方案:横断面横断面 前瞻前瞻 回顾回顾 将来将来 现在现在 过去过去n以统计模型来划分:以统计模型来划分:完全随机设计(成组)、配对(伍)设计(随机区完全随机设计(成组)、配对(伍)设计(随机区组)、交叉、析
16、因设计等。组)、交叉、析因设计等。25常见统计设计方案常见统计设计方案n完全随机设计完全随机设计(complete randomized design)又叫成又叫成组设计组设计n配对配对(paired design)与随机区组设计与随机区组设计(randomized block design)n交叉设计交叉设计(cross-over design)n析因、正交和拉丁方设计析因、正交和拉丁方设计n多因素设计多因素设计(multifactor design)26n在常用的统计方法中,有成组设计(完全随机设在常用的统计方法中,有成组设计(完全随机设计)的计)的t检验、配对检验、配对t检验、成组设计(
17、完全随机设检验、成组设计(完全随机设计)的方差分析、配伍设计(随机区组设计)的计)的方差分析、配伍设计(随机区组设计)的方差分析等,这都是统计分析与科研设计方案有方差分析等,这都是统计分析与科研设计方案有关的佐证。关的佐证。n而秩和检验、卡方检验也与设计方案有关,如四而秩和检验、卡方检验也与设计方案有关,如四格表的卡方检验、行乘列的卡方检验。格表的卡方检验、行乘列的卡方检验。27常见错误一常见错误一n目前,最常见的错误是用两组设计的假设检目前,最常见的错误是用两组设计的假设检验方法来代替多组设计的假设检验方法。验方法来代替多组设计的假设检验方法。n如:如:用用t检验做多组设计(完全随机设计)检
18、验做多组设计(完全随机设计)资料的比较;用四格表的卡方检验做多个率资料的比较;用四格表的卡方检验做多个率的比较。的比较。28n所有数据以所有数据以“均数均数标准差标准差”表示,采用两样本均数的表示,采用两样本均数的t检验,检验,在计算机上用软件包完成统计分析。在计算机上用软件包完成统计分析。n各组与对照组比较,各组与对照组比较,*与与*比较,比较,*与与*比较比较P0.05。常见错误示例一常见错误示例一n所有数据以所有数据以“均数均数标准差标准差”表示,采用两样本均数的表示,采用两样本均数的t检验,检验,在计算机上用软件包完成统计分析。在计算机上用软件包完成统计分析。n各组与对照组比较,各组与
19、对照组比较,*与与*比较,比较,*与与*比较比较P0.05。肝病患者血清TGF 1 检测结果(x s)组别例数TGF(ng/ml)对照组241.650.45急性肝炎组321.910.48*慢性肝炎组225.621.02*肝硬化组3511.751.08*29常见错误例一的修改常见错误例一的修改n该资料采用方差分析及该资料采用方差分析及Dunnett-t两两比较,其结两两比较,其结果如下:果如下:n急性肝炎组与对照组比较,急性肝炎组与对照组比较,n慢性肝炎组与对照组比较,慢性肝炎组与对照组比较,n肝硬化组与对照组比较,肝硬化组与对照组比较,n若采用若采用SNK做两两比较,急性肝炎组与对照组比做两两
20、比较,急性肝炎组与对照组比较,其余各组间比较有统计学意义较,其余各组间比较有统计学意义(P0.05)。30常见错误二常见错误二n随机区组设计随机区组设计(配对或配伍设计配对或配伍设计)的资料,采用成的资料,采用成组设计组设计(完全随机设计完全随机设计)的统计分析方法。如:配的统计分析方法。如:配对设计的资料使用成组对设计的资料使用成组t检验、随机区组设计检验、随机区组设计(配伍配伍设计设计)使用成组资料的方差分析等。使用成组资料的方差分析等。n错误地使用错误地使用t检验或方差分析处理治疗前后检验或方差分析处理治疗前后(或疗后或疗后多时点多时点)的资料。的资料。31常见错误示例二常见错误示例二两
21、组间UPDS 积分比较(x s)组别治疗前治疗后P治疗组(n20)47.67.730.69.20.01对照组(n32)49.38.225.26.70.050.01术后不同时间伤肢周径的变化(x s)组别例数伤后时间(周)1234治疗组2592.60.8786.11.21*74.70.95*73.40.44*对照组2293.50.9291.21.3588.51.3987.60.69*与对照组比较 32常见错误表一常见错误表一设计方法设计方法错误的统计方法错误的统计方法正确统计方法正确统计方法数值变量的配对设计成组设计的t检验配对 t 检验,配对卡方检验多个均数的比较(成组设计、完全随机设计)成组
22、设计的t检验完全随机设计的方差分析、完全随机设计的秩和检验及两两比较33常见错误表二常见错误表二设计方法设计方法错误的统计方法错误的统计方法正确统计方法正确统计方法随机区组设计(配伍设计)多个成组设计的t检验、完全随机设计的方差分析随机区组设计的方差分析、随机区组设计的秩和检验及两两比较交叉设计成组设计的t检验、配对t检验、配对秩和检验交叉设计的方差分析、交叉设计的秩和检验34(四)、数据资料的分(四)、数据资料的分布特征及数理统计条件布特征及数理统计条件35统计描述的应用条件统计描述的应用条件n数值资料:若数据满足正态分布可使用均数与标数值资料:若数据满足正态分布可使用均数与标准差进行描述分
23、析;若数据不满足正态分布可使准差进行描述分析;若数据不满足正态分布可使用中位数与四分位数间距,而不能使用均数和标用中位数与四分位数间距,而不能使用均数和标准差描述。准差描述。n分类资料:注意率与构成比的区别,切不可将构分类资料:注意率与构成比的区别,切不可将构成比当做率来进行描述;还要注意区别病死率与成比当做率来进行描述;还要注意区别病死率与死亡率、患病率与发病率等不同率的正确应用与死亡率、患病率与发病率等不同率的正确应用与意义。意义。36统计推断的应用条件统计推断的应用条件n所有统计推断的公式和定理是在建立在数据的资所有统计推断的公式和定理是在建立在数据的资料类型、设计方案和分布特征等基础之
24、上,也就料类型、设计方案和分布特征等基础之上,也就是说任何一个统计推断方法,在应用时必须考虑是说任何一个统计推断方法,在应用时必须考虑每种统计方法的应用条件。每种统计方法的应用条件。n如:两成组设计的数值资料,满足正态、方差齐如:两成组设计的数值资料,满足正态、方差齐时,可使用时,可使用 t 检验,否则不能使用。检验,否则不能使用。n再如:两个率比较时,当再如:两个率比较时,当 n40 且且 T5 才可使用才可使用四格表的卡方检验。四格表的卡方检验。37n统计方法中的公式和定理,在其建立和推导统计方法中的公式和定理,在其建立和推导过程中,涉及最多的是数据的分布过程中,涉及最多的是数据的分布(d
25、istribution)特征。特征。n数据的分布特征是指数据的数理统计规律。数据的分布特征是指数据的数理统计规律。若实际资料服从某个分布,我们就可以使用若实际资料服从某个分布,我们就可以使用该分布所具有的数理统计规律来分析和处理该分布所具有的数理统计规律来分析和处理实际资料,反之则不能。实际资料,反之则不能。38分布特征的判断分布特征的判断n在众多数理统计分布中,最起码的要求是熟在众多数理统计分布中,最起码的要求是熟悉正态分布与偏态分布。悉正态分布与偏态分布。n分布特征的判断方法,常用的方法是分布的分布特征的判断方法,常用的方法是分布的假设检验,如正态性检验。假设检验,如正态性检验。n正态分布
26、的判断还可以根据统计图表、均数正态分布的判断还可以根据统计图表、均数与中位数的差值大小和医学知识来进行粗略与中位数的差值大小和医学知识来进行粗略估计。估计。39数据分布的检验数据分布的检验指标名指标名例数例数均数均数标准差标准差偏度系数偏度系数P值值峰度系数峰度系数P值值血红蛋白血红蛋白(g/L)98111.9918.820.1800.4590.0250.958血小板血小板(109/L)98173.5887.111.3530.0001.8430.000白细胞白细胞(109/L)986.79302.7671.2070.0001.2020.01340数据的分布图示一数据的分布图示一41数据的分布图示二数据的分布图示二42