《正确选择统计方法精.ppt》由会员分享,可在线阅读,更多相关《正确选择统计方法精.ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、正确选择统计方法正确选择统计方法第1页,本讲稿共42页1内容提要内容提要n 1、临床试验中统计分析方法的正确应用与、临床试验中统计分析方法的正确应用与评价;评价;n 2、关于假设检验的问题;、关于假设检验的问题;n 3、临床试验中的样本含量;、临床试验中的样本含量;n 4、临床试验中的、临床试验中的PP与与ITT分析;分析;n 5、关于多中心临床试验。、关于多中心临床试验。第2页,本讲稿共42页2一、临床试验中统计分析一、临床试验中统计分析方法的正确应用与评价方法的正确应用与评价第3页,本讲稿共42页3临床试验中的统计分析临床试验中的统计分析n统计分析是建立正确数据基础之上,对于不准确,甚至统
2、计分析是建立正确数据基础之上,对于不准确,甚至是错误的数据,无论使用何种统计分析都无法获得客观、是错误的数据,无论使用何种统计分析都无法获得客观、真实和科学的分析结果。真实和科学的分析结果。n因此,统计学家应参与整个临床试验的全过程,尤因此,统计学家应参与整个临床试验的全过程,尤其是试验设计和实施过程,以确保试验数据的真实其是试验设计和实施过程,以确保试验数据的真实和准确性。和准确性。n一般不宜在临床试验结束或在数据收集工作完成之后,一般不宜在临床试验结束或在数据收集工作完成之后,统计学家才参与统计分析工作。统计学家才参与统计分析工作。第4页,本讲稿共42页4临床试验中的统计分析临床试验中的统
3、计分析n随着计算机和软件的飞速发展,医学资料的随着计算机和软件的飞速发展,医学资料的统计分析已从繁琐的数字计算中解脱出来,统计分析已从繁琐的数字计算中解脱出来,医学资料的统计分析已不再是数据的罗列和医学资料的统计分析已不再是数据的罗列和公式的堆砌,而是一门医学科研设计的艺术公式的堆砌,而是一门医学科研设计的艺术和信息表达的艺术。和信息表达的艺术。第5页,本讲稿共42页5临床试验中的统计分析临床试验中的统计分析n当前,临床科研工作者不需要对统计的数字计算过程有当前,临床科研工作者不需要对统计的数字计算过程有深入了解,而应将其重点放在统计方法的正确应用和分深入了解,而应将其重点放在统计方法的正确应
4、用和分析结果的正确解释上,以保证临床研究结果的分析、解析结果的正确解释上,以保证临床研究结果的分析、解释和结论的真实性和科学性。释和结论的真实性和科学性。n因此,在众多的统计分析方法中,如何正确应用统计分因此,在众多的统计分析方法中,如何正确应用统计分析方法或评价统计分析结果,是当前临床科研工作者急析方法或评价统计分析结果,是当前临床科研工作者急需解决的问题。需解决的问题。第6页,本讲稿共42页6统计方法的正确应用与统计方法的正确应用与评价要点评价要点n 统计分析方法的正确应用与评价要点:统计分析方法的正确应用与评价要点:n (1)研究者的统计分析目的;研究者的统计分析目的;n (2)数据资料
5、类型;数据资料类型;n (3)科研设计方案;科研设计方案;n (4)数据的分布特征与数理统计条件。数据的分布特征与数理统计条件。第7页,本讲稿共42页7(一)、临床试验(一)、临床试验 的统计分析目的的统计分析目的第8页,本讲稿共42页8n 根据研究者的研究目的,众多的统计分根据研究者的研究目的,众多的统计分析方法大致可分为如下两大类:析方法大致可分为如下两大类:n一、统计描述一、统计描述 (statistical description)n二、统计推断二、统计推断 (statistical inference)第9页,本讲稿共42页91统计描述统计描述n统计描述,是利用统计指标、统计图或表,
6、对数据统计描述,是利用统计指标、统计图或表,对数据资料所进行的最基本的统计分析,使其能反映数据资料所进行的最基本的统计分析,使其能反映数据资料的基本特征,使研究者能准确、全面地了解数资料的基本特征,使研究者能准确、全面地了解数据资料所包涵的信息,以便对资料做进一步的分析。据资料所包涵的信息,以便对资料做进一步的分析。n统计指标,如均数、标准差、率及构成比等;统计指标,如均数、标准差、率及构成比等;n统计表,如频数表、四格表、列联表等;统计表,如频数表、四格表、列联表等;n统计图,如直方图、饼图,散点图等。统计图,如直方图、饼图,散点图等。第10页,本讲稿共42页102统计推断统计推断n统计推断
7、,是利用样本所提供的信息对总体进行估计或统计推断,是利用样本所提供的信息对总体进行估计或推断,主要包括参数估计和假设检验两大内容。推断,主要包括参数估计和假设检验两大内容。n参数估计,利用样本指标估计总体参数。常用可信区间,参数估计,利用样本指标估计总体参数。常用可信区间,如均数的可信区间、率的可信区间。如均数的可信区间、率的可信区间。n假设检验,利用样本提供的信息比较两个或多个总假设检验,利用样本提供的信息比较两个或多个总体之间有无差别,如体之间有无差别,如 t 检验、检验、2检验等。检验等。第11页,本讲稿共42页113变量间的关系分析变量间的关系分析n研究者欲要研究某些因素间的相互联系时
8、,可用变研究者欲要研究某些因素间的相互联系时,可用变量间的关系分析方法。如直线相关与回归、多元线量间的关系分析方法。如直线相关与回归、多元线性回归、性回归、Logistic回归、回归、Cox回归等分析方法,这些方回归等分析方法,这些方法包含了统计描述和统计推断的内容。法包含了统计描述和统计推断的内容。n若要研究某个因素与一个或多个因素(变量)的依存若要研究某个因素与一个或多个因素(变量)的依存关系时,可用回归分析,如,利用直线回归方程,可关系时,可用回归分析,如,利用直线回归方程,可由儿童的年龄推算其体重。由儿童的年龄推算其体重。n若要研究因素间相关的密切程度和方向时,可用相关分析,若要研究因
9、素间相关的密切程度和方向时,可用相关分析,如高血脂与冠心病、慢性宫颈炎与宫颈癌等的相关分析。如高血脂与冠心病、慢性宫颈炎与宫颈癌等的相关分析。第12页,本讲稿共42页12(二)、资料类型与试(二)、资料类型与试验效应指标的选择验效应指标的选择第13页,本讲稿共42页13资料类型资料类型数值变量(计量资料)数值变量(计量资料)分类变量分类变量无序分类变量(计数资料)无序分类变量(计数资料)有序分类变量(等级资料)有序分类变量(等级资料)第14页,本讲稿共42页14效应指标的选择原则效应指标的选择原则n尽量选择客观指标尽量选择客观指标(变量变量);多用计量指标少用或不用计数指标。多用计量指标少用或
10、不用计数指标。n尽量选择精确性高的指标尽量选择精确性高的指标(变量变量);应选择准确度与精密度都要好的指标,若两者不能同时应选择准确度与精密度都要好的指标,若两者不能同时俱全时,则以准确度高的指标为好。俱全时,则以准确度高的指标为好。n尽量选择敏感性高的指标尽量选择敏感性高的指标(变量变量);使实验效应能更好地表现出来。使实验效应能更好地表现出来。第15页,本讲稿共42页15效应指标与统计方法效应指标与统计方法n多数情况下,数值变量资料提供的信息量最为完整和充分,多数情况下,数值变量资料提供的信息量最为完整和充分,可进行统计分析的手段也较为丰富、经典和可靠,与之相可进行统计分析的手段也较为丰富
11、、经典和可靠,与之相比,分类变量在这些方面都不如数值变量资料。比,分类变量在这些方面都不如数值变量资料。n因此,在临床实验设计时,应尽可能地选择量化指因此,在临床实验设计时,应尽可能地选择量化指标反映其效应,尽可能少用分类变量,一般不宜将标反映其效应,尽可能少用分类变量,一般不宜将数值变量的指标转变为分类变量后再做统计分析。数值变量的指标转变为分类变量后再做统计分析。第16页,本讲稿共42页16分类指标的数量化(分类指标的数量化(1)n两分类无序变量,如:男两分类无序变量,如:男=1,女,女=0;或男;或男=0,女,女=1n多分类无序变量,可使用进行哑变量赋值,如某多分类无序变量,可使用进行哑
12、变量赋值,如某变量的类别数为变量的类别数为K,可使用,可使用K-1个变量进行赋值,如:个变量进行赋值,如:ABO血型的哑变量设置,可用三个变量血型的哑变量设置,可用三个变量X1、X2和和X3来来表达,其取值如下示例:表达,其取值如下示例:第17页,本讲稿共42页17分类指标的数量化(分类指标的数量化(2)n ABO血型的哑变量赋值举例血型的哑变量赋值举例 X1 X2 X3 O型型 1 0 0 A型型 0 1 0 B型型 0 0 1 AB型型 0 0 0第18页,本讲稿共42页18等级指标的数量化等级指标的数量化n等级变量(有序分类),可有两种赋值方法,等级变量(有序分类),可有两种赋值方法,第
13、一种方法是按连续性变量赋值:如病情的第一种方法是按连续性变量赋值:如病情的严重程度用严重程度用X来表达,其取值若为来表达,其取值若为“轻、中、轻、中、重重”,可赋值为:,可赋值为:轻:轻:X=1、中:、中:X=2、重:、重:X=3 或,轻:或,轻:X=3、中:、中:X=2、重:、重:X=1,等。,等。n第二种方法是采用前述的哑变量赋值。第二种方法是采用前述的哑变量赋值。第19页,本讲稿共42页19常见问题常见问题n错误地转换指标的类型,一般不宜将数值指错误地转换指标的类型,一般不宜将数值指标转换为分类指标。如将数值指标转换为标转换为分类指标。如将数值指标转换为“有效、无效有效、无效”,或将其转
14、换为,或将其转换为“轻、中、轻、中、重重”等。等。n资料类型的错判,如:数值变量错判为分类资料类型的错判,如:数值变量错判为分类变量,等级资料错判为计数资料。变量,等级资料错判为计数资料。第20页,本讲稿共42页20等级资料错判为计数资料一等级资料错判为计数资料一组别痊愈有效进步无效2P甲药251150208.5260.036乙药15174034Wilcoxon W=10479.0 P=0.061组别轻中重合计2P第一组181230607.9000.019第二组15261960Wilcoxon W=3444.0 P=0.298第21页,本讲稿共42页21等级资料错判为计数资料二等级资料错判为计
15、数资料二组别无效好转显效合计甲组217432乙组1310629丙组15131341合计493023102卡方检验:2=7.190 P=0.1285秩和检验:H=6.638 P=0.0353第22页,本讲稿共42页22(三)、临床试验设计(三)、临床试验设计方案与统计分析方案与统计分析第23页,本讲稿共42页23设计与统计设计与统计n根据不同的研究目的,采用不同的统计设计方案,既可较根据不同的研究目的,采用不同的统计设计方案,既可较好的控制临床试验的偏倚,又可达到事半功倍的效果。好的控制临床试验的偏倚,又可达到事半功倍的效果。n统计方法中的公式和定理,在其建立和推导过程中,统计方法中的公式和定理
16、,在其建立和推导过程中,涉及到科研设计的方案。不同的设计方案,数据的统涉及到科研设计的方案。不同的设计方案,数据的统计分析方法也不尽相同。计分析方法也不尽相同。n一个质量良好的临床试验,必须要有良好的临床试验设一个质量良好的临床试验,必须要有良好的临床试验设计为前提,而质量较差的临床试验无论使用何种统计方计为前提,而质量较差的临床试验无论使用何种统计方法,也无法改变临床试验的质量。法,也无法改变临床试验的质量。第24页,本讲稿共42页24设计方案设计方案n以时间来划分设计方案:以时间来划分设计方案:横断面横断面 前瞻前瞻 回顾回顾 将来将来 现在现在 过去过去n以统计模型来划分:以统计模型来划
17、分:完全随机设计(成组)、配对(伍)设计(随机区组)、交叉、完全随机设计(成组)、配对(伍)设计(随机区组)、交叉、析因设计等。析因设计等。第25页,本讲稿共42页25常见统计设计方案常见统计设计方案n完全随机设计完全随机设计(complete randomized design)又叫成组设计又叫成组设计n配对配对(paired design)与随机区组设计与随机区组设计(randomized block design)n交叉设计交叉设计(cross-over design)n析因、正交和拉丁方设计析因、正交和拉丁方设计n多因素设计多因素设计(multifactor design)第26页,本
18、讲稿共42页26n在常用的统计方法中,有成组设计(完全随机设计)在常用的统计方法中,有成组设计(完全随机设计)的的t检验、配对检验、配对t检验、成组设计(完全随机设计)的方检验、成组设计(完全随机设计)的方差分析、配伍设计(随机区组设计)的方差分析等,差分析、配伍设计(随机区组设计)的方差分析等,这都是统计分析与科研设计方案有关的佐证。这都是统计分析与科研设计方案有关的佐证。n而秩和检验、卡方检验也与设计方案有关,如四格表的卡而秩和检验、卡方检验也与设计方案有关,如四格表的卡方检验、行乘列的卡方检验。方检验、行乘列的卡方检验。第27页,本讲稿共42页27常见错误一常见错误一n目前,最常见的错误
19、是用两组设计的假设检目前,最常见的错误是用两组设计的假设检验方法来代替多组设计的假设检验方法。验方法来代替多组设计的假设检验方法。n如:如:用用t检验做多组设计(完全随机设计)检验做多组设计(完全随机设计)资料的比较;用四格表的卡方检验做多个率资料的比较;用四格表的卡方检验做多个率的比较。的比较。第28页,本讲稿共42页28n所有数据以所有数据以“均数均数标准差标准差”表示,采用两样本均数的表示,采用两样本均数的t检验,在检验,在计算机上用计算机上用SPSS10.0软件包完成统计分析。软件包完成统计分析。n各组与对照组比较各组与对照组比较P0.05,*与与*比较比较P0.05,*与与*比较比较
20、P0.05。常见错误示例一常见错误示例一n所有数据以所有数据以“均数均数标准差标准差”表示,采用两样本均数的表示,采用两样本均数的t检验,在检验,在计算机上用计算机上用SPSS10.0软件包完成统计分析。软件包完成统计分析。n各组与对照组比较各组与对照组比较P0.05,*与与*比较比较P0.05,*与与*比较比较P0.05n慢性肝炎组与对照组比较,慢性肝炎组与对照组比较,P0.05n肝硬化组与对照组比较,肝硬化组与对照组比较,P0.05,其余各组间比较有统计学意义,其余各组间比较有统计学意义(P0.05)。第30页,本讲稿共42页30常见错误二常见错误二n随机区组设计随机区组设计(配对或配伍设
21、计配对或配伍设计)的资料,采用成组设计的资料,采用成组设计(完全随机设计完全随机设计)的统计分析方法。如:配对设计的资料使的统计分析方法。如:配对设计的资料使用成组用成组t检验、随机区组设计检验、随机区组设计(配伍设计配伍设计)使用成组资料的方使用成组资料的方差分析等。差分析等。n错误地使用错误地使用t检验或方差分析处理治疗前后检验或方差分析处理治疗前后(或疗后多时点或疗后多时点)的资料。的资料。第31页,本讲稿共42页31常见错误示例二常见错误示例二两组间UPDS 积分比较(x s)组别治疗前治疗后P治疗组(n20)47.67.730.69.20.01对照组(n32)49.38.225.26
22、.70.050.01术后不同时间伤肢周径的变化(x s)组别例数伤后时间(周)1234治疗组2592.60.8786.11.21*74.70.95*73.40.44*对照组2293.50.9291.21.3588.51.3987.60.69*与对照组比较 P 0.05第32页,本讲稿共42页32常见错误表一常见错误表一设计方法错误的统计方法正确统计方法数值变量的配对设计成组设计的t检验配对 t 检验,配对卡方检验多个均数的比较(成组设计、完全随机设计)成组设计的t检验完全随机设计的方差分析、完全随机设计的秩和检验及两两比较第33页,本讲稿共42页33常见错误表二常见错误表二设计方法错误的统计方
23、法正确统计方法随机区组设计(配伍设计)多个成组设计的t检验、完全随机设计的方差分析随机区组设计的方差分析、随机区组设计的秩和检验及两两比较交叉设计成组设计的t检验、配对t检验、配对秩和检验交叉设计的方差分析、交叉设计的秩和检验第34页,本讲稿共42页34(四)、数据资料的分布(四)、数据资料的分布特征及数理统计条件特征及数理统计条件第35页,本讲稿共42页35统计描述的应用条件统计描述的应用条件n数值资料:若数据满足正态分布可使用均数与标准差数值资料:若数据满足正态分布可使用均数与标准差进行描述分析;若数据不满足正态分布可使用中位数进行描述分析;若数据不满足正态分布可使用中位数与四分位数间距,
24、而不能使用均数和标准差描述。与四分位数间距,而不能使用均数和标准差描述。n分类资料:注意率与构成比的区别,切不可将构成比当分类资料:注意率与构成比的区别,切不可将构成比当做率来进行描述;还要注意区别病死率与死亡率、患病做率来进行描述;还要注意区别病死率与死亡率、患病率与发病率等不同率的正确应用与意义。率与发病率等不同率的正确应用与意义。第36页,本讲稿共42页36统计推断的应用条件统计推断的应用条件n所有统计推断的公式和定理是在建立在数据的资料类型、所有统计推断的公式和定理是在建立在数据的资料类型、设计方案和分布特征等基础之上,也就是说任何一个统设计方案和分布特征等基础之上,也就是说任何一个统
25、计推断方法,在应用时必须考虑每种统计方法的应用条计推断方法,在应用时必须考虑每种统计方法的应用条件。件。n如:两成组设计的数值资料,满足正态、方差齐时,如:两成组设计的数值资料,满足正态、方差齐时,可使用可使用 t 检验,否则不能使用。检验,否则不能使用。n再如:两个率比较时,当再如:两个率比较时,当 n40 且且 T5 才可使用四格才可使用四格表的卡方检验。表的卡方检验。第37页,本讲稿共42页37n统计方法中的公式和定理,在其建立和推导统计方法中的公式和定理,在其建立和推导过程中,涉及最多的是数据的分布过程中,涉及最多的是数据的分布(distribution)特征。特征。n数据的分布特征是
26、指数据的数理统计规律。数据的分布特征是指数据的数理统计规律。若实际资料服从某个分布,我们就可以使用若实际资料服从某个分布,我们就可以使用该分布所具有的数理统计规律来分析和处理该分布所具有的数理统计规律来分析和处理实际资料,反之则不能。实际资料,反之则不能。第38页,本讲稿共42页38分布特征的判断分布特征的判断n在众多数理统计分布中,最起码的要求是熟在众多数理统计分布中,最起码的要求是熟悉正态分布与偏态分布。悉正态分布与偏态分布。n分布特征的判断方法,常用的方法是分布的分布特征的判断方法,常用的方法是分布的假设检验,如正态性检验。假设检验,如正态性检验。n正态分布的判断还可以根据统计图表、均数
27、正态分布的判断还可以根据统计图表、均数与中位数的差值大小和医学知识来进行粗略与中位数的差值大小和医学知识来进行粗略估计。估计。第39页,本讲稿共42页39数据分布的检验数据分布的检验指标名例数均数标准差偏度系数P值峰度系数P值血红蛋白(g/L)98111.9918.820.1800.4590.0250.958血小板(109/L)98173.5887.111.3530.0001.8430.000白细胞(109/L)986.79302.7671.2070.0001.2020.013第40页,本讲稿共42页40数据的分布图示一数据的分布图示一第41页,本讲稿共42页41数据的分布图示二数据的分布图示二第42页,本讲稿共42页42