《统计方法的分类与选择精品文稿.ppt》由会员分享,可在线阅读,更多相关《统计方法的分类与选择精品文稿.ppt(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计方法的分类与选择第1页,本讲稿共49页根据研究设计类型选择分析方法根据研究设计类型选择分析方法 第2页,本讲稿共49页(一)、成组比较的设计 在成组比较设计中,若是两组比较需要应用t检验或X2检验。多组比较需应用方差分析、行列表X2检验或分级的分析方法。第3页,本讲稿共49页(二)、配对(自身实验前后)设计 这种类型的设计需要按照配比的t检验,X2检验及配对的病例对照研究方法进行数据分析。第4页,本讲稿共49页 (三)、重复测量的设计 这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的2周、4周、6周和8周测定抗体滴
2、度,即为此类设计类型。对于这种设计类型的数据需应用重复测量的方差分析方法进行数据的分析。第5页,本讲稿共49页(四)、多因素设计 若在研究设计中有多个自变量,则可根据因变量的性质选择合适的多因素分析方法。如果自变量是数值变量,则可考虑应用多元回归分析方法、协方差分析方法。如果是分类变量,则可选择logistic回归分析方法、判别分析方法及聚类分析方法等。第6页,本讲稿共49页 根据变量的类型选择分析方法根据变量的类型选择分析方法第7页,本讲稿共49页n区别与明确研究的因变量和自变量具有重要的流行病学与生物统计学意义,首先它有助于选择拟研究的变量,对调查表的设计具有指导作用。n其次数据分析阶段可
3、以指导数据分析方法的选择及模型的建立。若因变量是分类变量,则常考虑应用分类变量的分析方法,如卡方检验,logistic回归分析等。如果因变量是数值变量,则考虑应用数值变量的分析方法如t检验、方差分析,协方差分析、多元回归等。同时明确自变量与因变量可以建立正确的统计学分析模型。第8页,本讲稿共49页n因变量应该放在模型的左侧,自变量则放在模型的右侧。n例如欲评价不同治疗方法(口服药物、注射胰岛素及膳食控制)对糖尿病人的治疗效果(血糖水平),在分析时要求调整病人的性别、年龄和病程的影响。对本例的处理需要进行协方差分析,在应用SAS进行分析时,要将血糖水平(因变量)放在模型的左则,而治疗方法或其它协
4、变量(covariate)即性别、年龄和病程放在模型的右侧。又如分析脂蛋白(a)与冠心病发生的关系,则冠心病是否发生为因变量,脂蛋白(a)则为自变量,不可颠倒这种关系。第9页,本讲稿共49页不同变量类型的数据分析方法选择不同变量类型的数据分析方法选择因变量因变量自变量自变量数值变量数值变量分类变量分类变量有序变量有序变量数值变量数值变量相关分析,多元回归相关分析,多元回归分析分析t t检验检验,方差分析,协方差分析,协方差分析,多元回归方差分析,多元回归分析分析相关分析,多元回归相关分析,多元回归分析分析分类变量分类变量t t检验检验,方差分析,方差分析,logisticlogistic回归分
5、析回归分析,判别分析,聚类分析判别分析,聚类分析c c2 2检验,检验,logisticlogistic回回归分析归分析c c2 2检验检验有序变量有序变量方差分析,方差分析,logisticlogistic回归分析回归分析,判别分析,判别分析,聚类分析聚类分析c c2 2检验,检验,logisticlogistic回回归分析归分析相关分析,相关分析,c c2 2检验检验生存时间生存时间生存分析生存分析第10页,本讲稿共49页不同研究设计和数据类型的数据分析方法选择不同研究设计和数据类型的数据分析方法选择 研究设计类型研究设计类型变量类型变量类型两组比较两组比较两组以上比较两组以上比较实验前后
6、比较实验前后比较重复测量重复测量两变量间的联系两变量间的联系重重复复测测量量的的方差分析方差分析线线性性回回归归,Pearson相关系数相关系数 数值变量数值变量 t检验检验方差分析方差分析配对配对t检验检验 分类变量分类变量 c c2 2检验检验c c2 2检验检验配对配对c c2 2检验检验列联表相关系数列联表相关系数 有序变量有序变量Mann-Whitney秩和秩和检验检验Kruskal-Wallis分分析析Wilcoxon符符号号秩和秩和检验检验Spearman相相 关关 系系数数 生存时间生存时间生存分析生存分析第11页,本讲稿共49页数据的分析程序数据的分析程序 第12页,本讲稿共
7、49页第13页,本讲稿共49页第14页,本讲稿共49页数据的转换数据的转换第15页,本讲稿共49页1)非正态数据的变量转换 多数的统计学分析方法是建立在数据正态分布的基础上的,若数据不符合正态分布,则不能够应用参数检验(parametric test)的方法,只能应用非参数检验(non-parametric test)的方法,而非参数的方法不是对原始数据的检验,如秩和检验就是非参数检验方法之一,它是对原始数据的秩次(rank)进行检验,这样可能损失数据信息,降低检验效率 第16页,本讲稿共49页n 在对数值变量进行分析时,需首先根据统计分析方法/统计分析公式的限制性使用条件对数据进行“条件”检
8、验,如正态性检验和方差齐性检验等。很多统计学软件具有方便的正态性检验、方差齐性检验功能如SAS软件等.若经过检验数据不符合使用条件,就需要进行数据的变量变换,变换后符合条件就可以应用参数检验的方法,否则,只有应用非参数检验的方法。n数据变量转换的方法很多,可以根据数据的分布特征,选择合适的数据转换方法。常用的方法有对数变换,平方根变换或倒数变换等。第17页,本讲稿共49页 2)分类变量转换成哑变量 若分类变量是二分类尺度及顺序尺度,则可直接应用其原有的数量化数值,但对于名义尺度因为各类别间没有顺序关系,在进行不同分析(包括多元分析、logistic回归、Cox回归等)时,不能使用原始的计算机录
9、入数值,必经进行变量转换。即将该变量转换成(水平数-1)个哑变量,再将这些新转换的变量放入多因素模型中。第18页,本讲稿共49页t t检验的应用条件检验的应用条件n两组数据的比较n1样本量比较小(n50)n2样本来自正态总体n3两样本总体方差齐同n当两样本方差不齐时可以采用t检验,变量变换,或者秩和检验。第20页,本讲稿共49页方差分析的应用条件方差分析的应用条件n两组以上数据的比较n1各样本是相互独立的随机样本;n2各样本要来自正态总体;n3要求各个样本的总体方差齐同。第21页,本讲稿共49页多个样本均数间的两两比较多个样本均数间的两两比较nNewmanKeuls检验,亦称StudentNe
10、wmanKeuls(SNK)检验,简称q检验。n最小显著性差距(LSD)t检验。第22页,本讲稿共49页协方差分析协方差分析n定量分析中,进行两个样本或者多个样本的均数比较时,不仅需要使用假设检验判断其差异是否具有统计学差异,还应该考虑他们之间是否存在混杂因素(协变量)的影响。若存在协变量,则应该通过协方差分析进行校正。协方差分析是定量变量分析中控制混杂因素的重要手段第23页,本讲稿共49页 影响观察指标的其他非研究性因素(混杂因素)在统计分析中又称之为协变量;考虑协变量影响的方差分析即为协方差分析。协方差分析是解决以上问题的分析方法,它将线性回归与方差分析结合起来,检验2个或者多个修正均数之
11、间有无差别的假设检验方法。一般是先用直线回归的方法找出各组因变量与协变量之间的数量关系,求得修假定协变量相等时的修正系数,然后用方差分析比较修正均数间的差别。第24页,本讲稿共49页协方差分析的条件协方差分析的条件1各个样本来自方差齐同的正态总体2各组的总体直线回归系数相同,且都不为0。第25页,本讲稿共49页协方差分析的判别步骤:协方差分析的判别步骤:n1正态性和方差齐性检验;n2判断协变量与因变量有无线性关系;n3判断各组回归直线是否平行。第26页,本讲稿共49页直线回归与相关的区别与联系直线回归与相关的区别与联系第27页,本讲稿共49页区别直线相关直线回归变量地位变量 x 变量 y 处于
12、平等的地位,彼此相关关系变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化变量性质所涉及的变量 x 和 y 都是随机变量,要求两个变量服从双变量正态分布因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量实际作用主要是描述两个变量之间线性关系的密切程度(相关系数无单位)揭示变量 x 对变量 y 的影响大小(回归系数有单位),还可以由回归方程进行预测和控制 第28页,本讲稿共49页多元线性回归的基本概念多元线性回归的基本概念 事物间的相互联系往往是多方面的,在很多情况下对应变量y 发生影响的自变量往往不止一个。多元线性回归的目的就是用一个多元线性
13、回归方程表示多个自变量和1个应变量间的关系。标准偏回归系数表示其他自变量固定的情况下,xi改变一个单位,y平均改变bi个单位。第29页,本讲稿共49页多元线性回归的应用条件:多元线性回归的应用条件:n1.独立性:各观察对象间相互独立。n2.线性:自变量与应变量间的关系为线性。n3.正态性:自变量取不同值时,应变量的分布为正态。n4.方差齐性:自变量取不同值时,应变量的总体方差相等。n5.当不符合条件时,可对自变量进行变换。如:第30页,本讲稿共49页n要比较各个自变量对于应变量的作用大小,不能用偏回归系数,因为各偏回归系数的单位不同。必须把偏回归系数标准化,化成没有单位的标准偏回归系数.n消除
14、不同单位的影响后,标准偏回归系数的绝对值越大,该自变量对于应变量的作用越大,但该差别是否有统计意义,也必须经过检验。第31页,本讲稿共49页(2)对各偏回归系数的显著性检验:F检验与 t检验 1.计算截距和各偏回归系数。2.多元回归方程的显著性检验:(1)整个方程的显著性检验:用方差分析。第32页,本讲稿共49页STEPWISE REGRESSIONn一逐步回归分析的基本概念 逐步回归分析的目的是建立“最优”回归方程。“最优”回归方程是指包含所有对y有显著作用的自变量,而不包含对y作用不显著的自变量的方程。第33页,本讲稿共49页 逐步回归分析的计算方法逐步回归分析的计算方法n 在供选的自变量
15、Xi中,按其对y的作用大小,由大到小地把自变量逐个引入方程,每引入一个自变量就对它作显著性检验,显著时才引入,而当新的自变量进入方程后,对方程中原有的自变量也要作检验,并把作用最小且退化为不显著的自变量逐个剔出方程。因此,逐步回归的每一步(引入一个变量或剔除一个变量都称为一步)前后都要作显著性检验,以保证每次引入新变量前方程中只包含作用显著的自变量。这样一步步进行下去,直至方程中所含自变量都显著而又没有新的作用显著的自变量可引入方程为止。第34页,本讲稿共49页逐步回归分析在医学研究中的应用及需逐步回归分析在医学研究中的应用及需要注意的几个问题要注意的几个问题n1方程“最优”问题,实际是精选自
16、变量以求得拟和效果最好的多元回归方程。最优子集回归是选择一种使回归方程拟和最好的自变量,而逐步回归则选择对因变量作用有意义的自变量。要根据研究目的选用适合方法。n2逐步回归主要在医学中用于病因探索,临床疗效分析及控制等。n3线性回归模型要注意正态性,方差齐性和独立性,因变量必须是随机变量等。n4入选变量如果明显地与实际问题的专业理论不一致时,首先检查数据是否有异常点,自变量间有无共线性存在,数据输入是否有误等,要结合专业知识作出合理的解释。n5逐步回归在对大量因素进行分析时,可以先进行聚类分析,然后进行逐步回归。通常,观察单位取变量值的510倍为宜。第35页,本讲稿共49页LogisticLo
17、gistic回归分析的基本思想回归分析的基本思想回忆:回忆:线性回归分析对因变量的要求线性回归分析对因变量的要求因变量因变量y 连续型连续型 服从正态分布服从正态分布胆固醇含量胆固醇含量自变量自变量x数值型数值型 与与Y呈线性关系呈线性关系年龄年龄舒张压舒张压第36页,本讲稿共49页医学研究中经常遇到分类型变量,例如:医学研究中经常遇到分类型变量,例如:n二分类变量:二分类变量:生存与死亡生存与死亡有病与无病有病与无病有效与无效有效与无效感染与未感染感染与未感染n多分类有序变量:多分类有序变量:疾病程度(轻度、中度、重度)疾病程度(轻度、中度、重度)治愈效果(治愈、显效、好转、无效)治愈效果(
18、治愈、显效、好转、无效)n多分类无序变量:多分类无序变量:手术方法(手术方法(A、B、C)就诊医院(甲、乙、丙、丁)就诊医院(甲、乙、丙、丁)第37页,本讲稿共49页n这种回归分析问题不能借助于线性回归模这种回归分析问题不能借助于线性回归模型,因为因变量的假设条件遭到破坏。型,因为因变量的假设条件遭到破坏。n能否找到一种其他形式的模型能否找到一种其他形式的模型y=f(x)来描述来描述分类变量分类变量y和和x之间依存关系呢?之间依存关系呢?因为从数学角度看,使得因为从数学角度看,使得x取任意值而取任意值而y仅仅 取取1和和0两个值的的函数不存在。两个值的的函数不存在。第38页,本讲稿共49页n转
19、换为分析转换为分析y取取某个值的概率某个值的概率变量变量p与与x的关系的关系不能直接分析不能直接分析变量变量y与与x的关系的关系Logistic回归模型回归模型第39页,本讲稿共49页LogisticLogistic回归分析的分类回归分析的分类n按数据的类型:按数据的类型:非条件非条件logistic回归分析(成组数据)回归分析(成组数据)条件条件logistic回归分析(配对病例回归分析(配对病例-对照数据)对照数据)n按因变量取值个数:按因变量取值个数:二值二值logistic回归分析回归分析多值多值logistic回归分析回归分析n按自变量个数:按自变量个数:一元一元logistic回归
20、分析回归分析多元多元logistic回归分析回归分析第40页,本讲稿共49页 Logistic Logistic 回归分析回归分析的数学模型的数学模型第41页,本讲稿共49页1 1、一元、一元logisticlogistic回归模型回归模型 令令y是是1,0变量,变量,x是一个危险因是一个危险因 素;素;p=p(y=1|x),那么,二值,那么,二值 变量变量y关于变量关于变量 x的一元的一元logistic 回归模型是:回归模型是:其中,其中,和和是未知参数或待估计的回归系数。该模是未知参数或待估计的回归系数。该模型描述了型描述了y取某个值(这里取某个值(这里y=1)的概率的概率p与自变量与自
21、变量x之间的关系之间的关系第42页,本讲稿共49页2 2、多元多元logisticlogistic回归模型回归模型 令令y是是1,0变量,变量,x1,x2,xk是是k个危险因素;个危险因素;p=p(y=1|x1,x2,xk),那么,变量,那么,变量y关于变关于变 量量x1,x2,xk的的k元元logistic回归模型是:回归模型是:Logistic 回归模型的另外一种形式回归模型的另外一种形式它给出变量它给出变量z=logit(p)关于关于x 的线性函数。的线性函数。第43页,本讲稿共49页参数估计的步骤参数估计的步骤 1数据结构 设有P个危险因素X1,X2,Xn及结果分析变量Y,观察例数为n
22、。进行logistic回归时,应将原始资料进行整理,一般格式如下编号因素YX1X2XP1X11X12XP1Y12X21X22XP2Y2nXn1Xn2Xn3XnPYn第44页,本讲稿共49页 2 参数的估计 Logsitc回归的参数估计常用最大似然估计法。其基本思想是先建立似然函数和对数似然函数,求似然函数或对数似然函数达到极大值时参数的取值,即为参数的最大似然估计值。可求出值。第45页,本讲稿共49页 3 假设检验 求得各个参数的估计值之后,并不意味着每个因素都与因变量有联系,模型中应只保留对因变量有影响 因素,因此要求对方程中的各变量逐一进行检验,剔除对因变量无影响的因素,并对拟和的模型进行
23、检验。即使用似然比检验法,通过逐步回归筛选自变量,最后得到具有统计学意义的logistic回归方程。该过程很复杂,由计算机完成。第46页,本讲稿共49页n医学中经常需要作配对病例医学中经常需要作配对病例-对照研究。所谓的配对病例对照研究。所谓的配对病例-对照研对照研究指的是在病例究指的是在病例-对照研究中,对每一个病例配以性别、年龄对照研究中,对每一个病例配以性别、年龄或其它条件相似的一个或其它条件相似的一个(1:1)或几个或几个(1:M)对照,然后分析比较病对照,然后分析比较病例组与对照组以往暴露于致病因素的经历。例组与对照组以往暴露于致病因素的经历。n分析配对病例分析配对病例-对照研究资料
24、的统计分析方法一般采用条件对照研究资料的统计分析方法一般采用条件logistic回归分析。回归分析。n条件条件logistic回归分析的数学模型以及分析原理方法均和回归分析的数学模型以及分析原理方法均和 非条件非条件logistic回归分析类似。因为参数的估计公式涉及到条件概率理论,回归分析类似。因为参数的估计公式涉及到条件概率理论,所以称为条件所以称为条件logistic回归分析。回归分析。条件条件logistic回归分析回归分析第47页,本讲稿共49页LogisticLogistic回归分析和线性回归分析的异回归分析和线性回归分析的异同点是什么?同点是什么?n相同点:相同点:都可以校正混杂
25、因子的影响;都可以校正混杂因子的影响;都可以利用模型来筛选危险因子;都可以利用模型来筛选危险因子;都可以用来做预测。都可以用来做预测。n不同点:不同点:前者对因变量无分布要求,后者要求因变量是正态分布变量;前者对因变量无分布要求,后者要求因变量是正态分布变量;前者要求因变量必须是分类型变量,后者要求因变量必须是前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。连续型数值变量。前者不要求自变量和因变量呈线性关系,后者要求自变量前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量呈线性关系;和因变量呈线性关系;前者是分析因变量取某个值的概率与自变量的关系,后者是直接分前者是分析因变量取某个值的概率与自变量的关系,后者是直接分析因变量与自变量的关系。析因变量与自变量的关系。第48页,本讲稿共49页谢谢 谢谢第49页,本讲稿共49页