科研设计的统计学原则.pptx-淘文阁

资源描述

《科研设计的统计学原则.pptx》由会员分享，可在线阅读，更多相关《科研设计的统计学原则.pptx（105页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、实验设计三要素处理对象效应降压药高血压病人血压值第1页/共105页处理处理（treatment）：研究者根据研究目的欲施加或欲观察的，能作用于受试对象并引起效应的因素。非处理因素：相应的也能使受试对象产生效应的因素，又称混杂因素(confounding factor)。处理因素要标准化，处理水平始终一致。第2页/共105页对象(subjects)指根据研究目的确定的观察对象（动物或人体），必须具备同质性和代表性1）动物的选择：种类、品系、年龄、性别、体重、营养2）人的选择：诊断明确、依从性好，反映主观感觉第3页/共105页效应(effect)是处理因素作用于受试对象的反应和结果，通过

2、观察指标表达。指标要求：1）客观性：主观指标和客观指标。2）精确性：准确度(accuracy)：观察值与真值的接近程度，受系统误差的影响。精密度(precision)：重复观察时观察值与其均值的接近程度，受随机误差的影响；3）灵敏性(sensitivity)：表示指标检出真阳性的能力，可减少假阴性率。4）特异性(specificity):表示指标检出真阴性的能力，减少假阳性率。第4页/共105页实验误差及其特点在实验中，由于实验对象自身特点、实验条件的变化和实验结果测量的不确定性造成实验结果与真值的差别称实验误差（Experimental error）。根据统计分析上的处理不同，实验误差分成两

3、类：随机误差（Random error）非随机误差第5页/共105页随机误差（Random error）随机误差是由大量的、微小的、偶然因素引起的不易控制的误差。如在实验中，温度、湿度、风向、振动、试剂、仪器、操作员等都可能造成结果的偏差。随机变异是没有倾向性的，在大量观察条件下，随机误差的分布呈标准正态分布。随机误差的规律可以用统计方法分析。第6页/共105页非随机误差又称偏倚（bias）或系统误差（Systematic error）由于在对象选择、处理因素分配的不随机、测量结果的不准确造成实验结果有倾向性地偏离称之。（无统计规律、可预防、务必控制）(1)选择偏倚(Selection bi

4、as)：指在选择研究对象和分组时的非随机化，造成结果的偏倚。如肝癌手术治疗与化疗的疗效比较中，由于手术对象的选择性造成有利于手术组的结果。(2)信息偏倚（Information bias）：指测量方面的误差，特别是主观因素造成的有倾向性的偏倚。如在临床试验中，实验组是在医院测量，对照组是在家中测量。(3)混杂偏倚（Confounding）：指实验组与对照组在一些影响实验结果的非处理因素不均衡造成结果的偏倚。如病情轻重、并发症、辅助治疗和护理等因素不均衡。第7页/共105页实验设计的原则对照（Control）随机化（Randomization）重复（Replication）盲法（blind m

5、ethod）第8页/共105页对照（Control）指设立对照组以排除非处理因素而显示出处理的效应。处理组处理因素+非处理因素=处理和非处理的效应对照组非处理因素=非处理因素的效应对比处理因素 =处理效应对照组设置的三个条件：对等：除处理因素外，两组对等的非处理因素同步：两组始终处于同一空间和同一时间专设：对照组专门设立，一般不能以文献为对照（有时可与“常模”比较）第9页/共105页随机化（Randomization）随机原则是指“机会均等”，最简单的方法是抽签随机随便，任何随便都不是随机的随机化类型随机抽样：每个个体有同等的机会被抽中分组随机：每个实验对象分配到不同处理组的机会相同随机

6、顺序：每个实验对象接受处理先后的机会相同第10页/共105页重复（Replication）重复是指在相同实验条件下进行多次研究或多次观察，以提高实验的可靠性与科学性。广义地讲，重复包括：整个实验的重复、用多个实验单位进行重复、同一实验单位的重复观察。决定重复性的关键是样本含量，故常将重复性简化为“样本含量”第11页/共105页盲法（blind method）按实验方案规定，尽量不让参与临床实验的受试者、研究者、医务人员、监视员、数据管理和统计分析人员知道患者接受何种治疗。单盲法（single blind）指受试者不知道自己属于试验组还是对照组双盲法（double blind）指受试者和试验医

7、务人员都不知道病人属于试验组还是对照组非盲法(open label):采用单盲或非盲法试验应在研究方案中申述理由。盲法的原则应自始至终地贯彻于整个试验之中第12页/共105页针对研究类型选择适当的研究设计类型目的首选的研究设计治疗研究检验各种干预措施如药物治疗、介入或外科手术的效果随机对照临床试验诊断研究评估新的诊断方法的有效性和可行性横断面调查(须同时进行新方法和金标准方法检验)预后研究了解确诊病人以后可能发生的情况纵向队列研究因果关系研究评估有害因素与疾病发生是否有关队列研究或病例-对照研究，病例报告亦有用筛选研究评估适于大规模人群检验和在疾病呈现症状早期检出该病的各种检查方法横断面调

8、查第13页/共105页随机对照临床试验(RCT)n适用RCT解决的临床问题对某一疾病，研究药物在效果上是否优于安慰剂或另一种药物(对照药)？新的手术方法是否优于传统方法？改变生活习惯是否会影响病人血压水平？第14页/共105页RCT的优点n在选定的病人组群中，可严格评价单一变量的效果n前瞻性设计n应用假设推导进行推理n消除偏倚：比较基线指标相同的两个组n可作荟萃分析和系统性评价 RCT被认为是临床科研的“金标准”第15页/共105页RCT的缺点n耗费又耗时：无法完成、样本量不足、研究时间太短n多数由研究机构或药厂(公司)资助，难免不会影响公正n常使用“替代终点”n可出现“潜在的偏倚”随机化不完

9、善未对所有合格病人进行随机化分配未避免资料评价人员知道病人随机情况n其他排除标准的偏倚入选标准的偏倚第16页/共105页不适合进行RCT：n预后研究适于纵向队列研究n筛查研究适于横断面研究n“保健质量”研究：尚未确定“成功”标准，适于定性研究方法第17页/共105页队列研究选择2组，暴露于某种特定物质(药物、疫苗、环境致病物等)不同的人群，随访，观察每组发生特定疾病结局或人数。研究对象为可能发病或不发病者。关注的是病因，而非疾病治疗第18页/共105页适合采用队列研究的临床问题n吸烟导致肺癌吗？n高血压随着时间推移会变好吗？n避孕药导致“乳腺癌”吗？n早产儿在以后的生长发育和学

10、习成绩上情况如何？第19页/共105页病例-对照研究确定有某种特定疾病的病人并与对照组进行匹配，收集其暴露于某种可疑致病因子的资料。关注的是病因而非疾病治疗。对于罕见病的研究可能是唯一选择。第20页/共105页横断面调查对某一研究对象中的代表性样本(或病人)进行访问、检查或研究以获得对某一特定临床问题的答案。资料在单一时间点收集，但可回顾性追溯过去有关健康方面的经历。第21页/共105页病例报告以故事方式描述单一患者病史。可综合形成病例系列，以描述一个以上患有某一特殊情况患者的病史，阐述此种情况的某个方面、治疗情况或对治疗之不良反应。第22页/共105页病例报告之优点n可以传递大量在临床

11、试验中或调查中可能丢失的信息n易被普通医师或大众理解n易于完成(数天内)第23页/共105页第24页/共105页统计工作的步骤第一步设计(design)：第二步收集资料(collection of data)：第三步整理资料(sorting data)：第四步分析资料(analysis of data)：第25页/共105页设计（design）首先明确研究目的,根据研究目的，从统计角度对资料的搜集、整理和分析全过程提出全面具体的计划和要求，作为统计工作实施的依据，以便用尽可能少的人力、物力和时间获得准确可靠的结论。1、明确对象 2、明确取得原始资料的方法 3、如何整理资料 4、计算哪些指标 5

12、、用何种统计推断方法 6、预测结果第26页/共105页搜集资料搜集及时、准确、完整地搜集原始资料是统计工作最重要的一步，它直接关系着统计结论的质量。统计资料的来源主要有：1、报表资料。2、医疗、预防机构的日常工作记录。3、专题研究实验数据和现场调查资料。第27页/共105页整理资料（sorting of data）整理资料又称统计归纳：是把搜集到的资料进行适当的分组，把性质相同的资料归纳到一起，用表格或图形的方式展示出来，以反映研究对象的规律性。1、审核资料 2、设计分组：质量分组和数量分组 3、拟整理表 4、归纳汇总第28页/共105页分析资料分析资料资料的分析过程是通过计算有关的统计指标，

13、对资料进行概括的、全面的描述，以及从样本信息推断总体特征，分析资料就是从获取的资料中抽取有关信息的过程。1、统计指标的计算 2、统计图表的绘制 3、估计总体参数 4、进行假设检验 5、回归与相关 6、多元分析第29页/共105页统计资料的类型统计资料的类型v 计量资料计量资料 v 计数资料计数资料v 等级资料等级资料第30页/共105页计量资料（计量资料（measurement data)measurement data)通过对观察单位测量取得数值，其值一般有度量衡单位。如身高、体重、血压、脉搏、白细胞空气中二氧化碳含量等。此类资料具有计量单位，各观察单位常有量的差别。分析计量资料常用平均

14、数、标准差、t检验、方差分析、相关与回归分析等。第31页/共105页计数资料计数资料(enumeration data)(enumeration data)将观察单位按某种属性或类别分组，然后清点各组的观察单位数。如性别、血型、民族、职称、某病的治愈和未愈数等。分属于各组的观察单位间有质的差别，不同质的观察单位不能归在同一组内。分析计数资料常用率、构成比、x2检验等。第32页/共105页将观察单位按某种属性的不同程度分组，然后清点各组的观察单位数。如疗效可分为治愈、显效、好转、无效；尿蛋白化验结果分为-、+、+、+等。这类资料具有计数资料的性质，但所分各组又是按一定顺序如由轻到重、由小到大

15、排列的。分析等级资料常用率、构成比、秩和检验等。等级资料等级资料（ranked data)ranked data)第33页/共105页医学统计中的几个基本概念医学统计中的几个基本概念数据与变量总体和样本随机化统计量与参数抽样误差概率第34页/共105页变量（variable）具有变异性的数据称为变量。1数值变量（numerical variable）：为连续变量，如身高、体重、血压等。数值变量均可通过对观察单位测量取得数值，其值一般有度量衡单位。数值变量资料也称作计量资料。2分类变量（categorical variable）：可能取值是离散的，表现为互不相容的类别。比如性别、

16、血型、民族、职称等。分类变量资料又称为计数资料。分类变量有两种：无序分类变量和有序分类变量第35页/共105页总体与样本总体与样本总体（population）：是根据研究目的确定的同质的观察单位的某个变量值的全体。分有限总体和无限总体。样本（sample）：通常是从总体中随机抽取有代表性的一部分观察单位。注意其代表性和可靠性。第36页/共105页抽样误差抽样误差（sampling errorsampling error）用于描述样本特征的指标称为统计量，而用于描述总体特征的指标称为参数。我们把由随机抽样引起的样本指标与总体指标的差异称为抽样误差。由于个体变异的普遍存在，抽样误差是不可避

17、免的。只要遵循随机化的原则，抽样误差的大小就可以用统计方法进行估计。一般情况下样本越大，抽样误差越小，反映事物客观规律的准确性越高，反之，样本越小，抽样误差越大。第37页/共105页概率（概率（probability）描述随机事件发生的可能性大小的数值称概率。随机事件的概率随机事件的概率P取值在取值在0 1之间，之间，P越接近越接近1，说明某事，说明某事件发生的可能性越大；件发生的可能性越大；P越接近越接近0，说明某事件发生的可能性，说明某事件发生的可能性越小。越小。如如果果某某事事件件的的概概率率P=0，表表示示该该事事件件不不可可能能发发生生，称称其其为为不不可可能能事事件件；如如果果P

18、=1，表表示示该该事事件件必必然然发发生生，称称其其为为必必然然事件。事件。随随机机事事件件是是可可能能发发生生也也可可能能不不发发生生的的事事件件。如如果果某某随随机机事事件件发发生生的的概概率率P0.05，或或P0.01表表示示该该事事件件发发生生的的可可能能性性很很小小，我我们们称称其其为为小小概概率率事事件件。其其意意义义为为在在一一次次试试验验中中不不发生事件。发生事件。第38页/共105页数值变量资料的统计描述统计图表统计指标第39页/共105页平均数v 均数v 几何均数v 中位数和百分数第40页/共105页均数均数（meanmean）均数是算术平均数均数是算术平均数 (ar

19、ithmetic mean)(arithmetic mean)的简的简称。总体均数用希腊字母称。总体均数用希腊字母()表示，样本均数表示，样本均数用用()表示。表示。1 1、应用条件、应用条件：均数反映同质的一组观察值：均数反映同质的一组观察值在数量上的平均水平，样本所代表总体为正态在数量上的平均水平，样本所代表总体为正态分布。分布。第41页/共105页2 2、计算方法：、计算方法：(1)直接法直接法当样本中观察值个数不多时，通常可用直接法，公式当样本中观察值个数不多时，通常可用直接法，公式为：为：式中式中是希腊字母，读作是希腊字母，读作sigma，为求和的符号。，为求和的符号。第42页/共

20、105页(2)加权法加权法当观察值个数较多时。通常可用加权法，公式为：当观察值个数较多时。通常可用加权法，公式为：式中式中X为各组的组中值，组中值等于该组的上限加为各组的组中值，组中值等于该组的上限加下限之和除以下限之和除以2。f为各组的频数，它相当于为各组的频数，它相当于权数权数权衡了各组中值由于频数不同对均数的影响，故权衡了各组中值由于频数不同对均数的影响，故本法也称为加权法。本法也称为加权法。第43页/共105页几何均数（geometric mean)geometric mean)1 1、应用条件、应用条件：观察的数据是呈倍数关系的资料观察的数据是呈倍数关系的资料，采用几何均数，采用几何

21、均数简记为（简记为（G）表示其平均水平。）表示其平均水平。2 2、计算方法：、计算方法：如果观察的数据个数不多可以采用直接算法。如果观察的数据个数不多可以采用直接算法。公式为：公式为：如果样本量很大，或只掌握频数表资料可以按下式计算分组资料如果样本量很大，或只掌握频数表资料可以按下式计算分组资料的几何均数。公式为：的几何均数。公式为：第44页/共105页百分位数(percentile)(percentile)百分位数是一种位置指标，用于描述一组观察百分位数是一种位置指标，用于描述一组观察值在某百分位置上的水平。第百分位数以值在某百分位置上的水平。第百分位数以 PX表示。表示。PX 是一个数，其

22、意义是将某变量的观察值按从小是一个数，其意义是将某变量的观察值按从小到大的顺序排列，比到大的顺序排列，比PX 小的观察值的个数占小的观察值的个数占x%，比比 PX 大的观察值的个数占（大的观察值的个数占（100-x）%。百分位数用于描述观察值序列在某百分位位置百分位数用于描述观察值序列在某百分位位置的水平，公式为：的水平，公式为：第45页/共105页中位数简记为中位数简记为M M，中位数是一个位置指标，用于中位数是一个位置指标，用于描述一组资料的平均水平，其含义是将一组观察值描述一组资料的平均水平，其含义是将一组观察值按从小到大的顺序排列，位置居中的数就是中位数按从小到大的顺序排列，位置居中

23、的数就是中位数,中位数即第中位数即第50百分位数。公式为：百分位数。公式为：应用条件为：应用条件为：分布呈明显偏态；分布呈明显偏态；分布的一端或两端无确定数值；分布的一端或两端无确定数值；分布不清等资料。分布不清等资料。中位数（medianmedian）第46页/共105页u极差(R)u四分位间距(Q)u标准差(S)u变异系数(CV)u标准误(SE)变异指标变异指标第47页/共105页极差简记为（R）又称全距。是一组观察值中最大值与最小值之差。四分位数，简记为（Q）是特定的百分位数，是上四分位数与下四分位数之差。可以看成是全部观察值的位于中间的一半的极差。Q=P75-P25极差（极差（ra

24、ngerange）和四分位间距（）和四分位间距（quartilequartile）第48页/共105页标准差标准差(standard deviation)(standard deviation)标准差每个观察值到均数的平均距离，总体标准差用希腊字母()表示，样本标准差用()表示。1、应用条件：反映同质的一组观察值在数量上的变异程度，样本所代表总体为正态分布。第49页/共105页2、计算方法：、计算方法：(1)直接法直接法当样本中观察值个数不多时，通常可用直接法，公当样本中观察值个数不多时，通常可用直接法，公式为：式为：(2)加权法加权法当观察值个数较多时。通常可用加权法，公式为：当观察值个

25、数较多时。通常可用加权法，公式为：第50页/共105页3 3、标准差应用、标准差应用v 标准差的大小反应变异程度的大小，标准差大,表示变异程度大，即观察值较分散，反之则表示变异程度小，较集中。v 结合均数确定医学参考值范围。v 结合均数计算变异系数。v 计算标准误。第51页/共105页当两组资料单位不同或均数相差较大时，变异大小不能当两组资料单位不同或均数相差较大时，变异大小不能直接用标准差进行比较，应计算标准差对均数的百分比，即直接用标准差进行比较，应计算标准差对均数的百分比，即变异系数变异系数(coefficient of variation,简记为简记为CV)。公式为：公式为：当观察

26、值为统计量时，描述其变异程度的大小用标准误当观察值为统计量时，描述其变异程度的大小用标准误（standard error简记为简记为SE）。）。公式为：公式为：变异系数和标准误变异系数和标准误第52页/共105页计量资料的统计推断计量资料的统计推断 (总体均数的估计与假设检验总体均数的估计与假设检验)v均数的抽样误差与标准误均数的抽样误差与标准误v总体均数估计总体均数估计v假设检验假设检验第53页/共105页v抽样研究：由样本推断总体的过程。v抽样误差：由抽样引起的样本指标与总体指标的差异称为抽样误差。抽样误差是不可避免的，但只要样本是随机抽取的，就可以用统计方法来估计它的大小。均数的抽样误

27、差与标准误均数的抽样误差与标准误第54页/共105页v均数标准误均数标准误：样本均数变异程度的大小，反映了均数的抽样误差的大小。我们以样本均数的标准差作为衡量均数抽样误差大小的尺度，即均数的标准误。公式为：第55页/共105页v均数标准误和标准差相同，都是说明变异程度大小的指标。不同的是标准差表示的是某变量个体观察值变异程度的大小，而标准误表示的是样本均数变异程度的大小。样本含量越小，抽样误差越大，即标准误越大；反之样本含量越大，抽样误差越小，即标准误越小。第56页/共105页根据研究设计类型选择分析方法第57页/共105页在成组比较设计中，若是两组比较需要应用t检验或X2检验。多组比较需

28、应用方差分析、行列表X2检验或分级的分析方法。成组比较的设计第58页/共105页把除处理因素外，其他条件基本相似的受试对象配成对子，每对中的两个随机分配到两个处理组。在同一受试对象上进行两种不同的处理。上述两种情况其目的是推断两种处理的效果有无差别。在某项处理前后观察受试对象的某指标值，通过处理前后该指标值的差推断该处理是否有效。这种类型的设计需要按照配比的t检验，X2检验及配对的病例对照研究方法进行数据分析。配对设计第59页/共105页重复测量的设计这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果，在接种后的2周、4周、6周

29、和8周测定抗体滴度，即为此类设计类型。对于这种设计类型的数据需应用重复测量的方差分析方法进行数据的分析。第60页/共105页多因素设计若在研究设计中有多个自变量，则可根据因变量的性质选择合适的多因素分析方法。如果自变量是数值变量，则可考虑应用多元回归分析方法、协方差分析方法。如果是分类变量，则可选择logistic回归分析方法、判别分析方法及聚类分析方法等。第61页/共105页根据变量的类型选择分析方法第62页/共105页区别与明确研究的因变量和自变量具有重要的流行病学与生物统计学意义，首先它有助于选择拟研究的变量，对调查表的设计具有指导作用。其次数据分析阶段可以指导数据分析方法的选择及模

30、型的建立。若因变量是分类变量，则常考虑应用分类变量的分析方法，如卡方检验，logistic回归分析等。如果因变量是数值变量，则考虑应用数值变量的分析方法如t检验、方差分析，协方差分析、多元回归等。同时明确自变量与因变量可以建立正确的统计学分析模型。第63页/共105页因变量应该放在模型的左侧，自变量则放在模型的右侧。例如欲评价不同治疗方法（口服药物、注射胰岛素及膳食控制）对糖尿病人的治疗效果（血糖水平），在分析时要求调整病人的性别、年龄和病程的影响。对本例的处理需要进行协方差分析，在应用SAS进行分析时，要将血糖水平（因变量）放在模型的左则，而治疗方法或其它协变量（covariate）即性别、

31、年龄和病程放在模型的右侧。又如分析脂蛋白（a）与冠心病发生的关系，则冠心病是否发生为因变量，脂蛋白（a）则为自变量，不可颠倒这种关系。第64页/共105页不同变量类型的数据分析方法选择因变量自变量数值变量分类变量有序变量数值变量相关分析，多元回归分析t检验,方差分析，协方差分析，多元回归分析相关分析，多元回归分析分类变量t检验,方差分析，logistic回归分析,判别分析，聚类分析c2检验，logistic回归分析c2检验有序变量方差分析，logistic回归分析,判别分析，聚类分析c2检验，logistic回归分析相关分析，c2检验生存时间生存分析第65页/共105页不同研究设计和数据类型的

32、数据分析方法选择研究设计类型变量类型两组比较两组以上比较实验前后比较重复测量两变量间的联系重复测量的方差分析线性回归，Pearson相关系数数值变量 t检验方差分析配对t检验分类变量 c2检验c2检验配对c2检验列联表相关系数有序变量Mann-Whitney秩和检验Kruskal-Wallis分析Wilcoxon符号秩和检验Spearman相关系数生存时间生存分析第66页/共105页数据的分析程序第67页/共105页第68页/共105页第69页/共105页数据的转换第70页/共105页1)非正态数据的变量转换多数的统计学分析方法是建立在数据正态分布的基础上的，若数据不符合正

33、态分布，则不能够应用参数检验(parametric test)的方法，只能应用非参数检验(non-parametric test)的方法，而非参数的方法不是对原始数据的检验，如秩和检验就是非参数检验方法之一，它是对原始数据的秩次(rank)进行检验，这样可能损失数据信息，降低检验效率第71页/共105页在对数值变量进行分析时，需首先根据统计分析方法/统计分析公式的限制性使用条件对数据进行“条件”检验，如正态性检验和方差齐性检验等。很多统计学软件具有方便的正态性检验、方差齐性检验功能如SAS软件等.若经过检验数据不符合使用条件，就需要进行数据的变量变换，变换后符合条件就可以应用参数检验的方法

34、，否则，只有应用非参数检验的方法。数据变量转换的方法很多，可以根据数据的分布特征，选择合适的数据转换方法。常用的方法有对数变换，平方根变换或倒数变换等。第72页/共105页 2)分类变量转换成哑变量若分类变量是二分类尺度及顺序尺度，则可直接应用其原有的数量化数值，但对于名义尺度因为各类别间没有顺序关系，在进行不同分析（包括多元分析、logistic回归、Cox回归等）时，不能使用原始的计算机录入数值，必经进行变量转换。即将该变量转换成（水平数-1）个哑变量，再将这些新转换的变量放入多因素模型中。第73页/共105页t检验的应用条件两组数据的比较1样本量比较小（n50）2样本来自正态总体3两样

35、本总体方差齐同当两样本方差不齐时可以采用t检验，变量变换，或者秩和检验。第75页/共105页方差分析的应用条件两组以上数据的比较1各样本是相互独立的随机样本；2各样本要来自正态总体；3要求各个样本的总体方差齐同。第76页/共105页多个样本均数间的两两比较NewmanKeuls检验，亦称StudentNewmanKeuls（SNK）检验，简称q检验。最小显著性差距(LSD)t检验。第77页/共105页协方差分析定量分析中，进行两个样本或者多个样本的均数比较时，不仅需要使用假设检验判断其差异是否具有统计学差异，还应该考虑他们之间是否存在混杂因素（协变量）的影响。若存在协变量，则应该通过协方差分析

36、进行校正。协方差分析是定量变量分析中控制混杂因素的重要手段第78页/共105页影响观察指标的其他非研究性因素（混杂因素）在统计分析中又称之为协变量；考虑协变量影响的方差分析即为协方差分析。协方差分析是解决以上问题的分析方法，它将线性回归与方差分析结合起来，检验2个或者多个修正均数之间有无差别的假设检验方法。一般是先用直线回归的方法找出各组因变量与协变量之间的数量关系，求得修假定协变量相等时的修正系数，然后用方差分析比较修正均数间的差别。第79页/共105页协方差分析的条件1各个样本来自方差齐同的正态总体2各组的总体直线回归系数相同，且都不为0。第80页/共105页协方差分析的判别步骤：1正态

37、性和方差齐性检验；2判断协变量与因变量有无线性关系；3判断各组回归直线是否平行。第81页/共105页直线回归与相关的区别与联系第82页/共105页区别区别直线相关直线相关直线回归直线回归变量变量地位地位变量变量 x 变量变量 y 处于处于平等的地位，彼此平等的地位，彼此相关关系相关关系变量变量 y 称为因变量，处称为因变量，处在被解释的地位，在被解释的地位，x 称称为自变量，用于预测因为自变量，用于预测因变量的变化变量的变化变量变量性质性质所涉及的变量所涉及的变量 x 和和 y 都是随机变量，都是随机变量，要求两个变量服从要求两个变量服从双变量正态分布双变量正态分布因变量因变量 y 是随机变量

38、，是随机变量，自变量自变量 x 可以是随机变可以是随机变量，也可以是非随机的量，也可以是非随机的确定变量确定变量实际实际作用作用主要是描述两个变主要是描述两个变量之间线性关系的量之间线性关系的密切程度密切程度（相关系数（相关系数无单位）无单位）揭示变量揭示变量 x 对变量对变量 y 的影响大小的影响大小（回归系数有（回归系数有单位），单位），还可以由回归还可以由回归方程进行预测和控制方程进行预测和控制第83页/共105页多元线性回归的基本概念事物间的相互联系往往是多方面的，在很多情况下对应变量y 发生影响的自变量往往不止一个。多元线性回归的目的就是用一个多元线性回归方程表示多个自变量和1个

39、应变量间的关系。标准偏回归系数表示其他自变量固定的情况下，xi改变一个单位，y平均改变bi个单位。第84页/共105页多元线性回归的应用条件：1.独立性：各观察对象间相互独立。2.线性：自变量与应变量间的关系为线性。3.正态性：自变量取不同值时，应变量的分布为正态。4.方差齐性：自变量取不同值时，应变量的总体方差相等。5.当不符合条件时，可对自变量进行变换。如：第85页/共105页要比较各个自变量对于应变量的作用大小，不能用偏回归系数，因为各偏回归系数的单位不同。必须把偏回归系数标准化，化成没有单位的标准偏回归系数.消除不同单位的影响后，标准偏回归系数的绝对值越大，该自变量对于应变量的作用越大

40、，但该差别是否有统计意义，也必须经过检验。第86页/共105页（2）对各偏回归系数的显著性检验：F检验与 t检验 1.计算截距和各偏回归系数。2.多元回归方程的显著性检验：（1）整个方程的显著性检验：用方差分析。第87页/共105页逐步回归分析的目的是建立“最优”回归方程。“最优”回归方程是指包含所有对y有显著作用的自变量，而不包含对y作用不显著的自变量的方程。逐步回归分析的基本概念第88页/共105页逐步回归分析的计算方法在供选的自变量Xi中，按其对y的作用大小，由大到小地把自变量逐个引入方程，每引入一个自变量就对它作显著性检验，显著时才引入，而当新的自变量进入方程后,对方程中原有的自变

41、量也要作检验，并把作用最小且退化为不显著的自变量逐个剔出方程。因此，逐步回归的每一步（引入一个变量或剔除一个变量都称为一步）前后都要作显著性检验，以保证每次引入新变量前方程中只包含作用显著的自变量。这样一步步进行下去,直至方程中所含自变量都显著而又没有新的作用显著的自变量可引入方程为止。第89页/共105页逐步回归分析在医学研究中的应用及需要注意的几个问题1方程“最优”问题，实际是精选自变量以求得拟和效果最好的多元回归方程。最优子集回归是选择一种使回归方程拟和最好的自变量，而逐步回归则选择对因变量作用有意义的自变量。要根据研究目的选用适合方法。2逐步回归主要在医学中用于病因探索，临床疗效分析及

42、控制等。3线性回归模型要注意正态性，方差齐性和独立性，因变量必须是随机变量等。4入选变量如果明显地与实际问题的专业理论不一致时，首先检查数据是否有异常点，自变量间有无共线性存在，数据输入是否有误等，要结合专业知识作出合理的解释。5逐步回归在对大量因素进行分析时，可以先进行聚类分析，然后进行逐步回归。通常，观察单位取变量值的510倍为宜。第90页/共105页Logistic回归分析的基本思想回忆：线性回归分析对因变量的要求因变量y 连续型服从正态分布胆固醇含量胆固醇含量自变量x数值型与Y呈线性关系年龄年龄舒张压舒张压第91页/共105页医学研究中经常遇到分类型变量，例如：二分类变量：生存与死

43、亡有病与无病有效与无效感染与未感染多分类有序变量：疾病程度（轻度、中度、重度）治愈效果（治愈、显效、好转、无效）多分类无序变量：手术方法（A、B、C）就诊医院（甲、乙、丙、丁）第92页/共105页这种回归分析问题不能借助于线性回归模型，因为因变量的假设条件遭到破坏。能否找到一种其他形式的模型y=f(x)来描述分类变量y和x之间依存关系呢？因为从数学角度看，使得因为从数学角度看，使得x取任意值而取任意值而y仅仅取取1和和0两个值的的函数不存在。两个值的的函数不存在。第93页/共105页转换为分析y取某个值的概率变量p与x的关系不能直接分析不能直接分析变量变量y与与x的关系的关系Logistic

44、回归模型第94页/共105页Logistic回归分析的分类按数据的类型：非条件logistic回归分析（成组数据）条件logistic回归分析（配对病例-对照数据）按因变量取值个数：二值logistic回归分析多值logistic回归分析按自变量个数：一元logistic回归分析多元logistic回归分析第95页/共105页 Logistic 回归分析的数学模型第96页/共105页1、一元logistic回归模型令令y是是1,0变量，变量，x是一个危险因是一个危险因素；素；p=p(y=1|x)，那么，二值，那么，二值变量变量y关于变量关于变量 x的一元的一元logistic 回归模型是

45、：回归模型是：其中，和是未知参数或待估计的回归系数。该模型描述了y取某个值（这里y=1)的概率p与自变量x之间的关系第97页/共105页多元logistic回归模型令y是1,0变量，x1,x2,xk是k个危险因素；p=p(y=1|x1,x2,xk)，那么，变量y关于变量x1,x2,xk的k元logistic回归模型是：Logistic 回归模型的另外一种形式它给出变量它给出变量z=logit(p)关于关于x 的线性函数。的线性函数。第98页/共105页参数估计的步骤 1数据结构设有P个危险因素X1,X2,Xn及结果分析变量Y，观察例数为n。进行logistic回归时，应将原始资料进行整理

46、，一般格式如下编号编号因素因素YX1X2XP1X11X12XP1Y12X21X22XP2Y2nXn1Xn2Xn3XnPYn第99页/共105页 2 参数的估计 Logsitc回归的参数估计常用最大似然估计法。其基本思想是先建立似然函数和对数似然函数，求似然函数或对数似然函数达到极大值时参数的取值，即为参数的最大似然估计值。可求出值。第100页/共105页 3 假设检验求得各个参数的估计值之后，并不意味着每个因素都与因变量有联系，模型中应只保留对因变量有影响因素，因此要求对方程中的各变量逐一进行检验，剔除对因变量无影响的因素，并对拟和的模型进行检验。即使用似然比检验法，通过逐步回归筛选自变量

47、，最后得到具有统计学意义的logistic回归方程。该过程很复杂，由计算机完成。第101页/共105页医学中经常需要作配对病例-对照研究。所谓的配对病例-对照研究指的是在病例-对照研究中，对每一个病例配以性别、年龄或其它条件相似的一个(1:1)或几个(1:M)对照，然后分析比较病例组与对照组以往暴露于致病因素的经历。分析配对病例-对照研究资料的统计分析方法一般采用条件logistic回归分析。条件logistic回归分析的数学模型以及分析原理方法均和非条件logistic回归分析类似。因为参数的估计公式涉及到条件概率理论，所以称为条件logistic回归分析。条件logistic回归分析第102页/共105页Logistic回归分析和线性回归分析的异同点是什么？相同点：都可以校正混杂因子的影响；都可以利用模型来筛选危险因子；都可以用来做预测。不同点：前者对因变量无分布要求，后者要求因变量是正态分布变量；前者要求因变量必须是分类型变量，后者要求因变量必须是连续型数值变量。前者不要求自变量和因变量呈线性关系，后者要求自变量和因变量呈线性关系；前者是分析因变量取某个值的概率与自变量的关系，后者是直接分析因变量与自变量的关系。第103页/共105页谢谢第104页/共105页http:/

展开阅读全文