《医学统计学复习资料最终版(共12页).doc》由会员分享,可在线阅读,更多相关《医学统计学复习资料最终版(共12页).doc(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上第1章 绪论医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。1个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。2总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。反映总体特征的指标为参数,常用小写希腊字母表示。3样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。4抽样研究:从总体
2、中随机抽取样本,根据样本信息推断总体特征的方法。抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。其根源在于总体中的个体存在变异性。只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。统计分析主要是针对抽样误差而言。5变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;等级资料/半定量资料/有序分类变量资料:表现
3、为等级大小或属性程度。各类资料间可相互转化。可选分析方法有:t检验、方差分析、相关回归分析等;可选分析方法有:2检验、z检验等;可选分析方法有:秩和检验、Ridit分析等。6误差:实测值与真实值之差。可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。7概率(P):描述随机
4、事件发生可能性大小的值,其取值为0P1。其中,P=1为必然事件,P=0为不可能事件,0P60:Xu/2,X或Xu/2, X*正态分布:Xu/2,S*偏态分布:PXP100X用途总体均数的区间估计,也可间接进行假设检验绝大多数(如95%)观察对象某项指标的分布范围样本量作用样本量越大,可信区间越小样本量越大,参考值范围越稳定*t/2, 也可用于t, (对应于单尾概率时);* u/2,也可用于u,(对应于单尾概率时)。9假设检验:又称显著性检验,是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立,然后在H0成立的条件下计算检验统计量,最后获得P值来判断。基本思想
5、:小概率思想:小概率事件在一次试验中认为基本上不发生,其概率是相对的,在进行统计分析时要事先规定,即检验水准。反证法思想:首先提出一个假设,用适当的统计方法确定当假设成立时,获得现在样本的概率大小,如果是小概率事件,则推断假设是假的,拒绝它;如果不是小概率事件,则不能认为假设是假的,不能拒绝它。10假设检验的基本步骤:1)建立检验假设,确定检验水准:=0:即检验假设,常称无效假设或零/原假设,用H0表示;0:即备择假设,常称对立假设,用H1表示;:即检验水准,也称显著性水准,属于型错误的范畴,是预先规定的概率值,确定了小概率事件的标准。2)计算检验统计量:根据变量或资料类型、设计方案、统计推断
6、的目的、方法的适用条件等选择检验统计量,所有检验统计量都是在H0成立的前提条件下计算出来的。3)确定P值,做出推断结论:P的:是指从H0规定的总体随机抽样,抽得等于及大于或(和)等于及小于现有样本获得的检验统计量值(如t、u等)的概率。(当样本含量n 较大时,t值近似和u值相等,有人将其称为u检验或Z检验,实际是t检验的特例。)对于检验假设须注意:检验假设是针对总体而言,而不是针对样本;H0和H1是相互联系、对立的假设;H0为无效假设,其假定通常是:某两个总体参数相等,或某两个总体参数之差等于0,或无效,或某一资料服从某一特定分布;H1的内容直接反映了检验的单双侧。11t检验(方差相等):单样
7、本t检验:即已知样本均数与已知总体均数的比较,要求样本取自正态总体(样本均数与已知总体均数不等,原因有二:a.非同一总体即0;b.虽为同一总体即=0,但有抽样误差)。配对样本t检验:简称配对t检验,也称成对t 检验,适用于配对设计的计量资料,要求差值服从正态分布。(配对设计是将受试对象按照某些重要特征配成对子,每对中的两个受试对象随机分配到两处理组。主要有以下情形:a.两同质受试对象配成对子分别接受两种不同的处理;b.同一受试对象分别接受两种不同处理;c. 同一受试对象接受一种处理前后。)两样本t检验:又称成组t检验,适用于完全随机设计两样本均数的比较,要求样本来自正态总体,且两总体方差齐性。
8、当两样本含量较小,且均来自正态总体时,要根据两总体方差是否不同而采用不同检验方法。t检验(方差不等):Cochran&Cox近似t检验对临界值校正;Satterthwaite近似t检验对自由度校正;Welch近似t检验对自由度校正。12型错误:拒绝了实际上成立的H0,即“弃真”,其概率大小用表示,检验水准就是预先规定的允许犯型错误概率的最大值,可取单尾也可取双尾。型错误:“接受”了实际上不成立的H0,即“取伪”,其概率用表示,只取单尾。把握度:又称检验效能,是指1。其意义是当两总体确有差异,按规定检验水准所能发现该差异的能力。13假设检验应注意的问题:1)要有严密的研究设计假设检验前提。2)不
9、同类型的资料应选用不同检验方法。3)正确理解“显著性”一词的含义,一般假设检验结果并不指差异的大小,只能反映两者是否有差异,采用“有无统计学意义”表达。4)因结论具有概率性质,故结论不能绝对化,报告结论时最好列出检验统计量的值,尽量写出具体的P值或P值的确切范围。5)统计“显著性”与医学/临床/生物学“显著性”:若统计结论和专业结论一致,则最终结论就和这两者一致;若统计结论和专业结论不一致,则最终结论需根据实际情况。当统计结论有意义,而专业结论无意义时,可能是由于样本含量过大或设计存在问题,那么结论最终无意义。当统计结论无意义,而专业结论有意义,则应当检查设计是否合理、样本含量是否足够。6)可
10、信区间与假设检验的区别和联系:可信区间用于说明量的大小即判断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不等;可信区间可回答假设检验的问题,算得的可信区间若包含了H0,则按水准不拒绝H0;若不包含H0,则按水准拒绝H0接受H1。可信区间不但能回答差别是否具有统计学意义,而且能比假设检验提供更多的信息,即提示差别有无实际的专业意义。可信区间只能在预先规定的概率检验水准的前提下进行计算,而假设检验能够获得一个较为确切的概率P值。验证一个假设时,可选择假设检验,而只是对总体参数做一个估计时,可选用区间估计,两者结合可对问题进行更全面的说明。14正态性检验:图示法:概率图(P-P图)
11、和分位数图(Q-Q图);计算法:a.对峰度和偏度各用一个指标来评定,以矩法效率最高。偏度指分布不对称的程度和方向,样本偏度系数g1,总体偏度系数r1。(r1=0对称,r10正偏态,r10尖峭峰,r10平阔峰)b.仅用一个指标来综合评定。15两样本方差比较的F检验:即方差齐性检验,目的是判断两样本所代表的两总体方差是否不等,资料要求服从正态分布。若方差齐,采用一般的t检验;若方差不齐,则采用近似t检验。16变量变换:是将原始数据作某种函数转换,如转换为对数值等。它可使各组方差齐同、稳定,亦可使偏态资料正态化,以满足t检验或其它统计分析方法对资料的要求。方法:对数变换:适用于a.对数正态分布资料,
12、即原始数据的效应是相乘时;b.各样本标准差与均数成比例或变异系数是常数或接近某一常数的资料。平方根变换:即将原始数据开算术平方根。平方根反正弦变换。倒数变换。第4章 多个样本均数比较的方差分析1方差分析:由fisher首创,又称F检验。(F分布有两个参数:两个自由度)基本思想:根据试验设计的类型,将全部观测值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如组间变异SS组间可由处理因素的作用加以解释。方差分析是综合的F检验。实验数据有三个不同的变异:总变异:全部观测值大小不同,这种变异称为总变异,其大小可以用
13、离均差平方和表示SS总;组间变异:各处理组由于接受处理的水平不同,各组的样本均数也大小不等,这种变异称为组间变异,记为SS组间;组内变异:在同一处理组中,虽然每个受试对象接受的处理相同,但观测值仍各不相同,这种变异称为组内变异(误差),记为SS组内。SS总=SS组间+SS组内,总=组间+组内。变异程度与离均差平方和和自由度有关。各部分离均差平方和除以相应的自由度,其比值称为均方差,简称均方(MS)。应用条件:各样本是相互独立的随机样本;均来自正态分布总体;相互比较的各样本的总体方差相等,即具有方差齐性。2完全随机设计资料的方差分析:完全随机设计是采用完全随机化的分组方法,将全部试验对象分配到g
14、个处理组(水平组),各组分别接受不同的处理,实验结束后比较各组均数间的差别有无统计学意义,推论处理因素的效应。变异分解:SS总=SS组间+SS组内,总=组间+组内。分析步骤:略。3随机区组设计资料的方差分析:随机区组设计又称配伍组设计,是配对设计的扩展,先按影响试验结果的非处理因素将受试对象配成区组,再分别将各区组的受试对象随机分配到各处理组或对照组。随机分配的次数要重复多次,每次随机分配都对同一个区组内的受试对象进行,且各个处理组受试对象数量相同,区组内均衡。区组内各试验对象具有较大的差异为好,利用区组控制非处理因素的影响,并在方差分析时将区组间的变异从组内变异中分解出来。误差比完全随机设计
15、小,试验效率高。变异分解:SS总=SS处理+SS区组+SS误差,总=处理+区组+误差。分析步骤:略。4拉丁方设计资料的方差分析:拉丁方设计是在随机区组设计的基础上发展的,实验涉及一个处理因素和两个控制因素,将两个控制因素分别安排在拉丁方设计的行和列上,每个因素的类别数或水平数相等,增加了均衡性,减少了误差,提高了效率。变异分解:SS总=SS处理+SS行+SS列+SS误差,总=处理+行+列+误差。分析步骤:略。5两阶段交叉设计资料的方差分析:二阶段交叉设计是A、B两种处理先后以同等的机会出现在两个试验阶段中,不仅平衡了处理顺序的影响,而且能把处理方法间的差别、时间先后之间的差别和受试者间的差别分
16、开来分析。但是前一个试验阶段的处理效应不能持续作用到下一个试验阶段,故在两阶段之间设计洗脱阶段以消除残留效应。多用于止痛、镇静、降压等药物或治疗方法间疗效的比较。分析方法:SS总=SS处理间+SS阶段间+SS受试者间+SS误差。6多个样本均数间的多重比较:当方差分析的结果为拒绝H0,接受H1时,只说明g个总体均数不全相等。样本均数间的多重比较不能用两样本均数比较的t检验,否则会加大犯型错误的概率,即假阳性。LSD-t检验,即最小显著差异检验,适用于一对或几对在专业上有特殊意义的样本均数之间的比较;Dunnett-t检验,适用于g1个实验组与一个对照组均数差别的多重比较;SNK-q检验,亦称q检
17、验,适用于多个样本均数两两之间的全面比较,最常用。7多样本方差比较的Bartlett检验和Levene检验:Levene检验法在用于对多总体方差进行齐性检验时,所分析的资料可不具有正态性。第5章 计数资料的统计描述1计数资料的常见数据形式是绝对数,但绝对数不具有可比性,所以需计算相对数,常用的相对数指标包括比,比例,率。根据研究目的不同,比例又分为强度相对数(率)和结构相对数(即构成比)。2率:说明某现象发生的频率或强度,常用百分率,千分率,万分率等表示。某一分率改变不影响其他分率变化。3构成比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或
18、分布。某一部分构成比的改变将影响其他构成比的变化。4相对比:简称比,是两个有关指标之比,说明两指标之间的比例关系。两个指标可以是绝对数、相对数或平均数。5应用相对数的注意事项:结构相对数不能代替强度相对数:构成比用以说明事物内部某种构成所占比重或分布,并不说明某现象发生的频率或强度计算相对数应有足够数量,否则会使相对数波动较大正确计算合计率:对分组资料计算合计率或称平均律时,不能简单地由各组率相加或平均而得,而应用合计的有关实际数字进行计算注意资料的可比性:a.观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等;b.观察对象内部结构是否
19、相同;对比不同时期资料应客观条件是否相同;样本率(或构成比)的抽样误差:不能仅凭数字表面相差大小下结论,而应进行样本率(或构成比)差别的假设检验。6率的标准化法:采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。标准化法只适用于某因素两组内部构成不同,并有可能影响总率比较的情况(两个率不具有可比性)。标准化率只表示相互比较的资料间的相对水平,不再反映实际水平;此外标准化率表示样本值,存在抽样误差。第6章 几种离散型变量的分布及其应用(u分布,t分布和F分布均为连续型分布)1率的标准误:即样本率的标准差,可以用来描述样本率的抽样误差,率的标准误越小
20、,则率的抽样误差就越小。2二项分布:是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验中,当每次试验的“阳性”概率保持不变时,出现“阳性”次数X=0,1,2,n的一种概率分布。适用条件:每个观察单位仅有两个相互对立的结果,如阳性/阴性;每次试验的条件不变,即固定不变;n个观察单位的结果相互独立。图形:二项分布为离散型分布;当=0.5,二项分布图形是对称的,当0.5,图形是偏态的,随着n增大,图形趋于对称。当n时,只要不太靠近0或1,二项分布近似正态分布。3Poisson分布:是二项分布的一种极限情况,可用来分析医学上如人群中癌症等发病率低的非传染性疾病的发病或患病人数的分布,
21、也可用来研究单位时间内某罕见事件发生次数的分布。应用条件:每个观察单位仅有两个相互对立的结果,如阳性/阴性;每次试验的条件不变;n个观察单位的结果相互独立;发生率很小,n很大(此时=n=2,为常数)。(适用条件:普通性独立增量性平稳性。)性质:总体均数与总体方差2相等;当n很大时,很小,=n为常数;当(20),Poisson 分布近似正态分布;可加性。图形:由决定。越小,分布越偏态;越大,分布趋向正态。4u检验:率的比较t检验(样本含量大时适用)。第7章 2检验12检验:以2分布为基础,以2值为检验统计量的计数资料的假设检验。2分布为连续型分布,只有一个参数。2时曲线呈L型;随着的增加,曲线趋
22、于对称;当时,2分布趋近正态分布。此外2分布具有可加性。基本思想:2值反映实际频数A与理论频数T的吻合程度。2四格表2检验应用条件:n40,T5,用四格表2检验的基本式或或专用式计算;n40且1T5,用四格表2检验的校正公式;n40或T1,用四格表Fisher确切概率法(不属于2检验范畴)。3行列表资料的2检验:多个样本率的比较:R2表;多个样本构成比的比较:C2表;双向无序分类资料的关联性检验:RC表。注意事项:行列表资料中各格的理论频数不应小于1,并且1T5的格子数不宜超过格子总数的1/5;多样本率的比较,若统计结果是拒绝H0,接受H1,仅说明个总体率之间总的来说有差别,不能说明任两个总体
23、之间有差别;对有序的RC资料不能用2检验。第8章 秩转化的非参数检验1参数检验:总体分布为已知的数学形式,对其总体参数作假设检验的统计推断方法。非参数检验:又称任意分布检验,是指对总体分布不作严格规定,即在应用中可以不考虑被研究对象为何种分布以及分布是否已知,检验假设中没有包括总体参数的一类统计方法。秩转化的非参数检验是先将数值变量资料从小到大,或等级资料从弱到强转换成秩后,再计算检验统计量,其特点是假设检验的结果对总体分布的形状差别不敏感,只对总体分布的位置差别敏感。2非参数检验的优点:不受总体分布的限制,适用范围广;缺点:适宜用参数检验方法的资料,如果用非参数检验方法,由于没有充分利用资料
24、提供的信息,就会降低检验效能,即第II类错误的概率增大。3秩转化的非参数检验适用范围:未经精确测量的资料(包括等级资料);偏态分布且无法转化为正态分布的资料;分布不清的资料。4配对样本比较的Wilcoxon符号秩检验:亦称符号秩和检验,用于配对样本差值的中位数和0比较;还可用于单个样本中位数和总体中位数的比较。基本思想:在H0成立的前提下,配对差值的总体分布是对称的,总体中位数应为0,T+与T应接近n(n+1)/4,若正、负秩和相差悬殊,则H0成立的可能性很小。基本步骤:建立检验假设,确定检验水准;计算统计量T值:a.求差值d,b.编秩,c.求秩和并确定统计量T值;确定P值并做出统计推断:可用
25、查表法(小样本)和正态近似法(大样本)求u值,确定P值(若T值在上、下界值范围内,其P值大于相应概率水平;若T值恰好等于界值,其P值等于或近似等于相应概率水平;若T值在上、下界值范围外,其P值小于相应概率水平)。适用资料:不满足t检验条件的配对设计或单样本的计量资料、等级资料和其他不能精确测量的资料。5两个独立样本比较的Wilcoxon秩和检验:用于推断计量资料或等级资料的两个独立样本所来自的两个总体分布是否有差别。基本思想:如果H0成立,则两样本来自分布相同的总体,两样本的平均秩次T1/n1与T2/n2应相等或接近,含量n1的样本的秩和T1应在n1(N+1)/2的左右变化。若T值偏离此值太远
26、,H0成立的可能性就很小。若偏离出给定值所确定的范围时,则P0表示Y随X增大而增大,b0表示Y随X增大而减小,b=0表示Y与X无线性依存关系。回归系数是有单位的,不能根据b 的大小判断回归关系的密切程度。3回归方程的假设检验:回归方程需要进行假设检验,以推断两个变量间的线性关系是否存在。方法有:方差分析和t检验,两者是等价的,检验结论相同。4回归方程的应用:描述两个变量间的依存关系:经回归系数的假设检验,认为两变量间线性依存关系存在时,可用直线回归方程来描述两变量间依存变化的数量关系。利用回归方程进行预测:将自变量X的值代入回归方程式,则可得到应变量Y的估计值Y,即预测值。其意义为当X=X0时
27、,应变量Y的样本均数,也是相应总体均数YX0的一个点估计。其总体均数YX0的1的可信区间为:Y0t/2,SY0,SY0是样本均数Y的标准误,计算公式为SY0 ,当同时考虑所有X的可能取值时,可信形成一条中间窄、两端宽的带子,称为回归直线的可信带。其意义为在满足线性回归的条件下,总体回归直线落在可信带内的概率为(1)。而预测值Y的波动范围又称为个体Y值的容许区间(预测区间),Y0t/2,SY0,标准差SY0= ,同样,当同时考虑所有X的可能取值时,容许区间也会形成一条中间窄、两端宽的带子,称为个体值的预测带,叫回归直线的可信带宽。利用回归方程进行控制:统计控制是利用回归方程进行逆估计。如要求应变
28、量Y在一定范围内波动,可以通过控制自变量X的取值来实现。5直线相关:又称简单相关,是分析服从正态分布的两个随机变量X和Y有无线性相关关系的一种统计分析方法。直线相关的性质可由散点图直观的说明。相关分析的前提条件:两个随机变量;散点图呈线性关系;服从双变量正态分布。6相关系数:又称Pearson积差相关系数,是用来说明具有直线关系的两变量间相关的密切程度与相关方向的统计指标。以符号r表示样本相关系数,符号表示其总体相关系数。相关系数没有单位,其值为0r1,r为正表示正相关,r为1表示完全正相关;r为负表示负相关,r为1表示完全负相关;r=0表示零相关,即两变量间没有直线相关关系。R的绝对值越接近
29、于1,表示两个变量间相关关系的密切程度越高;越接近于0,则相关关系越不密切。7相关系数的假设检验:目的是推断两变量间有无直线相关关系。即使存在直线关系,仅凭样本计算出的相关系数并不能说明两变量间就有相关关系。从=0的总体中随机抽样,由于抽样误差的影响,所得r值也常不等于0。对同一资料,相关系数t检验与回归系数t检验结果相同,有tr=tb=F。8决定系数:回归平方和与总平方和之比,即R2=SS回/SS总,R2取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归所能解释的百分比。R2越接近于1,回归效果越好。9秩相关:又称等级相关,是用双变量等级数据作直线相关分析
30、,对原变量分布不作要求,属于非参数统计方法。适用资料:不服从双变量正态分布而不宜作极差相关分析;总体分布型未知;原始数据时用等级表示。Spearman等级相关系数rs是说明两个变量间直线相关关系的密切程度与相关方向的统计指标,其取值和意义同r。根据样本资料计算得到的rs,也需对其进行假设检验。10相关与回归的区别:相关表示相关关系(共变关系),无依存关系,无自变量与应变量之分,而回归表示依存关系,应变量随自变量的变化而变化;r没有单位,b有单位:所以相关系数与单位无关,回归系数与单位有关;相关表明两变量间关系的方向和密切程度,回归则用函数方程表达应变量随自变量变化的数量关系;对资料的要求不同,
31、相关分析要求两变量均为随机变量,并服从双变量正态分布。回归分析只要求应变量Y服从正态分布,而自变量X可以是正态分布的随机变量,也可以是人为控制大小的变量。相关与回归的联系:均表示线性关系;对能计算相关分析的同一组数据计算出的r和b的符号相同:共变方向一致;同一资料r和b的假设检验等价。11直线回归与相关应用的注意事项:根据分析目的选择变量及统计方法,做直线回归与相关分析要有实际意义,不能把毫无关联的两个事物或现象做相关与回归分析;进行相关、回归分析前应绘制散点图;用残差图考察数据是否符合模型假设条件;进行相关与回归分析都必须进行假设检验,以推断两变量间的线性关系是否存在;结果的解释及正确应用:反映两变量关系密切程度或数量上影响大小的统计量应该是相关系数或回归系数的绝对值,而不是假设检验的P值,此外回归方程一