《医学统计学重点总结.doc》由会员分享,可在线阅读,更多相关《医学统计学重点总结.doc(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、医学统计学第一章 医学统计中的基本概念1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。3 同质(homogeneity):对研究指标有影响的非实验因素相同。4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计
2、量。6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。第二章 集中趋势的统计描述一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料(一) 直接法 (二)加权法(针对频数表)二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度,血清凝集效价,细菌计数,某些物质浓度等)G= 为了计算方便,常改用对数的形式计算,即lg()对于频数表资料,可用公式 G=lg()三 中位数(M)和百分位数 中位数:适用于偏态分
3、布资料,末端无确切数值的资料及分布情况不确定公式:M=L+() L,分别为M所在组段的下限,组距和频数,为M所在组段之前各组数的累积频数。百分位数:用符号表示,x即百分位公式:=L+() 式中L,,分别为所在组段的下限,组距和频数,为所在组段之前各组段的累积频数第三章 变异程度的统计描述1. 衡量.变异程度的指标有:极差,四分位数间距,方差,标准差,变异系数。2. 极差(range)也称全距,即观察值中最大值和最小值之差,用符号R表示。3. 四分位数间距(quartile)用符号Q表示,可以通过计算百分位数和之差得到,即Q=,适用于偏态分布资料,特别是末端没有确定数据的资料(常与中位数一起用)
4、。4. 方差(varience)适用于正态分布,标准差是将方差取平方根,反映一组观察值的离5. 散程度,标准差小,离散程度小,均数代表性好(方差和标准差常与均数一起用)。6. 变异系数(coefficient of variation,CV)常用于度量衡单位不同或均数相差悬殊的两组资料的变异程度,其计算公式为:CV=(CV可能大于1,等于1,小于1;S为标准差,X为均数)7. 正态分布的主要特征:1)正态分布以均值为中心,左右对称;2)曲线下面积集中在以均值为中心的部分,越远离中心,曲线越接近X轴,曲线下面积越小;3)正态曲线下的面积分布有一定规律;4)正态分布完全由参数和决定,是位置参数,是
5、变异参数,越大,表示数据分布越分散。8. 标准正态分布(standard normal distribution)是均数为0、标准差为1的正态分布,表示为N(,) 9. 对任何参数和的正态分布,都可以通过一个简单的变量变换成标准正态分布,即=X- 9标准正态分布正态分布面积或概率-1168.27%-1.961.961.9695.00%-2.582.582.5899.00%10. 医学参考值范围(reference value range)传统上称作正常值范围,指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。习惯上是包含95%的参照总体的范围。11. 表 参考值范围所对
6、应的百分位数百分位数(%)单侧双侧(对称)下限上限下限上限95PPPP99PPPP第四章 抽样误差与假设检验1. 抽样误差(sampling error) :在抽样的过程中由于个体差异造成的样本统计量与总体参数之间的差异。2. 标准误 (standard error):样本均数中用来衡量抽样误差的大小用符号 表示,计算公式为=(标准误小于原始测量值的标准差,标准误越小说明估计越精确,因此可以用标准误表示抽样误差的大小) 实际工作中标准差 往往未知,因而通常用样本标准差S代替,求得样本均数 准误估计值S,计算公式为 S=(当n无穷,S,S0)3 95%的可信区间的计算:x (,) 1) 已知,可
7、信区间=1.96 2)未知,n为小样本:t 3)未知,n为大样本: T变换变换 N (0,1)3、 t分布曲线的形态变化与自由度v=n-1有关。4、 假设实验的基本步骤:1)建立假设和确定检验标准 包括无效假设(符号为H)和备择假设(符号为H)【H是在H成立证据不足的情况下而被接受的假设,有双侧和单侧两种情况,未作说明时,选用的均是双侧检验】 检验标准用表示,一般取=0.5或=0.01. 2)选择检验方法和计算检验统计量 3)确定P值和作出统计推断结论【结论:P,不拒绝H,差别无统计学意义,还不能认为两总体均数不等;PB 结果多用倍数表示; AB 结果多用百分数表示两指标互不包含,可以是相对数
8、,绝对数,平均数,可以性质不同,不一定有相同的量纲4. 应用相对数时的注意事项:1)不要把构成比与率相混淆2)使用相对数时分母不宜过小3)注意资料的可比性4)要考虑存在抽样误差5. 标准构成的选取:1)另外选取一个包含比较各组(如各地区)的有代表性的、较稳定的、数量较大的构成为标准。如世界的、全国的、全省的数据为标准构成2)取比较各组的各层例数的合计为标准构成。3)从比较的各组中任选其一的构成作为标准构成。6. 率的标准化的注意事项:1).标准不同得到的标化值不同,但得出的结论是一致的.2).标化后的数值不再反映实际水平,只能表明相互比较资料间的相对水平。3).两组率各分组对应的率有明显交叉时
9、,则不能用标准化率进行比较.4).两样本标准化率存在抽样误差。比较两样本的标准化率应该做假设检验。7. 率的标准误(样本率为P,总体率为):8.正态近似法的条件:当n足够大,且nP和n(1-P)均大于5时,P的分布接近正态分布,可用公式来求总体率的可信区间:(P-uS,P+uS)第八章 检验abcd1. c检验常用于检验两个或多个率(或构成比)之间差别是否有统计学意义,可用于检验配对计数资料差异有无统计学意义及两种属性或特征之间是否有关系,还可做频数分布资料拟合优度检验。 2. 四格表专用公式(3对于四格表资料,通常规定为:(1)当n40且所有的T 5时,用检验的基本公式或四格表的专用公式;(
10、2)当n 40 但有1T5时,用四格表资料的校正公式;(3)当n40,或T1时,用四格表资料的Fisher确切 概率法。4 行列表资料的 检验: 自由度:=(行数-1)(列数-1)5 注意事项:(1)不能有1/5的理论频数小于5,或有理论频数小于1。(2)行列表检验有统计学意义,并不等于任意两组之间都有统计学意义,要继续做两两比较。(3) 在实际应用中,对于行列表资料要根据其分类类型和研究目的用恰当的检验方法,行列表资料的卡方检验与分类变量的顺序无关。第十章 线性相关与回归1线性相关分析(linear correlation analysis):研究两个服从正态分布的随机变量间有无直线相关关系
11、,关系的方向及关系的密切程度。2 线性相关系数r没有测量单位,其数值在-1和1之间,相关系数的绝对值愈接近1,相关愈密切;相关系数愈接近0时,相关愈不密切。自由度:=n-23 线性相关的步骤:1)绘制散点图2)求相关系数r3)假设检验(H:=0)或查找b界值表4)得出结论4 线性回归(linear regression):用直线回归方程来描述两个变量X和Y数量上依存关系的一种统计分析方法。5 线性回归的步骤:1)绘制散点图2)作方程3)假设检验:t检验、方差分析、t=t(X,Yj均服从正态分布)6线性回归方程:=a+bX,b称为回归系数,b与r的符号一致,b的统计学意义:X每增加(减少)一个单
12、位,Y平均改变b个单位,自变量既可以是随机变量(型回归模型,两个变量都服从正态分布),也可以是给定的量(型回归模型)。计算b和a的数学原理是最小二乘法,该方法的原则是保证各实测点到回归直线的纵向距离的平方和最小。7 r是确定系数,R越接近1,回归效果越好第九章 非参数检验1 非参数检验通常适用下列条件:偏态分布或分布不明的资料;末端无确定数值; 方差不齐; 等级资料2 在资料服从正态分布的前提下,当H不真时,非参数检验方法不如参数检验方法能灵敏地拒绝H,换句话说患第二类错误的可能性大于参数检验法。3 怎样编秩次? 依差值绝对值,从小到大编秩,并按差值的正负,标上正负号。编秩时,在正负号不同的差
13、数中,若有绝对值相等的观测值,则取其平均秩次。对差值为0的对子,舍去不计,相应的总的对子数也要减去减去其对子数,记为n。分别求其正负秩次之和T与T,并以绝对值较小者作为统计量T值。正负秩和相加应等于总秩和,即T+T=小结:(1) 单个样本均数 H0:=0 t= =n1 (小样本) (已知样本均数) H1:0 =0.05 u= 或u= (大样本)(2) 配对:H0:=0 H1:0 t= =对子数1 =0.05(3) 两独立样本均数 H0:=0 t= =n1n22(4)(已知样本样本) H1:0 =0.05 u=第十二章 统计表与统计图1 统计表可由标题(在表格上方)、标目(包括横标目、纵标目)、
14、线条、数字和备注5部分组成。标题包括时间、地点和研究内容。线条一般采用三横线表。表内不留空格,无数字用“-”表示,缺失数字用“.”表示。备注时用“*”。2 直条图又称条图,用等宽直条的长短来表示相互独立的统计指标数值大小和它们之间的对比关系。3构成图常用于描述构成比的资料,常用的构成图有圆图和百分条图。4 线图适用于描述一个变量随另一个变量变化的趋势。普通线图用来描述变化趋势,半对数线图用来描述变化速度。5 直方图用于表示连续变量频数分布情况。6 散点图用点的密集程度和变化趋势来表示两指标之间的直线相关关系。小结(第二章): 算术均数 集中趋势 几何均数 统计描述 (平均水平) 中位数 极差计量资料 离散趋势 四分位数间距 (变异水平) 方差 标准差 统计推断 变异系数