《2022年医学统计学知识点梳理.docx》由会员分享,可在线阅读,更多相关《2022年医学统计学知识点梳理.docx(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选学习资料 - - - - - - - - - 医学统计学学问点梳理医学统计学 : 是用统计学原理和方法讨论生物医学问题的一门学科;他包括了讨论设计、数 据收集、整理、分析以及分析结果的正确说明和表达;统计描述: 用统计指标、统计图表对资料的数量特点及分布规律进行客观的描述和表达;统计推断: 在肯定的置信度和概率保证下,用样本信息推断总体特点:参数估量:用样本的指标去推断总体相应的指标假设检验:由样本的差异推断总体之间是否可能存在的差异同质 :一个总体中有很多个体,他们之所以共同成为人们讨论的对象,必定存在共性, 我们说一些个体处于同一总体,就是指他们大同小异,具有同质性;总体 (popul
2、ation )是依据讨论目的确定的同质的观看单位的全体,更准确的说,是同质的 全部观看单位某种观看值(变量值) 的集合;总体可分为有限总体和无限总体;总体中的所 有单位都能够标识者为有限总体,反之为无限总体;样本 :从总体中随机抽取部分观看单位,其测量结果的集合称为样本(sample );样本应 具有代表性;所谓有代表性的样本,是指用随机抽样方法获得的样本;随机抽样: 随机抽样( random sampling )是指依据随机化的原就(总体中每一个观看单位都有同等的机会被选入到样本中),从总体中抽取部分观看单位的过程;随机抽样是样本具有代表性的保证;变异: 在自然状态下,个体间测量结果的差异称
3、为变异(variation );变异是生物医学讨论领域普遍存在的现象;严格的说,在自然状态下,任何两个患者或讨论群体间都存在差异,其表现为各种生理测量值的参差不齐;(1)计量资料 :对每个观看单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料( measurement data);计量资料亦称定量资料、测量资料;.其变量值是定量的,表现为数值大小,一般有度量衡单位;(2)计数资料 :将观看单位按某种属性或类别分组,所得的观看单位数称为计数资料(count data );计数资料亦称定性资料或分类资料;其观看值是定性的,表现为互不相容的类别或 属性;(3)等级资料 :将观看单位按测量结
4、果的某种属性的不同程度分组,所得各组的观看单位名师归纳总结 数,称为等级资料(ordinal data );第 1 页,共 12 页- - - - - - -精选学习资料 - - - - - - - - - 概率: 概率 probability 又称几率,是度量某一随机大事A 发生可能性大小的一个数值,记为 P( A), P(A)越大,说明 A 大事发生的可能性越大;0 P(A) 1;频率 :在相同的条件下,独立重复做 n 次试验,大事 A 显现了 m 次,就比值 m/n 称为随机大事 A 在 n 次试验中显现的频率 freqency ;当试验重复很多次时 P(A)= m/n ;随机误差 (r
5、andom error )又称偶然误差,是指排除了系统误差后尚存的误差;它受多种因素的影响, 使观看值不按方向性和系统性而随机的变化;误差变量一般听从正态分布;随机误差可以通过统计处理来估量;抽样误差 (sampling error )是指样本统计量与总体参数的差别;在总体确定的情形下,总体参数是固定的常数,统计量是在总体参数邻近波动的随机变量;系统误差: 系统误差 systematic error是指由于仪器未校正、测量者感官的某种偏差、医生把握疗效标准偏高或偏低等缘由,使观看值不是分散在真值的两侧,而是有方向性、 系统性或周期性地偏离真值;系统误差可以通过试验设计和完善技术措施来排除或使之
6、削减;随机变量: 随机变量( random variable)是指取指不能事先确定的观看结果;随机变量的详细内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每 个变量的取值听从特定的概率分布;参数: 参数( paramater )是指总体的统计指标,如总体均数、总体率等;总体参数是固定 的常数;多数情形下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用 算得的样本统计量估量未知的总体参数;统计量: 统计量( statistic )是指样本的统计指标,如样本均数、样本率等;样本统计量可 用来估量总体参数;总体参数是固定的常数,统计量是在总体参数邻近波动的随
7、机变量;频数表 (frequency table)用来表示一批数据各观看值或在不同取值区间的显现的频繁程度(频数);算术均数 (arithmetic mean)描述一组数据在数量上的平均水平;总体均数用 表示,样本均数用 X 表示;几何均数(geometric mean)用以描述对数正态分布或数据呈倍数变化资料的水平;记为 G;中位数 (median )Md 将一组观看值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值;反映一批观看值在位次上的平均水平;极差 (range )亦称全距,即最大值与最小值之差,用于资料的粗略分析,其运算简便但稳 定性较差;百分位
8、数 (percentile )是将 n 个观看值从小到大依次排列,再把它们的位次依次转化为百 分位;百分位数的另一个重要用途是确定医学参考值范畴;名师归纳总结 - - - - - - -第 2 页,共 12 页精选学习资料 - - - - - - - - - 四分位数间距 (inter-quartile range)是由第 3 四分位数和第1 四分位数相减运算而得,常与中位数一起使用,描述偏态分布资料的分布特点,较极差稳固;方差 (variance ):方差表示一组数据的平均离散情形,由离均差的平方和除以样本个数得到;标准差 (standard deviation)是方差的正平方根,使用的量纲
9、与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用;变异系数 (coefficient of variation)用于观看指标单位不同或均数相差较大时两组资料变异程度的比较;用CV 表示;运算:标准差/均数 *100% 统计推断 :通过样本指标来说明总体特点,断( statistical inference);这种从样本猎取有关总体信息的过程称为统计推抽样误差 :由个体变异产生的,抽样造成的样本统计量与总体参数的差异,称为抽样误差(sampling error);标准误及 X s :通常将样本统计量的标准差称为标准误( standard error of mean,SEM )
10、,它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小;可信区间 :按预先给定的概率确定的包含未知总体参数的可能范畴;可信区间( confidence interval,CI);参数估量 :指用样本指标值(统计量)估量总体指标值(参数);该范畴称为总体参数的假设检验中 P 的含义 :指从 H0 规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率;I 型错误 (type I error ),指拒绝了实际上成立的 H0,这类 “ 弃真 ”的错误称为 I 型错误,其概率大小用 表示;II 型错误 (type II error),指接受了实际
11、上不成立的 H0,这类 “存伪 ”的误称为 II 型错误,其概率大小用 表示;检验效能: 1- 称为检验效能(power of test),它是指当两总体确有差别,按规定的检验水准 a 所能发觉该差异的才能;率( rate )又称频率指标,说明肯定时期内某现象发生的频率或强度;运算公式为:发生某现象的观看单位数/ 可能发生某现象的观看单位总数*100% ,表示方式有:百分率( % )、千分率( )等;构成比 (proportion )又称构成指标,说明某一事物内部各组成部分所占的比重或分布;名师归纳总结 - - - - - - -第 3 页,共 12 页精选学习资料 - - - - - - -
12、 - - 运算公式为:某一组成部分的观看单位数/同一事物各组成部分的观看单位总数*100% ,表示方式有:百分数等;比( ratio )又称相对比,是A、B 两个有关指标之比,说明A 是 B 的如干倍或百分之几;运算公式为: A/B ,表示方式有:倍数或分数等;非参数统计: 针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的, 只知道总体分布是连续型的或离散型的,用于解决这类问题的一种不依靠总体分布的详细形式的统计分析方法;参数统计: 通常要求样原来自总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估量和检验,称为参数统计para
13、metric statistics 秩次: 变量值依据从小到大次序所编的秩序号称为秩次(rank );秩和: 各组秩次的合计称为秩和(rank sum ),是非参数检验的基本统计量;直线回来 (linear regression )建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小;直线回来是回来分析中最基本、最简洁的一种,故又称简洁回来(simple regression );回来系数 (regression coefficient )即直线的斜率 slope ,在直线回来方程中用 b 表示, b 的统计意义为 X 每增(减)一个单位时,Y 平均转变 b
14、 个单位;相关系数 r :用以描述两个随机变量之间线性相关关系的亲密程度与相关方向的统计指标;二 相关概念医学科研数据统计分析大致分以下 4 个步骤;1.1 数据整理1.2 统计描述1.3 统计推断1.4 结果表达频数表的制作求全距 R 找到资料中的最大值 A 和最小值 B 运算全距 R,划分组段名师归纳总结 - - - - - - -第 4 页,共 12 页精选学习资料 - - - - - - - - - 确定组数 确定组距 确定各组段的上下限 下限( lower limit )上限( upper limit )第一组段,其下限可取小于最小观看值得数 半开半闭区间 - ,- )画表 频数分布
15、表和频数分布图的用途揭示频数分布的特点 集中趋势 集中趋势是指一组数据向某一个位置集合或集中的倾向;离散趋势 离散趋势反映的是一组数据的分散性和变异度,即各个数据离开集中位置的程度;便于观看数据的分布类型 正态分布 集中趋势的指标:均数 离散趋势的指标:标准差 偏态分布 集中趋势的指标:中位数 离散趋势的指标:四分位间距算术平均数几何平均数中位数名师归纳总结 符号X G M 居第 5 页,共 12 页含义各观看值相加除以观看值N 各观看值的乘积一组观看值按次序排列,应用条件的个数所得之商;开 n 次方所得之根中者;正态或近似正态分布对数正态分布极偏态或分布不清的资料- - - - - - -精
16、选学习资料 - - - - - - - - - 运算公式说明加权法运算中X 值的含义中位数为百分位数的特例标准差的意义和用途0.说明资料的离散趋势或变异程度 ,标准差的值越大,说明变异程度越大,均数的代表性越差 . 标准差与原始数据的单位一样,在科技论文报告中,均数与标准差常常被同时用来描述资料的集中趋势与离散趋势;0. 用于运算变异系数1. 用于运算标准误2. 结合均值与正态分布的规律,估量参考值的范畴;变异系数 (coefficient of variation)适用范畴1 观看指标单位不同,如身高、体重不同单位资料2 均数相差悬殊变异系数的特点及相应的用途没有单位n 反映标准差占均数的百
17、分比或标准差是均数的几倍n 可用来比较度量衡单位不同的资料的变异度不受平均水平的影响n 反映的是以均数为基数的相对变异的大小n 比较均数相差悬殊的资料的变异度变异指标小结1极差较粗,适合于任何分布2标准差与均数的单位相同,最常用,适合于近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料名师归纳总结 - - - - - - -第 6 页,共 12 页精选学习资料 - - - - - - - - - 4平均指标和变异指标分别反映资料的不同特点,常配套使用如 准差;偏态分布:中位数、四分位间距相对数使用应留意的问题1.依据需要正确挑选相对数,常见错误是以构成比代率;正态分布:均数、标2.分母应
18、当够大;分母小于 20 时牢靠性较差;假如分母太小,宜用肯定数表示;3.运算观看单位数不等的几个率的平均率时,不能将几个率直接相加求平均率;4.要留意其内部构成是否相同;如内部构成不同的资料,应先进行率的标准化后再比;5.依据样本数据运算的强度相对数,要考虑抽样误差的影响;中心极限定理 central limit theorem即使从非正态总体中抽取样本,所得均数分布仍近似呈正态;随着样本量的增大 , 样本均数的变异范畴也逐步变窄;标准误标准误越大,样本均数的分布越分散,样本均数与总体均数的差别越大,抽样误差越大,由样本均数估量总体均数的牢靠性越小;反之亦然;标准误反映了样本均数间的离散程度,
19、也反映了样本均数与总体均数的差异;标准误与标准差成正比,当总体中各观测值变异很小时,样本均数与总体均数的差异小,抽样误差小;标准误 与样本含量的平方根成反比,样本含量越大,抽样误差越小t 分布同一概率下,自由度越大,|t| 越小;同一自由度下,|t| 越大,概率 P 值越小;同一自由度下,双侧概率为单侧概率的 2 倍时,所对应的 t 界值相等;当自由度趋向于时的 t 界值即为相应概率下的 Z 值;统计推断的任务就是用样本信息推论总体特点;1、点(值)估量( 近似值) 用相应的样本统计量直接作为其总体参数的估量值;2、 区间估量 (近似范畴) 按预先给定的概率(的一个范畴1-)所确定的包含未知总
20、体参数名师归纳总结 - - - - - - -第 7 页,共 12 页精选学习资料 - - - - - - - - - 区分点总体均数可信区间参考值范畴含按预先给定的概率,确定未知参数m 的可能范畴;“ 正常人 ”的解剖,生理,生化实际上, 一次抽样算得的可信区间要么包含了总体某项指标的波动范畴;均数,要么不包含; 但可以说:当 a=0.05 时,95%CI估量正确的概率为0.95 ,估量错误的概率小于或等义于 0.05 ,即有 95% 的可能性包含了总体均数;个体值的波动范畴总体均数的波动范畴运算s 未知 n 较小:正态分布: *公式偏态分布: PX P100-Xs 已知,或 s 未知但 n
21、60 :绝大多数 如 95% 观看对象某用途总体均数的区间估量项指标的分布范畴假设检验有三个基本步骤: 建立假设和确定检验水准,通常选 =0.05 运算检验统计量 确定 P 值和做出统计推断结论 全部的假设检验都依据这三个步骤进行,各种检验方法的差别在于第步运算的检验 统计量不同;H0和 H1的涵义及留意事项 1.检验假设是针对总体,而非样本;2.H0和 H1是相互对立,不是可有可无,而是缺一不行;3. H 0无效假设,通常是某两个或多个总体参数相相同,或总体参数之差为 0,或某资料服 从某一分布等等;4.假设检验主要是环绕H0进行的,当H0 被拒绝时,就接受H15. 备选假设应当依据实际世界
22、所代表的方一直确定,即它通常是被认为可能比零假设更符名师归纳总结 合数据所代表的现实;H1 的内容反映出单侧仍是双侧第 8 页,共 12 页- - - - - - -精选学习资料 - - - - - - - - - 即 H1 成立客观实际假设检验的结果不拒绝 H0拒绝 H0H0成立I 型错误 a 推断正确 1- a H0不成立 推断正确 1- b II 型错误 b 削减 I 型错误的主要方法:假设检验时设定 a 值;削减 II 型错误的主要方法:提高检验效能;方差分析应用条件:总体 正态且方差相等 样本 独立、随机 方差分析的结果拒绝 H0,接受 H1,不能说明各组总体均数间两两都有差别;假如
23、要分析哪 些两组间有差别,可进行多个均数间的多重比较 卡方检验目的:推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别 多个样本率的多重比较 两个分类变量之间有无关联性 频数分布拟合优度的检验;应用:计数资料 检验统计量 2 值反映了实际频数与理论频数的吻合程度;自由度取决于可以自由取值的格 子数目,而不是样本含量 n;四格表资料只有两行两列,v=1 ,即在周边合计数固定的情形 下, 4 个基本数据当中只有一个可以自由取值;参数统计 parametric statistics:总体分布型已知,对总体参数进行估量或检验名师归纳总结 - - - - - - -第 9 页,共 12
24、页精选学习资料 - - - - - - - - - 正态分布、二项分布、泊松分布等的检验 不行用参数检验的情形:不符合正态分布要求或方差齐性要求 变量变换后方差仍不齐或非正态分布 总体分布未知 需找到不依靠于总体分布的方法 应用非参数检验的情形 : 1.不满意正态和方差齐性条件的小样本资料 2.总体分布类型不明的小样本资料3.一端或二端是不确定数值(如0.002 、65 等)的资料(必选)4.单向(双向)有序列联表资料 5.各种资料的初步分析 双变量计量资料:每个个体有两个变量值总体:无限或有限对变量值 样本:从总体随机抽取的 n 对变量值(X1,Y1), ( X2,Y2), , (Xn,Yn
25、)目的:讨论 X 和 Y 的数量关系 方法:相关与回来简洁、基本:直线相关、直线回来 相关系数又称 Pearson 积矩相关系数, 说明具有直线关系的两变量间相关的亲密程度与相 关方向 相关系数没有测量单位,其值为-1r 1 r0 表示正相关, r0 表示负相关, r=1 或 r= -1 为完全相关, r=0 为零相关即无直线关 系 线性相关分析的留意事项1.线性相关表示两个变量之间的关系是双向的,分析变量之间的关系,须第一绘制散点图,散点图呈直线趋势时,再做分析名师归纳总结 - - - - - - -第 10 页,共 12 页精选学习资料 - - - - - - - - - 2.r 只表示两
26、个听从正态分布的随机变量之间线性关系的亲密程度和相关方向,r=0 只能说X 与 Y 之间无线性关系,并不能说 X 与 Y 之间无任何关系3.运算出的相关系数是样本的相关系数,是总体相关系数的估量值,因此判定总体相关时,需要做假设检验; 只有拒绝了无效假设时,才能认为存在相关,及判定相互关系的亲密程度4.相关关系并不肯定是因果关系;相关分析的任务就是对相关关系给以定量的运算和描述统计表制作过程中存在的常见问题有: 标题不准确、 标目表述不清、 纵标目和横标目随便颠倒位置、数字不合理表示、 表格过于简洁或繁琐、表内容与文字内容重复、注释内容过多等;线图绘制常见错误 线图绘制中常见的错误是横坐标轴上
27、各刻度的间隔表示的数量不等 统计推断时的常见错误未对统计资料进行统计学处理,仅凭统计指标的肯定值大小就下结论是很不严谨的,也极易得出错误结论;分析定量资料时存在的问题忽视 t 检验和方差分析的前提条件、误用 t 检验代替方差分析、误用参数检验代替非参数检验、各种方差分析方法的混用正确做法是先判定资料所对应的设计类型 定量资料分析时的步骤,关键是两点:;其次 ,是考察资料所具备的前提条件;其一,检查定量资料是否满意参数检验的前提条件;其二,正确辨析定量资料所对应的试验设计类型;1. 医学统计学中的统计描述和统计推断是什么 . 10 分 名师归纳总结 2. 假设检验有哪三个基本步骤?(10 分)第
28、 11 页,共 12 页3. 相对数应用的留意事项有哪些?(10 分)4. 假设检验中的二类错误是什么?(10 分)- - - - - - -精选学习资料 - - - - - - - - - 1调查某地两种人群,发觉100 名 3 岁女孩的体重均数为20 公斤,标准差为 4公斤,同时该地 100 名成年女子体重均数为55 公斤,标准差为 10 公斤;(17 分)问: 1)该地两人群中哪种人群体重变异度大?(5 分)2)算该地成年女子体重的总体均数的 95 可信区间;(6 分)3)如有一位 3 岁女孩体重为 30KG,请对其体重是否正常进行评判; ( 6 分)名师归纳总结 - - - - - - -第 12 页,共 12 页