《卫生统计学考试重点总结复习.doc》由会员分享,可在线阅读,更多相关《卫生统计学考试重点总结复习.doc(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除一、 绪论1. 总体:根据研究目的确定的同质观察单位的全体,确切的说是同质的所有观察单位某种变量值的集合。2. 样本:从总体中随机抽取部分观察单位所组成的集合。3. 参数:用样本的指标来推算或估计出来的,用来说明总体情况的统计指标。4. 统计量:根据观察值计算出来的量,是用来描述和分析样本的统计指标。5. 变量的类型及其转换: 定性变量:a.分类变量(计数资料)i.二分类变量 ii.多项无序分类 b.有序变量(等级资料) 定量变量:a.连续型变量 b.离散型变量 变量只能由“高级”向“低级”转化:定量有序分类二值。6. 概率:是描述随机事件发生的
2、可能性大些的数值。7. 卫生统计学的内容包括:统计学是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。8. 卫生统计学:运用概率论和数理统计的原理和方法并结合医学实践来研究医学资料的搜集、整理、分析与推断的一门学科。9. 卫生统计学的研究对象:有变异的事物。10. 统计工作的一般步骤:设计资料、搜集资料、整理资料、分析资料。11. 同质:指同一总体中个体的性质、影响条件、背景相同或非常相近。12. 变异:同一总体内的个体间存在差异又是绝对的,这种现象称为变异。13. 误差可分为:系统误差、随机测量误差、抽样误差。14. 抽样误差:由于个体差异的存在,
3、从某一总体中随机抽取一个样本,所得样本统计量与总体参数之间可能存在差异,这种差异称为抽样误差。二、 定量资料的统计描述1. 频率分布表的编制步骤: 计算极差R、确定组段数与组距(一般为8-15组)、确定各组段的上下限、列表。2. 频率分布表的用途: 揭示频数分布的分布特点和分布类型,文献中常将频数表作为陈述资料的形式。 便于进一步计算统计指标和进行统计分布处理。 便于发现某些特大和特小的可疑值。 当样本含量比较大时,可用各组段的频率作为概率的估计值。3. 中位数:指将原始观察值从小到大或从大到小排序后,位次居中的那个数。4. 四分位数间距:表示百分位数P75和百分位数P25之差,定义为Q=P7
4、5-P25,恰好包括总体中50%的个体观察值,用来描述偏态分布资料的离散趋势的指标。5. 标准差:即方差的算术平方根,是衡量对称分布资料的离散程度的指标,标准差大,则离散度大,标准差小,则离散度小。6. 变异系数:变异的大小S相对于其平均水平X的百分比,主要用于量纲不同的变量间,或均数差别较大的变量间变异程度的比较。三、 定性资料的统计描述1. 构成比:说明一事物内部各组成部分在总体中所占的比重或分布,常用百分数表示。 =某一组成部分的观察单位数/同一事物内部各组成部分的观察单位总数100%2. 相对数的类型: 频率型指标:近似的反映某一事件出现的机会大小,如发病率、死亡率。 =某事件发生的个
5、体数/可能发生某事件的个体数K 强度型指标:反映单位时间段内某现象发生的频率,多用于大人群长时间随访的资料,如人时发病率、人时感染率。 =某事件发生的个体数/(可能发生某事件的个体数时间)K 相对比型指标:是AB两个有联系的指标之比,对比的两个指标可以性质相同,也可以不同。 =A指标/B指标(常见男女性别比)3. 应用相对数时的注意事项: 防制概念混淆。 计算相对数时,分母应有足够的数量。 正确的合并估计频率型指标。 相对数的对比应注意可比性。 对样本相对数的统计推断,应进行参数估计和假设检验。 注意率和构成比之间的差别。4. 标准化法的基本思想: 标准化法是指当比较两个或多个总率时,若比较的
6、两组或多组内部构成明显不同,需按统一指标进行调整,使之具有可比性的方法。 基本思想:采用统一标准构成以消除某因素的内部构成不同对总率的影响,使通过标准化后的标准化率具有可比性。四、 统计表和统计图1. 统计表的种类:简单表、复合表。2. 统计图的分类: 条图:用等宽直条的长度来表示参与比较的指标的大小,分为单式和复式两种。表示指标数值的坐标尺度必须从0点开始。 百分条图:用于表示事物中各部分的比重或构成。 圆图:同上。 线图:用线段的升降来表示统计指标的变化趋势,或某现象随另一现象的变迁情况,适用于连续型变量资料。纵横的尺度可以不从0开始,一般纵横比例5:7。 对半数线图:用于表示事物的发展速
7、度(相对比)。 散点图:用点的密集程度、趋势表示两变量间的相对关系, 直方图:常用于表示连续型变量资料的频数或频率分布。纵轴的刻度必须从0点开始。 统计地图:主要用于表示某种现象在地域空间上的分布,根据不同地方某种现象的数值大小,采用不同密度的线条或不同颜色绘在地图上,有助于分析该现象的地理分布特征,为进一步研究提供线索。 箱式图:用于描述连续型变量资料的分布特征,它表现连续型变量资料的5个百分位数,即P2.5、P25、P50、P75、P97.5。3. 统计表的构成:标题、标目、线条、数字和备注。五、 常用的概率分布:1. 二项分布的图形特征: 高峰在=n处或附近。 为0.5时,图形是对称的。
8、离0.5愈远,对称性愈差。 对同一,随着n的增大,分布趋于对称。当n时,只要不太靠近0或者1,二项分布趋于对称。2. Poisson分布的特性: Poisson分布的总体均数与总体方差相等,均为。 Poisson分布的观察结果有可加性。3. 正态分布的图形特点: 关于x=对称。 在x=处取得该概率密度函数的最大值,在x=处有拐点。 曲线下面积为1。 决定曲线在横轴上的位置,增大,曲线沿横轴向右移;反之,越小,曲线沿横轴向左移。 决定曲线的形状,当均衡定时,越大,数据越分散,曲线越“矮胖”;越小,数据越集中,曲线越“瘦高”。4. 正态分布的应用: 概率估计确定医学参考值范围实验误差的质量控制统计
9、处理方法的理论基础5. 95%医学参考值范围:指特定的“正常”人群的解剖、生理、生化指标及组织代谢产物含量等数据中95%个体的取值所在的范围。6. 二项分布的应用:概率估计、累积概率计算。7. Poisson的应用:概率估计、累积概率计算。8. 二项分布、Poisson分布、正态分布的区别与联系: 二项分布、Poisson分布是离散型概率分布,用概率函数描述其分布状况,而正态分布是连续型概率分布,用密度函数和分布函数描述其分布状况。Poisson分布可以视为n很大而很小的二项分布。当n很大而和1-都不是很小的时候二项分布渐近正态分布,但20的时候Poisson分布渐近正态分布。六、 参数估计基
10、础1. 抽样误差:由于生物固有的个体变异的存在,从某一总体中随机抽取一个样本,所得样本统计量与相应的总体参数往往是不同的,这种差异称为抽样误差。2. 标准误:用于表示均数抽样误差的指标叫样本均数的标准差,也称样本均数的标准误。3. 参数估计:统计学中通过抽样来估计总体参数,称为参数估计。4. 样本均数的标准误与原变量的标准差的区别:样本均数的标准误可以反映样本均数之间的离散程度及抽样误差的大小。样本均数的标准误与原变量的标准差的区别在于:前者是表示均数变异的指标,后者是表示观察值变异的指标。两者的联系是,当样本量n一定时,标准误随标准差的大小而变化。5. t分布是总体均数的区间估计和假设检验的
11、基础。6. t分布图形的特征:单峰分布,以0为中心,左右对称。 越小,t值越分散,曲线的峰部越矮,尾部越高。 随着逐渐增大,t分布逐渐接近标准正态分布。 t分布不是一条曲线,而是一簇曲线,当n确定时,t分布为一条曲线。7. 置信区间:按预先给定的概率1-,估计总体参数的可能范围,该范围就称为总体参数的1-置信区间。8. 区间估计:将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为总体参数的置信区间。9. CI的两个要素:准确度:反映置信度1-的大小,即区间包含总体均数的概率大小。 精度:反映区间的长度,在置信区间确定的情况下,提高样本例数可以提高精度。七、 假
12、设检验基础1. 假设检验:由样本信息对相应总体进行推断时,对所估计的总体首先提出假设,然后通过样本数据去推断是否拒绝这一假设,称为假设检验,即检验样本指标与总体指标或样本指标与样本指标之间有无差别。2. 假设检验的原理: 反证法思想:首先提出假设,用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它,如果可能性大,还不能认为它不成立。 小概率原理:是指小概率事件在一次随机试验中基本不会发生。3. 假设检验的步骤: 建立检验假设,确定检验水准 选择检验方法,计算统计量 确定P值 做出推断4. 假设检验应注意的问题: 要有严密的研究设计。 应用检验方法必须符合其适用条件
13、。 适当选择检验水准。 正确理解P值的意义。 做结论不能绝对化。 统计结论与专业结论相结合。5. 类错误:如果实际情况与H。一致,仅仅由于抽样的原因,使得统计量的观察值落到拒绝域,拒绝了原本正确的H。,导致推断结论错误,这样的错误称为类错误。6. 类错误:如果实际情况与H。不一致,仅仅由于抽样的原因,使得统计量的观察值落到接受域,接受了原本错误的H。,导致推断结论错误,这类错误称为类错误。7. t检验的应用条件: 来自正态分布总体。 两独立样本。 均数比较时要求两总体方差相等。 定量资料。8. 配对设计的种类:异体配对、自身配对。9. 小概率事件:在一次观察或实验中某事件发生的可能性很小,可以
14、看作很可能不发生,通常取P0.05。10. P值:在零假设成立的条件下,出现统计量目前值及更不利于零假设数值的概率。11. 假设检验功效:1-称为假设检验的功效,其意义是,当所研究的总体与H。确有差别时,按检验水平能够发现它(拒绝H。)的概率。12. 检验水准的确定: 需要根据研究设计的类型、研究目的、变量类型及变异水平、样本大小等诸多因素。八、 方差分析1. 方差分析的基本思想: 根据资料的设计类型及研究目的,即按变异的不同来源将全部观察值间的总变异分为两部分或多个部分,其自由度也分解为相应的部分,除随机误差外,其余每个部分的变异也可由某个因素的作用加以解释,通过比较可能由某因素所致变异的均
15、方与随机误差的均方,借助F分布作出统计推断,从而了解该因素对观测指标有无影响。2. 方差分析的应用条件: 各样本是相互独立的随机样本。 各样本来自正态总体。 个处理组总体方差相等。3. 方差分析是用于研究定量变量数据的统计方法。九、 卡方检验1. 卡方检验的主要应用: 常用于分类变量资料的统计推断。推断两个或对个样本率及构成比之间有无差别,检验分类变量配对设计下的卡方检验,以及频数分布的拟合优度。2. 卡方检验的注意事项: 拟合优度:a.一般要求分组时每组中的理论频数不小于5;b.需要有足够的样本含量,不够时须经连续性校正。 22列联表:a.校正公式仅用于=1的四格表资料,对于2时的多组样本分
16、布,一般不作校正;b.当n40或T1时,校正公式也不适用,可以用Fisher确切检验。 RC列联表:a.一般不宜有1/5以上的格子的理论频数小于5,或不宜有一个理论频数小于1。解决方法:增加样本含量;结合专业知识合并该格所在行或列;改用Fisher确切概率法。3. 卡方检验理论频数太小的解决方法: 增大样本例数 删除理论数太小的行或列 将理论数太小的行或列进行合理的合并 直接用Fisher确切概率法计算十、 基于秩次的非参数检验1. 参数检验:以特定的总体分布为前提,对未知的总体参数作推断的假设检验方法统称为参数检验,也叫参数统计。2. 非参数检验:不依赖于总体的分布类型,也不对总体参数进行推
17、断时的假设检验。3. 参数检验和非参数检验的区别及优缺点:分布对象优点缺点参数检验总体分布已知总体参数精确性高,检验效能高对资料要求高,计算繁琐,理解困难非参数检验总体分布类型未知,难以用某种具体的函数形式表达总体分布适用范围广,资料收集,分析简便易犯类错误,检验效能低,易损失信息4. 非参数检验的适用范围: 分布类型未知。 能以严重程度优劣等级效果大小和名次先后等表示的等级资料。 分布极度偏态。 个别变量值偏离过大远离本组其他变量值(极大值、极小值)或开口资料。 方差不齐时。 筛选或只需获得初步结果时。5. 配对设计资料编秩次的步骤: 依差值的绝对值由小到大编秩,并按差值的正负标上正负号,遇
18、差值为0,舍去不计,n随之减少,遇绝对值相等差值,取平均秩次。6. 秩和检验的优缺点: 优点:适用范围广。方法简便、易于理解和掌握。 缺点:损失信息量,适用于参数检验条件的非参数检验,检验效能降低。十一、 两变量关联性分析1. 线性相关:如果两个随机变量中,一个变量由小到大变化时,另一个变量也相应地由小到大(或由大到小)地变化,并且直线趋势,就称这两个变量存在直线相关关系。2. 线性(积距)相关系数及其特点:定量描述两个变量间线性关系密切程度和相关方向的统一指标。0两变量线性相关,=0两变量不相关。3. 线性相关应注意的问题: 样本的相关系数接受零时并不意味着两变量间一定无相关性。 一变量的数
19、值人为选定时莫作相关。 出现异常点时慎用相关。 相关未必真有内在联系。 分层资料盲目合并易出现假象。4. 秩相关的条件: 不服从双变量正态分布不宜作积差相关。 总体分布类型未知。 用等级表示的原始资料。5. 秩相关和线性相关有何异同: 联系:两者都可用于两变量间线性相关的方向与密切程度,其取值范围与数值大小的统计学意义解释也相同。 两者都要求个体间满足独立性。 Spearman秩相关系数的计算可采用对秩次的Pearon积距相关系数的计算来实现。相关系数的含义、单位、取值范围一致,且计算公式相同,不同一个直接用原始的定量数据,另一个则要用等级数据。 区别:Pearon积距相关要求数据服从二元正态
20、分布,属于参数统计量;而Spearman秩相关不要求正态分布,属于非参数统计量。 两者总体参数的假设检验方法不完全相同(主要是和s的分布不同)。6. 线性相关和线性回归的区别与联系: 区别:资料要求:线性相关要求X、Y服从双变量正态分布,对这种资料进行回归分析称为型回归,即可以把X当自变量,也可以当因变量,反之亦然。线性回归要求Y在给定X值时服从正态分布,X可以是精确测量和严格控制的变量,这时的回归称为型回归,即不可以把X当因变量,Y当自变量进行回归分析。 应用:线性相关用来表达两个变量间的互依关系,两个变量的研究地位是相等的,谁做X,谁做Y都可以;线性回归用来表达两个变量间的依存关系,即一个
21、变量如何依存于另一个变量而变化,两个变量的研究地位是不相等的。 意义:相关系数r说明具有线性关系的两个变量之间的密切程度和相关方向;回归系数b表示X每变化一个单位所导致Y的变化量。 取值范围:-1r1,-b+。 联系:符号:对于既可做相关又可作回归的同一组资料,计算出的r和b正负号相同。 假设检验:对于同一组资料,相关系数和回归系数的假设检验等价。即tr=tb。 相互换算:对于同一组资料,相关系数和回归系数可通过下式换算:b=r,式中的Sx、Sy分别为X、Y数据的标准差。 用回归解释相关:有决定系数R=可知,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,则R
22、越接近1,相关的效果越好。说明回归效果越好,相关的密切程度也越高。十二、 简单回归分析1. 回归系数:b为回归直线的斜率,也是通过X推算Y的回归系数,表示当X变动一个单位时,Y平均变动b个单位。2. 直线相关与回归的区别与联系: 区别:资料:回归:Y为正态随机变量,X为选定变量X、Y服从双变量正态分布 相关:X、Y服从双变量正态分布 应用:回归:由一个变量值推算另一个变量值 相关:只反应两变量间互依关系 回归系数与原变量单位有关,而相关系数无关 联系:方向一致,r与b的正负号一致 假设检验等价tr=tb r=b 相关回归可以相互解释3. 线性回归模型的适用条件:线性;正态性;方差相等;独立。4
23、. 最小二乘原则:但ab取不同值获取不同获选直线时,使所有实测值到这条直线的纵向距离平方和最小时的ab值即为最小二乘估计。5. 残差:是P点与回归直线的纵向距离,即实测值Y与其估计值之差6. 决定系数:回归平方和总离均差平方和之比称为决定系数。取值在0到1之间,且无单位,它反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系所能解释的比例。线性回归的应用:研究因素间的依存关系估计与预测统计控制十三、 实验设计1. 实验设计的三要素:受试对象、处理因素、实验效应。 受试对象时处理因素作用的客体,受试对象选择的合适与否,也是一项实验是否成功的关键,因此应保证受试对象的同质性和代表性。 处理因素
24、是研究者根据研究目的而施加的特定措施,又称受试因素,实验过程中同一处理因素应始终保持不变,即处理因素应当标准化,同时控制和削弱非处理因素的影响。 实验效应是处理因素作用于受试对象产生的反应或结局。其通过观察指标表达出来,在指标的选择上,考虑客观性、精确性、灵敏性和特异性。2. 实验设计的基本原则:对照原则;随机化原则;重复原则。 对照原则:安慰剂对照、空白对照、实验对照(标准对照和自身对照) 随机化原则:体现在三个方面:随机抽样、分组的随机、实验顺序随机 重复原则:作用:估计实验误差、减小实验误差3. 随机化:是采用随机的方式,使每个受试对象都有同等的机会被抽取或分配到试验组和对照组。是对资料
25、进行统计推断的前提,各种统计分析方法都是建立在随机化的基础上。4. 样本含量估计的四要素: 容许误差 有关总体变异性(总体标准差与总体概率) 第类错误概率的大小 第类错误概率或检验功效1-的大小5. 常用的实验设计方案: 完全随机设计:是最为常见的一种考察单因素两水平或多水平效应的实验设计方法。它是采用完全随机分组的方法将同质的受试对象分配到各处理组,观察其实验效应。 交叉设计:是一种特殊的自身对照设计,它按事先设计好的实验次序,在各个时期对受试对象先后实施各种处理,以比较处理组间的差异。 配对设计:将受试对象按一定条件配成对子,再将每对中的两个受试对象随机分配到不同处理组。(主要有以下情形:
26、a.将两个条件相同或相近的受试对象配成对子,通过随机化,是对子内个体分别接受两种不同的处理。b.同一受试对象的两个部分配成对子,分别随机地接受两种不同的处理。c.自身前后配对,即同一受试对象,接受某种处理之前和接受该处理之后视为配对)。 随机区组设计:是配对设计的扩展,通常是将受试对象按性质相同或相近分为b个区组,再将每个区组中的k个受试对象随机分配到k个处理组。设计时应遵循“区组间差别越大越好,区组内差别越小越好”的原则。6. 双盲法:受试对象和实验执行者均不知道受试对象分在哪一组。十四、 调查设计1. 常用的抽样方法及其优缺点: 非概率抽样:立意抽样、偶遇抽样、雪球抽样。 概率抽样:单纯随
27、机抽样、系统抽样、整群抽样、分层抽样。单纯随机抽样系统抽样整群抽样分层抽样优点简单直观,是其他抽样方法的基础;均数及其标准误计算简便易理解,简便易行;可得到按比例分配的样本;样本在总体分布较均匀便于组织调查;节省经费,容易控制调查质量减少抽样误差;可对不同层采用不同的抽样方法;可对不同层进行独立分析缺点例数较多时,编号麻烦,实际工作中难以办到,当总体变异大时,代表性不如分层抽样,难以组织调查观察单位按顺序有周期趋势或递增(减)时易产生偏差样本例数一定时,抽样误差大于单纯随机抽样若分层变量选择不当,层内变异较大,层间变异小,分层抽样就失去意义适用范围2. 调查表的构成:标题、说明、被访者基本情况、主要内容、编码、作业证明的记载。【精品文档】第 8 页