《卫生统计学学习指导与习题集(64页).docx》由会员分享,可在线阅读,更多相关《卫生统计学学习指导与习题集(64页).docx(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-第 1 页卫生统计学学习指导与习题集-第 2 页卫生统计学学习指导与习题集第一章绪论【教学要求】了解:了解:医学统计学的发展史;统计学与公共卫生的关系。熟悉:熟悉:统计学习的目标与方法掌握:掌握:统计学基本概念:总体与样本、同质与变异、变量的类型、参数与统计量。【重点难点】第一节 医学中统计思维的进化第二节 统计学与公共卫生互动推动一、统计学是公共卫生专业人员的得力工具公共卫生是群体科学,应用统计探索群体规律。统计抽样技术;设计群体调查,掌握人群的卫生状况和需求;统计描述:反映疾病和卫生资源的分布特征;统计推断:偶然性的背景中识别危险因素、评价卫生措施、进行科学决策。二、现代公共卫生领域对统
2、计学的挑战公共卫生不仅应用统计学,而且不断提出新要求和新问题,是现代统计学研究和发展的巨大功力。第三节 统计学的若干概念一、总体与样本总体是根据研究目的确定的同质研究对象的全体,按研究对象来源又有目标总体和研究总体。样本是指从研究总体中抽取的一部分有代表性的个体。抽样研究的目的是用样本推断总体。二、同质与变异同质是指同一总体中个体的性质、影响条件或背景相同或非常相近。变异是指同质的个体之间存在的差异。统计学的任务是在变异的背景上描述同一总体的同质性,揭示不同总体的异质性。三、变量的类型定量变量可分为离散型变量和连续型变量。变量类型可以转化:定量有序分类二值。注意转化方向只能由信息量多向信息量少
3、。四、参数与统计量参数是指反映总体特征的统计指标。五、设计与分析统计设计是医药卫生设计科研不可或缺的部分。统计设计包括抽样方法、统计学原则、统计方法数据如何收集、样本量多大等统计学内容。设计决定了统计分析的方法。统计设计和统计分析是不可分割的两项内容。六、因果与联系探究因果关系首先考虑是否存在联系。但存在联系未必有因果联系,因为存在大量的混杂因素。单靠统计学分析大多只能考虑变量之间的联系,难于证明因果联系。分类变量定性变量定量变量变量有序变量-第 3 页第四节 目标与方法一、基本概念方法与技能正确理解基本概念、掌握常用的设计和经典的分析方法、学会用统计软件完成有关计算。二、教与学的方法应用是根
4、本目的,理解概念与动手实践才是根本。要结合生活经验、医学实际来教与学。借助统计学实验理解统计现象与理论,借助案例讨论从反面吸取教训。【补充习题】一、选择题(一)A1 题每一道题下面有 A、B、C、D、E 五个被选答案,请从中选择一个最佳答案。1.下面的变量中,属于分类变量的是(B)A.脉搏B.血型C.肺活量D.红细胞计数E.血压2.下面的变量中,属于定量变量的是(B)A.性别B.体重C.血型D.职业E.民族3.某人记录了 50 名病人体重的测定结果:小于 50kg 的 13 人,介于 50kg 和 70kg 间的20 人,大于 70kg 的 17 人,此种资料属于(A)A.定量资料B.分类资料
5、C.有序资料D.二分类资料E.名义变量资料4.上述资料可以转换为(C)A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料5.若要通过样本作统计推断,样本应是(C)A.总体中典型的一部分B.总体中任一部分C.总体中随机抽取的一部分D.总体中选取的有意义的一部分E.总体中信息明确的一部分6.统计量(E)A.是统计总体数据得到的量B.反映总体统计特征的量C.是根据总体中的全部数据计算出的统计指标D.是用参数估计出来的E.是由样本数据计算出的统计指标7.因果关系(C)A.就是变量间数量上的联系B.可以用统计方法证明C.必定表现为数量间的联系D.可以通过单独考察两个变量间关系得出E.可以
6、通过变量间数量上的联系来证明(二)A2 型每一道题以一个小案例出现,其下面都有 A、B、C、D、E 五个备选答案,请从中选择一个最佳答案。1.教材中提及美国人 1954 年实施了旨在评价 Salk 疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。有 180 万儿童参与,约有 1/4 参与者得到了随机化。这 180 万儿童是(C)A.目标总体B.研究总体C.1 份样本D.1 份随机样本E.180 万份样本-第 4 页2.上述试验最终肯定了索尔克疫苗的效果。请问此结论是针对(C)而言。A.180 万儿童B.每个儿童C.所有使用索菲克疫苗的儿童D.所 有儿童E.180 万儿童中随机化的 1/4二、是
7、非题1.定量变量、分类变量和有序变量可以相互转换。()2.假变量可以参与计算,所以假变量是定量变量。()3.离散变量在数值很大时。单位为“千”或“万”时可以取小数值,此时可接近地视为连续型变量()4.同质的个体间不存在差异。()5.如果个体间有变异,则它们一定不是来自同一总体。()第二章定量资料的统计描述【重点难点】第一节第一节频率分布表与频率分布图频率分布表与频率分布图一、离散型定量变量的频率分布对离散型定量变量,变量值的取值是不连续的。直接清点各变量值出现的频数,即为频率分布表。离散型定量变量的频率分布图可用直方图表达,以各等宽矩形直条的高度表示各频率的多少。二、连续型定量变量的频率分布对
8、连续型定量变量,变量值的取值是连续的,将数据适当分组,清点各组的频数,即为频率分布表。连续型定量变量的频率分布图可用直方图表达。即纵坐标为频率密度,即频率/组距,直方图的面积之和等于 1.三、频率分布表(图)的用途频率分布表(图)可以揭示资料的分布类型,如对称分布或偏峰分布;也可以描述资料的分布特征,即集中趋势和离散趋势;便于发现某些特大和特小的可疑值;便于进一步计算指标和统计分析。第二节第二节描述集中趋势的统计指标描述集中趋势的统计指标对于连续型定量变量,平均数是应用最广泛、最重要的一个指标体系,它常用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。常用的平均数有 3 种:算数均数
9、、几何均数和中位数。一、算术均数意义:意义:算术均数简称均数,常用表示总体均数,X?表示样本均数。反映全部数量观察值的平均数量水平。适用条件:适用条件:适用于对称分布资料,尤其正态或近似正态分布资料。计算:计算:1.直接法(基于原始数据)X?=X1+X2+Xnn=X?n其中,n 为样本含量,X1+X2+Xn为观察值。2.频率表法(也叫加权法,基于频率表资料)X?=fx0?f?=fx0?n其中,f为组段的频数,x0为组段的中值,x0=(组段上限+组段下限)/2。-第 5 页二、几何均数意义:意义:几何均数以符号 G 表示,常用来反映一组含多个数量级数据的集中位置。适用条件适用条件:适用于原始观察
10、值分布不对称,但经对数转换后呈对称分布的资料,如对数正态分布资料。观察值间常呈倍数关系,或变化范围跨越多个数量级。计算:计算:1.直接法(基于原始数据)G=nX1X2Xn或G=log1logX?n2.频率表法(也称加权法,基于频率表资料)G=log1flogX?n三、中位数意义意义:中位数常用符号M表示,是指将原始观察值从小到大排序后,位次居中的那个数,即理论上有一半的观察值低于中位数,一般都观察值高于中位数。适用条件适用条件:中位数适用于各种分布的资料,特别是偏峰分布资料、分布末端无确定值的资料等。计算:计算:1.直接法(基于原始数据)将 n 例观察值从小到大排列,第 i 个数据用XI表示。
11、n 为奇数时,M=Xn+12n 为偶数时,M=12(Xn2+Xn2+1)2.百分位数法(基于频率表资料)百分位数常用符号Px表示,是排序后的全部实测值的某百等份分割值,即在全部实测值中有 x%个体观察值比它小,有 1-x%个体观察值比它大。中位数就是一个特定的百分位数,即 M=P50。Px=L+iFL+iFL(n*x%-FL)其中 L 为欲求的百分位数所在组段的下限,i 为该组段的组距,FL为截止至 L 的累计频数,FL+i FL为该组段内的频数,n 为总频数。四、众数意义:意义:全部实测值中出现次数最多的数值即为众数。第三节第三节描述离散趋势的统计指标描述离散趋势的统计指标同一总体中不同个体
12、存在的差异称为变异。为比较全面地把握资料的分布特征,不仅需要了解数据的集中位置,而且需要了解数据的离散程度。常用的描述离散趋势的统计量包括极差、四分位数间距、方差、标准差和变异系数。一、极差意义意义:极差,也称全距。样本量接近的同类资料比较,极差越大意味着数据间变异越大。极差只考虑数据的最大值和最小值,所以用极差反映数据的变异程度常常比较粗略和不稳定。计算:计算:R=最大值最小值适用条件:适用条件:资料不限。二、四分位数间距-第 6 页意义意义:四分位数间距表示百分位数P75和百分位数P25之差,理论上P25与P75之间恰好包括总体中间 50%的个体观察值。同类资料比较,Q 越大意味着数据间变
13、异越大。用四分位数间距反映数据的变异程度比极差稳定。计算:计算:Q=P75P25其中,P75和P25的求法参见前述百分位数求法。适用条件适用条件:四分位数间距可用于各种分布资料,特别对偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。三、方差意义:意义:方差考虑了全部观察值的变异程度。总体方差用2表示,定义为观察值离均差平方和的算术均数;样本方差用S2表示,是总体方差的无偏估计。同类资料比较时,方差越大意味着数据间变异度越大。计算:计算:总体方差2=(X)2?N样本方差S2=(XX?)2?n1适用条件:适用条件:见标准差。四、标准差意义意义:方差的算术平方根称为标准差
14、。总体标准差用表示,样本标准差用 S 表示。标准差的量纲与原变量一致,故实际应用中常使用标准差。同类资料比较时,标准差越大意味着观察值间变异度越大。计算:计算:总体标准差=(X)2?N样本标准差 S=(XX?)2?n1其中,n-1 称为自由度。适用条件适用条件:方差和标准差都适用于对称分布的资料,特别对正态分布或近似正态分布资料,常把均数和标准差结合起来,全面描述的集中趋势和离散趋势。五、变异系数意义:意义:变异系数用 CV 表示,为标准差与算术均数之比,是一个不带量纲的相对数。计算:计算:CV=SX?100%适用条件适用条件:方差和标准差都适用于对称分布的资料,特别对正态分布或近似正态分布资
15、料,常把均数和标准差结合起来,全面描述资料的集中趋势和离散趋势。第四节描述分布形态的统计指标一、偏度系数意义意义:理论上总体偏度系数为 0 时,分布是对称的;取正值时,分布为正偏峰;取负值时分布为负偏峰。计算:计算:SKEW=n(n1)(n2)(XX?S)3?二、峰度系数意义意义:理论上正态分布的总体峰度系数为 0;取负值时,其分布较正态分布的峰平阔取正值时,其分布较正态分布的峰尖峭。计算:计算:KURT=n(n+1)(n1)(n2)(n3)(XX?S)4?3(n1)2(n2)(n3)-第 7 页【补充练习题】选择题(一)A1 型每一道题下面有 A、B、C、D、E 五个备选答案,请从中选择一个
16、最佳答案。1.用频率表计算平均数时各组的组中值应为(E)A本组段变量值的平均数B.本组段变量值的中位数C.本组段的上限值D.本组段的下限值E.(本组段上限值+本组段下限值)/22.离散型定量变量的频率分布图可以用(B)表达。A.直方图B.B.直条图直条图C.百分条图 D.箱式图E.复式条图3.变异系数越大说明(E)。A.标准差越大B.平均数越大C.标准差、平均数都大D.平均数小E.E.以均数为准变异程度大以均数为准变异程度大4.均数和标准差的关系是(D)A.均数越大,标准差越小B.均数越大,标准差越大C.标准差越大,均数对各变量值的代表性越好D.D.标准差越小,均数对各变量值的代表性越好标准差
17、越小,均数对各变量值的代表性越好E.均数和标准差都可以描述资料的离散趋势5.把P25,P50,P75标在一个数轴上,则(E)A.P50一定在P25和P75的中间B.P50一定不在P25和P75的中间C.P50一定靠近P25一些D.P50一定靠近P75一些E.以上都不是(二)A2 型每一道题以一个小案例出现,其下面有 A、B、C、D、E 五个备选答案,请从中选择一个最佳答案。1.已知某疾病患者 10 人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,20,其潜伏期的平均为(B)天。A.9B.9.5C.10D.10.2E.112.已知某地一群 7 岁男童身高均数为 100cm,标
18、准差为 5cm;体重均数为 20kg,标准差为 3kg,则身高和体重的变异程度有(C)A.身高的变异程度大于体重的变异程度B.身高的变异程度等于体重的变异程度C.身高的变异程度小于体重的变异程度D.身高的变异程度与体重的变异程度之比为 5:3E.因单位不同,无法比较3.测定 10 名正常人的脉搏(次/分),结果为 68,79,75,74,80,79,71,75,73,84.则 10名正常人的脉搏标准差为(B)A.4.73B.22.4C.75.8D.75.0E.1.504.测定 5 人的血清滴度为 1:2,1:4,1:16,1:32,则 5 人血清滴度的平均水平为(D)A.1:4B.1:8C.1
19、:11.6D.1:6.96E.1:165.测得 200 名正常成年男子的血清胆固醇值(mmol/L),为进行统计描述,下列说法不正确的是(E)A.可用频率表法计算均数B.可用直接法计算均数-第 8 页C.可用直接法计算标准差D.可用加权法计算标准差E.可用直条图表示频率分布图(三)A3/A4 型以下提供若干案例,每个案例下设若干道题目。请根据题目所提供的信息,在每一道题下面的 A、B、C、D、E 五个备选答案中选择一个最佳答案。(第 12 题共用题干)调查测定某地 107 名正常人尿铅含量(mg/L)如下:尿铅含量 0 4 81216.202428 合计例数14222918156121071描
20、述该资料的集中趋势,宜用(B)。A均数B中位数C几何均数D众数E极差2描述该资料的离散趋势,宜用(C)。A极差B方差C四分位数间距D标准差E变异系数(四)B1 型以下提供若干组题目,每一组题目前列出 A、B、C、D、E 五个备选答案,请从中为每一道题目选择一个最佳答案。某个备选答案可被选择一次、多次或不被选择。(14 题共用备选答案)A.极差B四分位数间距C标准差D变异系数E中位数1比较 7 岁男童与 17 岁青年身高的变异程度,宜用(D)。2描述近似正态分布资料个体观察值的离散趋势,宜用(C)。3描述偏峰分布资料个体观察值的变异程度,宜用(B)。4描述分布末端无确定值资料的离散程度,宜用(B
21、)。(58 题共用备选答案)A中位数B均数C几何均数D极差E众数5反映一组等比资料集中趋势的指标,宜用(C)。6反映一组偏峰分布资料的平均水平,宜用(A)。7样本中出现次数最多的观察值称为(E)。8描述近似正态分布资料的集中位置,宜用(B)。第三章定性资料的统计描述【教学要求】掌握:掌握:常用相对数指标,相对数应用的注意事项;动态数列及其指标;标准化法的基本思想,直接法的计算及间接法中 SMR 的意义,标准化法的注意事项。熟悉:熟悉:医学人口统计和疾病统计中常用指标的意义。【重点难点】第一节三类相对数一、频率与频率分布定性资料经过分类汇总整理的频数表称为频率分布表。定性资料的变量形式有多分类变
22、量和二分类变量,均可以通过频率分布表描述其分布特征。定性资料的分布特征通常可以描述为某一类别的频数在总频数中所占比重。根据研究目的不同定性资料频率分布表的表达形式可以不同,例如可以将某一事物的所有类别的频率列在同一张表中;也可以将某事物的其中一个类别的频率与其他事物相同类别的频率列在同一张表中。-第 9 页二、常用的相对数指标常用相对数有三种,计算公式不同,其意义也不同。表 3-1 列出常用三种相对数的公式和意义。三、应用相对数应注意的事项1理解相对数的含义不可望文生义三种相对数的定义有明确的区别,但在实际应用中,常错误解释相对数的计算结果,尤其,频率型指标和强度型指标常被混淆。对于相对数的统
23、计指标,读者必须认真思考其定义,辨别其性质,切不可望文生义。表 3-1常用相对数的公式和意义相对数指标公式意义频率发生某现象的观察单位数可能发生某现象的观察单位总数 k指某现象发生的频率,或事物内部某个组成部分所占的比重或分布强度某事件发生的观察单位数(可能发生某事件的观察单位数时间)?K指单位时间内某现象发生的频率相对比AB 100%两个有关联的指标 A 与 B 之比2频率型指标的解释要紧扣总体与属性本实习指导的配套教材的第三章中的表 1 至表 3 的数据均属于频率型指标,但由于表达的总体和属性不同,结果的解释亦不同。3计算相对数时分母应有足够数量确保研究结果的稳定性。4正确地合并估计频率(
24、或强度)型指标分别合计各组的分子和分母后再计算合计的指标,不可将分组的频率或强度取平均数作为合并的频率或速率。5相对数间的比较要具备可比性主要应注意观察的对象是否同质,研究的方法(如检测手段、抽样方法)是否相同,观察的时间是否一致等;在被比较的总体之间与研究指标有关的其他因素是否一致或接近。6对相对数的统计推断从样本估计值推断总体的相对数也应当考虑抽样误差,需要进行参数估计和假设检验。第二节医学人口统计常用指标一、医学人口统计资料的来源医学人口统计资料的主要来源为日常工作记录(报告单、卡、册)、统计报表和人口调查三个方面,见表 3-2。表 3-2 医学人口统计资料的来源资料来源意义和内容日常工
25、作记录指人口事件发生后有关部门按常规报告制度所做的原始记录,从公安部门、卫生部门、计划生育部门和疾病控制中心均可得到。特别是对出生,死亡、胎儿死亡等生命事件的法定登记,是研究人口自然变动、推算人口数以及反映人口健康水平的基础资料统计报表是从原始报告单、卡、册上的数据过录整理后的一种汇总表,也可以作为较好的原始记录用于医学人口统计关系较为密切的统计报表有出生统计报表、死因统计报表、妇幼卫生统计报表人口调查根据统计需要和目的,做一些定期或不定期的专项调查。调查的方法通常-第 10 页有普查和抽样调查。其中,人口普查为计算许多人口学指标提供了最基本的人口数资料。抽样调查是对人口问题进行广泛深入的研究
26、,获得内容丰富的资料二、描述人口学特征的常用指标描述人口学特征的常用指标主要指人口总数和人口构成指标,常用指标及其意义列于表 3-3。表 3-3 人口学特征的常用指标及其意义常用指标意义人口总数根据资料整理的特点,人口总数分为时点人口数:指一个国家或地区在某一特定时间的人口数;时期人口数:指某一时期(或某一年)的平均人口数。平均人口数常用作计算出生率、死亡率、发病率等指标的分母人口金字塔是将人口的性别和年龄资料结合起来,以图形的方式表达人口的性别和年龄构成。它以年龄为纵轴,人口构成作为横轴,左侧为男,右侧为女而绘制的两个相对应的直方图。人口金字塔形象直观地反映了现有男女性别人口的年龄构成,而且
27、也可以分析过去人口的出生死亡情况以及今后人口的发展趋势老年人口系数指 65 岁(或 60 岁)及以上人口占总人口的比重,用于反映人口是否老化及老化的程度。可作为划分人口类型的尺度少年儿童人口系数指 14 岁及以下少年儿童人口占总人口的比重,从另一侧面反映人口老化程度的指标。其大小主要受生育水平的影响负担系数指每 100 名劳动年龄人口所负担的非劳动年龄人口数,反映了劳动年龄人口与非劳动年龄人口之问的关系。一般以 1564 岁者为劳动人口,014 岁和 65 岁及以上者为非劳动人口或被抚养人口老少比指 65 岁及以上老年人口与 14 岁以下的少年儿童人口之比,表示每100 名少年儿童对应多少老年
28、人,是划分人口类型的标准之一性别比指以女性人口为 100,男性人口与女性的比值。如果性别比大于 100表示男性人口多于女性人口;小于 100 表示女性人口多于男性人口。常用的有出生性别比、年龄别性别比及全人口性别比。出生性别比一般在 104107 之间三、生育和人口死亡的常用指标(一)生育的常用指标测量生育的指标可以分为出生率、生育率和人口再生产三类,其中常用的生育率指标有 3 个,人口再生产指标有 3 个,将这些常用指标及其意义列于表 3-4。表 3.4 有关生育的常用指标及其意义常用指标意义-第 11 页粗出生率也称普通出生率。表示某年某地平均每千人口的活产数,是反映一个国家和地区的人口自
29、然变动的基本指标。受人口年龄性别构成的影响总生育率也称普通生育率 表示某年某地平均每千名育龄妇女的活产数,它反映育龄妇女总的生育水平。该指标受育龄妇女内部年龄构成的影响年龄别生育率表示平均每千名某年龄组育龄妇女的活产数 可以直接比较不同地区的年龄别生育率,但不能概括一个地区的整体生育水平总和生育率当年龄分组为 1 岁一组时,将年龄别生育率从 15 岁累加到 49 岁止,得到 1549 岁年龄别生育率的总和,即称总和生育率。若年龄分组为 5 岁一组时,则年龄别生育率之和再乘 5,即得总和生育率。表示每 1000 名妇女一生平均生多少个孩子,或每个妇女一生平均生多少个孩子。总和生育率是用某年横断面
30、的年龄别生育率资料计算的,因此消除了人口的年龄性别构成对生育水平的影响,不同时间、不同地区的总和生育率可以直接进行比较自然增长率表示人口自然增长的情况,常被用来粗略的估计人口增长趋势。它的计算为粗出生率(CBR)与粗死亡率(CDR)之差粗再生育率计算与总和生育率极为近似,不同的地方是活产数特指女婴数,故粗再生育率实际是只计算女婴的总和生育率。表示按某时的生育模式生育,一个妇女一生平均生育的女儿数,用来评价人口再生产趋势净再生育率在粗再生育率的基础上扣除了 049 岁的死亡。即扣除了母亲一代所生的女儿中 049 岁的死亡数,剩下的即为真正能取代母亲一代的女儿数。NRR-1,说明母亲二代所生的女儿
31、数恰能取代母亲数,未来人口数将保持恒定 r NRR1,表示母亲一代所生的女儿敷大于母亲数,未来人口数将增加;NRR50B.=0.5C.n=1D=lE.n56.(D)的均数等于方差。A正态分布B.二项分布C对称分布DPoisson 分布E以上均不对7设 Xl,X2 分别服从以1,2 为均数的 Poisson 分布,且 X1 与 X2 独立,则 Xl+X2服从以(B)为方差的 Poisson 分布。A.12+22B.1+2C.(1+2)2D.(1+2)2E.12+228满足(A)时,二项分布 B(n,)近似正态分布。An和 n(l-)均大于等于 5Bn或 n(1-)大于等于 5Cn足够大Dn50E
32、足够大9满足(B)时,Poisson 分布()近似正态分布。A无限大B.20C=lD=0E.=0.510满足(A)时,二项分布 B(n,)近似 Poisson 分布。An 很大且接近 0BnC n或 n(1-)大于等于 5Dn 很大且接近 0.5E,接近 0.5(二)A2 型该题以一个小案例出现,其下面都有 A、B、C、D、E 五个备选答案,请从中选择一个最佳答案。观察某地100名12岁男孩身高,均数为138.00crn,标准差为4.12cm,Z=(128.00-138.00)-第 23 页4.12。(Z)是标准正态分布的分布函数,1-(Z)=1 一(-2.43)=0.9925,结论是(E).
33、A理论上身高低于 138.00crn 的 12 岁男孩占 99.25%B理论上身高高于 138.00cm 的 12 岁男孩占 99.25%C理论上身高在 128.00cm 至 138OOcm 之间的 12 岁男孩占 99.25%D理论上身高低于 128.00cm 的 12 岁男孩占 99.25%E 理论上身高高于 128.00cm 的 12 岁男孩占 99.25%(三)A3/A4 型以下提供若干案例,每个案例下设若干道题目。请根据题目所提供的信息,在每一道题下面的 A、B、C、D、E 五个备选答案中选择一个最佳答案。研究人员为了解某地居民发汞的基础水平,为汞污染的环境监测积累资料,调查了留住该
34、市一年以上,无明显肝、肾疾病,无汞作业接触史的居民 230 人的发汞含量如下表所示:发汞值(mol/kg)1.53.55.57.59.511.513.515.517.519.5人数20606046181661031据此确定该地居民发汞值的 95%医学参考值范围是(P2.5,P97.5).对于以上结论,你的看法是(A)。A错误,应该计算单侧医学参考值范围P5C错误,应该计算X?1.95SD错误,应该计算小于X?+l.645SE正确2 该地居民发汞值的 95%医学参考值范围为(0,13.5)。对于以上结论,你的看法是(E)。A错误,95%医学参考值范围应该是双侧的B错误,95%医学参考值范围应该是
35、13.5C错误,应该计算X?土 1.95SD错误,应该计算小于X?+l.645SE错误,应该是 95.7%医学参考值范围为了解某城市 7 岁男童身高的发育情况,随机抽查该市区 110 名 7 岁男童,平均身高为 119.95cm,标准差为 4.72cm。3用算式 119.951.284.72 计算得到的区间,可以解释为:理论上(B)的 7岁男童身高在此范围内。A.95%B.80%C.90%D.10%E.20%4理论上 90%的 7 岁男童身高集中在(B)。A.119.951.284.72B.119.951.644.72C.119.950.134.72D.119.951.964.72E.119.
36、952.584.72(四)B1 型以下第 1 题、第 2 题共用题目前列出的 A、B、C、D、E 五个备选答案。请从中选择一个与问题关系最密切的答案。某个备选答案可能被选择一次、多次或不被选择。A不满足 Poisson 分布或二项分布条件B不满足正态近似条件C计算错误D没作连续性校正-第 24 页E分析正确1.2003 年上半年,某地区 10 万人中出现非典型性肺炎患者 23 人。据此推断该地 10万人口中出现非典型性肺炎发病人数不低于 20 人的概率为:P(X20)=1-P(X100)时,公式为:Z=X1?X2?S12n1+S22n2其中X?1、X?2、S1、S2、n1、n2分别为两样本的均
37、数、标准差、样本含量。第三节二项分布资料与 Poisson 分布资料的 Z 检验二项分布资料的正态近似条件:n 较大、不接近 0 也不接近 1。实践中,若 np与 n(1-p)均大于 5,便可认为符合条件。PoissonPoisson 分布资料的正态近似条件分布资料的正态近似条件:总体均数较大。实践中,若 X20,便可认为符合条件。一、二项分布资料的 Z 检验(一)单样本设计资料的(一)单样本设计资料的 Z Z 检验检验检验统计量:检验统计量:Z=Xn0n0(10)或Z=p00(10)n当 n 不太大时,需作如下的连续性校正:Z=Xn00.5n0(10)或Z=p00.5n0(10)n其中,为已
38、知的总体概率(一般为理论值、标准值或经过大量观察所得的稳定值等),p=Xn。(二)两独立样本设计资料的 Z 检验检验统计量:Z=|p1p2|pc(1pc)(1n1+1n2)或Z=p1p20.5(1n1+1n2)pc(1pc)(1n1+1n2)其中,n1、n2分别为两样本的样本含量;p1和p2分别为两样本的阳性频率;pc为两样本合并的阳性频率。分子中 0.5(1n1+1n2)为连续性校正项;pc=X1+X2n1+n2;X1和X2分别为两样本阳性例数。二、Poisson 分布资料的 Z 检验(一)单样本设计资料的 Z 检验-第 30 页检验统计量:Z=X00其中,0为一个定值(一般为理论值、标准值
39、或经过大量观察所得的稳定值等)。(二)两独立样本设计资料的 Z 检验检验统计量:1当两样本观测单位数相等时:Z=X1X2X1+X2其中,Xl与 X2分别为两样本的计数值。2当两样本观测单位数不等时:Z=X1?X2?X1?n1+X2?n2其中,X?l与X?2分别为两样本均数,n1与 n2分别为观测单位数。第四节假设检验与区间估计的关系两个总体均数差值的双侧(1-)置信区间:(X1?X2?)t/2,vSX1?X2?1置信区间具有假设检验的主要功能。2置信区间在回答差别有无统计学意义的同时,还可以提示差别是否具有实际意义。3假设检验可以报告确切的 P 值,还可以对检验的功效做出估计。第五节 假设检验
40、的功效一、假设检验的两类错误(表 7-1)表 7-1推断结论和两类错误的概率实际情况检验结果拒绝H0不拒绝H0H0真第类错误()结论正确(1-)H0不真结论正确(1-)第类错误()当样本含量 n 一定时,越小越大;越大越小;要想同时降低与,唯一的方法是增大样本含量。二、假设检验的功效基本概念:1-称为假设检验的功效,其意义是,当所研究的总体与 Ho 确有差别时,按检验水平能够发现它(拒绝 Ho)的概率。1单样本设计资料 t 检验的功效计算Z:Z=nZ其中,n 为样本含量,为欲发现的最小差异或容许误差,为总体标准差,Z为假设检验的临界值(取单侧)。然后根据Z反查标准正态分布表,标准正态分布的密度
41、曲线下,Z左侧的面积就是功效 1-。2两独立样本设计资料 t 检验的功效计算Z:Z=|1n1+1n2Z其中,n1、n2分别为两样本的样本含量,其余符号含义同上。三、应用假设检验需要注意的问题对服从正态分布资料进行 t 检验,不是看样本均数间差别的大小,而是推断两个总体均-第 31 页数是否相等(或其中一个大于另一个);类似地,对服从二项分布资料或 Poisson 分布资料进行 Z 检验,目的也是对相应的总体参数大小进行推断。第六节正态性检验1P-P 图法2Q-Q 图法一、图示法二、统计检验法1W 检验2D 检验3矩法【补充练习题】选择题(一)(一)A1A1 型型每一道题下面有 A、B、C、D、
42、E 五个备选答案,请从中选择一个最佳答案。1下面有关假设检验的描述,错误的是(C)。A检验假设又称无效假设,用 Ho 表示B备择假设用符号 H1表示CH1是从反证法角度提出的DHo,H1既相互联系又互相对立EHo,H1都是根据统计推断的目的而提出的对总体特征的假设2两样本均数比较,经 t 检验差别有统计学意义时,P 值越小,越有理由认为(E)。A样本均数与总体均数差别大B两样本均数差别越大C两总体均数差别越大D两样本均数不同E两总体均数不同3 当样本例数相同时,计量资料的成组 f 检验与配对 t 检验相比,一般情况下为_B_。A成组 t 检验效率高一些B配对 t 检验效率高一些C二者效率相等D
43、大样本时二者效率一致E与两组样本均数的大小有关4在比较两个独立样本资料的总体均数时,进行 z 检验的前提条件是(D)。A两总体均数不等B 两总体均数相等C两总体方差不等D两总体方差相等E以上都不对(二)A2 型该题以一个小案例出现,其下面都有 A、B、C、D、E 五个备选答案,请从中选择一个最佳答案。1某地成年男子红细胞数普查结果为:均数为 480 万/mm3,标准差为 41.0 万/mm3,那么标准差反映的是(D)。A抽样误差B总体均数不同C随机误差D个体差异E以上均不正确2测定某地 100 名正常成年男子的血红蛋白量,要估计该地正常男子血红蛋白均数,95%置信区间为(D)。A1.96X?B
44、X?1.96X?CX?2.58SX?DX?1.96SX?E2.58SX?-第 32 页3以往的经验:某高原地区健康成年男子的红细胞数不低于一般健康成年男子的红细脆数。某医师在某高原地区随机抽取调查了 100 名健康成年男子的红细胞数,与一般健康成年男子的红细胞数进行 t 检验后,得到 P=0.1785,故按照=0.05 的水准,结论为(C)。A该地区健康成年男子的红细胞数高于一般B该地区健康成年男子的红细胞数等于一般C尚不能认为该地区健康成年男子的红细胞数高于一般D尚不能认为该地区健康成年男子的红细胞数等于一般E无法下结论,因为可能犯型错误4某地成年男子红细胞普查结果为:均数为 480 万/m
45、m3,标准差为 41.0 万/mm3,随机抽取 10 名男子,测得红细胞均数为 400 万/mm3,标准误 50 万/mm3,那么标准误反映的是(A)。A抽样误差B总体均数不同C随机误差D个体差异E以上均不正确(三)B1 型请从 A、B、C、D、E 五个备选答案中选择一个与问题关系最密切的答案。某个备选答案可能被选择一次、多次或不被选择。(13 题共用备选答案)A.1.96SX?B.1.96X?C.t0.05/2,vSDt0.05/2,vSX?Et0.05/2,vX?1在均数为、标准差为的正态总体中随机抽样,|X?|_B_的概率为 5%2在均数为的总体中随机抽样,|X?|_D_的概率为 5%。
46、3在均数为的总体中随机抽样 n 例样本(n 很大),|X?|_A_的概率为 5%。(47 题共用备选答案)ABC且DE且4假设检验样本量一定时,当要求可信度提高时,则(D)。5在假设检验时,本应作单侧检验的问题误用了双侧检验,则(B)。6样本量一定时,p 减少时,则(A)。7当样本量减少时,要出现(E)。第八章方 差 分 析【教学要求】掌握掌握:方差分析的基本思想;完全随机设计、随机区组设计、析因设计和重复测量设计方差分析的变异和自由度的分解方法及假设检验过程。熟悉熟悉:方差分析的前提条件;多个样本均数的两两比较。了解了解:方差齐性检验和变量变换。【重点难点】第一节方差分析的基本思想方差分析的
47、基本思想就是把全部观察值间的变异(总变异)按设计和需要分解成两个或多个组成部分,总自由度也分解成相应的几个部分,再作分析。分解的每一部分代表不同的含义,其中至少有一部分代表各均数间的变异情况,另一部分代表误差。第二节完全随机设计资料的方差分析-第 33 页一、离均差平方和与自由度的分解完全随机设计全部试验数据大小不同称为总变异,包括随机误差和处理效应的作用。各处理组样本均数各不相同,与总均数也不相同,这种变异称组间变异(variation betweengroups),它反映了处理的影响,同时也包括了随机误差。各处理组内部观察值大小不同,这种变异称组内变异(variation within g
48、roups),组内变异仅反映随机误差。SS总=ij(Xij X?)2?=ij(X?i X?+(Xij X?i)2?=ini(X?i X?)2+ij(Xij X?)2?=SS组间+SS组内v总=N-1=(k-1)+(N-k)=v组间+v组内二、完全随机设计资料方差分析的基本步骤完全随机设计资料的方差分析用于多个样本均数的比较,属单向(因素)方差分析(one-way ANOVA),它将数据按一个方向(即同一处理的不同水平或不同处理)进行分组整理。方差分析的基本步骤:(1)建立检验假设,确定检验水准Ho:多个总体均数全相等H1:多个总体均数不全相等,即至少有两个总体均数不等=0.05(2)计算检验统
49、计量(表 8-1)表 8-1 完全随机设计方差分析的计算公式变异来源SSdfMSF总变异ij(XijX?)2?或S总2(N-1)N-1组间(处理组间)ini?(XI?X?)2k-1SS组间/(k-1)MS组间/MS组内组内(误差)SS总 SS组间或i(ni 1)Si2?N-k 或ini 1?SS组内/(N-k)(3)确定 P 值,作出推断结论:以计算 F 值时分子的自由度v1=v组间、分母的自由度v2=v组内查 F 界值表得 P 值,P 和比较得出推断结论。第三节 随机区组设计资料的方差分析一、离均差平方和与自由度的分解随机区组设计全部试验数据的变异除了总变异、处理的变异和随机误差外,还存在区
50、组的变异。区组变异是指区组的样本均数各不相同,与总均数也不相同。它既反映了区组因素的影响,也包括了随机误差。SS总=ij(Xij X?)2?(8-1)(8-2)-第 34 页=ij(X?i X?+(X?j X?)+(Xij X?i X?j+X?)2?=ib(X?i X?)2+jk?(X?j X?)2?+ij(Xij X?i X?j X?)2?(8 3)=SS处理+SS区组+SS误差v总=N-1=(k-1)+(b-1)+(N-k-b+1)=v处理+v区组+v误差二、随机区组设计资料方差分析的基本步骤(1)建立检验假设,确定检验水准对于处理组Ho:多个总体均数全相等,即各处理效果相同H1:多个总体