《【孙振球第三版】医学统计学复习题20111222日解读.pdf》由会员分享,可在线阅读,更多相关《【孙振球第三版】医学统计学复习题20111222日解读.pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计复习题 2 Edited by RYAN DAI 一、名词解释:1、总体:根据研究目的确定的同质观察单位的全体。是同质所有观察单位的某种变量值的集合。2、有限总体:是指空间、时间范围限制的总体。3、无限总体:是指没有空间、时间限制的总体。4、样本:从总体中随机抽取部分观察单位,其实测值的集合。5、计量资料:又称定量资料或数值变量资料。为观测每个观察单位的某项指标的大小,而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。根据其观测值取值是否连续,又可分为连续型或离散型两类。6、计数资料:又称定性资料或者无序分类变量资料,亦称名义变量资料,是将观察单位按照某种属性或类别分组计数
2、,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:(1)二分类:两类间相互对立,互不相容。(2)多分类:各类间互不相容。7、等级资料:又称半定量资料或有序分类变量资料,是将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。8、随机误差(偶然误差):是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起,观察值不按方向性和系统性变化,在大量重复测量中,它可呈现或大或小,或正或负的规律性变化。9、平均数:描述一组变量值的集中位置或水平。常用的平均数有算术平均数、几何
3、平均数和中位数。10、抽样误差:由于个体差异和随机抽样造成的样本统计量和总体参数之间的差异,以及统一总体若干样本统计量之间的差异。13、相对数:两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数学的大小。如率、构成比、比等。14、率:强度相对数,说明某现象发生的频率或强度。15、构成比:结构相对数字,表示事物内部某一部分的个体与该事物各个部分个体数的和之比。用来说明各构成部分在总体所占的比重或分布。16、相对比:简称比,是两个相关联指标之比,说明两指标间的比例关系。两指标可以性质相同,也可以性质不同,通常以倍数或百分数表示。两指标可以是绝对数、相对数或平均
4、数。17、标准化:采用某影响因素的统一标准构成以消除内部构成不同对总率的影响,使通过标化后的标准率具有可比性。18、动态数列:是一系列按时间顺序排列起来的统计指标,用以观察和比较该事物在时间上的变化和发展趋势。常用指标有绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。19、非参数检验:相对于参数检验而言,不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验方法,称为参数检验。20、相关系数:又称 Pearson 积差相关系数,以符号 r 来表示。说明两正态变量间相关关系的密切程度和方向的指标。无单位,其值为-1r1。相关系数的检验假设常用 t 检验。21、回归系数:即线性回归
5、方程的斜率 b,其统计意义是当X 变化一个单位时 Y 的平均改变的估计值。在直线回归中对回归系数的t 检验与 F 检验等价。22、随机化原则:是指在实验分组时,每个受试对象均有相同的概率或机会被分陪配到实验组和对照组。23、分类变量资料:计数资料,又称定性资料或无序分类变量资料。是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:(1)二分类:两类间相互对立,互不相容。(2)多分类:各类间互不相容。24、无序分类变量资料:计数资料,又称定性资料。是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的
6、资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:(1)二分类:两类间相互对立,互不相容。(2)多分类:各类间互不相容。25、期望寿命:指同时出生的一代人活满 x 岁以后尚能生存的年数(即岁数)。26、检验效能:表达式为 1-,以往称把握度。其意义为当两总体确有差异,按规定检验水准所能发现该差异的能力。27、观察单位:亦称个体,是统计研究中的基本单位。它可以是一个人、一只动物,也可以是特指的一群人;可以是一个器官,甚至一个细胞。28、样本含量:样本中包含观察单位数称为该样本的样本含量。29、变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的
7、变异性,成为变量。30、变量值:对变量的观测值称为变量值或观察值。31、误差:泛指实测值与真实值之差,按产生原因和性质可粗分为(1)随机误差;(2)非随机误差系统误差非系统误差。32、系统误差:实验过程中产生的误差,它的值或恒不变,或遵循一定的变化规律,其产生的原因往往是可知的或可能掌握的。应尽可能设法预见到各种系统误差的具体来源,力求通过周密的研究设计和严格的技术措施施加以消除或控制。33、非系统误差:在实验过程中由于研究者偶然失误造成的误差。这类误差应当通过认真检查核对予以清除,否则将影响研究结果的准确性。34、频率:一个随机试验有几种可能,在结果重复进行试验时,个别结果看来是偶然发生,但
8、当重复试验次数相当大时,总有规律出现。在重复多次后,出现结果的比例称之为频率。35、概率:概率是描述随机事件发生可能性大小的一个度量。36、医学参考值:是直指包括绝大多数正常人的人体形态、功能和代谢产物等个各种生理指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故医学参考值范围作为判定正常和异常的参考标准。37、正态分布:正态分布又称高斯分布,是一种很重要的连续型统计复习题 2 Edited by RYAN DAI 分布,应用很广。若指标 X 的频率分布曲线对应于数学上的正态分布曲线,则称该指标服从正态分布。38、偏态分布:指集中位置偏向一侧,频数分布不对称。
9、(1)正偏态分布:集中位置偏向数值小的一侧。(2)负偏态分布:集中位置偏向数值大的一侧。39 抽样:在医学研究中,为节省人力、物力、财礼和时间,一般都采取从总体中抽取样本,根据样本信息来推断总体特征的方法,即抽样研究的方法来实现,这种从总体种随机抽取部分观察单位的过程称为抽样。为保证样本的代表性,抽样时必须遵循随机化原则。统计描述:指选用恰当的指标,通常称为统计量,选用合适的统计表与统计图,对资料的数量特征及其分布规律进行测定和描述。包括搜集数据、整理数据、总结数据、分析数据以及将数据呈现出来 统计推断:指如何在一定的可信度下由样本信息统计指标来推断总体相应指标,又称参数估计。包括进行推测、假
10、设检验、确定关系然后作出预测 小概率事件:统计分析中的很多结论都是基于一定可信程度下的概率推断,习惯上将 P=0.05 称为小概率事件,表示一次实验或观察中该事件发生的可能很小,可以视为可能不发生。算术均数:简称均数 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。几何均数(geometric mean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料 中位数(median):是将变量值从小到大排列,位置居于中间的那个变量值。符号为 Md,反映一批观察值在位次上的平均水平。适
11、用于:1、各种分布类型的资料 2、特别是偏态分布资料和开囗资料(一端或两端无确切数值的资料)。3、资料分布不明等 百分位数:将一组数据从大到小按顺序排列起来,并计算相应的累计百分位(频率)。那某一百分位所对应的数据变量值就叫这一百分位的百分位数 百分位数的应用:确定医学参考值范围;中位数 Md 与四分位半间距 QD 一起使用,描述偏态分布资料的特征 百分位数:数据从小到大 排列;在百分尺度下,所占百分比对应的值。记为Px。包括直接算法和频数表法 应用:1.确定医学参考值范围(reference range):如 95参考值范围P97.5P2.5;表示有 95正常个体的测量值在此范围。2.中位数
12、 Md 与四分位半间距 QD 一起使用,描述偏态分布资料的特征 方差(variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。标准差(standard deviation)即方差的正平方根;其单位与原变量X的单位相同。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度 变异系数:多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能
13、和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参考标准。95可信区间:从总体中作随机抽样,作 100 次抽样,每个样本可算得一个可信区间,得 100 个可信区间,平均有 95 个可信区间包括(估计正确),只有 5 个可信区间不包括(估计错误)。假设检验过去称显著性检验:它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0 成立的条件下计算检验统计量,最后获得 P值来判断。检验水准,过去称显著性水准
14、,是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取=0.05。可根据不同研究目的给予不同设置。I 型错误:“实际无差别,但下了有差别的结论”,假阳性错误。犯这种错误的概率是(其值等于检验水准)II 型错误:“实际有差别,但下了不拒绝H0 的结论”,假阴性错误。犯这种错误的概率是(其值未知)完全随机设计:是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。动态数列(dynamic series):是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察
15、和比较该事物在时间上的变化和发展趋势。绝对增长量;是说明事物在一定时期增长的绝对值。发展速度与增长速度:均为相对比,说明事物在一定时期的速度变化。发展速度表示报告期指标的水平相当于基期水平的百分之多少或若干倍,平均发展速度;是各环比发展速度的几何平均数,说明某事物在一个较长时期中逐期(如逐年)平均发展的程度。平均增长速度;是各环比增长速度的平均数,说明某事物在一个较长时期中逐期平均增长的程度。b 的意义:回归系数b称为斜率(slope),其统计学意义是:X 每增加(减)一个单位,Y 平均改变b个单位。残差(residual)或剩余值,即实测值Y与假定回归线上的估计值Y 的纵向距离。统计复习题
16、2 Edited by RYAN DAI 直线相关系数(correlation coefficient),Pearson 积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。统计图:指利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料。统计图只能提供概略的情况,而不能获得确切数值,因此不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据 百分条图:是以矩形总长度作为 100%,将其分割成不同长度的段表示各构成的比例。圆图和百分条图适合描述分类变量的各类别所占的构成比。百分条图以总长度 L 为 100%,将长度 L 乘以各类别的构成比(%)得到
17、各构成的长度,由大到小或按类别的自然顺序依次排列,其它项放最后。箱式图(box plot):使用 5 个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上、下四分位数,中间是中位数,两端连线分别是除异常值之外的最小与最大值。箱子越长数据变异程度越大,中间横线在箱子中点表明分布对称,否则不对称。箱式图特别适合多组数据分布的比较。二项分布(binomial distribution)是指在只会产生两种可能结果如“阳性”或“阴性”之一的 n 次独立重复试验中,当每次试验的“阳性”概率保持不变时,出现“阳性”次数 X=0,1,2,n 的一种概率分布
18、。记作:XB(n,)。Poisson 分布:(Poisson distribution)作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson 分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。所谓随机变量X 服从 Poisson 分布,是指在足够多的 n 次独立 Bernoulli 试验中,取值 X 的概率为 非参数检验 针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布式连续型的或是离散型的,用于解决这类问题需要一种不依赖总体分布的具体形式的统计分析方法。由于这类方法不受总体参数的
19、限制,故称为非参数统计,或称为不拘分布的统计分析方法,又称为无分布型式假定的统计分析方法。适于处理总体分布不易确定或未知;分布非正态但无合适转换方法;有一端或两端有不确定数值(如15.0)的资料;等级资料等。参数检验 通常要求样本来自总体分布类型已知(正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数检验。例如,均数的区间估计;t 检验/u 检验,F 检验。“球对称”假设:满足“球对称”假设,可用第四章随机区组方差分析比较处理组间差异;若不满足“球对称”假设,亦可用随机区组方差分析,但需校正时间效应F界值的自由度。单变量分析:研究单个变量的数量特征,推断两个或多个
20、总体参数的差别。双变量分析:研究两个变量的数量依存(或依赖)关系或互依(或相关)关系。多变量分析:研究多个变量的数量依存(或依赖)关系或互依(或相关)关系。单独效应:指其他因素的水平固定时,同一因素不同水平间的差别 主效应:指某一因素各水平间的平均差别 交互作用:当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存在交互作用。正交试验:非全面组合,g 个处理组是各因素 各水平的部分组合,即析因设计 的部分实施。优点:减少试验次数缺点:牺牲分析各因素部分交互作用 b0 为截距:表示各自变量均为 0 时y的的估计值。bi称为偏回归系数,是i的估计值,表示当方程中其他自变量保持不变时,自
21、变量Xi变化一个计量单位,反应变量Y的平均变化量。b称为 X=(X1,X2,Xm)时,反应变量Y的估计值。e是去除m个自变量对Y影响后的随机误差(残差 偏相关系数:扣除其他变量的影响后,变量Y与Xi的相关,称为Y与Xi的偏相关系数。优势比OR(odds ratio)流行病学衡量危险因素作用大小的比数比例指标。计算公式为:优势比估计:可反映某一因素两个不同水平(c1,c0)的优势比:logistic 回归:是一个概率型模型,因此可以利用它预测某事件发生的概率。例如在临床上可以根据患者的一些检查指标,判断患某种疾病的概率有多大。综合评价:利用多项指标对某个评价对象的某种属性进行定性、定量评估,或者
22、对多个评价对象的属性进行定性、定量评估,可对优劣顺序排序 多元回归与逐步回归法:多元回归分析挑选标准化偏回归系数绝对值较大或偏回归系数假设检验有显著性的指标作为评价指标;逐步回归有自动挑选主要影响指标的功能,是目前最常用的指标挑选方法。指标聚类法:在存在众多指标的情况下,可将相似指标聚成类,再从每类中找一个典型指标作为代表,从而用少量几个典型指标作为评价指标来代表原来众多的指标建立评价模型。层次分析法(Analytic Hierarchy Process,简称 AHP):由美国科学家 T.L.Saaty 于 20 世纪 70 年代提出,是用系统分析的方法,对评价对象依评价目的所确定的总评价目标
23、进行连续性分解,得到各级(各层)评价目标,并以最下层指标作为衡量目标达()0,1,2,!XeP XXX1100/(1)/(1)jPPORPPROj统计复习题 2 Edited by RYAN DAI 到程度的评价指标。然后依据这些指标计算出一综合评分指数对评价对象的总评价目标进行评价,依其大小来确定评价对象的优劣等级。秩和比(Rank Sum Ratio,RSR)指行(或列)秩次的平均值,是一个非参数统计量,具有 01 连续变量的特征。在综合评价中,秩和比综合了多项评价指标的信息,表明多个评价指标的综合水平,RSR值越大越优。重复测量设计:当前后测量设计的重复测量次数m3 时,称重复测量设计或
24、重复测量数据。判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。R 型聚类:又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。Q 型聚类:又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。非参数检验 针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布式连续型的或是离散型的,用于解决这类问题需要一种不依赖总体
25、分布的具体形式的统计分析方法。由于这类方法不受总体参数的限制,故称为非参数统计,或称为不拘分布的统计分析方法,又称为无分布型式假定的统计分析方法。适于处理总体分布不易确定或未知;分布非正态但无合适转换方法;有一端或两端有不确定数值(如15.0)的资料;等级资料等。参数检验:通常要求样本来自总体分布类型已知(正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数检验。例如,均数的区间估计;t检验/u检验,F检验。完全数据:一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的 不完全数据:亦称截尾数据:一部分病人,或中途失访,或到观察结束时仍存活,对这
26、部分病人无法知道准确的生存时间,只知道其生存时间比观察到的时间要长,它提供不完全的信息,称为不完全数据,亦称截尾数据 生存分析:是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计学分析方法。生存时间:生存时间(survival time)是任何两个有联系事件之间的时间间隔,常用符号t表示。狭义的生存时间常指患某种疾病的病人从发病到死亡所经历的时间跨度,广义的生存时间定义为从某种起始事件到终点事件所经历的时间跨度。生存函数:生存函数(survival function)又称为累积生存率,简称生存率。表示具有协变量X的观察对象其生存时间T大于时间t的概率,常用),(),(XXtTPtS
27、表示。死亡概率:表示一个观察对象从开始观察到时间t为止的死亡概率,它是一个随时间上升的函数:F(t,X)=P(Tt,X),当t趋于无穷大时,死亡概率等于 1。层次分析法:用系统分析的方法,对评价对象依评价目的所确定的总评价目标进行连续性分解,得到各级(各层)评价目标,并以最下层指标作为衡量目标达到程度的评价指标。然后依据这些指标计算出一综合评分指数对评价对象的总评价目标进行评价,依其大小来确定评价对象的优劣等级。Topsis 法:是系统工程中有限方案多目标决策分析的一种常用方法,可用于效益评价、卫生决策和卫生事业管理等多个领域。本法对样本资料无特殊要求,使用灵活简便,故应用日趋广泛。秩和比法:
28、指利用 RSR 进行统计分析的一组方法。其基本思想是:在一个行列矩阵中,通过秩转换,获得无量纲统计量;在此基础上,运用参数统计分析的概念与方法,研究的分布;以 RSR值对评价对象的优劣直接排序或分档排序。频数表:频数表亦称频数分布表,是由变量值的分组和各组段的例数构成 统计描述:指选用恰当的指标,通常称为统计量,选用合适的统计表与统计图,对资料的数量特征及其分布规律进行测定和描述。包括搜集数据、整理数据、总结数据、分析数据以及将数据呈现出来 统计推断:指如何在一定的可信度下由样本信息统计指标来推断总体相应指标,又称参数估计。包括进行推测、假设检验、确定关系然后作出预测,有点估计和区间估计。小概
29、率事件:统计分析中的很多结论都是基于一定可信程度下的概率推断,习惯上将 P=0.05 称为小概率事件,表示一次实验或观察中该事件发生的可能很小,可以视为可能不发生。算术均数:简称均数 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。抽样误差:由个体变异产生的,抽样造成的样本统计量与总体参数的差异 ,标准误:将样本统计量的标准差称,样本均数的标准差称均数标准误,反映了样本均属间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小 自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度 变异系数:多用于观察指标
30、单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。可信区间:按一定的概率或可信度(1-)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间,预先给定的概率(1-)称为可信度或者置信度。如果能进行重复抽样试验,平均有 1-的可信区间包含总体参数。假设检验过去称显著性检验:它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后统计复习题 2 Edited by RYAN DAI 在H0 成立的条件下计算检验统计量,最后获得 P值来判断。检验水准,过去称显著性水准,是预先规定的概率值,它确
31、定了小概率事件的标准。在实际工作中常取=0.05。可根据不同研究目的给予不同设置。标准化法:用统一的内部构成,然后计算标准化率的方法。采用某影响因素的统一标准构成,以消除构成不同对合计率地影响,使标准化后的率具有可比性 P的含义是指从H0 规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。组间变异:各处理组由于接受处理的水平不同,各组的样本均数(i1,2,g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS组间 组内变异:在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组
32、内变异(误差)。组内变异可用组内各测量值Xij与其所在组的均数的差值的平方和表示,记为SS组内,表示随机误差的影响。随机区组设计又称为配伍组设计,是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组 动态数列:是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。二项分布是指在只会产生两种可能结果如“阳性”或“阴性”之一的 n 次独立重复试验中,当每次试验的“阳性”概率保持不变时,出现“阳性”次数 X=
33、0,1,2,n 的一种概率分布。记作:XB(n,)。Poisson 分布:作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson 分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。所谓随机变量 X 服从 Poisson 分布,是指在足够多的 n次独立 Bernoulli 试验中,取值 X 的概率 负二项分布:是统计学上一种离散概率分布。满足以下条件的称为负二项分布:实验包含一系列独立的实验,每个实验都有成功、失败两种结果,成功的概率是恒定的,实验持续到 r 次成功,r为正整数。残差或剩余值,即实测值Y与假定回归线上的估计值 Y 的
34、纵向距离。直线相关系数,Pearson 积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。茎叶图:将数据分离成两部分,整数为茎,尾数为叶 第二章 计量资料的统计描述 1、统计资料可以分成几类?答:根据变量值的性质,可将统计资料分为数值变量资料(计量资料),无序分类变量资料(计数资料),有序分类变量资料(等级资料或半定量资料)。用定量方法测定某项指标量的大小,所得资料,即为计量资料;将观察对象按属性或类别分组,然后清点各组人数所得的资料,即为计数资料;按观察对象某种属性或特征不同程度分组,清点各组人数所得资料称为等级资料。2、不同类型统计资料之间的关系如何?答:根据分析需要,
35、各类统计资料可以互相转化。如男孩的出生体重,属于计量资料,如按体重正常与否分两类,则资料转化为计数资料;如按体重分为:低体重,正常体重,超体重,则资料转化为等级资料。计数资料或等级资料也可经数量化后,转化为计量资料。如性别,结果为男或女,属于计数资料,如男性用 0(或 1),女性用 1(或 0)表示,则将计数资料转化为计量资料。3、频数分布有哪两个重要特征?答:频数分布有两个重要特征:集中趋势和离散趋势,是频数分布两个重要方面。将集中趋势和离散趋势结合起来分析,才能全面地反映事物的特征。一组同质观察值,其数值有大有小,但大多数观察值集中在某个数值范围,此种倾向称为集中趋势。另一方面有些观察值较
36、大或较小,偏离观察值集中的位置较远,此种倾向称为离散趋势。4、标准差有什么用途?答:标准差是描述变量值离散程度常用的指标,主要用途如下:描述变量值的离散程度。两组同类资料(总体或样本)均数相近,标准差大,说明变量值的变异度较大,即各变量值较分散,因而均数代表性较差;反之,标准差较小,说明变量异度较小,各变量值较集中在均数周围,因而均数的代表性较好。结合均数描述正态分布特征;结合均数计算变异系数CV;结合样本含量计算标准误。5、变异系数(CV)常用于哪几方面?答:变异系数是变异指标之一,它常用于以下两个方面:比较均数相差悬殊的几组资料的变异度。如比较儿童的体重与成年人体重的变异度,应使用CV;比
37、较度量衡单位不同的几组资料的变异度。如比较同性别,同年龄人群的身高和体重的变异度时,宜用 CV。6、制定参考值范围有几种方法?各自适用条件是什么?答:制定参考值范围常用方法有两种:正态分布法:此法是根据正态分布的原理,依据公式:XuS 计算,仅适用于正态分布资料或对数正态分布资料。95%双侧参考值范围按:X1.96S 计算;95%单侧参考值范围是:以过低为异常者,则计算:X1.645S,过高为异常者,计算 X1.645S。若为对数正态分布资料,先求出对数值的均数及标准差,求得正常值范围的界值后,反对数即可。百分位数法。用P2.5P97.5估计 95%双侧参考值范围;P5或 P95为 95%单侧
38、正常值范围。百分位数法适用于各种分布的资料(包括分布未知),计算较简便,快速。使用条件是样本含量较大,分布趋于稳定。一般应用于偏态分布资料、分布不明资料或开口资料。7、计量资料中常用的集中趋势指标及适用条件各是什么?统计复习题 2 Edited by RYAN DAI 答:常用的描述集中趋势的指标有:算术均数、几何均数及中位数。算术均数,简称均数,反映一组观察值在数量上的平均水平,适用于对称分布,尤其是正态分布资料;几何均数:用G 表示,也称倍数均数,反映变量值平均增减的倍数,适用于等比资料,对数正态分布资料;中位数:用 M 表示,中位数是一组观察值按大小顺序排列后,位置居中的那个观察值。它可
39、用于任何分布类型的资料,但主要应用于偏态分布资料,分布不明资料或开口资料。8、标准差,标准误有何区别和联系?答:标准差和标准误都是变异指标,但它们之间有区别,也有联系。区别:概念不同;标准差是描述观察值(个体值)之间的变异程度;标准误是描述样本均数的抽样误差;用途不同;标准差常用于表示变量值对均数波动的大小,与均数结合估计参考值范围,计算变异系数,计算标准误等。标准误常用于表示样本统计量(样本均数,样本率)对总体参数(总体均数,总体率)的波动情况,用于估计参数的可信区间,进行假设检验等。它们与样本含量的关系不同:当样本含量 n 足够大时,标准差趋向稳定;而标准误随 n 的增大而减小,甚至趋于
40、0。联系:标准差,标准误均为变异指标,如果把样本均数看作一个变量值,则样本均数的标准误可称为样本均数的标准差;当样本含量不变时,标准误与标准差成正比;两者均可与均数结合运用,但描述的内容各不相同。9、统计推断包括哪几方面内容?答:统计推断包括:参数估计及假设检验两方面。参数估计是指由样本统计量(样本均数,率)来估计总体参数(总体均数及总体率),估计方法包括点值估计及区间估计。点值估计直接用样本统计量来代表总体参数,忽略了抽样误差;区间估计是按一定的可信度来估计总体参数所在的范围,按XuX或 XuSX来估计。假设检验是根据样本所提供的信息,推断总体参数是否相等。10、假设检验的目的和意义是什么?
41、答:在实际研究中,一般都是抽样研究,则所得的样本统计量(均数、率)往往不相等,这种差异有两种原因造成:其一是抽样误差所致,其二是由于样本来自不同总体。如果是由于抽样误差原因引起的差别,则这种差异没有统计学意义,认为两个或两个以上的样本来自同一总体,;另一方面如果样本是来自不同的总体而引起的差异,则这种差异有统计学意义,说明两个或两个以上样本所代表的总体的参数不相等。样本统计量之间的差异是由什么原因引起,可以通过假设检验来确定。因此假设检验的目的是推断两个或多个样本所代表的总体的参数是否相等。11、何谓假设检验?其一般步骤是什么?答:所谓假设检验,就是根据研究目的,对样本所属总体特征提出一个假设
42、,然后用适当方法根据样本所提供的信息,对所提出的假设作出拒绝或不拒绝的结论的过程。假设检验一般分为五个步骤:建立假设:包括:H0,称无效假设;H1:称备择假设;确定检验水准:检验水准用表示,一般取 0.05;计算检验统计量:根据不同的检验方法,使用特定的公式计算;确定 P 值:通过统计量及相应的界值表来确定 P 值;推断结论:如 P,则接受 H0,差别无统计学意义;如 P,则拒绝 H0,差别有统计学意义。12、假设检验有何特点?答:假设检验的特点是:统计检验的假设是关于总体特征的假设;用于检验的方法是以检验统计量的抽样分布为理论依据的;作出的结论是概率性的,不是绝对的肯定或否定。13、如何正确
43、理解差异有无显著性的统计学意义?答:在假设检验中,如 P,则结论是:拒绝 H0,接受 H1,习惯上又称“显著”,此时不应该误解为相差很大,或在医学上有显著的(重要的)价值;相反,如果 P,结论是不拒绝 H0。习惯上称“不显著”,不应理解为相差不大或一定相等。有统计学意义(差异有显著性)不一定有实际意义;如某药平均降低血压 5mmHg,经检验有统计学意义,但在实际中并无多大临床意义,不能认为该药有效。相反,无统计学意义,并不一定无实际意义。如用新疗法治疗某病,有效率与旧疗法无差异,此时无统计学意义,如果新疗法方法简便,省钱,更容易为病人接受,则新疗法还是有实际意义。14、参考值范围与可信区间区别
44、是什么?答:(1)意义不同:参考值范围是指同质总体中包括一定数量(如 95%或 99%)个体值的估计范围,如 95%参考值范围,意味该数值范围只包括 95%的个体值,有 5%的个体值不在此范围内。可信区间是指按一定的可信度来估计总体参数所在范围。如 95%的可信区间,意味着做 100 次抽样,算得 100 个可信区间,平均有95个可信区间包括总体参数(估计正确)有5个可信区间不包括总体均数(估计错误)。(2)计算方法不同:参考值范围用 XuS计算。可信区间用 Xt、Sx或 XuSx计算;前者用标准差,后者用标准误。16、四格表资料的 u 检验和 X2检验的应用条件有何异同?答:(1)相同点:四
45、格表资料的 u 检验是根据正态近似原理进行的,凡能用 u 检验对两样本率进行检验的资料,均能使用 X2检验,两者是等价的,即 u2=X2;u 检验和 X2检验都存在连续校正的问题。(2)不同点:由于 u 分布可确定单、双侧检验界值,可使用 u 检验进行单侧检验;满足四格表 u 检验的资料,可计算两率之差的 95%可信区间,以分析两率之差有无实际意义;X2检验可用于 22 列联表资料有无关联的检验。17、参数检验与非参数检验有何区别?各有何优缺点?答:参数检验是检验总体参数是否有差别,而非参数检验是检验总体分布的位置是否相同。参数检验的优点是能充分利用样本资料所提供的信息,因此,检验效率较高。其
46、缺点是有较严格的使用条件,如要求总体的分布呈态分布,各总体方差要相等,有些资料不满足使用条件,就不能用参数检验。非参数检验的优点是适用范围广。它不要求资料分布的形式,另外可用于等级资统计复习题 2 Edited by RYAN DAI 料或不能确切定量的资料。缺点是不能充分利用样本所提供的信息,因此检验效率较低,产生第二类错误较大。18、非参数检验适用于哪些情况?答:非参数检验用于以下情况:不满足参数检验的资料,如偏态分布资料;分布不明的资料;等级资料或开口资料。19、直线回归与相关有何区别和联系?答:1、区别:在资料要求上,回归要求因变量 y 服从正态分布,自变量 x 是可以精确测量和严格控
47、制的变量,一般称为型回归;相关要求两个变量 x、y 服从双变量正态分布。这种资料若进行回归分析称为型回归。在应用上,说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关。2、联系:对一组数据若同时计算 r 与 b,则它们的正负号是一致的;r 与 b 的假设检验是等价的,即对同一样本,二者的 t 值相等。可用回归解释相关。20、常用的统计图有哪几种?它们的适用条件是什么?答:常用的统计图及适用条件是:条图,适用于相互独立的资料,以表示其指标大小;百分条图及园图,适用于构成比资料,反映各组成部分的大小;普通线图:适用于连续性资料,反映事物在时间上的发展变化的趋势,或某现象随另一现象变迁
48、的情况。半对数线图,适用于连续性资料,反映事物发展速度(相对比)。直方图:适用于连续性变量资料,反映连续变量的频数分布。散点图:适用于成对数据,反映散点分布的趋势。1、集中趋势、离散趋势的统计描述指标以及区别。答:一、集中趋势的描述指标:统计学用平均数这一指标来描述一组变量值的集中位置或平均水平。(1)算术均数:简称均数字,可用于反映一组呈对称分布的位置在数量上的平均水平。(2)几何均数:可用于反映一组经对数转换后呈对称分布的变量在数量上的平均水平,在医学研究中常适用于免疫学的指标。(3)中位数:是将 n 个变量值从小到大排列,位置居中间的那个数。分为奇偶两种情况。(4)百分位数:是一种位置指
49、标,用 PX来表示。二、描述数据变异大小的常用指标有极差、四分位数间距、方差、标准差和变异系数。(1)级差:级差即是一组变量最大的值与最小值之差。(2)四分位数间距:四分位数间距是把全部变量值分为四部分的分位数,即第 1 四分位数、第 2 四分位数、第 3 四分。四分位数间距,是由第三四分位数,和第 1 四分位数向减而得。(3)方差:也叫均方差,反映一组数据的平均离散水平。(4)标准差:是方差的正平方根,其量纲与原变量值相同(5)变异系数:记为 CV,多用于观察指标单位不同时,或均数相差较大时的比较。它实质上是一个相对变异指标,无单位。三、两者的区别。A、集中趋势的描述:(1)算数均数:适用于
50、对称分布资料;(2)几何均数:适合于作对数变换后对称分布资料;(3)中位数和百分位数:适用于任何分布的资料;中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。不同质的资料应考虑分别计算平均数。B、离散趋势的描述:(1)极差不稳定,不灵敏。(2)标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、平均地描述了变量值的离散程度。在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值