《卫生统计学习题及答案版 .doc》由会员分享,可在线阅读,更多相关《卫生统计学习题及答案版 .doc(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学习题二、简答1.简述描述一组资料的集中趋势和离散趋势的指标。集中趋势和离散趋势是定量资料中总体分布的两个重要指标。(1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。算术均数:适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。(2)描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。四分位数间距:适用于各种分布的资料,特别是偏峰分布资
2、料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比较。2.举例说明变异系数适用于哪两种形式的资料,作变异程度的比较?度量衡单位不同的多组资料的变异度的比较。例如,欲比较身高和体重何者变异度大,由于度量衡单位不同,不能直接用标准差来比较,而应用变异系数比较。3. 试比较标准差和标准误的关系与区别。 区别:标准差S:意义:描述个体观察值变异程度的大小。标准差小,均数对一组观察值得代表性好;应用
3、:与均数结合,用以描述个体观察值的分布范围,常用于医学参考值范围的估计;与n的关系:n越大,S越趋于稳定;标准误SX:意义:描述样本均数变异程度及抽样误差的大小。标准误小,用样本均数推断总体均数的可靠性大;应用于均数结合,用以估计总体均数可能出现的范围以及对总体均数作假设检验;与n的关系:n越大,SX越小。联系:都是描述变异程度的指标;由SX=s/n-1可知,SX与S成正比。n一定时,s越大,SX越大。4.简述应用相对数时的注意事项。应用相对数应该注意:防止概念混淆,避免以比代率的错误现象;计算相对数时分母应有足够数量,如果例数较少会使相对数波动较大,应该使用绝对数;正确的计算频率(或强度)指
4、标的合计值。当分组的资料需要合并起来估计频率(或强度)时,应将各组频率的分子相加作为合并估计的分子,各组的分母相加作为合并估计的分母;频率型指标的解释要紧扣总体和属性;相对数间比较要具备可比性:要注意观察对象是否同质、研究方法是否相同、观察时间是否一致、观察对象内部结构是否一致、对比不同时期资料应注意客观条件是否相同;正确进行相对数的统计推断:在随机抽样的情况下,从样本估计值推断总体相对数应该考虑抽样误差,因此要进行参数估计和假设检验。5.说明率的标准化的基本思想及注意事项。标准化:两个率或多个率之间进行比较时,为消除内部构成不同的影响,采用统一的标准,对两组或多组资料进行校正(调整),计算得
5、到标准化率后再做比较的方法,称为。其目的是统一内部构成,消除混杂因素,是资料具有可比性。应用标准化法的注意事项:标准化法的应用范围很广。当某个分类变量在两组中分布不同时,这两个分类变量就成为两组频率比较的混杂因素,标准化的目的是消除混杂因素。标准化后的标准化率,已经不再反映当时当地的实际水平,只表示相互比较的资料间的相对水平。标准化法实质是找一个标准,使两组得意在一个共同的平台上进行比较。选择不同的标准,算出的标准化率也会不同,比较的结果也未必相同,因此报告比较结果时必须说明所选用的标准和理由。两样本标准化率是样本值,存在抽样误差。比较两样本标准化率,当样本含量较小时,还应作假设检验。6. 简
6、述二项分布、Poisson 分布、正态分布三者的关系。 二项分布与Poisson分布的关系:当n很大,发生概率(或1-)很小,二项分布B(n,)近似于Poisson分布P(n);二项分布与正态分布的关系:当n较大,不接近0或1(特别是当n和n(1-)均大于5时),二项分布B(n,)近似于正态分布N(n,n(1-);Poisson分布与正态分布的关系:当20时,Poisson分布渐进正态分布N(,)。7.试述假设检验中I型错误与II型错误的意义及关系。统计推断实际情况拒绝H0,有差异不拒绝H0,无差异H0成立,无差异第类错误(假阳性),概率=正确,概率=1-H1成立,有差异正确,该概率=1-第类
7、错误(假阴性),概率=关系: +不一定等于1。在样本容量确定的情况下,与不能同时增加或减少。统计检验力(1-)。8.试比较完全随机设计和随机区组设计资料的方差分析基本思想。设计方案SS总的分解v总完全随机设计SS总=SS组间+SS组内v总=v组间+v组内随机区组设计SS总=SS处理+SS区组+SS误差v总=v处理+v区组+v误差9、参考值范围与总体均数置信区间的区别。10.医院拟研究某新药治疗高血压的疗效,试确定该研究设计中的三要素。实验设计的基本要素:受试对象、处理因素、实验效应;受试对象即为高血压患者,且应分实验组与对照组;处理因素至少应包括旧药治疗、新药治疗,最好设有安慰剂治疗;实验效应
8、即疗程开始及结束时患者血压变化状况。11.简述非参数检验的应用条件和优缺点。非参数检验适用于:有序变量资料;总体分布类型不明的资料;分布不对称且无法转化为正态分布资料;对比组间方差不齐,有无适当变换方法达到方差齐性的资料;一端或两端观察值不确切的资料;等级资料。优缺点:不以特定的总体分布为前提,也不针对决定总体分布的几个参数做推断,进行的是分布之间的检验。一般不直接用样本观察值做分析,统计量的计算基于原数据在整个样本中按大小所占位次。由于丢弃了观察值的具体数据,只保留了大小次序的信息,凡适合参数检验的资料,应首选参数检验。 12.举例简要说明随机区组设计资料秩和检验的编秩方法。随机区组设计资料
9、秩和检验的编秩方法为将每个区组的数据由小到大分别编秩,遇相同数据取平均秩次,按处理因素求秩和;T+T-=n(n+1)/2。13.简述相关分析的步骤。进行相关分析前,应先绘制散点图。只有散点有线性趋势时,才能进行直线相关分析。线性相关分析要求两个变量都是随机变量,而且仅适用于二元正态分布资料;出现离群值慎用相关;相关关系不一定是因果关系;分层资料盲目合并易出现假象;样本的相关系数接近零并不意味着两变量间一定无相关性,有可能是非线性的曲线关系。14.简述回归模型的适用条件。线性回归模型的适用条件:线性:因变量Y与自变量X称线性关系;独立:每个个体观察值之间互相独立;正态性:任意给定X值,对应的随机
10、变量Y都服从正态分布;等方差性:在一定范围内不同的X值所对应的随机变量Y的方差相等。简记为LINE。15. 试述直线相关与直线回归的区别与联系。 区别: 单位:相关系数r没有单位,回归系数b有单位;所以,相关系数与单位无关,回归系数与单位有关;应用目的:说明两变量间的关联性用相关分析,说明两者依存变化的数量关系则用回归分析;对资料的要求不同:线性回归要求应变量Y是服从正态分布的随机变量;线性相关要求两个变量X和Y为服从双变量正态分布的随机变量。取值范围:-b+,-1r1;意义:回归系数b表示X每增(减)一个单位,Y平均改变b个单位;相关系数r说明具有线性关联的两个变量间关系的密切程度与相关方向
11、;计算:联系: 方向一致:r与b的正负号一致;假设检验等价:tr=tb; ;用回归解释相关决定系数(coefficientofdetermination):回归平方和越接近总平方和,则r2越接近1,相关性越好。三、分析题(不需要具体计算,给出大概计算步骤即可)1.某研究调查了山区、丘陵、平原和沿海地区居民饮用水中氟含量与氟骨症患病率如下表,试问:1)饮用水中氟含量与氟骨症患病率有无关系?2)有人说,如相关系数的检验结果为P0.05,可认为,饮水中氟含量高是导致氟骨症高发的原因之一,对吗?氟含量(mg/l) 0.48 0.64 4.00 1.48 1.60 2.86 3.21 4.71患病率(%
12、) 22.37 23.31 25.32 22.29 28.59 35.00 46.07 46.08答:1)通过相关分析确定是否有关系:由于两个变量中患病率不能确定其正态性,本研究宜采用秩相关分析;首先对资料依次进行编秩,根据公式计算秩相关系数rs,然后进行秩相关系数的假设检验,H0: s=0相关系数为0, H1:s0相关系数不为0;=0.05;通过查表或t检验的方法求得统计量与P值,按检验水准作出统计推断。2)P90 11 12 13 (1) 对该资料进行编秩,以便进行统计分析。(2) 两组的理论秩和分别为多少?(3) 作出统计推断。答:(3)(1)建立检验假设,确定检验水准H0:两组温热治疗
13、时小鼠的生存天数总体分布位置相同;H1:两组温热治疗时小鼠的生存天数总体分布位置不相同;=0.05;(2)计算检验统计量根据公式计算统计量T值(3)确定P值,作出推断通过查T界值表,确定P值 若P0.05,接受H0,可认为两组温热治疗时小鼠的生存天数总体分布位置相同。 若P0.05,拒绝H0,接受H1两组温热治疗时小鼠的生存天数总体分布位置不相同。四、论述题1.估计样本例数的意义何在?需要确定哪些前提条件?答:样本含量估计充分反映了重复的基本原则,过小过大都有其弊端。样本含量过小,所得指标不稳定,用以推断总体的精密度和准确度差;检验的功效低,应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的依据。样本含量过大,会增加实际工作的困难,浪费人力、物力和时间。可能引入更多的混杂因素,从而影响数据的质量。实验所需的样本含量取决于4个因素:(1)假设检验的第类错误的概率(2)假设检验的第类错误的概率(3)容许误差(4)总体标准差或总体概率。