《2022年医学统计复习资料 .pdf》由会员分享,可在线阅读,更多相关《2022年医学统计复习资料 .pdf(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、读书之法 ,在循序而渐进 ,熟读而精思第一至五章统计学是 研究数据及其存在规律的科学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。统计学的 总体 是指根据研究目的确定的、全部同质个体的某个(或某些) 变量值。 这里的 个体又称观察单位(或研究单位) ,可以是一个社区、一个特定的人群、一个人、一个血样、一个细胞、一个基因、一个蛋白质等。样本: 总体中 有代表性的一部分。根据研究目的,对研究对象的某个或某些特征(亦称研究指标或项目)实施观测,这些特征(指标或项目)称为变量 。变量的测 得值叫 变量值(也叫观察值或资料)统计工作的步骤一研究设计,二收集资料;三整理资料;四分析资料。计量资
2、料定义通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。如:体重与身高, 特点: 有度量衡单位;多为连续性资料(通过测量得到)计数资料定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点 :没有度量衡单位;多为间断性资料(通过枚举或记数得来)等级资料定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点: 每一个观察单位没有确切值;各组之间有性质上的差别或程度上的不同。总体: 根据研究 目的 确定的 同质的、观察单位的全体 。同质与变异 研究对象具有的相同的状况或属性等共性称同质 或 同质性 ;对于同质的各观察单
3、位,其某变量值之间的差异,称为 变异。误差: 统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有二种:系统误差;随机误差。系统误差: 指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小。特点:具有累加性。 随机误差: 由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。特点:随测量次数参加而减小。抽样误差: 由于抽样原因造成的样本指标与总体指标之间的差别。特点:有抽样发生抽样误差就不可避免。减少抽样误差的方法:(1)增加样本的代表性。样本量n 相等的情况下:整群抽样 单纯随机抽样系统抽样 分层抽样( 2) 增加样本量n (3)
4、选择变异程度较小的研究指标。概率: 描述随机事件发生的可能性大小的数值,常用P来表示。 P 的大小在0 和 1之间。通常一个事件的发生小于5%,就叫小概率事件。频率: 在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。实验设计与调查设计目的:观察不同处理因素的效应。3 个基本要素:1 处理因素和非处理因素、2 实验对象、 3 试验效应通过实验指标表达选择指标的依据(1 准确性、 2 灵敏性、 3 稳定性) 基本原则: 对照的原则(保证均衡一致的条件1、对等 2 同步 3 专设) 、重复原则(样本量) 、随机化原则。频数: 当汇总大量的原始数据时,把数据按类型分组
5、,其中每组数据个数,称该组的频数。频数表(频数分布) : 将变量值分为不同数量的组段,清点各组段的例数。表示各组及其对应的组频数的表格。意义 概括了解变量值在各组段的分布和规律。两个特征:集中趋势与离散趋势(共性与个性)主要用途:1.揭示分布类型2. 发现特大值和特小值3.计算集中趋势指标与离散趋势指标。资料的统计描述:即用少量几个统计指标刻画出原始数据的特征称为统计描述。计量资料频数表的编制步骤1.确定全距( R)=最大值 最小值 2.定组数( 8-15 组)和组距:3.写出组段的下限:第1 组段值小于或等于最小变量值,并以整数(0,5 或 2,4,6, 8)较好。 4.划计并计数:变量(x
6、)归为 L xU(见表 2-1 平均数概念:平均数表示一组同质计量数据集中趋势的位置和平均水平。作用: 是一组计量数据平均水平的代表值;可作为不同组间的比较值。算术均数 ( mean);简称均数 ,用表示 . 一表 2-1 101 名正常成年女性血清总胆固醇频数表组段频数( f)组中值 X fX 2.3- 1 2.45 2.45 2.6- 3 2.75 8.25 2.9- 6 3.05 18.30 3.2- 8 3.35 3.5- 17 3.65 3.8- 20 3.95 12nXxxxXnnffXXX精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第
7、 1 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思4.1- 17 4.25 4.4- 12 4.55 4.7- 9 4.85 5.0- 5 5.15 5.3- 2 5.45 5.6- 5 1 5.75 合计101 409.7 加权法公式计算几何均数适用条件:X 值呈倍数增长或部分数据偏离过大偏态分布(正偏态)资料。计算公式:例 2-4 某地 5 例微丝蚴血症患者治疗7 年后用间接荧光抗体试验测得其抗体滴度分别为1/10,1/20,1/40,1/80,1/160,求几何均数。结论: 平均抗体滴度为1:34(几何均数法)中位数M :定义: 将一组变量值由小到大依次排列,居以中间位次的观察
8、值即为中位数,为这组数据的平均数。适用于描述偏态分布资料的平均水平。如潜伏期、病程资料。中位数的计算N 为奇数N 为偶数百分位数是一种位置指标,用表示。定义: 将一组变量值由小到大依次排列,为第x 百分位数的秩次,其对应的变量值( x)为第 x 百分位数,记为 Px。例: 8位患者某病的住院天数:2 2 2 3 3 4 5 6 求 50%位数和 80%位数。解:第50%位次: nX%=8 0.5=4 中位数 =P50=3(天)第 80%位次: nX%=8 0.8=6.4,用公式2.7 百分位数计算结果的应用1.常计算 P25、P50 、P75、和 P95,为临床治疗提供依据。例 2-9:120
9、 名细菌性痢疾治愈的住院天数P5=3.5(天) ,即只有5%的人住院低于3.5 天。P95=15(天)2.确定医学指标的参考值几个常用的变异指标极差;全距(Range) :意义: R 值越大,表示该组数据的变异越大。缺点: 数据利用不全,部分信息损失,在例数少时结果不稳定。四分位数间距:常用QR 表示QR=P75%-P25%作为变异指标比极差稳定。常用于表示偏态分布资料的变异。例: QR= P75%-P25% =67.739.2=28.5 天表示方法: Md( QR)M=51 天, (QR=28.5 天)标准差的简化计算公式:(列数较少)kkkfffXfXfXfffXX212211)/(06.
10、410175.5175. 2345.21LmmolffXX1lglg()ifXGf510204040 16034.8G11lglg10 lg20 lg40 lg40 lg160lg ()lg () 34.85XGn1(1)2nMX(1)221()2nnMXXxP80(6.4)175truncpxx(天)1/)(22nnXXS1/)(22fffXfXS精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思(频数表资料)例 2-11 甲组 5 名同龄男孩的身高值(cm)X X290 8100 95 9
11、025 100 10000 105 11025 110 12100 标准差的意义:反映一组变量值变异程度,组间单位相同时,S 越小,表示数据的变异程度越小。变异系数 (CV) 1.单位不同时组间变异程度的比较。某地 7 岁年龄组男童身高与体重指标S CV(%) 身高 (cm) 123.10 4.71 3.83 体重 (kg) 22.29 2.26 10.14 结论:7 岁年龄组男童身高与体重值指标比较,体重指标的变异大于身高指标。某地不同年龄组男童身高(cm)年龄组S CV% 1-2 月56.3 2.1 3.73 5-6 月66.5 2.2 3.31 3-3.5 岁96.1 3.1 3.22
12、5-5.5 岁107.8 3.3 3.06 结论:随着年龄增加,身高的变异变小。参数统计 :统计推断方法,通常要求样本来自正态总体,或方差齐等,在这些假设的基础上,对总体参数进行估计和检验,称为参数统计。非参数统计 :有许多资料不符合参数统计的要求,不能用参数统计的方法进行检验,而需要一种不依赖于总体分布类型的假设检验;是通过将样本实际数据排队编秩后,对秩次进行比较,因此也叫秩和检验。抽样误差 :由于抽样引起的样本统计量与总体参数之间的差异。标准误:( x Sx) 表示抽样误差大小的指标;样本均数的标准差。(均数) 标准误 意义:反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体
13、均数的可靠性越大。点估计 是用样本统计量直接估计其总体参数值。如用估计、S 估计等。方法虽简单,但未考虑抽样误差大小区间估计 是按预先给定的概率(1-),确定一个包含总体参数的范围。该范围称为参数的可信区间评价可信区间估计的优劣:正确性:可信度,即区间包含总体参数的理论概率大小,愈接近1 愈好。精确性:区间的宽度,区间愈窄愈好。当样本含量为定值时,上述两者互相矛盾。若只顾提高可信度,则可信区间会变宽可信区间与参考值范围的区别可信区间用于估计总体参数,总体参数只有一个。参考值范围用于估计个体值的分布范围,个体值有很多。95%可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%
14、。95%参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。个体值的波动样本量越大,参考值的范围越稳定,总体均数的可信区间:样本量可信区间越小95% 的可信区间的理解:从正态总体中随机抽取100 个样本,可算得100 个样本均数和标准差,也可算得100 个均数的可信区间,平均约有95 个可信区间包含了总体均数。但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数正常值范围与可信区间正常值范围 概念:绝大多数正常人的某指标范围。(95%,99%, 指绝大多数正常人)91.7155/)500(502502S500X502502X精选学习资料 - - -
15、 - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思用途 :判断观察对象的某项指标是否正常. 可信区间概念:总体均数所在的数值,范围(95%,99% 指可信度) 用途: 估计总体均数正态分布 是描述连续型变量值分布的曲线,医学上许多资料近似服从正态分布。正态分布在统计推断上有重要的直方图的频数分布与正态分布正态分布曲线理论上的特征1)以 X= 为中心 , X 值呈钟型分布对称性减少。(2 )在X= 处, f(x)取最大值。(3 )正态分布由 、决定正态分布的位置和形状。随 不同,曲线位置不同,称为位置参数。越大,曲线形
16、状不同,称 为形状参数。医学参考值 是指包括绝大多数“ 正常人 ” 的各种生理及生化指标常数,也称正常值。 正常值是 指在一定范围内波动的值,医学上常用 95%的范围作为判定正常或异常的参考标准。医学参考值制定时注意问题1.确定诊断指标为“ 定性 ” 或“ 定量 ” 2. 计量数据要确定其分布(正态或偏态 )3.计量资料考虑制定单侧诊断界值还是双侧诊断界值 4.有足够的样本例数(一般不低于100 例)二项分布 是指在只会产生两种可能结果如“ 阳性 ” 或“ 阴性 ” 之一的 n次独立重复试验中, 当每次试验的“ 阳性 ” 概率保持不变时,出现 “ 阳性 ” 的次数 X=0 ,1, 2,n 的一
17、种概率分布。记为XB (n,), n 为试验次数,为“ 阳性 ” 概率。适用条件1,每次试验只会发生两种对立的结果之一,两种互斥结果的概率之和恒等于1;2,每次试验产生某种结果(如“ 阳性 ” )的概率 固定不变;3,各次试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。二项分布的应用总体率的区间估计样本率与总体率的比较两样本率的比较研究非遗传性疾病的家族集聚性群检验I 型错误和II 型错误II 类错误的概率 值的两个规律:1. 当样本量一定时, 愈小 , 则 愈大,反之 ;2.当 一定时 , 样本量增加 , 减少 . 3.举例说明对合计率标准化的基本思想。答:两人群发
18、病率、死亡率、出生率、病死率等的比较,常考虑人群性别、年龄等构成的影响,需对率进行标准化。率标准化法的基本思想就是采用统一的标准人口构成,以消除人口构成不同对人群总率的影响,使算得标准化率具有可比性。举例说明变异系数适用于哪两种形式的资料,作变异程度的比较?答:( 1)度量衡单位不同的多组资料的变异度的比较。例如,欲比较身高和体重何者变异度大,由于度量衡单位不同,不能直接用标准差来比较,而应用变异系数比较。(2)比较均数相差悬殊的多组资料的变异度。例如,3 岁儿童与20 岁成年人身高差异的比较。t 分布的图形与特征t 分布为一簇单峰分布曲线,不同,曲线形状不同 ;t 分布以 0 为中心,左右对
19、称t 分布与 有关, 越小,t 值越分散, t 分布的峰部越低,而两侧尾部翘得越高;当 逼近 , S X逼近X,t 分布逼近 u 分布统计图的概念用点的位置、线段的升降、直条的长短及面积的大小等几何图形表达事物的统计指标大小、对比关系及变化趋势。统计图的种类条图(bar chart)圆图(pie chart) 百分比条图 (percent bar chart) 线图(line graph) 直方图(histogram) 散点图(scatter diagram)统计地图( statistical map)数据分析中应用:箱式图、茎叶图、残差图等。条图 (bar chart)用等宽直条的长短来表示
20、相互独立的各统计;指标的数值大小。分为:可能发生的两类错误假设检验的结果客观实际拒绝 H0不拒绝 H0H0成立I 型错误( ) 推断正确(1) H0不成立即H1成立推断正确(1) II 型错误( ) 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思单式条图:具有一个统计指标,一个分组因素;复式条图:具有一个统计指标,两个分组因素;分段条图:具有两个有隶属关系的统计指标,一个分组因素。圆图 pie chart:用圆的总面积表示事物的全部,用各个扇形面积(圆心角大小)表示各部分比重,适用于各构成
21、比相加为100%的资料。绘制:(1)计算各部分的角度:圆心角(度)=360(2)绘制图形:先画出圆形,再借助量角器画出各圆心角。(3)图例:各扇形内要注明简要的文字和百分比,还可绘入花纹或色彩。直方图 histogram 即频数分布图,用矩形面积表示某个连续型变量的频数(频率)分布。绘制:通常根据频数分布表以横轴表示连续型变量的组段,以纵轴表示频数或频率。箱式图 (箱-髯图) (box-whisker plot )用于比较两个或多个样本分布的中心位置和散布范围。P0 P25 P50 P75 P100 随机抽样的基本原则,亦称“随机化”原则,即总体中每个个体的被抽中的机会均等1.单纯随机抽样也称
22、简单随机抽样,是最简单、最基本的抽样方法。是指所有抽样的基本单位有同样的概率被抽取的抽样方法。2.分层抽样 -此抽样方法的特点是先按某种特征(如性别、年龄、职业、教育程度等)将调查人群分为若干层,然后样本在各层中分别随机抽样,并合成调查。3.机械抽样,又称系统抽样-_是按照某种顺序给总体中的各个体编号,然后随机的抽取一个编号作为第一调查个体,其他的调查个体则按照某种规定的规则抽取。4、整群抽样 _-常应用在以社区居民为对象的大规模流行病学调查中。先将总体分成若干群体,形成一个抽样框;从中随机抽取几个群体组成样本;对抽中群体的全部个体进行调查,称整群抽样。4 种基本抽样方法比较单纯随机抽样系统抽
23、样整群抽样分层抽样优点简单直观,是其它抽样的基础;均数(或比率)及标准误计算简便简便易形;易得到安比例分配的样本便于组织;节省经费;容易控制调查质量抽样误差小; 对不同层可采用不同抽样方法; 可对不同层独立进行分析缺点不适合从例数较多的总体抽样;样本分散,难以组织调查如果抽样间隔与抽样对象的某特征分布吻合,易产生偏差抽样误差较大;群间变异越大,抽样误差越大需要掌握对抽样对象的分层特征。抽样工作量大适用范围主要用于小样本的情形适合抽样对象有某种顺序编号的情形适合抽样总体很大的情况主要用于控制重要混杂因素影响Poisson分布的概念:Poisson 分布更多地专用于研究单位时间、单位人群、单位空间
24、内,某罕见事件发生次数的分布。Poisson分布的性质:1Poisson 分布是一种单参数的离散型分布,其参数为,它表示单位时间或空间内某事件平均发生的次数,又称强度参数。2Poisson分布的方差 2 与均数 相等,即 2=3Poisson 分布是非对称性的,在不大时呈偏态分布,随着 的增大,迅速接近正态分布。一般来说,当=20 时,可以认为近似正态分布,Poisson 分布资料可按正态分布处理。4Poisson 分布的累计概率常用的有左侧累计和右侧累计两种。单位时间或空间内事件发生的次数最多为 k 次的概率(X= 0,1,2, )最少为 k 次的概率(X= 0,1,2,)精选学习资料 -
25、- - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思5Poisson 分布的图形已知,就可按公式计算得出X= 0 ,1,2,时的P(X)值,以X 为横坐标,以P(X)为纵坐标作图,即可绘出Poisson 分布的图形Poisson 分布的形状取决于的大小。 值越小,分布越偏,随着 的增大,分布越趋于对称,当 =20 时,分布接近正态分布,当=50 时,可以认为Poisson 分布呈正态分布N(, ) ,按正态分布处理。6 Poisson 分布是二项分布的极限形式二项分布中,当很小而 n 很大,n时,二项分布趋于Po
26、isson 分布。7 Poisson分布的观察结果有可加性Poisson分布的应用条件:Poisson 分布的应用条件与二项分布相同,即要求事件的发生是相互独立的,发生的概率相等,结果是二分类的。Poisson 分布主要用于研究单位时间或单位空间内某事件的发生数,理论上单位时间或单位空间内的发生数可为无穷大。而用于研究单位人群中某疾病发生数的分布时,单位人群的人数要求大一些,比如以1000 人或更多作为单位人群,某些发病率极低的疾病要求更多。第六章参数估计第一节抽样分布与抽样误差由个体变异和抽样造成的样本统计量与总体参数的差异,称为抽样误差 。抽样误差不可避免,有两种表现形式:1、样本统计量与
27、总体参数间的差异。2、样本统计量间的差异。一、样本均数的抽样分布与抽样误差1、标准误: 样本统计量的标准差。2、 均数的标准误 :样本均数的标准差。3、样本均数的抽样分布的特点: ( 1)各样本均数未必等于总体均数;(2)各样本均数间存在差异;(3)样本均数的分布围绕着总体均数呈现中间多、两边少、左右基本对称,近似服从正态分布;( 4)样本均数的变异范围较之原变量的变异范围小; (5)随着样本量的增大,样本均数变异范围逐渐缩小。4、均数的标准误:X=n均数标准误的估计值:SX=nS5、样本均数X的总体均数与观察值X 的总体均数相同,样本均数X的标准差是X 标准差的n/1。6、非正态分布总体,样
28、本量较大时(n30) ,样本均数的分布接近正态分布。二、样本率的抽样分布与抽样误差1、率的抽样误差:由于抽样所造成的样本率与总体率之间及样本率之间的差别。2、若样本量为n,总体率为 ,样本率为p,理论(1)样本率的总体均数等于总体率。即p=。(2)样本率的总体标准差(即率的标准误)p=n)1 (率的标准误的估计值为Sp=nPP)1((3)对于大量重复随机抽样而言,样本率p 围绕着总体率波动,样本量n 越大,这种波动越小,当n 充分大时, p 的分布就近似于均数为 标准差为n)1(的正态分布(n 充分大通常为n5 和 n(1- )5 且 n40。(4)当总体率 =0.5 时,样本率p的分布为对称
29、分布。(5)当样本量n 为定值时,总体率越接近 0.5 ,样本率p 近似正态分布的程度就越好。第二节总体均数的估计统计推断: 根据样本提供的信息和抽样分布的规律,以一定的概率推断总体的特性。统计推断包括参数估计、假设检验。参数估计: 指用样本指标值(统计量)推断总体指标值(参数)。参数估计包括点估计、区间估计。点估计: 用相应样本统计量直接作为其总体参数的估计值。区间估计: 按预先给定的概率(1- )所确定的包含未知总体参数的一个范围。一、总体均数的点估计1、总体均数的点估计:是直接用随机样本的样本均数X作为总体均数的点估计值。2、点估计方法简单,但未考虑抽样误差。因此,要使得参数估计可信,必
30、须考虑抽样误差,特别是对于小样本。二、总体均数的区间估计1、可信区间: 总体均数的区间估计是按一定的概率(1-)用一个区间来估计总体均数,这个区间称作可信度为(1-)的可信区间,又称置信区间 。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思2、可信度: 预先给定的概率1-称为可信度或置信度,若无特别说明,一般取双侧95%。3、可信区间通常由两个数值即可信限/置信限( CL)构成。其中较小的值称可信下限,较大的值称可信上限。4、总体均数可信区间:(1)总体标准差 已知总体均数的可信度为(1-
31、)的可信区间为(X-a/2X,X+a/2X)=1-(2)总体标准差 未知总体均数的可信度为(1-)的可信区间为(X-ta/2,vSX,X+ta/2,vSX)=1-(3)总体标准差 未知,但 n 足够大( n60)时, t 分布近似标准正态分布总体均数的可信度为(1-)的可信区间为(X-a/2SX,X+a/2SX)例:若随机抽得某地20XX 年 9 名 7 岁正常发育男孩,测得其身高资料,计算其均数X=121.44 ( cm) ,标准差 S=5.75(cm) ,试估计该地20XX 年 7 岁正常发育男孩身高总体均数的95%可信区间。解:本例n=9,计算样本均数标准误为SX=nS=975.5=1.
32、92( cm)V=n-1=9-1=8 ,取双尾 0.05,查 t 界值表得t0.05/2,8=2.306 (X-t/2,vSX,X+t/2,vSX)=(121.44-2.3061.92,121.44+2.3061.92)即该地 20XX 年 7 岁正常发育男孩身高总体均数的95%可信区间为( 117.01,125.87)三、两总体均数之差的区间估计1、假定两总体方差相等,两样本样本量、均数、方差分别为n1、n2,X1、X2,S21、S22,有t=21X2121)()X(XSX,服从自由度为v=n1+n2-2 的 t 分布,其中:均数之差的标准误21XXS=)11(212nnSC,合并方差2CS
33、=2) 1() 1(21222211nnSnSn故21的( 1-)可信区间为(21XX-t/2, (n1+n2-2)21XXS,21XX+t/2, (n1+n2-2)21XXS)(当两样本的样本含量均较大时,t/2,v可用相应的u/2代替,21XXS可用222121nSnS计算)2、可信度为95%的可信区间的涵义是:该区间以95%的概率包含了总体均数。3、可信区间估计的优劣取决于两个要素:准确性、估计精确性。可信度越接近于1 越好; 精确性与 变量的变异度大小、样本量和1-取值有关。请注意: P93 页表 6-7 总体均数的可信区间与个体值参考值范围的区别第三节总体率的估计一、总体率的点估计1
34、、总体率的点估计指直接用随机样本的样本率p 作为总体率 的点估计值。 2 总体率的点估计未考虑到样本率的抽样误差。二、总体率的区间估计:1、根据样本含量和样本率的大小,总体率的区间估计可采用查表法、正态近似法。2、查表法:在样本例数较小,且样本率接近1 或 0,即阳性事件发生率很高或很低时,可按照二项分布原理确定总体率的可信区间。在 n50 时,查附表7(只含 Xn/2 部分) ;X n/2 时,用 n-X 值查表,所得可信区间为总体阴性率可信区间,再用1 减去总体阴性率可信区间,即为总体阳性率可信区间。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -
35、第 7 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思3、近态近似法:当n 较大, p 和 1-p 均不太小时,如np 与 n(1-p)均大于 5 时,样本率p 的抽样分布近似正态分布,可按以下公式求总体率的(1-)可信区间:pu/2Sp,其中 p 为样本率, Sp为率的标准误,u/2为标准正态分布水平的双侧临界值。=0.05 时, u0.05/2=1.96;=0.01 时, u0.01/2=2.58。例:为了解某医院剖腹产情况,在该医院随机抽查了106 人,其中施行剖腹产者62 人,试估计该医院剖腹产率。解:本例n=106,X=62 ,样本率P=10662=0.585, Sp=nPP
36、)1(=0.048 因 np=62 与 n(1-p)=44均大于 5,由 pu/2Sp,得可信下限: 0.585-1.960.048=49.1% 可信上限: 0.585+1.96 0.048=67.9% 即该医院总体剖腹产率的95%可信区间为( 49.1%,67.9%) 。三、两总体率之差的区间估计1、设两个独立样本率分别为p1、p2,当 n1与 n2均较大,且p1、1-p1和 p2、1-p2均不太小,一般认为,当n1p1、n1(1-p1) 、n2p2、n2(1-p2)均大于 5 时,可利用样本率的分布近似正态分布对两总体率的差别做出区间估计:(p1-p2-u/2Sp1-p2,p1-p2+u/
37、2Sp1-p2) ,其中率之差的标准误Sp1-p2=222111)1 ()1 (nppnpp例:对甲、乙两种降压药进行临床疗效评价,将某时间段内入院的高血压病人随机分为两组,每组均为100 人。甲药治疗组80 位患者有效,乙药治疗组50 位患者有效,试估计两种降压药有效率之差的95%可信区间。解:将甲、乙两药治疗组的患者数、治疗有效数分别以n1、X1和 n2、X2表示,则n1p1,n1(1-p1),n2p2,n2(1-p2)均大于 5, p1=80/100=0.8 ,p2=50/100=0.5 ,得:Sp1-p2=222111)1()1(nppnpp=100)5 .01(5.0100)8.01
38、(8.0=0.064 ( 0.8-0.5-1.96 0.064,0.8-0.5+1.96 0.064)即两种降压药有效率之差的95%可信区间为( 17.45%,42.55%)2、服从 Poisson 分布的样本资料,其总体均数1-可信区间的估计方法如下:(1)查表法:当X50 时,查附表8。(2)正态近似法:当X50 时,估计总体均数的1-可信区间公式为Xu/2X。第四节RR 值和 OR 值的估计相对危险度:是两个人群发病率的比值,通常为暴露人群的发病率与非暴露人群(或指定参照人群)的发病率之比。设暴露人群发病率为1,非暴露人群发病率为0,相对危险度RR=1/0 当 RR=1 时,表示该因素对
39、疾病的发病无影响;当 RR1 时,表示该因素为危险因素,它使发病危险度增大;当 RR0.05,不拒绝 H0;P0.05,拒绝 H0,接受 H1。检验水准 :也称显著性水准,是预先规定的判断小概率事件的概率尺度,记为 .第三节u 检验一、大样本均数比较的u 检验:均数比较的u 检验的两个基本前提:样本数据服从正态分布、已知总体方差。均数比较的u 检验主要适用于总体方差未知的大样本数据。1、样本均数与总体均数比较的u 检验u=nX00, (0指已知理论值)当总体标准差0未知, n60 时, 0=S。例:根据1983 年大量调查结果,已知某地成年男子的脉搏均数为72 次/分钟。某医生20XX 年在该
40、地随机调查75 名成年男子,求得其脉搏均数为74.2 次/分钟,标准差为6.5 次/分钟,能否据此认为该地成年男子的脉搏数不同于1983 年?解:(1)建立假设检验,确定检验水平H0:=72,即该地成年男子的平均脉搏没有变化H1:72,即该地成年男子的平均脉搏与1983 年不同=0.05 (2)计算检验统计量u=nX00=755.6722 .74=2.93 (3)确定 P 值,做出推断结论检验界值 u0.05/2=1.96,u0.01/2=2.58,uu0.01/2,得 P0.01,按 =0.05 水准, 拒绝 H0,接受 H1,差别有统计学意义,可认为该地成年男子的脉搏与1983 年不同。2
41、、两样本均数比较的u 检验:u=2121XXXX,其中两均数之差标准误21XX=222121nn当总体标准差1、2未知,两组例数均超过 30 时, 21XX=222121nSnS。例:为研究孕妇补锌对胎儿生长发育的影响,将 96 名孕妇随机分为试验组和对照组,一组在孕期不同时间按要求补锌,另一组为对照组,观察两组孕妇所生新生儿出生体重有无不同。两组的例数、均数、标准差分别为:补锌组n1=48,X1=3427.8g,S1=448.1g;对照组 n2=48,X2=3361.9g,S2=400.1g。问补锌对新生儿出生体重有无影响?解:本例是两样本计量资料,每组例数超过30,故可用两大样本均数比较的
42、u 检验。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 10 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思(1)建立检验假设,确定检验水准H0:1=2,即两组新生儿出生体重总体均数相等,补锌对新生儿出生体重无影响 H1:1 2,即两组新生儿出生体重总体均数不相等,补锌对新生儿出生体重有影响=0.05 (2)计算检验统计量21XX=222121nSnS=481 .400481.4482221=86.71 u=2121XXXX=71.869 .33618 .3427=0.76 (3)确定 P值,做出推断结论u0.05,按 =0.05 水准,
43、接受H0,两组间差别无统计学意义,根据本试验结果不能推断补锌与新生儿出生体重有影响。二、大样本率的u 检验:大样本率的u 检验的基本原理是:假定样本率p 服从正态分布。率的 u 检验对统计量的要求: (1)若样本率 p 介于 0.10.9 之间, 每组例数大于60 例; (2)当样本率在0.10.9 以外时,需要保证np 或 n(1-p)的最小值大于5。1、单样本率的u 检验:u=pp0=np)1(000例:全国调查结果显示,学龄前儿童营养性贫血患病率为23.5%,某医院对当地1396 例学龄前儿童进行了抽样调查,查出营养性贫血患儿363 例,患病率为26.0%。问该地学龄前儿童营养性贫血患病
44、率是否不同于全国平均水平?解:(1)建立假设检验,确定检验水准H0: =0.235,即该地学龄前儿童营养性贫血患病率与全国相同H1: 0.235,即该地学龄前儿童营养性贫血患病率与全国不同=0.05 (2)计算检验统计量u=np)1(000=1396)235.01 (235.0235.0260.0=2.21 (3)确定 P 值,做出推断结论uu0.05/2=1.96,Pu0.05/2=1.96,P时,不能盲目接受H0,下结论时一般不说“没有差别”、 “两总体均数相等” ,只说“未见差别” 、 “尚不能认为两总体均数不相同” 。p 时,可明确下结论“有差别”、 “两总体均数不相同” 。因为犯 I
45、 类错误的概率不会超过 。第五节双侧检验与单侧检验双侧检验:指只检验差别不管差别方向的双向检验。两均数或两个率的比较一般采用双侧检验。单侧检验:指只关心差别单侧方向的单向检验。单侧检验一般不轻易使用。第六节假设检验的统计意义与实际意义一、假设检验的统计意义1、 P 值的正确理解P值:指由 H0所规定的总体做重复随机抽样,获得等于及大于(或等于及小于)当前检验统计量的概率。2、 检验结果的正确理解3、 统计结论的表述在假设检验中,不拒绝H0时,意为比较的总体本质可能无差别,样本统计量的差异由抽样误差引起的可能性很大;拒绝 H0时,研究者相信比较的总体本质有差别,样本统计量间的差异不仅仅是由抽样误
46、差造成的。4、 假设检验与可信区间的区别与联系可信区间用于推断总体均数的范围;假设检验用于推断总体均数间是否相等。二、假设检验的实际意义1、P值大小只能说明统计学意义的“显著”,不一定有实际意义。2、对假设检验结果的实际意义或临床意义的判定,一定要结合专业知识。当专业上和统计学上均具有“显著性”时,试验结果才有实用价值。第七节检验效能检验效能用概率1-表示 , 检验效能的意义是, 当两总体确有差别, 按检验水准 , 假设检验能发现其差别( 拒绝 H。) 的能力。一、影响检验效能的4 个因素:1、总体参数的差异越大,检验效能越大。2、个体差异(标准差)越小,检验效能越大。3、样本量越大,检验效能
47、越大。4、检验水准 (I 类错误的概率)定得越宽,检验效能越大。二、检验效能的估计:在假设检验结果的解释和评价中,特别是分析那些未能拒绝H0的假设检验结果,事后估计检验效能1-的值,有助于判断是总体参数确实无差别,还是由于样本量太小导致的检验效能不足。第八章t 检验1、t 检验适用条件对于计量资料,u 检验适用于总体标准差已知或总体标准差未知但样本含量(n)较大时均数的比较。t 检验用于总体标准差未知的小样本均数的比较。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 12 页,共 19 页读书之法 ,在循序而渐进 ,熟读而精思2、单样本均数的t 检
48、验例 8-1 通过以往大量资料得知某地20 岁男子平均身高为168cm,今随机测量当地16 名 20 岁男子,得其平均身高为172cm,标准差为14cm。问当地现在20 岁男子的平均身高是否比以往高?解:由经验可知身高服从正态分布,样本量较小,可用单样本均数的t 检验,且为单侧检验。(1) 建立假设,确定检验水准H0: = 0 = 168 H1: 0 = 168 (2)计算检验统计量143.116/141681720XSXtv= 16 1 = 15 (3)确定概率值,作出推断结论查 t 界值表得,15,05. 0tt,P 0.05,按05.0的检验水准,不拒绝H0,差别无统计学意义,还不能认为
49、该地20 岁男子平均身高比以往要高。3、配对样本均数的t 检验配对样本均数的t 检验又称配对检验(paired t test ) ,适用于配对设计的计量资料均数的比较,其比较的目的是检验两相关样本均数所代表的未知总体均数是否有差别。应用条件是差值(d ) 变量服从正态分布。例 8-2 某医院用A、 B 两种血红蛋白测定仪器检测了16 名健康男青年的血红蛋白含量(g/L ) ,检测结果见表8-1 第( 1)(3)栏。问:两种血红蛋白测定仪器的检测结果是否有差别。解:本例为同源配对设计。对差值进行正态性检验满足正态性(Shapiro-Wilk 统计量, W=0.949 ,P =0.470) ,可用
50、配对样本均数的 t 检验。1. 建立假设H0: d= 0 即 A、B 两种血红蛋白测定仪器检测的总体平均差异为0;H1: d 0 即 .平均差异不为0. 05.02. 计算检验统计量nSdSdtdd/0本题t = 2.366 , v = 16 1 = 15 3. 确定概率值,作出判断结论查自由度v =15 时的t 值,131.215,2/05.0t,15,2/05. 0tt,P 0.05,按05.0的检验水准, 拒绝 H0,接受 H1 ,差别有统计学意义,可认为A、B 两种血红蛋白测定仪器检测结果有差别。4、正态性检验的方法:1 图示法:简单易行 ,可以粗略了解观察资料是否服从正态分布。常用频