《医学抽样误差与假设检验.pptx》由会员分享,可在线阅读,更多相关《医学抽样误差与假设检验.pptx(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、问题提出研究方法:对总体进行研究,抽样研究除对关乎国计民生和严重危害人民健康的需对总体进行研究外,一般用抽样研究有些领域只能用抽样研究方法研究的目的是对总体下结论,而研究信息来自样本第1页/共33页问题提出样本统计量(样本均数)与总体参数(总体均数)有否差异?若有差异,其规律如何?用什么指标来衡量?怎样用样本信息来推断总体,从而作出结论。第2页/共33页第一节 均数的抽样误差与标准误一、均数的抽样误差 总体 一个摸拟试验:n=100,重复抽100个样本。问题:100个样本均数和1个总体均数是否相同?即是否相同第3页/共33页抽样误差的概念由于抽样而引起的样本均数与总体均数间差异称为均数抽样误差
2、其他统计指标在样本与总体间也存在着抽样误差由于抽样而引起的样本统计指标与总体参数间的差异称为抽样误差本质是个体存在差异,第4页/共33页 二、抽样误差的分布 理论上可以证明:若从正态总体 中,反复多次随机抽取样本含量固定为n 的样本,那么这些样本均数 也服从正态分布,即 的总体均数仍为 。抽样分布 抽样分布示意图第5页/共33页 中心极限定理:当样本含量很大的情况下,无论原始测量变量服从什么分布,的抽样分布均近似正态。抽样分布 抽样分布示意图第6页/共33页 三、标准误(Standard ErrorStandard Error)样本均数的标准差称为标准误。样本均数的变异越小说明估计越精确,因此
3、可以用标准误表示抽样误差的大小:实际中总体标准差 往往未知,故只能求得样本均数标准误的估计值 :第7页/共33页 例4.1 在某地随机抽查成年男子140人,计算 得 红 细 胞 均 数 4.771012/L,标 准 差 0.38 1012/L,试计算均数的标准误。标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。第8页/共33页第二节t分布t值与t分布的引入1.961.960.0250.025X0N(,2)N(0,1)样本均数正态分布观察值正态分布t分布标准正态分布S代替 第9页/共33页t分布 特征不服从标准正态分布,小样
4、本时服从自由度不服从标准正态分布,小样本时服从自由度=n n-1-1的的t t分布分布 t t分布曲线是以分布曲线是以0 0为中心的对称分布为中心的对称分布自由度较小时自由度较小时,曲线峰的高度低于标准正态曲线曲线峰的高度低于标准正态曲线,且曲线峰的宽度也较标准正态分布曲线峰狭,尾部面积大于且曲线峰的宽度也较标准正态分布曲线峰狭,尾部面积大于标准正态曲线尾部面积标准正态曲线尾部面积,而且自由度越小,而且自由度越小,t t分布的这种特征越明显分布的这种特征越明显 (翘尾低狭峰)(翘尾低狭峰)第10页/共33页t分布 特征自由度越大,t分布越接近于正态分布;当自由度逼近时,t分布趋向于标准正态分布
5、。自由度不同,曲线形态不同,t分布是一簇曲线第11页/共33页概率、自由度 与t值关系t界值标准正态分布中u值大小与尾部面积(概率)有关,以 (单侧)和u/2(双侧)表示;在t分布中,当自由度一定时 越小,|t|越大;在 一定时,自由度越小,|t|越大,大于u值在t分布中,t值与、的大小有关;在单侧时(尾部面积取单侧)t 界值表示为t ,双侧时表示为t/2,,其意义为 第12页/共33页概率、自由度 与t值关系t界值一定自由度 和概率 下的 t值t ,,t/2,可通过查t界值表附表获得;例如=9,单侧=0.05,查附表得单侧 t0.05,9=1.833自由度n-1 35-1 34,查附表2,得
6、t0.05/2,34=2.032 第13页/共33页 第三节 总体均数的估计 一、可信区间的概念(Confidence IntervalConfidence Interval)区间估计:指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。事先给定的概率 称为可信度,通常取 。参数估计点估计:不考虑抽样误差,如区间估计:考虑抽样误差第14页/共33页二、可信区间的计算(一)已知一般情况其中 为标准正态分布的双侧界值。可信区间:第15页/共33页标准正态分布(二)未知 通常未知,这时可以用其估计量S 代替,但 已不再服从标准正态分布,而是服从著名的 t 分布。图4-2 4-2 不同自由
7、度的 t 分布图 第16页/共33页 可信区间的计算:计算可信区间的原理与前完全相同,仅仅是两侧概率的界值有些差别。即可信区间:需要注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本情况下(如n100),100),也可以用 替换 近似计算。第17页/共33页 例4.2 4.2 某医生测得2525名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32 3.32 g/Lg/L,标准差为0.57 0.57 g/Lg/L,试计算该种病人血浆纤维蛋白原含量总体均数的95%95%可信区间。下限:上限:第18页/共33页 例4.3 4.3 试计算例4.14.1中该地成年男子红细胞总体均数
8、的95%95%可信区间。本例属于大样本,可采用正态近似的方法计算可信区间。因为 ,则95%95%可信区间为:下限:上限:第19页/共33页 三、模拟实验 模拟抽样成年男子红细胞数。设定:产生100100个随机样本,分别计算其95%95%的可信区间,结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数 ,只有6 6个可信区间没有包含总体参数(用星号标记)。第20页/共33页 图4-4-2 2 模拟抽样成年男子红细胞数100100次的95%95%可信区间示意图 *第21页/共33页 第三节 假设检验的意义和步骤 (H Hypothesis ypothesis T Test)est)一、
9、问题提出 例:新药与传统有效药的对比研究通过有差别的两样本均数推断两总体均数是否相同假设检验或称显著性检验统计推断:参数估计与假设检验。第22页/共33页二、假设检验的基本思想例5.1 5.1 以往通过大规模调查已知某地新生儿出生体重为3.30kg.3.30kg.从该地难产儿中随机抽取3535名新生儿作为研究样本,平均出生体重为3.42kg,3.42kg,标准差为0.40kg,0.40kg,问该地难产儿出生体重是否与一般新生儿体重不同?本例已知总体均数 0 0=3.30kg=3.30kg,但总体标准差 未知,n=n=3535为小样本,样本均数3.42kg3.42kg,S S=0.40kg=0.
10、40kg。第23页/共33页1.差异来源的两种可能性样本均数与总体均数的差异仅仅由抽样误差引起,两总体本质上无差异,称差异无统计学意义,或无显著性;差异不仅仅由抽样误差引起,两总体均数本质上有差异,称差异有统计学意义,或差异有显著性怎样来判断两种可能性,不妨先假设一种情况,第24页/共33页2.检验假设无效假设,零假设H H0 0:0 0,该地难产儿与一般新生儿平均出生体重相同备择假设H H1 1:0 0,该地难产儿与一般新生儿平均出生体重不同这是反证法思想第25页/共33页 假定治疗前后血清甘油三酯检测结果的差值服从正态分布,若 则 服从t t 分布。根据 t 分布能够计算出有如此大差异的概
11、率P P,如果P P 值很小,即计算出的t t 值超出了给定的界限,则倾向于拒绝H0 0,认为治疗前后有差别。图4-4-3 3 利用t t 分布进行假设检验原理示意图 第26页/共33页二、假设检验的基本步骤 1.1.建立假设和确定检验水准 无效假设H0 0(null null hypothesis)hypothesis)指需要检验的假设,备择假设H1 1(alternative alternative hypothesis)hypothesis)指在H0 0成立证据不足的情况下而被接受的假设。例如建立治疗前后血清甘油三酯疗效的无效假设和备择假设分别为 检验水准 是预先规定的拒绝域的概率值,实
12、际中一般取 。第27页/共33页 说明 :备择假设有双侧和单侧两种情况。双侧检验指不论正方向还是负方向的误差,若显著地超出检验水准则拒绝H0 0,即为双侧检验;单侧检验指仅在出现正方向或负方向误差超出规定的水准时则拒绝H0 0 ,如治疗后血清甘油三酯下降的假设可表示为 双侧检验和单侧检验应如何选择,需根据研究目的和专业知识而定。一般情况下,双侧检验更为稳妥,因为对相同的样本,双侧检验得出有显著性差别的结论,单侧检验也一定是显著的。第28页/共33页 2.2.选择检验方法和计算检验统计量 根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法,不同检验方法各有其相应的检验统计量及计算公式
13、。许多假设检验方法是以检验统计量来命名的,如 t 检验、u检验、F检验和 检验等。3.3.确定P P 值并做出统计推断结论 查表得到检验用的临界值,然后将算得的统计量与拒绝域的临界值作比较,确定P 值。如对双侧 t 检验 ,则 ,按检验水准 拒绝H0 0。第29页/共33页 小 结 1.1.总体参数值在现实中通常不能获得,而是通过随机样本来进行估计。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,这种由抽样造成的样本均数与总体均数的差异称为抽样误差。抽样误差的大小可以用标准误进行衡量。2.2.参数估计有点估计和区间估计两种方式。点估计的重要表达方式是平均值;区间估计是指按预先给定的概
14、率,计算出一个区间,使它能够包含未知的总体均数。区间越窄说明估计的准确度越高。第30页/共33页 3.3.总体均数可信区间的计算公式可以利用 的抽样分布获得。一种重要的方法是利用 t 分布计算区间两端的可信限 。单侧可信区间只需将公式中的双侧界值换成单侧界值。4.4.假设检验的思想是,首先对所需要比较的总体提出一个无差别的假设,然后通过样本数据去推断是否拒绝这一假设。其实质是判断观察到的“差别”是抽样误差引起还是总体上的不同,目的是评价两个不同的参数或两种不同处理引起效应不同的证据有多强,这种证据的强度用概率P P 度量和表示。第31页/共33页 5.5.假设检验有三个基本步骤:建立假设和确定检验水准,通常选 选择检验方法和计算检验统计量 确定P P 值和做出统计推断结论 所有的假设检验都按照这三个步骤进行,各种检验方法的差别在于第步计算的检验统计量不同。第32页/共33页谢谢您的观看!第33页/共33页