《第3节均数的抽样误差和总体均数估计2013临本课件.ppt》由会员分享,可在线阅读,更多相关《第3节均数的抽样误差和总体均数估计2013临本课件.ppt(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第3节均数的抽样误节均数的抽样误差和总体均数估计差和总体均数估计2013临本临本第1页,此课件共59页哦n 参数估计 包括:点估计与区间估计2.假设检验统计推断的两部分内容:统计推断:用样本信息推论总体的特征。第2页,此课件共59页哦样本随机抽取部分观察单位?推断inferenceX参数估计第3页,此课件共59页哦一、均数的抽样误差与标准误第4页,此课件共59页哦2009年某市18岁男生身高N(167.7,5.32)的抽样示意图 第5页,此课件共59页哦 将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制频数图从正态分布总体N(167.7,5.32)随机抽样所得样本均数
2、分布第6页,此课件共59页哦 ,各样本均数 未必等于总体均数;各样本均数间存在差异;样本均数的分布为中间多,两边少,左右基本对称。样本均数的变异范围较之原变量的变异范围大大缩小。可算得这100个样本均数的均数为167.69cm、标准差为1.69cm。XX 样本均数分布具有如下特点:第7页,此课件共59页哦n从正态分布总体从正态分布总体 中以固定中以固定 n 抽样时,样本均数抽样时,样本均数 的分布仍服从正态分布的分布仍服从正态分布 。n n当样本含量当样本含量 n 足够大时,即使从偏态分布总体中以固定足够大时,即使从偏态分布总体中以固定 n 抽样抽样,其样本均数的分布也近似服从正态分布。,其样
3、本均数的分布也近似服从正态分布。),(2NX),(2XNnNX2,n理论上可以证明,第8页,此课件共59页哦抽样误差:抽样误差:由个体变异产生的、抽样造成的样本统由个体变异产生的、抽样造成的样本统计量与总体参数的差别计量与总体参数的差别 原因:原因:1 1)抽样)抽样 2 2)个体差异)个体差异第9页,此课件共59页哦n由于由于变异变异的存在,的存在,抽样研究抽样研究所造成的样本所造成的样本均数与总体均数的差异,以及各样本均数均数与总体均数的差异,以及各样本均数间的差异称为间的差异称为均数的抽样误差均数的抽样误差。n抽样误差在抽样研究中是不可避免的,但抽样误差在抽样研究中是不可避免的,但只要严
4、格遵循随机化抽只要严格遵循随机化抽样的原则,就能估计抽样误差的大小样的原则,就能估计抽样误差的大小。1.均数的抽样误差的概念第10页,此课件共59页哦表示样本统计量抽样误差大小的统计指标。标准误:说明抽样误差的大小,总体计算公式Xn2、标准误(standard error,SE)实质:样本均数的标准差第11页,此课件共59页哦若用样本标准差s 来估计 ,(7-28)XSSnn当样本例数n一定时,标准误与标准差呈正比n当标准差一定时,标准误与样本含量n的平方根呈反比。通过增加样本含量n来降低抽样误差。第12页,此课件共59页哦抽样调查150名3岁女孩的身高均数为92.79cm,标准差为4.61c
5、m,则其标准误是多少?例子:0.38snxscm第13页,此课件共59页哦1、反映样本均数的可靠性;2、估计总体均数的置信区间;3、用于均数的假设检验。第14页,此课件共59页哦指标意义应用标准差(s)衡量变量值变异程度,s越大表示变量值变异程度越大,s越小表示变量值变异程度越小描述正态分布(近似正态分布)资料的频数分布;医学参考值范围的估计标准误()样本均数的变异程度,表示抽样误差的大小。标准误越大表示抽样误差越大,样本均数的可靠性越小;标准误越小表示抽样误差越小,样本均数的可靠性越大总体均数区间估计;两个或多个总体均数间比较的假设检验XS标准差和标准误的区别第15页,此课件共59页哦第16
6、页,此课件共59页哦二、t 分布(一)t分布概念 第17页,此课件共59页哦随机变量XN(,2)标准正态分布N(0,12)z变换Xz第18页,此课件共59页哦第19页,此课件共59页哦,1XXXtnSSn 式中 为自由度(degree of freedom,df)3实际工作中,由于 未知,用 代替,则 不再服从标准正态分布,而服从t 分布。XXS()/XXS第20页,此课件共59页哦均数标准正态分布N(0,12)),(2nN1,nvSXnSXtXStudent t分布自由度:n-1XnXz/第21页,此课件共59页哦0t 分布一簇曲线),(2 NX),(2XN X0N(0,1)XXu XsXt
7、 Xun足够大时,分布分布分布分布ut(1)(2)(3)以固定 n 随机抽样英国统计学家Gosset第22页,此课件共59页哦(二)t 分布的图形与特征 分布只有一个参数,即自由度t第23页,此课件共59页哦 t-5.0-4.0-3.0-2.0-1.00.01.02.03.04.05.0(标准正态曲线)=5=1f(t)图 不同自由度下的t 分布图第24页,此课件共59页哦t 分布与标准正态分布第25页,此课件共59页哦第26页,此课件共59页哦1特征:第27页,此课件共59页哦2 参参 数数(on ly on e):3 t界界 值值 表表:详详 见见 附附 表表2,可可 反反 映映t分分 布布
8、 曲曲 下下 的的 面面 积积。单单 侧侧 概概 率率 或或 单单 尾尾 概概 率率:用用,t表表 示示;双双 侧侧 概概 率率 或或 双双 尾尾 概概 率率:用用/2,t 表表 示示。2、t界值表:详见P312,可反映t分布曲线下的面积。单侧概率或单尾概率:用 表示;双侧概率或双尾概率:用 表示。2参参数数(only one):3t 界界值值表表:详详见见附附表表 2,可可反反映映 t 分分布布曲曲下下的的面面积积。单单侧侧概概率率或或单单尾尾概概率率:用用,t 表表示示;双双侧侧概概率率或或双双尾尾概概率率:用用/2,t表表示示。第28页,此课件共59页哦-tt0第29页,此课件共59页哦
9、 由t界值表可知:相同自由度时,t越大,概率P越 小。相同t值时,双侧概率是单侧概率的两倍。=时,t 分布即为Z分布,故t界值表中最后一行是Z界值。第30页,此课件共59页哦t分布的分位数分布的分位数(双侧双侧t界值界值)/2/21-t/2,-t/2,第31页,此课件共59页哦,ttP,ttP1-t,t分布的分位数分布的分位数(单侧单侧t界值界值)第32页,此课件共59页哦举例:第33页,此课件共59页哦三、总体均数的置信区间估计用样本统计量推断总体参数。总体均数估计:用样本均数推断总体均数。第34页,此课件共59页哦n 点估计(point estimation):n用相应样本统计量直接作为其
10、总体参数的估计值。如用 估计、s估计 等。其方法虽简单,但未考虑抽样误差的大小。X第35页,此课件共59页哦 按预先给定的概率(1)所确定的包含未知总体参数的一个范围。总体均数的区间估计:按预先给定的概率(1)所确定的包含未知总体均数的一个范围。n 如给定=0.05,该范围称为参数的95%可信区间或置信区间;n 如给定=0.01,该范围称为参数的99%可信区间或置信区间。2区间估计(interval estimation):第36页,此课件共59页哦计算总体均数可信区间计算总体均数可信区间n需考虑:需考虑:(1)总体标准差)总体标准差 是否已知,是否已知,(2)样本含量)样本含量n的大小的大小
11、n通常有两类方法:通常有两类方法:(1)t分布法分布法 (2)z分布法分布法第37页,此课件共59页哦n1.1.当当 未知且未知且n 较小时较小时,由于,由于 服从服从 t分布,分布,可按可按 t 分布原分布原理理估计总体均数的可信区间。估计总体均数的可信区间。由于由于 即即 故总体均数(故总体均数(1-1-)100%100%的可信区间为的可信区间为1,2/,2/tttPXXstXstX,2,2,第38页,此课件共59页哦n2、当当 未知但未知但n足够大时足够大时(n 100),),t分布近似分布近似u分布,分布,可以可以 u 界界值代替值代替 t 界值,估计总体均数的可信区间。界值,估计总体
12、均数的可信区间。n3、当当 已知时,可按正态分布已知时,可按正态分布的原理,估计总体均数的可信区间的原理,估计总体均数的可信区间。XXsuXsuX22,XXuXuX22,第39页,此课件共59页哦例 某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64 mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的95%可信区间。本例本例 n=200100,故可采用正态近似的方法按公式,故可采用正态近似的方法按公式(3-8)计算可信区间。今计算可信区间。今 X=3.64、S=1.20、n=200、XS=0.0849,取双尾取双尾 0.05 得得0.05/21.96u。3
13、.641.960.0849(3.47,3.81)(mmol/L)故该地正常成年人血清胆固醇均数的95%可信区间为(3.47,3.81)mmolL。第40页,此课件共59页哦四、置信区间的确切涵义第41页,此课件共59页哦 1.95%的可信区间的理解:的可信区间的理解:(1)我们所估计的可信区间有)我们所估计的可信区间有95%的可能包含所要估计的总体参的可能包含所要估计的总体参数。数。(2)从正态总体中随机抽取)从正态总体中随机抽取100个样本,可算得个样本,可算得100个样本均数和个样本均数和标准差,也可算得标准差,也可算得100个均数的可信区间,平均约有个均数的可信区间,平均约有95个可信区
14、间包个可信区间包含了总体均数含了总体均数。(3)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数该区间包含了总体均数。第42页,此课件共59页哦 2.可信区间的两个要素可信区间的两个要素(1)准确度:准确度:用可信度(用可信度(1 )表示:表示:即区间包含总体均数即区间包含总体均数 的的理论概率大小理论概率大小。当然它愈接近当然它愈接近1愈好,如愈好,如99%的可信区间比的可信区间比95%的可信区间要的可信区间要好好。(2)精确度:精确度:反映在区间的宽度上。反映在区间的宽度上。区间愈窄愈好,如区间愈窄
15、愈好,如95%的可信区间比的可信区间比99%的可信区间要好的可信区间要好。第43页,此课件共59页哦 n当当n确定时,上述两者互相矛盾。确定时,上述两者互相矛盾。n提高准确度(可信度),则精确度降低(可信区间会变宽),势提高准确度(可信度),则精确度降低(可信区间会变宽),势必降低可信区间的实际应用价值,故不能笼统认为必降低可信区间的实际应用价值,故不能笼统认为99%可信区间可信区间比比95%可信区间要好。可信区间要好。n相反,在实际应用中,相反,在实际应用中,95%可信区间更为常用。可信区间更为常用。n在可信度确定的情况下,增加样本含量可减小区间宽度,在可信度确定的情况下,增加样本含量可减小
16、区间宽度,提高精确度。提高精确度。第44页,此课件共59页哦第45页,此课件共59页哦一、假设检验的基本原理第四节 t检验第46页,此课件共59页哦 假设检验的基本原理n反证法:当一件事情的发生只有两种可能A和B,为了肯定一种情况A,但又不能直接证实A,这时否定另一种可能B,则间接肯定了A。n概率论(小概率):如果一件事情发生的概率很小,那么在一次试验时,我们说这个事件是”不会发生的”。从一般的常识可知,这句话在大多数情况下是正确的,但有犯错误的时候,因为概率小也是有可能发生的。第47页,此课件共59页哦 假设检验的基本原理假设检验是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解
17、决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。问题实质上都是希望通过样本统计量与总体参数的差别,或两个样本统计量的差别,来推断总体参数是否不同。这种识别的过程,就是本章介绍的假设检验(hypothesis test)。第48页,此课件共59页哦 例 15.13 根据大量调查,已知一般健康成年男子的脉搏均数为72次/min。某医生在某山区随机抽查100名健康成年男子,求得其脉搏均数为76.2次/min,标准差为4.0次/min,能否认为该山区的健康成年男子脉搏均数高于一般健康成年男子的脉搏均数?第49页,此课件共59页哦 0=72次/min 山区健康成年男子
18、 n 10076.2/minS 4.0/minX 次次一般健康成年男子第50页,此课件共59页哦假设检验的基本思想 据专业知识,有两种可能:0或 0 直接证明是哪种结果都很困难,利用反证法。假设 0,然后借助一定的分布,观察实测 样本情况是否属于小概率事件。如果实测样本情况属于小概率事件,则认为原先的假设是错的,拒绝这个假设;如果实测样本情况不属于小概率事件,则不拒绝原来的假设。第51页,此课件共59页哦假设检验的一般步骤假设检验的一般步骤(一)建立检验假设(一)建立检验假设(hypothesis under test),),确定检验水准确定检验水准无效假设或零假设(无效假设或零假设(null
19、 hypothesis)H0:0 假定总体参数相同假定总体参数相同备择假设或对立假设(备择假设或对立假设(alternative hypothesis)H1:0或或 0(0)假定总体参数不相同,即差别不是由于抽样误差所致。假定总体参数不相同,即差别不是由于抽样误差所致。第52页,此课件共59页哦注意:注意:假设针对的是总体;假设针对的是总体;H0和和 H1是互斥的;是互斥的;单侧、双侧的选择。单侧、双侧的选择。第53页,此课件共59页哦 样本均数所代表的未知总体均数与 已知总体均数0的比较目的 双侧检验是否 单侧检验是否 是否 第54页,此课件共59页哦检验水准(size of test)也称
20、显著性水准(significance level),符号为,常取0.05或0.01。是小概率事件的概率标准,也是假设检验时发生第一类错误的概率。第55页,此课件共59页哦(二)选定检验方法和计算检验统计量根据资料类型、研究设计的类型及分析目的选用适当的检验方法,计算相应的检验统计量。具体有t检验和u检验。第56页,此课件共59页哦(三)确定P值,做出推断结论 用计算得的检验统计量与相应界值表中的界值比较,确定P值。P值是指在H0所规定的总体中做随机抽样,获得等于及大于(或等于及小于)现有统计量的概率。第57页,此课件共59页哦第58页,此课件共59页哦如果P,则按水准拒绝H0,接受H1,称差异有显著性,或差异有统计学意义;如果P,则按水准不能拒绝H0,从而接受它。称差异无显著性或无统计学意义。第59页,此课件共59页哦