《最新卫生统计学-潘海燕 卫统6 总体均数和总体率的估计ppt课件.ppt》由会员分享,可在线阅读,更多相关《最新卫生统计学-潘海燕 卫统6 总体均数和总体率的估计ppt课件.ppt(75页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、均数估计2 【例【例6-1】欲了解某地正常成年男性血清胆固醇的欲了解某地正常成年男性血清胆固醇的平均水平,某研究者在该地随机抽取正常成年男性平均水平,某研究者在该地随机抽取正常成年男性120名,得其血清胆固醇的均数为名,得其血清胆固醇的均数为3.86mmol/L,标,标准差为准差为1.73 mmol/L,据此认为该地正常成年男性,据此认为该地正常成年男性血清胆固醇的平均水平为血清胆固醇的平均水平为3.86 mmol/L。 以样本均数以样本均数3.86mmol/L来代表该地区正常成来代表该地区正常成年男性血清胆固醇的平均水平是否合适?年男性血清胆固醇的平均水平是否合适? 均数估计3均数估计4均数
2、估计5均数估计6均数估计7均数估计8均数估计92.1均数的分布均数的分布: :2.均数的分布和标准误 抽样误差与标准误抽样误差与标准误 先看一个抽样研究例子先看一个抽样研究例子均数估计10 从N(4.6602,0.57462)总体中进行抽样,样本例数n分别为5,10,20,50,每一样本例数抽样100次,观察样本均数的频数分布,会得到什么结论? 抽样误差与标准误抽样误差与标准误 均数估计11Frequency distribution of sample means Value Frequency of mean Sample size=5 Sample size=10 Sample size
3、=20 Sample size=50 0.75 1 1.25 1 1.75 4 1 2.25 2 2 2.75 12 5 2 1 3.25 15 8 9 5 3.75 12 16 24 22 4.25 10 26 31 45 4.75 17 16 22 24 5.25 8 15 10 3 5.75 6 8 2 6.25 7 3 6.75 4 7.25-7.75 1 从N( 4.6602,0.57462)抽样的样本均数分布图123456789(a)1234578n=5(b)123456789n=10(c)123456789n=20(d)123456789n=30(e)均数估计14图图6-1 表表
4、6-1资料资料 100个样本均数的频数分布图个样本均数的频数分布图 抽样误差与标准误抽样误差与标准误 均数估计15 中心极限定理 从正态分布总体 中固定样本含量n反复多次抽样,所得的 各不相同,但它们以为中心呈正态分布。),2(NXX 即使从偏态分布总体抽样,只要n足够大(n50), 也近似正态分布。 抽样误差与标准误抽样误差与标准误 均数估计162.均数的分布和标准误 抽样误差与标准误抽样误差与标准误 2.2 标准误(standard error)2.2.1样本统计量的标准差称为标准误。2.2.2样本均数的标准差称为均数的标准误 均数估计172.均数的分布和标准误 抽样误差与标准误抽样误差与
5、标准误 均数的标准误表示样本均数的变异度 总体标准差未知时,用样本标准差代替 nX nSSX 均数估计184.标准误的计算标准误的计算例 随机抽取某市200名7岁男童的身高均数为124.0cm,标准差为4.6cm,估计抽样误差的大小。)cm(33. 0=2006 . 4=nS=SX 抽样误差与标准误抽样误差与标准误 均数估计192.2.3标准误的用途p衡量样本均数的可靠性; p估计总体均数的可信区间;p用于均数的假设检验。 抽样误差与标准误抽样误差与标准误 均数估计20第二节第二节 t t 分布分布均数估计21样本均数 ,根据标准化变换,则(0,1)XXuN XXN( ,) 实际工作中,总体方
6、差未知。所以,用样本方差代替总体方差,此时 =t t,t t值的分布如何?XXs t 分布分布 均数估计22从N(0,1)中1000次抽样的 t 值的分布(n=4)Fractiont-8-6-4-2024680.05.1.15.2.25.3.35均数为 0.05696标准差为 1.55827 t 分布分布 均数估计232.1概念:从正态总体N(,2)中进行无数次样本含量为n的随机抽样,每次均可得到一个 和一个s,通过公式: 转换,可得无数个t值,t t值的分布即为值的分布即为t t分布分布XXS-X=t t 分布分布 均数估计24自由度为1、5、的t分布 近似标准近似标准正态分布正态分布 t
7、分布分布 均数估计25 2.2特征p以0为中心,左右对称pt分布是一簇曲线形状与自由度有关p当 趋于 时, t分布逼近标准正态分布 pt分布曲线下面积为1 t分布曲线下面积分布可由t值表中查出: 双侧双侧P( tP( t - -t t /2/2) +) +P P( ( t t t t/2/2) = ) = 单侧单侧P P( ( t t - -t t ) = ) = 或或 P P( ( t t t t) = ) = t 分布分布 均数估计26图图6-3 时单双侧界值的概率示意图时单双侧界值的概率示意图 9 t 分布分布 均数估计27从界值表可看出从界值表可看出(1)自由度相同时,界值越大其对应的
8、值越小)自由度相同时,界值越大其对应的值越小 (2)概率)概率 相等时,相等时, 越大,越大, 界值越小界值越小 (3) 值相等时,双侧概率为单侧概率的两倍值相等时,双侧概率为单侧概率的两倍 (4) 时,时, 界值即为界值即为 界值界值 Ptttz t 分布分布 均数估计28第三节第三节 总体均数的估计总体均数的估计 均数估计29 点估计(点估计(point estimation):): 用样本均数估计总体均数。 区间估计(区间估计(interval estimation):): 按一定的概率(可信度,1 -)估计总 体均数所在范围亦称总体均数的可信区间。参数估计:参数估计:点估计、区间估计
9、总体均数的估计总体均数的估计 均数估计30可信区间通常由两个数值即两个可信限可信区间通常由两个数值即两个可信限(confidence limit,CL)表示)表示:较小者称为较小者称为下限下限(lower limit,L)较大者称为较大者称为上限上限(upper limit,U) 总体均数的估计总体均数的估计 均数估计31总体均数可信区间的计算总体均数可信区间的计算.当当已知已知xzn服从标准正态分布 (0,1)N/2/2() 1Pzzz=221xxPzz 总体均数的估计总体均数的估计 均数估计32.当已知22,xxxzxz2xxz 总体均数的估计总体均数的估计 均数估计33图图6-4 总体均
10、数的双侧总体均数的双侧 可信区间可信区间100(1)% 总体均数的估计总体均数的估计 均数估计34总体均数可信区间的计算总体均数可信区间的计算. 未知但未知但n n足够大(足够大(n n5050) 22,xxxzSxzS2xxzS1.96xxS 总体均数的估计总体均数的估计 均数估计35 例例6-36-3中,因中,因n=n=120120, , ,试求该地正常成年男性,试求该地正常成年男性 血清胆固醇平均水平的血清胆固醇平均水平的9595可信区间。可信区间。 3.86mmol/Lx 1.73mmol/L1.731.963.86 1.963.86 0.31120 xxS即(即(3.55,4.17)
11、mmol/L 总体均数的估计总体均数的估计 均数估计36常用单双侧u值 单侧 双侧 0.101.2821.645 0.051.6451.960 0.022.0542.326 0.012.3262.578均数估计37同理,可推导出相对应的单侧可信区间同理,可推导出相对应的单侧可信区间 xxzxxz Sxxzxxz S 总体均数的估计总体均数的估计 均数估计38总体均数可信区间的计算总体均数可信区间的计算.当当未知未知n n 较小较小2,2,xxxtSxtS2,xxtS 总体均数的估计总体均数的估计 均数估计39同理,可推导出相对应的单侧可信区间同理,可推导出相对应的单侧可信区间 ,xxtS ,x
12、xtS 总体均数的估计总体均数的估计 均数估计40 从总体中作随机抽样,每个样本可以算得从总体中作随机抽样,每个样本可以算得一个可信区间。如一个可信区间。如95%可信区间意味着做可信区间意味着做100次抽样,算得次抽样,算得100个可信区间,平均有个可信区间,平均有95个估计正确。个估计正确。 可信区间的两个要素可信区间的两个要素 一是准确度一是准确度: : 反映在可信度的大小反映在可信度的大小 二是精密度二是精密度: : 反映在区间的长度反映在区间的长度 可信区间的涵义可信区间的涵义 总体均数的估计总体均数的估计 均数估计41图图6-5 从从N(0, 1)中随机抽样算得的)中随机抽样算得的1
13、00个个95可信区间(可信区间(n=10) 总体均数的估计总体均数的估计 均数估计42 1.标准差与标准误有什么区别与联系?标准差与标准误有什么区别与联系?思考题思考题可信区间与参考值范围有什么不同?可信区间与参考值范围有什么不同?均数估计43第四节第四节 二项分布与二项分布与Poisson分布分布均数估计44 在医学领域中,有一些随机事件是只在医学领域中,有一些随机事件是只具有两种互斥结果的离散型随机事件,如具有两种互斥结果的离散型随机事件,如某种化验结果的阳性与阴性,接触某传染某种化验结果的阳性与阴性,接触某传染源的感染与未感染等。统计学上将这类只源的感染与未感染等。统计学上将这类只具有两
14、种互斥结果的随机试验称为贝努利具有两种互斥结果的随机试验称为贝努利试验(试验(Bernoulli trial)。)。 二项分布二项分布均数估计45【问题【问题6-4】假设服用某药物后有10%的人出现过敏反应。若3人服药后,出现0、1、2或3个人过敏的概率分别是多少?均数估计46贝努利试验序列特点:贝努利试验序列特点: 每次试验的结果只能是两种互斥结果中的一种;每次试验的结果只能是两种互斥结果中的一种; 各次试验的结果互不影响;各次试验的结果互不影响; 在相同试验条件下,各次试验中出现某一结果在相同试验条件下,各次试验中出现某一结果A A 具有相同的概率具有相同的概率。 均数估计47均数估计48
15、 一般地,在一个n重贝努利试验中,令X表示事件A发生的次数,则随机变量X所有可能的取值为0, 1, 2, , n,且其概率函数为: 贝努利试验序列中某一结果A出现次数的概率分布称二项分布(binomial distribution), 记为:),(nBX均数估计49 n为独立的贝努利试验次数;为独立的贝努利试验次数;为阳性的概率;为阳性的概率;(1-)为阴性的概率;)为阴性的概率; X为在为在n次贝努利试验中出现阳性的次数;次贝努利试验中出现阳性的次数; 表示在表示在n次试验中出现次试验中出现X的各种组合情况称二项系数的各种组合情况称二项系数 。XnXXnCXP)1()(XnC均数估计50连续
16、型分布:连续型分布:z分布、分布、t分布和分布和F分布等分布等 离散型分布:二项分布和离散型分布:二项分布和Poisson分布等分布等 在二项分布中,参数在二项分布中,参数 称为离散参数,称为离散参数,只能取正整数;参数只能取正整数;参数 是事件是事件A发生的发生的概率。概率。 n均数估计51(1)二项分布的概率之和等于)二项分布的概率之和等于1 1)1(0nXXnXXnC均数估计52(2)单侧累积概率)单侧累积概率至多有至多有 例阳性的概率(下侧累积概率)例阳性的概率(下侧累积概率)mXXnXXnCmXP0)1()(m均数估计53(2)单侧累积概率)单侧累积概率至少有至少有 例阳性的概率(下
17、侧累积概率)例阳性的概率(下侧累积概率)m)1(1)(mxPmxP均数估计54阳性结果发生数X的总体均数n总体方差)1 (2 n 总体标准差)1 (n 均数估计55n=3,=0.300.10.20.30.40.50123456789 10 11 12 13 14 15xP(x)n=6,=0.300.10.20.30.40.5012345678910 11 12 13 14 15xP(x)n=10,=0.300.10.20.30.40.50123456789 10 11 12 13 14 15xP(x)n=20,=0.300.10.20.30.40.50123456789 10 11 12 13
18、 14 15xP(x)=0.3时时, 不同不同n值对应的二项分布值对应的二项分布均数估计56均数估计57均数估计58 【例【例6-5】已知某地新生儿先天性心脏病的发病率为9,试计算该地100名新生儿中有3人患先天性心脏病概率。能否用前述二项分布进行计算?是否有更为简便的计算方法?均数估计59【例【例6-5】若用二项分布:】若用二项分布:3X100n009. 09733100)009. 01 (009. 0)3( CP均数估计60 Poisson分布分布 Poisson分布分布是一种重要的离散型概率分布,是一种重要的离散型概率分布,用于研究单位时间、单位人群、单位空间内,某用于研究单位时间、单位
19、人群、单位空间内,某罕见事件发生次数的分布。具有罕见事件发生次数的分布。具有n很大而事件发生很大而事件发生率很小的特点。率很小的特点。均数估计61若随机变量X的可能取值为0,1,2,且其概率分布为eXXPX!)(, 2 , 1 , 0X 则称X服从参数为的Poisson分布(Poissons distribution),记为 ( )X均数估计62【例【例6-5】中:】中:049. 0! 39 . 0)3(9 . 03eP3X100n009. 09 . 0n均数估计63是是Poisson分布所依赖的唯一参数分布所依赖的唯一参数 均数估计64均数估计65值愈小分布愈不对称; 增大,Poisson分
20、布趋于对称; ,Poisson分布接近于正态分布. 20Poisson分布具有以下特征:分布具有以下特征: 与与 相等相等 具有可加性具有可加性2均数估计66第五节第五节 总体率的估计总体率的估计均数估计67【例【例6-6】某市疾控中心对该市郊区某市疾控中心对该市郊区200名小学生进行贫血名小学生进行贫血的检测,结果发现有的检测,结果发现有80名小学生贫血,则认为该市郊区小名小学生贫血,则认为该市郊区小学生贫血率为学生贫血率为40.0%。【问题【问题6-6】 这是什么资料?该研究属于何种设计方案?40.0%来代表该市郊区小学生贫血率是否合适?怎样估计该市郊区小学生贫血率? 均数估计68率的抽样
21、误差与标准误率的抽样误差与标准误 由于抽样而引起的样本率与总体率的差异称为率的抽样误差, 用率的标准误度量。 np)1 (均数估计69实际工作中,常用样本p作为的估计值 (1)pppSn均数估计70例6-6中: 200n 0.40p 035. 0200)4 . 01 (4 . 0ps均数估计71总体率的估计总体率的估计查表法:正态分布法: 10,50或接近且pn 51)大于(或足够大,pnnpn22(,)pppzSpzS均数估计72【例【例6-7】某医院应用氨苄青霉素治疗呼吸道感染,45例患者中有2例发生过敏反应。试估计过敏反应发生率的95%可信区间。 查附表查附表5 5(百分率的可信区间表),(百分率的可信区间表), 的行与的行与 的列交叉处的数值为的列交叉处的数值为1 11515, 即氨苄青霉素即氨苄青霉素过敏反应发生率的过敏反应发生率的95%95%可信区间为(可信区间为(1%1%,15%15%)。)。45n 2X 均数估计73【例【例6-6】某市疾控中心对该市郊区200名小学生进行贫血的检测,结果发现有80名小学生贫血,检出率为40.0%。试估计该区贫血发生率的95%可信区间。200n 0.40p 80np (1)120np20.05 210.400(1 0.400)0.400 1.960.332,0.468200ppppZSpzn均数估计74