《抽样误差均数估计于.ppt》由会员分享,可在线阅读,更多相关《抽样误差均数估计于.ppt(90页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章第四章 统计推断基础统计推断基础抽样误差、参数估计抽样误差、参数估计Sampling error and Parameter estimation主要内容主要内容n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n抽样分布抽样分布(分布分布2 分布分布F分布分布)n参数估计参数估计1.抽样误差抽样误差 Sampling error 抽抽样误样误差差中心极限定理中心极限定理标标准准误误抽抽样样分布分布参数估参数估计计了解抽样误差的重要性了解抽样误差的重要性总体同质、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风 险抽样误差抽样误差nsampling err
2、or,sampling variabilityn 由抽样引起的样本统计量与总体参数间的差别。n 原因:个体变异抽样n 表现:样本统计量与总体参数间的差别不同样本统计量间的差别n 抽样误差是不可避免的!n 抽样误差是有规律的!n假假设设一一个个已已知知总总体体,从从该该总总体体中中抽抽样样,对对每每个个样样本本计计算算样样本本统统计计量量(均均数数、方方差差等等),观观察样本统计量的分布规律察样本统计量的分布规律抽样分布规律。抽样分布规律。q正态分布总体正态分布总体q偏三角分布总体偏三角分布总体q均匀分布总体均匀分布总体q指数分布总体指数分布总体q双峰分布总体双峰分布总体均数的模拟试验均数的模拟
3、试验均数的模拟试验均数的模拟试验n考察考察:q样本均数的均数样本均数的均数与与总体均数总体均数有何关系?有何关系?q样本均数的标准差样本均数的标准差与与总体标准差总体标准差有何关系?有何关系?q样本均数的分布样本均数的分布形状如何?形状如何?q不同的样本含量对上述性质的影响如何?不同的样本含量对上述性质的影响如何?抽样分布规律抽样分布规律=5.0=0.5样本含量样本含量n=10抽样次数抽样次数m=100 =5.19 S=0.42 =5.04 S=0.44红细胞计数 =5.03 S=0.52Fractionx2.5 2.8 3.1 3.4 3.744.3 4.6 4.9 5.2 5.5 5.8
4、6.1 6.4 6.777.3 7.6 7.90.1.2.3图图 正态分布正态分布N(5.00,0.502)总体分布总体分布表表4、1N(5.00,0.502)总总体体中中11个个随随机机样样本本的的数数据据(n=10)结论结论 1n各样本均数未必等于总体均数;各样本均数未必等于总体均数;n样本均数间存在差异;样本均数间存在差异;由抽样实验所得的由抽样实验所得的100个样本作出其均数个样本作出其均数 分布分布直方图如图直方图如图4.1。曲线是对抽样得到的。曲线是对抽样得到的100个个 数据拟合的分布曲线。数据拟合的分布曲线。Fraction2.5 2.8 3.1 3.4 3.744.3 4.6
5、 4.9 5.2 5.5 5.8 6.1 6.4 6.777.3 7.6 7.90.1.2.3.4.5.6.7.8.91图图 从正态分布从正态分布N(5.00,0.502)总体中抽样总体中抽样样本均数的分布样本均数的分布 图图 从正态分布从正态分布N(5.00,0.502)总体中抽样总体中抽样样本均数的分布样本均数的分布 Fraction4.14.44.755.35.65.90.1.2.3.4.5结论结论2n 的的分分布布很很有有规规律律,围围绕绕着着,中中间间多多,两两边少,左右基本对称边少,左右基本对称;n样样本本均均数数的的变变异异范范围围较较之之原原变变量量的的变变异异范范围围大大缩小
6、;大大缩小;2.中心极限定理中心极限定理 central limit theorem 抽抽样误样误差差中心极限定理中心极限定理标标准准误误抽抽样样分布分布参数估参数估计计中心极限定理中心极限定理(central limit theorem)(一一)从从均均数数为为、标标准准差差为为 的的正正态态总总体体中中,独独立立随随机机抽抽取取例例数数为为n n的的样样本本,样样本本均均数数 的分布服从正态分布;的分布服从正态分布;样本均数样本均数的均数为的均数为 ;样本均数样本均数的的标准差为标准差为 。中心极限定理中心极限定理 (二二)从从非非正正态态(nonnormal)分分布布总总体体(均均数数为
7、为,方方差差为为)中中随随机机抽抽样样(每每个个样样本本的的含含量量为为n),可可得得无无限限多多个个样样本本,每每个个样样本本计计算算样样本本均均数数,则则只只要要样样本本含含量量足足够够大大(n50),样样本本均均数数也也近近似似服从正态分布。服从正态分布。样本均数样本均数的均数为的均数为 ;样本均数样本均数的标准差为的标准差为 。3.标准误标准误 standard error 抽抽样误样误差差中心极限定理中心极限定理标标准准误误抽抽样样分布分布参数估参数估计计标准误标准误(standard error)n样本统计量的标准差称为标准误。样本统计量的标准差称为标准误。样本均数的样本均数的标准
8、差标准差称为均数的标准误。称为均数的标准误。n均数的标准误表示均数的标准误表示样本均数的变异度样本均数的变异度。n当总体标准差未知时,用样本标准差代替,当总体标准差未知时,用样本标准差代替,n前者称为理论标准误,后者称为样本标准误。前者称为理论标准误,后者称为样本标准误。与样本含量的关系与样本含量的关系nn 越大,越大,均数的均数均数的均数就越接近总体均数;就越接近总体均数;nn 越大,变异越小,分布越窄;越大,变异越小,分布越窄;n对称分布接近正态分布的速度,大于非对称对称分布接近正态分布的速度,大于非对称分布。分布越偏,接近正态分布所需样本含分布。分布越偏,接近正态分布所需样本含量就越大。
9、量就越大。与标准差的关系与标准差的关系1、意义上、意义上n标准差描述个体值之间的变异,即观察值间的离散程度;标准差描述个体值之间的变异,即观察值间的离散程度;n而而标标准准误误是是描描述述统统计计量量的的抽抽样样误误差差,即即样样本本统统计计量量和和总总体体参数的接近程度;参数的接近程度;2、用途上、用途上n标准差常用于表现观察值的波动范围;标准差常用于表现观察值的波动范围;n标准误常表示抽样误差的大小,估计总体参数可信区间。标准误常表示抽样误差的大小,估计总体参数可信区间。3、与样本含量、与样本含量n标准差是随着样本含量的增多,逐渐趋于稳定。标准差是随着样本含量的增多,逐渐趋于稳定。n标准误
10、是随着样本含量的增多,逐渐减少。标准误是随着样本含量的增多,逐渐减少。区区别别与标准差的关系与标准差的关系n首首先先,标标准准差差和和标标准准误误都都是是变变异异指指标标,说说明明个个体体之之间间的的变变异异用用标标准准差差,说说明明统统计计量量之之间间的的变变异异用用标准误。标准误。n其其次次,当当样样本本含含量量不不变变时时,标标准准差差大大,标标准准误误亦亦越大,均数的标准误与标准差成正比。越大,均数的标准误与标准差成正比。联联系系4.抽样分布抽样分布(1)t-distribution 抽抽样误样误差差中心极限定理中心极限定理标标准准误误抽抽样样分布分布参数估参数估计计正态分布的标准化变
11、化正态分布的标准化变化n若若 X N(,),则则 。n因因 ,则则 。从正态分布总体中1000次抽样的 u 值的分布(n=4)Fractionu-4-3-2-1012340.05.1.15.2均数为 0.007559标准差为 1.006294 t 分布的概念分布的概念n实实际际工工作作中中,总总体体方方差差未未知知。所所以以,用用样样本本方差代替总体方差,方差代替总体方差,n此时此时 的分布如何?的分布如何?从正态分布总体中1000次抽样的 值的分布(n=4)Fractiont-8-6-4-2024680.05.1.15.2.25.3.35均数为 0.05696标准差为 1.55827 t 分
12、布的概念分布的概念n用样本方差代替总体方差,此时用样本方差代替总体方差,此时不服从正态分布不服从正态分布。n1908年年,W.S.Gosset(1876-1937)以以 笔笔 名名Student发表了著名的发表了著名的t分布,证明了:分布,证明了:n设设从从正正态态分分布布N(,2)中中随随机机抽抽取取含含量量为为n的的样样本本,样本均数和标准差分别为样本均数和标准差分别为 和和s,设:,设:则则t值服从自由度为值服从自由度为n-1的的t分布分布(t-distribution)。t 分布的概念分布的概念记为:记为:图图 自由度分别为自由度分别为1、5、时的时的t分布分布t分布图形分布图形 f(
13、t)=(标准正态曲线标准正态曲线)=5=10.10.2-4-3-2-1012340.3t分布的特征分布的特征nt分布是一簇曲线,当分布是一簇曲线,当不同时,曲线形状不同;不同时,曲线形状不同;n单峰分布,以单峰分布,以0为中心,左右对称;为中心,左右对称;n当当逼逼近近时时,t分分布布逼逼近近u分分布布,故故标标准准正正态态分分布布是是t分布的特例分布的特例;nt分布曲线下面积是有规律的。分布曲线下面积是有规律的。请看演示请看演示t 分布分布t界值表界值表n表上阴影部分,表示表上阴影部分,表示t,以外的尾部面积占总面积百分数,即以外的尾部面积占总面积百分数,即概率概率P。n表中数据表示表中数据
14、表示 与与 确定时相应的确定时相应的t界值(界值(critical value),),常记为常记为t,。-t0t抽样抽样总体总体样本样本t1t2t3t4tn-3tn-2tn-1tn统计量统计量分布分布t分分布布表表明明,从从正正态态分分布布总总体体中中随随机机抽抽取取的的样样本本,由由样样本计算的本计算的t值接近值接近0的可能性较大,远离的可能性较大,远离0的可能性较小。的可能性较小。n例例如如,当当=10,单单尾尾概概率率=0.05时时,查查表表得单尾得单尾t0.05,10=1.812,则:,则:nP(t-1.812)=0.05n或或P(t1.812)=0.05表表明明:按按t分分布布的的规
15、规律律,从从正正态态分分布布总总体体中中抽抽取取样样本本含含量量为为n=11的的样样本本,则则由由该该样样本本计计算算的的t值值大大于于等等于于1.812的的概概率为率为0.05,或者小于等于,或者小于等于-1.812的概率亦为的概率亦为0.05。-1.81200.050.051.812例例如如,当当=10,双双尾尾概概率率=0.05时时,查查表表得得双尾双尾t0.05,102.228,则:,则:P(t-2.228)+P(t2.228)0.05或:或:P(-2.228t2.228)=1-0.05=0.95。表表明明:按按t分分布布的的规规律律,从从正正态态分分布布总总体体中中抽抽取取样样本本含
16、含量量为为n=11的的样样本本,则则由由该该样样本本计计算算的的t值值大大于于等等于于2.228的的概率为概率为0.025,小于等于,小于等于-2.228的概率亦为的概率亦为0.025。-2.22800.0250.0252.228n单尾:单尾:P(t-t,)=,或,或P(tt,)=n双尾:双尾:P(t-t/2,)+P(tt/2,)=,即即P(-t/2,t t/2,)=1-t0tt分布曲线下面积规律分布曲线下面积规律4.抽样抽样分布分布(2)chi-distribution n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n抽样分布抽样分布n参数估计参数估计 2 分布分布 n设从正态分
17、布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设:n2值服从自由度为n-1的2分布(2-distribution)=4=3=520246810120.00.10.20.30.40.5f(2)=1=2=6 2 分布 请看演示请看演示 2 2 分布分布2分布的特征 n(1)2分布为一簇单峰正偏态分布曲线;随的逐渐加大,分布趋于对称。n(2)自由度为的2分布,其均数为,方差为2。n(3)自由度为的2分布实际上是个标准正态分布变量之平方和。2=u12+u22+uv2 3.840.050.0250.0251.96-1.962分布与正态分布的关系n(4)每一自由度下的2分布曲线都有其
18、自身分布规律。自由度为自由度为1的的 2分布界值分布界值0.00.10.20.30.40.53.840.05n2分布是方差的抽样分布。n2分布说明,从正态分布的总体中随机抽样,所得样本的方差s2接近于总体方差2的可能性大,远离总体方差的可能性小。n即2值接近其均数n-1的可能性大,远离n-1的可能性小。2分布的特征 n自由度10时,20.025,1020.48,20.975,103.25。n从正态分布的总体中随机抽样,得到的样本其2值大于等于20.48的概率为0.025,小于等于3.25的概率亦为0.025。nP(23.25)+P(220.48)0.05 2分布的特征 n2分布近似描述具有某种
19、属性的实际频数Ai与理论频数Ti之间的抽样误差 4.抽样抽样分布分布(3)F-distribution n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n抽样分布抽样分布n参数估计参数估计F分布分布 n设设从从两两个个方方差差相相等等的的正正态态分分布布N(1,2)和和N(2,2)总总体体中中随随机机抽抽取取含含量量分分别别为为n1和和n2的的样样本本,样样本本均均数数和和标标准准差差分分别别为为 、s1和和 和和s2。设:设:n则则F值值服服从从自自由由度度为为(n1-1,n2-1)的的F分分布布(F-distribution)。F分布的特征 n(1)F分分布布为为一一簇簇单单峰峰
20、正正偏偏态态分分布布曲曲线线,与与两两个个自自由由度有关。度有关。n(2)若若F服服从从自自由由度度为为(1,2)的的F分分布布,则则其其倒倒数数1/F服从自由度为服从自由度为(2,1)的的F分布。分布。n(3)自自由由度度为为(1,2)的的F分分布布,其其均均数数为为 2/(2-2),与第一自由度无关。,与第一自由度无关。n(4)第第一一自自由由度度 11时时,F分分布布实实际际上上是是t分分布布之之平平方;第二自由度方;第二自由度 2时,时,F分布实际上等于分布实际上等于 2分布。分布。请看演示请看演示F分布分布n(5)每一对自由度下的每一对自由度下的F分布曲线下的面积分分布曲线下的面积分
21、布规律。布规律。PFF分布的特征分布的特征 nF分分布布表表明明,从从两两个个方方差差相相等等的的正正态态分分布布总总体体中中随随机机抽抽取取含含量量分分别别为为n1和和n2的的样样本本,计计算算所所得得F值,应接近值,应接近v2/(v2-2)。nF(0.05;20,20)=2.12表表示示,从从方方差差相相等等的的正正态态分分布布总总体体中中随随机机抽抽取取n1=n2=21的的样样本本,则则由由两两样样本本计计算算的的F值值大大于于等等于于2.12的的可可能能性性为为0.025,而小于,而小于1/2.12=0.4717的可能性亦为的可能性亦为0.025。F分布的特征 F分布的特征 样本统计量
22、的抽样分布样本统计量的抽样分布任何一个样本统计量均有其分布规律。任何一个样本统计量均有其分布规律。从正态分布总体中抽样:从正态分布总体中抽样:n均数的抽样分布为正态分布;均数的抽样分布为正态分布;n样本方差的分布服从样本方差的分布服从 2分布;分布;n样本方差之比服从样本方差之比服从F分布;分布;nt 值服从值服从 t 分布;分布;n5.参数估计参数估计 Parameter estimation 抽抽样误样误差差中心极限定理中心极限定理标标准准误误分布分布参数估参数估计计1)统计推断的思路统计推断的思路总体总体个体、个体变异个体、个体变异总体参数总体参数未知未知样本样本代表性、抽样误差代表性、
23、抽样误差随机随机抽样抽样样本统计量样本统计量已知已知统计统计 推断推断风风 险险2)统计推断统计推断(statistical inference)n总体参数的估计总体参数的估计(parameter estimation)n假设检验假设检验(hypothesis test)3)参数的估计参数的估计n点估计点估计(point estimation)n区间估计区间估计(interval estimation)按按一一定定的的概概率率或或可可信信度度(1-)用用一一个个区区间间估估计计总总体体参参数数所所在在范范围围。这这个个范范围围称称作作可可信信度度为为1-的的可可信信区区间间(confidenc
24、e interval,CI),又称置信区间。,又称置信区间。【例例4.1】随机抽取随机抽取12名口腔癌患者,检测其发名口腔癌患者,检测其发锌含量,得锌含量,得 =253.05 g/g =27.18 g/g 求发锌含量总体均数求发锌含量总体均数95的可信区间。的可信区间。4)例题:例题:发锌含量t 值的分布值的分布n理论基础:理论基础:t值的抽样分布值的抽样分布-2.201 0 2.201v110.0250.025区间估计:区间估计:可信区间可信区间(confidence interval):n区区间间193.23321.87(g/g)包包含含了了总总体体均均数数,其可信度其可信度(confid
25、ence level)为为95%。n结结论论:口口腔腔癌癌患患者者发发锌锌含含量量总总体体均均数数为为193.23321.87(g/g)(可信度为可信度为95%)。n或或:口口腔腔癌癌患患者者发发锌锌含含量量总总体体均均数数的的95可可信区间为:信区间为:193.23321.87(g/g)。5)均数的均数的(1-)100%可信区间可信区间构建方构建方法法-t,v 0 t,v 1-/2/25)均数的均数的(1-)100%可信区间可信区间构建方构建方法法5)均数的均数的(1-)100%可信区间可信区间构建方构建方法法n均数的均数的(1-)100%的可信区间:的可信区间:n可信限可信限(confid
26、ence limit):样本含量较大时,样本含量较大时,u 值的分布值的分布:0-u u /2/21-样本含量较大时,均数样本含量较大时,均数(1-)100%的可信区间:的可信区间:此时,均数的此时,均数的(1-(1-)100%)100%的可信区间:的可信区间:6)均数之差的均数之差的(1-)100%可信区可信区间间例例4.3 转铁蛋白含量转铁蛋白含量n正常人:正常人:n1=12,n病人:病人:n2=15,问题:两组平均相差多少?问题:两组平均相差多少?问题:正常组 病人组 2?均 数:235.21ug/dl标准差:14.39ug/dl 1?均 数:271.89ug/dl标准差:10.28ug
27、/dl 1-2?与均数之差有关的抽样分布与均数之差有关的抽样分布 “均数之差均数之差”与与“均数之差的标准误均数之差的标准误”之比,之比,服从自由度服从自由度 =n1+n2-2的的 t 分布。分布。样本含量较大时,服从标准正态分布。样本含量较大时,服从标准正态分布。合并方差与均数之差的标准误合并方差与均数之差的标准误n合并方差合并方差(方差的加权平均方差的加权平均)n均数之差的标准误均数之差的标准误根据可得1-2的可信区间:计算:则合并方差为:自自 由由 度度 为为=n1+n2-2=12+15-2=25、0.05的的 t界界 值值 为为:t0.05,25=2.060,则两组均数之差的,则两组均
28、数之差的95可信区间为:可信区间为:(271.89235.21)2.060 4.95=26.48 46.88结论结论:n病病毒毒性性肝肝炎炎患患者者的的血血清清转转铁铁蛋蛋白白含含量量较较正正常常人人平平均均低低36.68(g/dl),其其95可可信信区区间间为为26.4846.88(g/dl)。可信区间可信区间n均数均数n率率n事件数事件数n方差方差7)可信区间的两个要素可信区间的两个要素n可信度可信度(1-),可靠性可靠性q一般取一般取90%,95%。q可人为控制。可人为控制。n精确性精确性q是指区间的大小是指区间的大小(或长短或长短)n兼顾可靠性、精确性兼顾可靠性、精确性影响可信区间大小
29、的因素影响可信区间大小的因素nn可信度可信度qq可信度越大,区间越宽可信度越大,区间越宽nn个体变异个体变异qq变异越大,区间越宽变异越大,区间越宽nn样本含量样本含量qq样本含量越大,区间越窄样本含量越大,区间越窄8)正确理解可信区间:正确理解可信区间:n可信度为可信度为95%的的CI的涵义:的涵义:q每每100个样本,按同样方法计算个样本,按同样方法计算95%的的CI,平均有平均有95%的的CI包含了总体参数。包含了总体参数。n这里的这里的95%,指的是方法本身!而不是某个,指的是方法本身!而不是某个区间!区间!n在可信区间被估计之前,概率是存在的;在可信区间被估计之前,概率是存在的;在可
30、信区间被估计之后,就没有概率了。在可信区间被估计之后,就没有概率了。从从N(0,1)N(0,1)中随机抽中随机抽取取100100个个n=10n=10的样本的样本所估计的所估计的100100个个95%95%可信区间可信区间 -2 -1 0 1 2 按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数。置信区间演示置信区间演示 为为了了对对置置信信区区间间概概念念有有更更好好的的理理解解,并并对对样样本本容容量量、置置信信水水平平对对置置信信区区间间的的影响建立直观印象,请看演示:影响建立直观印象,请看演示:下列说法正确吗?下列说法正确吗?算得某算得某95%的可信区间,则:的
31、可信区间,则:总体参数有总体参数有95%的可能落在该区间。的可能落在该区间。有有95%的总体参数在该区间内。的总体参数在该区间内。该区间包含该区间包含95%的总体参数。的总体参数。该区间有该区间有95%的可能包含总体参数。的可能包含总体参数。该区间包含总体参数,可信度为该区间包含总体参数,可信度为95%。n例如,临床上观察120例使用某生物制剂的患者,其皮疹发生率2/120=1.67%,则该生物制剂的皮疹发生率的95可信上限为:即该生物制剂的皮疹发生率最大为5.2%。9)单侧可信区间单侧可信区间10)注意区别:注意区别:标准差标准差标准误标准误个体变异个体变异 抽样误差抽样误差参考值范围参考值
32、范围 可信区间可信区间变量分布变量分布 抽样分布抽样分布11)可信区间与容许区间的区别可信区间与容许区间的区别(1)可信区间可信区间 用于估计用于估计总体参数总体参数,总,总体参数只有一个;体参数只有一个;容许区间容许区间 用于估计用于估计变量值的分布范变量值的分布范围围,变量值可能很多甚至无限,变量值可能很多甚至无限,95容许区间容许区间的涵义是指有的涵义是指有95的变量值在该范围内。的变量值在该范围内。(2)可可信信区区间间 所所基基于于的的t分分布布是是统统计计量量的的抽样分布,一般均可通用;抽样分布,一般均可通用;容容许许区区间间 所所基基于于的的正正态态分分布布是是变变量量值的分布,只有当分布接近正态分布时方适用。值的分布,只有当分布接近正态分布时方适用。11)可信区间与容许区间的区别可信区间与容许区间的区别总结总结n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n抽样分布抽样分布n参数估计参数估计