《第六章参数估计基础.ppt》由会员分享,可在线阅读,更多相关《第六章参数估计基础.ppt(76页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六章第六章 参数估计基础参数估计基础预防医学教研室 徐 谦 Tel:39358036主要内容v抽样分布与抽样误差vt分布v总体均数和总体概率的估计统计推断:统计推断:(statistical inference)v通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程,即为统计推断。总体总体样本样本抽取部分观察单位抽取部分观察单位 统计量统计量统计量统计量 参参参参 数数数数 如:如:样本均数样本均数 样本标准差样本标准差S 样本率样本率 P如:总体均数如:总体均数 总体标准差总体标准差 总体率总体率统计推断统计推断常用的统计推断方法v 参数估计(estimation of param
2、eters)假设检验(test of hypothesis)第一节 抽样分布与抽样误差1 1、抽样试验、抽样试验 从正态分布总体从正态分布总体N N(5.00,0.505.00,0.502 2)中,每)中,每次随机抽取样本含量次随机抽取样本含量n n5 5,并计算其均数与标,并计算其均数与标准差;重复抽取准差;重复抽取10001000次,获得次,获得10001000份样本;计份样本;计算算10001000份样本的均数与标准差,并对份样本的均数与标准差,并对10001000份样份样本的均数作直方图。本的均数作直方图。按上述方法再做样本含量按上述方法再做样本含量n n1010、样本含、样本含量量n
3、 n3030的抽样实验;比较计算结果。的抽样实验;比较计算结果。A A、抽样试验、抽样试验(n n=5=5)B B、抽样试验、抽样试验(n n=10=10)C C、抽样试验(、抽样试验(n n=30=30)10001000份样本抽样计算结果份样本抽样计算结果总体的总体的均数均数总体标总体标准差准差 均数的均数的均数均数均数标准差均数标准差n n=5=55.005.000.500.504.994.990.22120.22120.22360.2236n n=10=105.005.000.500.505.005.000.15800.15800.15810.1581n n=30=305.005.000
4、.500.505.005.000.09200.09200.09130.09133 3个抽样实验结果图示个抽样实验结果图示组段频数频率(%)152.611.0153.244.0153.833.0154.41919.0155.02525.0155.62323.0156.21818.0156.8157.4414.01.0158.0158.622.0合计 100 100表6-2 从正态总体 中随机抽样求得的100个样本均数的频率分布抽样误差:抽样误差:(sampling error)v由个体变异产生的,抽样造成的样本统计量与总体参数的差异,即为抽样误差。样本均数作为随机变量:v各样本均数未必等于总体均
5、数;v样本均数之间存在差异;v样本均数的分布很有规律,围绕着总体均数(155.4cm),中间多,两边少,左右基本对称;v样本均数的变异范围较之原变量的变异范围大大缩小。v随着样本量的增大,样本均数的变异范围逐渐减少。样本均数的抽样误差样本均数的抽样误差 定义:由抽样造成的样本均数与样本均数间、样本均数与总体均数间的差异称为均数的抽样误差。均数的抽样误差。用样本均数的标准差来表示,通常称为样本均数的(standard error of mean,SE或或SEM)。符号:从均数为,标准差为的正态或偏态总体,抽取例数为n的样本,样本均数 的总体均数也为,标准差用 表示。意义:它反映样本均数之间的离散
6、程度,也反映样本均数抽样误差的大小。理论上,样本均数的标准差,即均数的标准误实际应用中,均数标准误的估计值 公式的含义 故均数标准误与标准差成正比,与样本例数n的平方根成反比,若标准差不变,则可通过增大n来减小均数标准误,从而降低抽样误差。当样本量n较小时,样本均数的分布并非正态分布;样本量足够大时(如n50)时,样本均数的分布近似于正态分布;对于偏态分布对于偏态分布:抽样实验小结:抽样实验小结:v均数的均数均数的均数围绕总体均数上下波动。围绕总体均数上下波动。v均数的标准差即标准误均数的标准差即标准误 与总体标准差与总体标准差v 相差一个常数的倍数,即相差一个常数的倍数,即v样本均数的标准误
7、(样本均数的标准误(Standard Error)v=样本标准差样本标准差/v从正态总体从正态总体 中抽取样本,获得中抽取样本,获得均数的分布仍近似呈正态分布均数的分布仍近似呈正态分布 。中心极限定理中心极限定理(central limit theorem)1、从正态总体N(,)中,随即抽取例数为n的样本,样本均数 也服从正态分布;即使从偏态总体随机抽样,当n足够大时(如n50),也近似正态分布;2、随着样本量的增大,样本均数的变异范围也逐渐变窄。二、样本频率的抽样分布与抽样误差二、样本频率的抽样分布与抽样误差例如v在一口袋装有形状、重量完全相同的黑球和白球,已知黑球比例为20%(总体概率=2
8、0%)。从口袋中每摸一次看清颜色后放回去,搅匀后再摸,在重复摸球35次(n=35),计算摸得黑球的百分比?(样本频率)重复这样的实验100次(100份样本),每次得到的黑球的比例分别为14.4%,19.8%,20.2%,22.5%等。黑球比例(%)样本频数样本频率(%)5.033 8.07711.05514.08817.0161620.0222223.0151526.07729.07732.05535.033 38.041.022合计100100时的随机抽样结果()表6-3摸到黑球的频率的特点:v样本频率围绕总体频率(20%)分布;v多数样本频率离20%较近,少数频率离20%较远。样本频率的抽
9、样误差v样本频率与样本频率之间、样本频率与总体频率之间的差异称为频率的抽样误差。公式的含义v此式说明:v1、样本频率的标准误与样本含量n的平方根成反比。v2、增加样本含量n,可减小样本频率的抽样误差。第二节 t分布(t distribution)v1900年,爱尔兰的一名化学家William Gosset怀疑标准正态分布并不总是用来寻找概率的正确分布,他利用3000名犯人的身高和左手中指长度来进行他的探索。他对每一个变量值选择4个观察值作为一个样本,共得到750个不同的样本。对于每一个样本他都计算了一个u值,然后他计算了两个变量的直方图。Gosset发现他的两个直方图的形状非常接近,但与标准正
10、态分布有很大不同。他将这个新分布起名叫做t分布,样本均数离差的转换值称为t值。由于他的雇主害怕泄漏商业机密,不允许雇员发表文章,所以他署了个假名:学生(student),因此t分布有时也叫学生分布。一、t分布的概念若从正态分布N(,)总体中,随机抽样获得多个样本均数 它们服从总体均数为,总体标准差为 的正态分布,则也服从标准正态分布N(0,1)分布。实际应用中,未知,用随机变量随机变量X XN N(m m,s s2 2)标准正态分布标准正态分布N N(0 0,1 12 2)Z 变换均数均数标准正态分布标准正态分布N N(0 0,1 12 2)Student Student t t分布分布自由度
11、:自由度:n n-1-1t t 分布是总体均数的区间估计分布是总体均数的区间估计和假设检验基础。和假设检验基础。二、二、t t 分布的图形和特征分布的图形和特征v从前述的13岁女学生身高这个正态总体中分别作样本量为3和50的随机分布,各抽取1000份样本,并分别得到1000个样本均数及其标准误。对它们分别作t变换,并将t值绘制相应的直方图。v如图5-2,可见样本量为3的图较样本量为50的图显得矮胖,两侧尾部较粗。(a)(b)图6-3 不同样本含量时t值的频率(数)分布图(直方图)012345-1-2-3-4-5f(t)0.10.20.3图6-4 不同自由度下的 t分布图(标准正态分布)t分布图
12、形的特征vt t分布是一簇曲线。其形状随分布是一簇曲线。其形状随 的不同而的不同而不同。不同。v1、单峰分布,以0为中心,左右对称;v2、越小,则 越大,t值越分散,其分布的峰部越矮,而尾部翘得越高;v3、随着逐渐增大,t分布逐渐接近标准正态分布;当 逼近,t分布逼近u分布,故标准正态分布是t分布的特例。t t分布曲线下面积分布曲线下面积(附表(附表2 2,P434P434)1、t 值表值表v横:横:概率概率 p p,即曲线下阴影部分的面积即曲线下阴影部分的面积;v纵纵:自由度,:自由度,v表中的数字表中的数字:相应的:相应的|t t|界值。界值。2、表示方法单单尾概率相对应的尾概率相对应的t
13、界值界值用用t,表示,表示,双双尾概率相对应的尾概率相对应的t界值界值用用t/2,表示。表示。(1)单尾概率:)单尾概率:P(t-t,)=或或 P(t t,)=(2)双尾概率:)双尾概率:P(t-t/2,)+P(t t/2,)=即:即:P(-t/2,t t/2,)=1 图6-5 单、双侧分布示意图(a)为单侧临界值;(b)为双侧临界值(b)(a)3 3、特点:、特点:v(1)当自由度一定时,当自由度一定时,|t|值越大,值越大,尾部尾部P 越小。越小。v(2)在相同)在相同 t 值时双尾概率值时双尾概率P为单尾为单尾 概率概率P 的两倍。的两倍。双侧双侧t t0.05/20.05/2,9 92
14、.2622.262 单侧单侧t t0.0250.025,9 9单侧单侧t t0.050.05,9 91.8331.833双侧双侧t t0.01/20.01/2,9 93.2503.250 单侧单侧t t0.0050.005,9 9单侧单侧t t0.010.01,9 92.8212.821双侧双侧t t0.05/20.05/2,1.961.96 单侧单侧t t0.0250.025,单侧单侧t t0.050.05,1.641.64第三节第三节总体均数及总体概率的估计总体均数及总体概率的估计一、参数估计的概念v参数估计:指用样本指标(统计量)估计总体指标(参数)。二、参数估计的种类参数的估计参数的估
15、计点估计点估计:由样本统计量由样本统计量 直接估计总体参数直接估计总体参数区间估计区间估计:在一定可信度在一定可信度(Confidence level)下,下,同时考虑抽样误差。同时考虑抽样误差。1 1、点值估计、点值估计 用样本统计量直接作为总体参数的点估计值,即直接用随机样本的样本均数作为总体均数的点估计值,用样本频率作为总体频率的点估计值。缺点:未考虑抽样误差的大小,无法评价估计值和真值之间的差距。2 2、区间估计、区间估计v结合样本统计量和标准误,按预先给定的概率(1)确定的包含未知总体参数的可能范围,称参数的置信区间(confidence interval,CI)。v常取95%或99
16、%。若无特别说明,一般取双侧95%。换言之:v置信区间就是用样本指标来估计总体参数的大概范围,又称区间估计,属于统计推断的内容。如:重复抽样(如如:重复抽样(如1000次)时,样本(如次)时,样本(如n=5)区间包含总体参数区间包含总体参数()的百分数。的百分数。二、置信区间的计算二、置信区间的计算方 法(1)t 分布法分布法(2)u 分布分布 法法(一一)总体均数的置信区间总体均数的置信区间v1、t 分布方法:分布方法:未知且未知且n较小较小(n50时),则总体均数的双侧置信区间为:同理,单侧置信区间为:1、查表法:附表6见例5-5;5-6(二二)总体概率的置信区间总体概率的置信区间 方法:
17、查表法 正态近似法1、查表法v当样本含量n较小,比如n50时,特别是p很接近0或100%时,可查附表3,确定总体概率的置信区间。例5-5v某医院对39名前列腺患者实施开放手术治疗,术后有合并症患者2人,试估计该手术合并症发生概率的95%置信区间。v解:查概率的置信区间表(附表3),在39的横行,n=2纵列交叉处的数值为117,即该手术合并症发生概率的95%置信区间为1%17%。v当Xn/2时,应以n-X值查表,然后从100中减去查得的数值即为所求的置信区间。2、正态近似法、正态近似法当n足够大,且样本频率p和1-p均不太小时,如np与n(1-p)均大于5时,p的抽样分布近似于正态分布,因此,总体概率的置信区间为:见例5-7