《h第五章参数估计基础.ppt》由会员分享,可在线阅读,更多相关《h第五章参数估计基础.ppt(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五章第五章 参数估计基础参数估计基础 抽样分布与抽样误差抽样分布与抽样误差 n抽样研究的目的是用样本信息推断总体特征,即用样本资料计算的统计指标推断总体参数n常用的统计推断方法有参数估计(总体均数和总体概率的估计)和假设检验 抽样分布与抽样误差抽样分布与抽样误差 n样本均数的抽样分布与抽样误差样本均数的抽样分布与抽样误差 假定某年某地所有13岁女学生身高服从总体均数=155.4cm,总体标准差=5.3cm的正态分布N(,2)。在这样一个有限的总体中作随机抽样,共抽100次。每次均抽取30例(ni=30)组成一份样本,可以算出每一份样本的平均身高.最终计算得到153.6,153.1,154.9
2、,157.7等100个样本均数,列于表5-1第2栏。现将这100个样本均数看成新的随机变量绘制频数分布表,如表5-2所示 抽样分布与抽样误差抽样分布与抽样误差样本均数的抽样分布具有以下特点:1.各样本均数未必等于总体均数;2.样本均数之间存在差异;3.样本均数的分布很有规律,围绕着总体均数(155.4cm),中间多、两边少,左右基本对称,也服从正态分布。4样本均数的变异较之原变量的变异大大缩小 抽样分布与抽样误差抽样分布与抽样误差 n抽样误差:抽样造成的这种样本均数与样本均数之间、样本均数与总体均数之间的差异。n标准误:用于表示均数抽样误差大小的指标,也叫样本均数的标准差,它反映了样本均数之间
3、的离散程度。抽样分布与抽样误差抽样分布与抽样误差 抽样分布与抽样误差抽样分布与抽样误差 表5-2 从正态总体N(155.4,5.32)抽样得到中的100个样本均数的频数分布(ni=30)组段下限值(cm)频数频率%152.6153.2153.8154.4155.0155.6156.2156.8157.4158.0 1 4 422252117 3 2 1 1.0 4.0 4.022.025.021.017.0 3.0 2.0 1.0合计 100 100.0抽样分布与抽样误差抽样分布与抽样误差n标准误的计算公式(5-1),(5-2):n样本均数标准误的大小与标准差成正比,则与样本含量n的平方根成反
4、比,即在同一总体中随机抽样,样本含量n越大,抽样误差越小。所以在实际应用中可通过增加样本含量n来减小样本均数的标准误,从而降低抽样误差。抽样分布与抽样误差抽样分布与抽样误差 非正态总体样本均数的抽样实验(实验5-2)。图5-1(a)是一个正偏峰的分布,用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图 抽样分布与抽样误差抽样分布与抽样误差n图5-1(b)(e)显示,样本均数的总体均数也为仍等于原来的总体均数,样本均数的标准误为仍满足(5-1)式;n当样本量n较小时,样本均数的分布当然并非正态分布,样本量足够大时(例如,n 50),样本均数的分布
5、近似于正态分布。抽样分布与抽样误差抽样分布与抽样误差抽样分布与抽样误差抽样分布与抽样误差抽样分布与抽样误差抽样分布与抽样误差抽样分布与抽样误差抽样分布与抽样误差抽样分布与抽样误差抽样分布与抽样误差抽样分布与抽样误差抽样分布与抽样误差n例5-1 2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125 g/L,标准差为15 g/L。试估计该样本均数的抽样误差。=2.89g/L抽样分布与抽样误差抽样分布与抽样误差样本频率的抽样分布与抽样误差样本频率的抽样分布与抽样误差 实验4.2:在一口袋内装有形状、重量完全相同的黑球和白球,已知黑球比例为20%(总体概率=20%),从口袋中
6、每摸一次看清颜色后放回去,搅匀后再摸,重复摸球35次(n=35),计算摸到黑球的百分比(样本频率p i)。重复这样的实验100次,每次得到100个黑球的比例分别为14.4%,19.8%,20.2%,22.5%,等,将其频数分布列于表5-3。表5-3 总体概率为20%时的随机抽样结果(ni=35)黑球比例%样本频数%5.0 3 3.0 8.0 7 7.011.0 5 5.014.0 8 8.017.0 1616.020.0 2222.022.0 1515.025.0 7 7.028.0 7 7.031.0 5 5.034.0 3 3.040.0 2 2.0合计100 100.0抽样分布与抽样误差
7、抽样分布与抽样误差n频率的抽样误差:这种样本率样本频率与样本率样本频率之间、样本率样本频率与总体率总体概率之间的差异。n频率的标准误:表示频率的抽样误差的指标抽样分布与抽样误差抽样分布与抽样误差样本频率 的总体均数参数为,率的标准误计算公式(5-3):公式(5-4)抽样分布与抽样误差抽样分布与抽样误差例5-2 某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估计该样本频率的抽样误差。p=41.5%=0.415,n=776 =t分布分布t分布的概念分布的概念 从正态分布N(,2)抽得样本的均数也服从正态分布,记为N(,)。对正态变量 作变换 实际
8、工作中,当 未知时,常用 来代替 对正态变量 采用的不是z 变换,而是t变换 t分布分布n英国统计学家W.S.Gosset于1908年以“Student”笔名发表论文,证明它服从自由度=n 1的t分布,即 t分布,=n 1 (5-7)n又称Student t分布(Students t-distribution)。实际上,t分布十分有用,它是总体均数的区间估计和假设检验的理论基础。t分布分布t分布的图形和分布的图形和t分布表分布表 从前述实验4.1的13岁女学生身高这个正态总体中分别作样本量为 3和50的随机抽样,各抽取1000份样本,并分别得到1000个样本均数及其标准误。对它们分别作(5-6
9、)式的t转变换,并将t值绘制相应的直方图(见实验5-4)。如图5-12(a)、(b)所示。可以看出,这两个t值分布图并不完全一样,样本量为3的图(a)较之样本量为50的图(b)显得矮胖,两侧尾部稍高。t分布分布t分布分布t分布分布nt值的分布与自由度 有关(实际是样本含量n不同)。t 分布的图形不是一条曲线,而是一簇曲线。=(标准正态分布)=5=1012345-1-2-3-4-5f(t)0.10.20.3图5-3 不同自由度下的t分布图t分布分布t 分布的图形有如下特征:单峰分布,以0为中心,左右对称,类似于标准正态分布。自由度 越小,则越大,t值越分散,曲线的峰部越矮,尾部越高;随着自由度
10、逐渐增大,t分布逐渐逼近标准正态分布;当 趋于 时,t分布就完全成为标准正态分布,故标准正态分布是t分布的特例。t分布分布 统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度 下的t界值表(附表2)。t界值表:横标目为自由度,纵标目为概率P。t临界值:表中数字表示当 和P 确定时,对应的值。单侧概率(one-tailed probability):用t,表示 双侧概率(two-tailed probability):用t/2,表示t分布分布n例如,当=16,单侧概率P=0.05时,由表中查得单侧t0.05,16=1.746;而当=16,双侧概率P=0.05时,由表中
11、查得双侧t0.05/2,16=2.120。按t分布的规律,理论上有单侧:P(t t0.05,16)=0.05 和 P(t t0.05,16)=0.05 双侧:P(t t0.05/2,16)P(t t0.05/2,16)=0.05 t分布分布更一般的表示方法如图5-4(a)和(b)中阴影部分所示为:单侧:P(t t,)=和 P(t t,)=双侧:P(t t/2,)P(t t/2,)=t分布分布从t界值表中或表的右上角图列亦可看出:在相同自由度时,t值越大,概率P越小;而在相同t值时,双侧概率P为单侧概率P的两倍,即t0.10/2,16=t0.05,16=1.746。总体均数及总体概率的估计总体均
12、数及总体概率的估计n参数估计的概念参数估计的概念参数估计:指用样本指标(统计量)估计参数估计:指用样本指标(统计量)估计总体指标(参数)。总体指标(参数)。参数估计有参数估计有 点估计(点估计(point estimation)区间估计(区间估计(interval estimation)总体均数及总体概率的估计总体均数及总体概率的估计点估计:点估计:用样本统计量直接作为总体参数的点估计值,即直接用随机样本的样本均数作为总体均数 的点估计值,用样本频率p作为总体概率 的点估计值。用27例健康成年男性血红蛋白量的样本均数作为总体均数的点估计值,用776名50岁以上的中老年妇女骨质疏松症的样本患病率
13、作为总体患病率的点估计值缺点:没有考虑抽样误差,无法评价其可信度估计值它与真值之间的差距。总体均数及总体概率的估计总体均数及总体概率的估计区间估计:区间估计:结合样本统计量和标准误可以确定一个具有较大的可信度置信度(如95%或99%)的包含总体参数的区间,该区间称为总体参数的1 可信区间或置信区间(confidence interval,CI)。置信度:值一般取0.05或0.01,故1 为0.95或0.99。通常用样本均数和均数的标准误估计总体均数的95%(或99%)置信区间,或用样本频率和率的及其标准误估计总体概率的95%(或99%)置信区间。如果没有特别说明,一般作双侧的区间估计 总体均数
14、及总体概率的估计总体均数及总体概率的估计置信区间的计算置信区间的计算总体均数的置信区间总体均数的置信区间 根据总体标准差 是否已知及样本含量n的大小,总体均数置信区间的计算有t分布和Z分布(标准正态分布)两种方法。1.t分布方法 当总体标准差未知时,正态总体N(,2)的样本均数的t变换结果 总体均数及总体概率的估计总体均数及总体概率的估计服从 t分布,若“砍去”t分布双侧尾部面积=0.05=5%,故有95%的t值满足不等式:t0.05/2,t0.05/2,t0.05/2,t/2,或 n/2时,应以nX值查表,然后从100中减去查得的数值即为所求的置信区间。例5-7 某医生用某药物治疗31例脑血
15、管梗塞患者,其中25例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的95%置信区间。n=31,X=25 n/2,所以用nX=6查附表3,得8 38,再用100减去所查的数值 该药物治疗脑血管梗塞有效概率的95%置信区间为62%92%。总体均数及总体概率的估计总体均数及总体概率的估计正态近似法正态近似法 当n足够大,且样本频率p和(1p)均不太小时,如np与n(1p)均大于5时,p的抽样分布接近正态分布,此时可按公式(5-12)求总体概率的置信区间 p z/2Sp 公式中Sp为频率p的标准误。欲求95%置信区间,用z0.05/2=1.96,欲求99%置信区间,用z0.01/2=2.58。总体均数及总体概率的估计总体均数及总体概率的估计例5-8 用某种仪器检查已确诊的乳腺癌患者120名,检出乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。n解:本例n比较大,且np=94及n(1p)=26均大于5,用公式(5-12)估计总体概率的置信区间 总体均数及总体概率的估计总体均数及总体概率的估计np z/2 Sp=p z0.05/2 =0.783 1.96 =0.709 0.857 n即该仪器乳腺癌总体检出率的95%可信区间置信区间为(70.9%,85.7%)。