《总体均数估计.ppt》由会员分享,可在线阅读,更多相关《总体均数估计.ppt(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六章第六章 参数估计基础参数估计基础总体总体样样本本统计推断:用样本信息推断总体特征,包括参数统计推断:用样本信息推断总体特征,包括参数估计和假设检验。估计和假设检验。图示:总体与样本图示:总体与样本PopulationPopulationsample2sample2sample1sample1sample3sample3sample4 sample4 sample5sample5抽样试验(抽样试验(n n=5=5)抽样试验(抽样试验(n n=10=10)抽样试验(抽样试验(n n=30=30)10001000份样本抽样计算结果份样本抽样计算结果总体的总体的均数均数总体标总体标准差准差s s
2、均数的均数的均数均数均数标准差均数标准差n n=5=55.005.000.500.504.994.990.22120.22120.22360.2236n n=10=105.005.000.500.505.005.000.15800.15800.15810.1581n n=30=305.005.000.500.505.005.000.09200.09200.09130.09133 3个抽样实验结果图示个抽样实验结果图示 各样本均数未必等于总体均数;各样本均数未必等于总体均数;各样本均数间存在差异;各样本均数间存在差异;样样本本均均数数的的分分布布为为中中间间多多,两两边边少少,左左右右基基本本对
3、称。对称。样样本本均均数数的的变变异异范范围围较较之之原原变变量量的的变变异异范范围围大大大缩小。大缩小。样本均数的抽样分布具有如下特点样本均数的抽样分布具有如下特点中心极限定理:中心极限定理:(1 1)从正态总体中作随机抽样,则样本均数服从)从正态总体中作随机抽样,则样本均数服从正态分布;从偏态总体中作随机抽样,样本含量正态分布;从偏态总体中作随机抽样,样本含量n n足够大(足够大(n n3030)则样本均数近似服从正态分布。)则样本均数近似服从正态分布。(2 2)从总体均数为)从总体均数为,标准差为,标准差为的正态总体中抽的正态总体中抽取例数为取例数为n n的样本,样本均数的总体均数为的样
4、本,样本均数的总体均数为,标,标准差为准差为 。样本频率的抽样分与抽样误差样本频率的抽样分与抽样误差黑球的比例为黑球的比例为20%,重复摸球,重复摸球50次,次,计算摸到黑球的频率?计算摸到黑球的频率?黑球比例黑球比例(%)样本频数样本频数样本频率样本频率(%)黑球比例黑球比例(%)样本频数样本频数样本频率样本频率(%)822.00221111.001044.00241111.001288.002666.001477.002833.00161111.003044.00181313.003211.00201919.00合计合计 100100.00 表表6-3=20%的随机抽样结果(的随机抽样结果
5、(n=50)一、抽样误差与标准误一、抽样误差与标准误1.1.抽样误差:抽样误差:由于抽样造成的样本统计量与总体由于抽样造成的样本统计量与总体参数以及样本统计量与样本统计量之间的差异。参数以及样本统计量与样本统计量之间的差异。抽样误差是不可避免的,但可以估计。抽样误差是不可避免的,但可以估计。2.2.标准误标准误(Standard error,SE):标准误为样本均标准误为样本均数的标准差,用数的标准差,用 表示,表示,是说明样本均数抽样误是说明样本均数抽样误差的大小的指标,描述样本均数的离散程度,反差的大小的指标,描述样本均数的离散程度,反映用样本均数估计或推断总体均数的可靠性。映用样本均数估
6、计或推断总体均数的可靠性。3.标准误的计算标准误的计算 均数的标准误与标准差成正比,与样本例数的平均数的标准误与标准差成正比,与样本例数的平方根成反比。方根成反比。若标准差固定不变时,可增加若标准差固定不变时,可增加n而缩小抽样误差。而缩小抽样误差。对于二项分布,对于二项分布,XB(n,),则样则样本本频频率率其其标标准准误误:实际中,实际中,一般未知,一般未知,常用样本频率常用样本频率p近似代替近似代替则其标准误:则其标准误:4.标准误的应用标准误的应用(1 1)表示抽样误差大小,描述()表示抽样误差大小,描述(n n相同)样本相同)样本统计量的离散程度,反映用样本统计量估计或统计量的离散程
7、度,反映用样本统计量估计或推断总体参数的可靠性;推断总体参数的可靠性;(2 2)用于估计总体参数的可信区间;)用于估计总体参数的可信区间;(3 3)用于进行样本均数)用于进行样本均数/频率的假设检验。频率的假设检验。二、二、t 分布的概念分布的概念 式中式中 为自由度为自由度(degree of freedom,df)3实实际际工工作作中中,由由于于 未未知知,用用 代代替替,则则 不不再再服服从从标标准准正正态态分分布布,而而服从服从t t 分布。分布。4.t 分布曲线的特征:分布曲线的特征:(1 1)t 分布是一簇曲线。它受自由度的影响,自由度分布是一簇曲线。它受自由度的影响,自由度不同曲
8、线形状不同。不同曲线形状不同。(2 2)是是t 分布曲线的参数:分布曲线的参数:n n越小,越小,越小,曲线越平缓越小,曲线越平缓 n n越大,越大,越大,曲线越陡峭越大,曲线越陡峭 n n,曲线近似于标准正态分布曲线。,曲线近似于标准正态分布曲线。(3 3)以)以0为中心,左右对称呈钟形。为中心,左右对称呈钟形。(4 4)标准正态分布是)标准正态分布是t 分布的特例。分布的特例。t界界值值表表:详详见见附附表表2,可可反反映映t分分布布曲曲线下的面积。线下的面积。单侧概率或单尾概率:用单侧概率或单尾概率:用 表示;表示;双侧概率或双尾概率:用双侧概率或双尾概率:用 表示。表示。-tt0三、总
9、体参数的估计三、总体参数的估计1.1.参数估计参数估计:用样本统计量估计总体参数。包括点:用样本统计量估计总体参数。包括点估计和区间估计。估计和区间估计。(1 1)点估计)点估计(Point Estimation):直接用样本指标作:直接用样本指标作为总体参数的估计;为总体参数的估计;(2 2)区间估计)区间估计(Interval Estimation):用预先给定:用预先给定的概率(可信度、把握度的概率(可信度、把握度1-1-)估计总体参数所在)估计总体参数所在的范围。此范围称为置信区间(可信区间):的范围。此范围称为置信区间(可信区间):Confidence Interval,CI1点估点
10、估计计(point estimation)用相用相应样应样本本统计统计量直接作量直接作为为其其总总体参数的估体参数的估计值计值。、S估估计计其方法虽简单,但未考虑抽样误差的大小。其方法虽简单,但未考虑抽样误差的大小。按按预预先先给给定定的的概概率率(1 )所所确确定定的的包包含未知总体参数的一个范围。含未知总体参数的一个范围。总总体体均均数数的的区区间间估估计计:按按预预先先给给定定的的概概率率(1 )所所确确定定的的包包含含未未知知总总体体均均数数的的一个范围。一个范围。如如给给定定=0.05,该该范范围围称称为为参参数数的的95%可可信信区区间或置信区间;间或置信区间;如如给给定定=0.0
11、1,该该范范围围称称为为参参数数的的99%可可信信区区间或置信区间。间或置信区间。2区间估计区间估计(intervalestimation):总体均数置信区间的计算需考虑:总体均数置信区间的计算需考虑:(1)总体标准差)总体标准差 是否已知,是否已知,(2)样本含量)样本含量n的大小的大小通常有两类方法:通常有两类方法:(1)t分布法分布法 (2)z分布法分布法总体均数置信区间的计算总体均数置信区间的计算总体均数置信区间的计算总体均数置信区间的计算1、t分布法分布法 当总体标准差当总体标准差未知且未知且n50时时总体均数的双侧(总体均数的双侧(1-)置信区间)置信区间总体均数的单侧(总体均数的
12、单侧(1-)置信区间)置信区间2、正态分布近似法正态分布近似法 当当已知已知 或或 未知,但未知,但 n50 时时总体均数的双侧(总体均数的双侧(1-)置信区间)置信区间总体均数的单侧(总体均数的单侧(1-)置信区间)置信区间例例3-3 某地抽取正常成年人某地抽取正常成年人200名名,测得其,测得其血清胆固醇的均数为血清胆固醇的均数为3.64 mmol/L,标准差为,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均,估计该地正常成年人血清胆固醇均数的数的95%置信区间。置信区间。故故该该地地正正常常成成年年人人血血清清胆胆固固醇醇均均数数的的双双侧侧95%可信区间为可信区间为(3.
13、47,3.81)mmol L。参数估计的方法:参数估计的方法:(1 1)已知,根据正态分布原理,已知,根据正态分布原理,95%、99%CI:(2 2)未知,未知,n较小,据较小,据t分布原理:分布原理:95%、99%CI:(3 3)未知,未知,n较大,据近似正态分布原理,较大,据近似正态分布原理,正态分布法 样本含量样本含量n n足够大,足够大,np np与与n(1-p)n(1-p)均均55时时,总体概率的置信区间计算总体概率的置信区间计算For example例例6-66-6 用用某某种种仪仪器器检检查查已已确确诊诊的的乳乳腺腺癌癌患患者者120120名名,检检出出乳乳腺腺癌癌患患者者949
14、4例例,检检出出率率为为78.3%78.3%。估估计计该该仪仪器乳腺癌总体检出率的器乳腺癌总体检出率的95%95%置信区间。置信区间。95%95%的置信区间为:的置信区间为:该仪器乳腺癌总体检出率的该仪器乳腺癌总体检出率的95%95%置信区间置信区间(70.9%70.9%,85.7%85.7%)查表法查表法 当样本含量较小(如当样本含量较小(如n n5050),),npnp或或n n(1(1p p)5)5时,样本率的分布呈二项分布,总体率的置信时,样本率的分布呈二项分布,总体率的置信区间可据二项分布的理论求得。区间可据二项分布的理论求得。例例6-7 6-7 某某医医院院用用某某药药治治疗疗脑脑
15、动动脉脉硬硬化化症症2222例例,其其中中显显效效者者1010例例。问问该该药药总总显显效效率率的的95%95%置置信信区间为多少?区间为多少?本本例例n n=22,=22,X X=10,=10,查查附附表表6 6(478478页页),得得此此两两数数相相交交处处的的数数值值为为24246868,即即该该药药总总显显效效率率的的95%95%置信区间为置信区间为(24%24%,68%68%)。(三)置信区间的确切涵义(三)置信区间的确切涵义1.95%的置信区间的理解:的置信区间的理解:(1)所要估计的总体参数有)所要估计的总体参数有95%的可能在我们所估的可能在我们所估计的置信区间内。计的置信区
16、间内。(2)从正态总体中随机抽取)从正态总体中随机抽取100个样本,可算得个样本,可算得100个样本均数和标准差,也可算得个样本均数和标准差,也可算得100个均数的置信区个均数的置信区间,平均约有间,平均约有95个置信区间包含了总体均数个置信区间包含了总体均数。(3)但在实际工作中,只能根据一次试验结果估计)但在实际工作中,只能根据一次试验结果估计置信区间,我们就认为该区间包含了总体均数置信区间,我们就认为该区间包含了总体均数。2.置信区间的两个要素置信区间的两个要素(1)准确度:用可信度()准确度:用可信度(1 )表示:表示:即区间包含总体均数即区间包含总体均数 的的理论概率大小理论概率大小
17、。当然它愈接近当然它愈接近1愈好,如愈好,如99%的置信区间比的置信区间比95%的置信区间要好的置信区间要好(2)精确度:即区间的宽度)精确度:即区间的宽度 区间愈窄愈好,如区间愈窄愈好,如95%的置信区间比的置信区间比99%的置信区间要好。的置信区间要好。当当n确定时,上述两者互相矛盾。确定时,上述两者互相矛盾。提高准确度(可信度),则精确度降低提高准确度(可信度),则精确度降低(置信区间会变宽),势必降低置信区间的实际(置信区间会变宽),势必降低置信区间的实际应用价值,故不能笼统认为应用价值,故不能笼统认为99%置信区间比置信区间比95%置信区间要好。置信区间要好。相反,在实际应用中,相反,在实际应用中,95%置信区间更为常用。置信区间更为常用。在可信度确定的情况下,增加样本含量可减小在可信度确定的情况下,增加样本含量可减小区间宽度,提高精确度。区间宽度,提高精确度。