《均数抽样误差与参数估计讲稿.ppt》由会员分享,可在线阅读,更多相关《均数抽样误差与参数估计讲稿.ppt(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、均数抽样误差与参数估计第一页,讲稿共六十页哦基本概念(复习)基本概念(复习)n总体:总体:根据研究目的所定的同质研究对象中所有观察单位根据研究目的所定的同质研究对象中所有观察单位的某变量值的集合。分无限总体和有限总体。的某变量值的集合。分无限总体和有限总体。n样本:样本:按随机化原则从同质总体中随机抽取的部分观察单按随机化原则从同质总体中随机抽取的部分观察单位的某变量值的集合。位的某变量值的集合。n变量类型:变量类型:数值变量资料和分类变量资料。数值变量资料和分类变量资料。n统计量:统计量:描述样本特征的指标描述样本特征的指标。n参数:参数:描述总体特征的指标描述总体特征的指标。第二页,讲稿共
2、六十页哦基本概念(复习)基本概念(复习)n概率:概率:描述随机事件发生可能性大小的一个度量。描述随机事件发生可能性大小的一个度量。n正态分布正态分布 ;标准正态分布;标准正态分布n抽样研究抽样研究(sampling study):用样本信息推断总体特征的:用样本信息推断总体特征的研究方法。研究方法。n统计推断统计推断(statistical inference):即如何抽样以及如何:即如何抽样以及如何用样本信息推断总体特征。包括总体参数估计和假设检用样本信息推断总体特征。包括总体参数估计和假设检验。验。第三页,讲稿共六十页哦n抽样研究:样本信息 总体特征n统计推断:总体参数的估计 假设检验第四
3、页,讲稿共六十页哦n抽样误差(抽样误差(sampling error):):由于个体变异的存在,抽样研究所由于个体变异的存在,抽样研究所造成的样本统计量与总体参数之间的差异或各样本统计量之间的造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异,称为抽样误差。差异,称为抽样误差。n n抽样误差产生的两个前提条件:抽样误差产生的两个前提条件:个体变异;个体变异;个体变异;个体变异;抽样研究抽样研究抽样研究抽样研究n n抽样误差的大小与两个因素有关:抽样误差的大小与两个因素有关:总体中个体变异的程度;总体中个体变异的程度;抽样时的样本含量大小抽样时的样本含量大小n抽样误差在抽样研究中是不可
4、避免的,但只要严格遵循随机化抽样的原则,就能估计抽样误差的大小。第五页,讲稿共六十页哦由于变异的存在,抽样研究所造成的样本均数与总体均数的差异,以及各样本均数间的差异称为均数的抽样误差均数的抽样误差。抽样误差在抽样研究中是不可避免的,但只要严格遵循随机化抽样的原则,就能估计抽样误差的大小。第一节 均数的抽样误差和总体均数的估计第六页,讲稿共六十页哦抽样实验n假设某市16岁女中学生的身高值分布服从均数=155.4cm,标准差=5.3cm的正态分布,即xN(155.4,5.32)。n从该总体中以样本含量n反复进行抽样(如抽10000个样本),分别计算样本均数 ,编制频数表,绘制直方图,观察样本均数
5、的分布。第七页,讲稿共六十页哦从正态总体从正态总体N(155.4,5.32)中以样本量中以样本量n=10抽样抽样1000010000次次 第八页,讲稿共六十页哦从正态总体从正态总体N(155.4,5.32)中以样本量中以样本量n=20抽样抽样1000010000次次第九页,讲稿共六十页哦从正态总体从正态总体N(155.4,5.32)中以样本量中以样本量n=30抽样抽样1000010000次次第十页,讲稿共六十页哦从正态总体从正态总体N(155.4,5.32)中以样本量中以样本量n=50抽样抽样1000010000次次第十一页,讲稿共六十页哦从正态总体从正态总体N(155.4,5.32)中以样本
6、量中以样本量n=100抽样抽样1000010000次次第十二页,讲稿共六十页哦抽样实验结果样本量不同时,样本均数的分布第十三页,讲稿共六十页哦抽样实验结果样本量不同时,样本均数的标准差第十四页,讲稿共六十页哦抽样实验结果总体标准差不同时,样本均数的分布第十五页,讲稿共六十页哦抽样实验结果总体标准差不同时,样本均数的标准差第十六页,讲稿共六十页哦样本均数的样本均数的抽样分布抽样分布(sampling distribution)具有如下特点:具有如下特点:各样本均数未必等于总体均数;各样本均数未必等于总体均数;各样本均数间存在差异;各样本均数间存在差异;样本均数的分布围绕着总体均数,中间多两边少,
7、左右基本对样本均数的分布围绕着总体均数,中间多两边少,左右基本对称,近似服从正态分布;称,近似服从正态分布;样本均数的变异范围较之原变量的变异范围小;样本均数的变异范围较之原变量的变异范围小;随着样本含量的增大,样本均数的变异范围逐渐缩小。随着样本含量的增大,样本均数的变异范围逐渐缩小。第十七页,讲稿共六十页哦理论上可以证明,理论上可以证明,从正态分布总体从正态分布总体 中以固定中以固定 n 抽样时,样本均数抽样时,样本均数 的分的分布仍服从正态分布布仍服从正态分布 。当样本含量当样本含量 n 足够大时,即使从偏态分布总体中以固定足够大时,即使从偏态分布总体中以固定 n 抽样,其样本均数的分布
8、也近似服从正态分布。抽样,其样本均数的分布也近似服从正态分布。第十八页,讲稿共六十页哦非正态总体非正态总体(正偏态)抽样(正偏态)抽样样本均数的样本均数的分布分布第十九页,讲稿共六十页哦非正态总体非正态总体(正偏态)抽样(正偏态)抽样样本均数的样本均数的分布分布第二十页,讲稿共六十页哦均数的标准误均数的标准误n样本均数的标准差(记为 ),反映的是样本均数与其总体均数之间的离散程度,即 的大小,所以可将其作为描述均数抽样误差大小的指标。计算如下:n (理论值)(估计值)通常,将样本统计量的标准差称为标标准准误误(standard error,SE)。样本均数的标准差也称均数的均数的标标准准误误(
9、standard error of mean,SEM)。第二十一页,讲稿共六十页哦n标准误小,表示抽样误差小,样本均数的代表性好;反之,标准误大,表示抽样误差大,样本均数的代表性差。n在实际工作中,可通过适当增加样本含量和减少观察值的离散程度(选择同质性较好的样本)来减少抽样误差。标准误的意义:标准误的意义:第二十二页,讲稿共六十页哦第二十三页,讲稿共六十页哦0t 分布分布一簇曲线一簇曲线0N(0,1)n n足够大时,足够大时,(1)(1)(2)(2)(3)(3)以固定以固定 n 随机抽样随机抽样英国统计学家英国统计学家Gosset第二十四页,讲稿共六十页哦均数的抽样分布 t 分布第二十五页,
10、讲稿共六十页哦t 分布是一种连续性分布,主要用于分布是一种连续性分布,主要用于t 检验和总体均数估计等问题。检验和总体均数估计等问题。第二十六页,讲稿共六十页哦=3t 分布曲线第二十七页,讲稿共六十页哦t-distributionstandard normal distributiont分布的特征为:分布的特征为:1以0为中心,左右对称的单峰分布。2t 分布曲线形态变化与自由度的大小有关。自由度越小,t 值越分散,曲线越低平;自由度逐渐增大时,则分布逐渐逼近正态分布(标准正态分布)。当自由度趋于无穷大时,t 分布即为u分布。第二十八页,讲稿共六十页哦t 分布与标准正态分布分布与标准正态分布第二
11、十九页,讲稿共六十页哦t 分布与标准正态分布分布与标准正态分布第三十页,讲稿共六十页哦t 分布与标准正态分布分布与标准正态分布第三十一页,讲稿共六十页哦t 分布与标准正态分布分布与标准正态分布第三十二页,讲稿共六十页哦t 分布与标准正态分布分布与标准正态分布第三十三页,讲稿共六十页哦t 分布与标准正态分布分布与标准正态分布第三十四页,讲稿共六十页哦t 分布与标准正态分布分布与标准正态分布第三十五页,讲稿共六十页哦第三十六页,讲稿共六十页哦t分布的分位数(双侧t界值)/2/21-t/2,-t/2,第三十七页,讲稿共六十页哦 1-t,t分布的分位数(单侧t界值)第三十八页,讲稿共六十页哦-tt0第
12、三十九页,讲稿共六十页哦三、总体均数的估计三、总体均数的估计(一)点估计(point estimation)(二)区间估计(interval estimation)按照一定的按照一定的概率概率估计总体参数可能所在的一个估计总体参数可能所在的一个范围范围,称为区间估计。,称为区间估计。概率概率可信度,通常取可信度,通常取 95%或或 99%。所估计的总体参数的范围所估计的总体参数的范围可信区间可信区间(confidence interval)第四十页,讲稿共六十页哦总体均数的区间估计n1 1、当、当 未知且未知且n 较小时,由于较小时,由于 服从服从 t分布,可按分布,可按 t 分布分布原理估计
13、总体均数的可信区间。原理估计总体均数的可信区间。由于由于 即即 故总体均数(故总体均数(1-1-)100%100%的可信区间为的可信区间为第四十一页,讲稿共六十页哦总体均数的区间估计总体均数的区间估计n2、当、当 未知但未知但n足够大时(足够大时(n 100),),t分布近似分布近似u分布,可以分布,可以 u 界界值代替值代替 t 界值,估计总体均数的可信区间。界值,估计总体均数的可信区间。n3、当当 已知时,可按正态分布的原理,估计总体均数的可信区已知时,可按正态分布的原理,估计总体均数的可信区间。间。第四十二页,讲稿共六十页哦例例3 某地抽取正常成年人某地抽取正常成年人200名,测得其血清
14、胆固醇的均数为名,测得其血清胆固醇的均数为3.64 mmol/L,标准差为,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均,估计该地正常成年人血清胆固醇均数的数的95%可信区间。可信区间。故该地正常成年人血清胆固醇均数的95%可信区间为(3.47,3.81)mmolL。第四十三页,讲稿共六十页哦四、可信区间的确切涵义四、可信区间的确切涵义第四十四页,讲稿共六十页哦 1.95%的可信区间的理解:的可信区间的理解:(1)我们所估计的可信区间有95%的可能包含所要估计的总体参数。(2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间,平均
15、约有95个可信区间包含了总体均数。(3)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数。第四十五页,讲稿共六十页哦 2.可信区间的两个要素可信区间的两个要素(1)准确度:用可信度(1)表示:即区间包含总体均数 的理论概率大小。当然它愈接近1愈好,如99%的可信区间比95%的可信区间要好。(2)精确度:反映在区间的宽度上。区间愈窄愈好,如95%的可信区间比99%的可信区间要好。第四十六页,讲稿共六十页哦 n当n确定时,上述两者互相矛盾。n提高准确度(可信度),则精确度降低(可信区间会变宽),势必降低可信区间的实际应用价值,故不能笼统认为99%可信区间比95%可信
16、区间要好。n相反,在实际应用中,95%可信区间更为常用。n在可信度确定的情况下,增加样本含量可减小区间宽度,提高精确度。第四十七页,讲稿共六十页哦从正态总体N(155.4,5.32)中抽样n=10,=0.05第四十八页,讲稿共六十页哦从正态总体N(155.4,5.32)中抽样n=10,=0.05第四十九页,讲稿共六十页哦从正态总体N(155.4,5.32)中抽样n=10,=0.10第五十页,讲稿共六十页哦从正态总体N(155.4,5.32)中抽样n=10,=0.10第五十一页,讲稿共六十页哦从正态总体N(155.4,5.32)中抽样n=10,=0.01第五十二页,讲稿共六十页哦从正态总体从正态
17、总体N(155.4,5.32)中抽样中抽样n=10,=0.01第五十三页,讲稿共六十页哦n=10=0.05=0.10=0.01准确度(可信度)逐渐降低,精确度逐渐升高;准确度(可信度)逐渐降低,精确度逐渐升高;第五十四页,讲稿共六十页哦从正态总体从正态总体N(155.4,5.32)中抽样中抽样n=30,=0.05第五十五页,讲稿共六十页哦从正态总体从正态总体N(155.4,5.32)中抽样中抽样n=30,=0.01第五十六页,讲稿共六十页哦从正态总体从正态总体N(155.4,5.32)中抽样中抽样n=30,=0.10第五十七页,讲稿共六十页哦n=30=0.01=0.05=0.10准确度(可信度
18、)逐渐降低,精确度逐渐升高;准确度(可信度)逐渐降低,精确度逐渐升高;第五十八页,讲稿共六十页哦=0.05n=10n=30准确度(可信度)不变,精确度逐渐升高;准确度(可信度)不变,精确度逐渐升高;第五十九页,讲稿共六十页哦单侧可信区间单侧可信区间n在一些实际问题中,往往关心某些未知参数的上限或下限。例如对某种药物的有效性,人们总希望其越大越好,这时可以主要考虑有效性的“下限”;而对其毒性来说,人们总希望毒性越小越好,这时应考虑毒性的“上限”-单侧可信区间单侧可信区间n为研究某种轮胎的磨损特性,随机取16只轮胎试验。其行驶里程的均数为41116公里,标准差为6346公里,如果该样本来自正态分布总体,试求该种轮胎平均行驶里程的95%可信区间下限。第六十页,讲稿共六十页哦