《参数估计基础与假设检验分析.pptx》由会员分享,可在线阅读,更多相关《参数估计基础与假设检验分析.pptx(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、本资料来源 参数估计基础参数估计基础 均数的抽样误差和标准误均数的抽样误差和标准误 t t分布分布 总体均数的估计总体均数的估计参数估计基础参数估计基础 统计推断:参数估计统计推断:参数估计 假设检验假设检验样本样本 samplingsampling inference一、均数的抽样误差和标准误一、均数的抽样误差和标准误 抽样研究,一定存在着抽样误差。抽样研究,一定存在着抽样误差。因此,估计抽样误差的大小,就成为因此,估计抽样误差的大小,就成为统计推断必须要解决的问题。统计推断必须要解决的问题。 抽样误差的概念?抽样误差的概念?抽样误差的大小?抽样误差的大小?抽样误差的概念抽样误差的概念定义:
2、由抽样引起的样本统计量与总体参定义:由抽样引起的样本统计量与总体参数间、以及样本统计量与样本统计量之间数间、以及样本统计量与样本统计量之间的差别。的差别。原因:个体变异随机抽样原因:个体变异随机抽样表现:表现: 样本统计量与总体参数间的差别样本统计量与总体参数间的差别 不同样本统计量间的差别不同样本统计量间的差别 假设一个已知总体,从该总体中重复抽取样本假设一个已知总体,从该总体中重复抽取样本含量相等的样本若干,对每个样本计算样本统含量相等的样本若干,对每个样本计算样本统计量计量(均数、方差等均数、方差等),观察样本统计量的分布规,观察样本统计量的分布规律律抽样分布规律。抽样分布规律。 考察:
3、考察: 不同的分布不同的分布-正态分布、偏态分布正态分布、偏态分布 不同的样本含量不同的样本含量抽样试验抽样试验 由中心极限定理及大数定理得出:由中心极限定理及大数定理得出: 若原变量若原变量X服从正态分布,随机抽取样本服从正态分布,随机抽取样本含量为含量为n的样本均数的样本均数 也服从正态分布。也服从正态分布。 即使从偏态总体中随机抽样,当即使从偏态总体中随机抽样,当n足够大(足够大(n50),样本均数也近似服从正态分布。),样本均数也近似服从正态分布。 这个定理不仅具有理论价值,而且具有很这个定理不仅具有理论价值,而且具有很高的实用价值。因为在实际工作当中,许多医高的实用价值。因为在实际工
4、作当中,许多医学测量结果并不知道它的确切分布,有了这个学测量结果并不知道它的确切分布,有了这个性质,就可以利用正态分布的原理对其特征进性质,就可以利用正态分布的原理对其特征进行统计推断。行统计推断。样本均数的分布:样本均数的分布:X 从正态分布总体从正态分布总体N N(5.00,0.505.00,0.502 2)中,每)中,每次随机抽取样本含量次随机抽取样本含量n n5 5,并计算其均数与标,并计算其均数与标准差;重复抽取准差;重复抽取10001000次,获得次,获得10001000份样本;计份样本;计算算10001000份样本的均数与标准差,并对份样本的均数与标准差,并对10001000份样
5、份样本的均数作直方图。本的均数作直方图。 按上述方法再做样本含量按上述方法再做样本含量n n1010、样本含、样本含量量n n3030的抽样实验;比较计算结果。的抽样实验;比较计算结果。抽样试验(抽样试验(n n=5=5)抽样试验(抽样试验(n n=10=10)抽样试验(抽样试验(n n=30=30)3 3个抽样实验结果图示个抽样实验结果图示样本均数的抽样分布特点样本均数的抽样分布特点 各样本均数未必等于总体均数;各样本均数未必等于总体均数; 样本均数之间存在差异;样本均数之间存在差异; 样本均数的分布很有规律,围绕着总体均数,样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对
6、称,也服从正态中间多、两边少,左右基本对称,也服从正态分布;分布; 样本均数的变异较原变量的变异大大缩小。样本均数的变异较原变量的变异大大缩小。 随着样本含量的增加,样本均数的变异范围逐随着样本含量的增加,样本均数的变异范围逐渐缩小。渐缩小。 均数的标准误(均数的标准误(standard error of mean):): 样本均数的正态分布的两个特征指标是什么?样本均数的正态分布的两个特征指标是什么? 均数:均数:反映了样本均数的集中水平,近似等于总体均数。反映了样本均数的集中水平,近似等于总体均数。 标准差:标准差:样本均数之间的差异,反映了样本均数的离散样本均数之间的差异,反映了样本均数
7、的离散程度,即为抽样误差。这时的样本均数的标准差,称为样本程度,即为抽样误差。这时的样本均数的标准差,称为样本均数的标准误,简称标准误。均数的标准误,简称标准误。nXnSSX标准误是反映样本标准误是反映样本抽样误差抽样误差大小的统计指标。大小的统计指标。标准误与标准差的关系有:标准误与标准差的关系有:标准误的估计值为:标准误的估计值为:标准误的概念标准误的概念 抽样的样本量越大,抽样的样本量越大,标准误标准误就越小;就越小; 原来总体变异度小,原来总体变异度小,标准误标准误就越小。就越小。 标准误反映了样本均数间的离散程度,也反映了样本均标准误反映了样本均数间的离散程度,也反映了样本均数与总体
8、均数之间的差异。当标准误大时,用样本均数数与总体均数之间的差异。当标准误大时,用样本均数对总体均数的估计的可靠程度就小;反之亦然。对总体均数的估计的可靠程度就小;反之亦然。标准误用途标准误用途 衡量样本均数的可靠性衡量样本均数的可靠性:标准误越小,表明样本:标准误越小,表明样本均数越可靠;均数越可靠; 参数估计参数估计:估计总体均数的置信区间(区域);:估计总体均数的置信区间(区域); 假设检验假设检验:用于总体均数的假设检验(比较)。:用于总体均数的假设检验(比较)。 例,例,2000年某研究者随机调查某地健康年某研究者随机调查某地健康成年男子成年男子27人,测其血红蛋白量均数为人,测其血红
9、蛋白量均数为125 g /L,标准差为,标准差为15 g /L。试估计该样。试估计该样本均数的抽样误差。本均数的抽样误差。272.89标准差与标准误标准差与标准误意义意义:标准差用于描述个体值之间的变异,即观察值间的离散度,:标准差用于描述个体值之间的变异,即观察值间的离散度, 标准差小,表明观察值围绕均数的波动小;标准误描述统计量的抽标准差小,表明观察值围绕均数的波动小;标准误描述统计量的抽样误差,即样本统计量与总体参数的接近程度。标准误小,表明抽样误差,即样本统计量与总体参数的接近程度。标准误小,表明抽样误差小,则统计量稳定,与参数接近。样误差小,则统计量稳定,与参数接近。用途用途:标准差
10、表示观察值间波动的大小,用于医学参考值范围;标:标准差表示观察值间波动的大小,用于医学参考值范围;标准误表示抽样误差的大小,用于参数估计。准误表示抽样误差的大小,用于参数估计。关系关系:随着样本含量增加,都减小。:随着样本含量增加,都减小。联系联系:都是表示变异度的指标,当样本量一定时,两者成正比。:都是表示变异度的指标,当样本量一定时,两者成正比。 二、二、t t分布分布00.10.20.30.40.5-6-5-4-3-2-10123456t图4.2 不同自由度下的 t 分布图=1=5f(t)= (标准正态曲线) t 分布是一抽样分布,分布是一抽样分布,t 分布不是一条分布不是一条曲线,而是
11、一簇曲线,因为曲线,而是一簇曲线,因为t 值的分布与值的分布与自由度自由度 有关。其特点:有关。其特点: t t分布曲线下面积(附表分布曲线下面积(附表2 2)双侧双侧t t0.05/20.05/2,9 92.2622.262 单侧单侧t t0.0250.025,9 9单侧单侧t t0.050.05,9 91.8331.833双侧双侧t t0.01/20.01/2,9 93.2503.250 单侧单侧t t0.0050.005,9 9单侧单侧t t0.010.01,9 92.8212.821双侧双侧t t0.05/20.05/2,1.961.96 单侧单侧t t0.0250.025,单侧单侧t
12、 t0.050.05, 1.641.64 三、总体均数的估计:三、总体均数的估计: 点值估计(点值估计(point estimation):):例,例,120名成名成年男子血清铁含量的均数是年男子血清铁含量的均数是18.57。那么,该总体。那么,该总体范围(这个地区)的成年男子血清铁含量的均数就范围(这个地区)的成年男子血清铁含量的均数就是是18.57。这种方法虽简单,但未考虑抽样误差,。这种方法虽简单,但未考虑抽样误差,一般不用。一般不用。 区间估计(区间估计(interval estimation) :是按一定的是按一定的概率如概率如95%,估计总体均数所在的范围,即总体均,估计总体均数所
13、在的范围,即总体均数的可信区间或置信区间,通常用样本均数和均数数的可信区间或置信区间,通常用样本均数和均数的标准误来估计。的标准误来估计。t分布方法分布方法应用条件:总体方差未知,样本量小应用条件:总体方差未知,样本量小例例 某医师侧的某医师侧的40名老年性慢性支气管炎病人尿中名老年性慢性支气管炎病人尿中17-酮类固醇酮类固醇排出量均数为排出量均数为15.19umol/d,标准差为,标准差为5.03umol/d,试估计该种,试估计该种病人尿病人尿17-酮类固醇排出量总体均数的酮类固醇排出量总体均数的95%可信区间。可信区间。分析条件:总体方差未知,样本量小分析条件:总体方差未知,样本量小(13
14、.5816.80)正态分布近似法正态分布近似法应用条件:当总体标准差已知时;或总体标准差未知,而应用条件:当总体标准差已知时;或总体标准差未知,而样本量较大时样本量较大时(n50)0-11-1.961.96-2.582.5868.27%95.00%99.00%1 1、单一总体均数的可信区间:、单一总体均数的可信区间:双侧可信区间为:双侧可信区间为:单侧可信区间为:单侧可信区间为: 例,测得某市例,测得某市16名正常成年男子的血清胆固醇平均含名正常成年男子的血清胆固醇平均含量量= 174.63mg/dl,标准差,标准差= 36.27 mg/dl。试问该市正常成。试问该市正常成年男子血清胆固醇平均
15、含量的年男子血清胆固醇平均含量的95%置信区间和置信区间和99%置信区置信区间各是多少?间各是多少? 例,例, 某市某市2000年随机测量了年随机测量了90名名19岁健康男大学生岁健康男大学生的身高,其均数为的身高,其均数为172.2 cm,标准差为,标准差为4.5 cm,试估计,试估计该市该市2000年年19岁健康男大学生平均身高的岁健康男大学生平均身高的95%置信区置信区间?间?2 2、两总体均数之差的可信区间:、两总体均数之差的可信区间:双侧可信区间为:双侧可信区间为:单侧可信区间为:单侧可信区间为: 可信区间的意义:可信区间的意义:用样本均数估计出一用样本均数估计出一个总体均数的范围,
16、可信的程度有个总体均数的范围,可信的程度有95%。也。也就是说总体均数落在这个范围的可能性有就是说总体均数落在这个范围的可能性有95%。 从理论上讲,这样估计从理论上讲,这样估计100次,约有次,约有95次是对的,也就是总体均数在这个范围的可次是对的,也就是总体均数在这个范围的可能性是能性是95%,约有,约有5次是不对的,也就是总次是不对的,也就是总体均数没有在这个范围的可能性是体均数没有在这个范围的可能性是5%。 例题:随机抽样调查例题:随机抽样调查1998年某市区年某市区232例足月龄正常例足月龄正常女婴的出生体重,结果见下表。(女婴的出生体重,结果见下表。(1)试估计)试估计1998年该市年该市区正常女婴的出生体重均数所在范围。(区正常女婴的出生体重均数所在范围。(2)若该市区某)若该市区某一女婴出生体重为一女婴出生体重为4kg ,是否正常?(,是否正常?(3)试估计体重在)试估计体重在3.0以下的所占的比例。以下的所占的比例。