《概率论第七章 参数估计.ppt》由会员分享,可在线阅读,更多相关《概率论第七章 参数估计.ppt(122页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章第七章 参数估计参数估计关键词:关键词:矩估计法矩估计法 极大似然估计法极大似然估计法 置信区间置信区间 置信度置信度第一节 点估计一、点估计问题的提法一、点估计问题的提法二、估计量的求法二、估计量的求法三、小结三、小结一、点估计问题的提法 设总体设总体 X 的分布函数形式已知的分布函数形式已知,但它的一个但它的一个或多个参数为未知或多个参数为未知,借助于总体借助于总体 X 的一个样本来的一个样本来估计总体未知参数的值的问题称为估计总体未知参数的值的问题称为点估计问题点估计问题.例例1解解用样本均值来估计总体的均值用样本均值来估计总体的均值 E(X).点估计问题的一般提法点估计问题的一般
2、提法解解例例2二、估计量的求法 由于估计量是样本的函数由于估计量是样本的函数,是随机变量是随机变量,故故对不同的样本值对不同的样本值,得到的参数值往往不同得到的参数值往往不同,如何如何求估计量是关键问题求估计量是关键问题.常用构造估计量的方法常用构造估计量的方法:(两种两种)矩估计法和最大似然估计法矩估计法和最大似然估计法.1.矩估计法矩估计法 矩估计法是英国统计学家矩估计法是英国统计学家K.皮尔逊皮尔逊最早提出来的最早提出来的.由辛钦定理由辛钦定理,若总体若总体 的数学期望的数学期望 有限有限,则有则有其中其中 为连续函数为连续函数.这表明这表明,当样本容量很大时当样本容量很大时,在统计上在
3、统计上,可以可以用用 用样本矩去估计总体矩用样本矩去估计总体矩.这一事实导出矩估计法这一事实导出矩估计法.定义定义 用样本原点矩估计相应的总体原点矩用样本原点矩估计相应的总体原点矩,又又用样本原点矩的连续函数估计相应的总体原点矩的用样本原点矩的连续函数估计相应的总体原点矩的连续函数连续函数,这种参数点估计法称为这种参数点估计法称为矩估计法矩估计法.理论依据理论依据:大数定律大数定律矩估计法的具体做法如下矩估计法的具体做法如下 设总体的分布函数中含有设总体的分布函数中含有k个未知参数个未知参数 ,那么它的前那么它的前k阶矩阶矩 ,一般一般都是这都是这 k 个参数的函数个参数的函数,记为:记为:i
4、=1,2,k从这从这 k 个方程中解出个方程中解出j=1,2,kj=1,2,k那么用诸那么用诸 的估计量的估计量 Ai 分别代替上式中的诸分别代替上式中的诸 ,即可得诸即可得诸 的的矩估计量矩估计量:矩估计量的观察值称为矩估计量的观察值称为矩估计值矩估计值.解解根据矩估计法根据矩估计法,例例3 例例4 设总体设总体 X 在在 a,b 上服从均匀分布上服从均匀分布,a,b 未知未知.是来自是来自 X 的样本的样本,试求试求 a,b 的矩估计量的矩估计量.解解 即即 解得解得于是于是 a,b 的矩估计量为的矩估计量为 样本矩样本矩总体矩总体矩解解解方程组得到矩估计量分别为解方程组得到矩估计量分别为
5、例例5上例表明上例表明:总体均值与方差的矩估计量的表达式不因不总体均值与方差的矩估计量的表达式不因不同的总体分布而异同的总体分布而异.一般地一般地,解解例例6 2.最大似然法最大似然法 它它是是在在总总体体类类型型已已知知条条件件下下使使用用的的一一种种参参数数估估计方法计方法.它首先是由德国数学家它首先是由德国数学家高斯高斯在在1821年提出的年提出的.GaussFisher 然而然而,这个方法常这个方法常归功于英国统计学家归功于英国统计学家费歇费歇.费歇费歇在在1922年重新发现了这年重新发现了这一方法,并首先研究了这种方法一方法,并首先研究了这种方法的一些性质的一些性质.最大似然法的基本
6、思想最大似然法的基本思想 先看一个简单例子:先看一个简单例子:一只野兔从前方窜过一只野兔从前方窜过.是谁打中的呢?是谁打中的呢?某位同学与一位猎人一起外某位同学与一位猎人一起外出打猎出打猎.如果要你推测,如果要你推测,你会如何想呢你会如何想呢?只听一声枪响,野兔应声倒下只听一声枪响,野兔应声倒下.你就会想,只发一枪便打中你就会想,只发一枪便打中,猎人命中的概率猎人命中的概率一般大于这位同学命中的概率一般大于这位同学命中的概率.看来这一枪是猎人看来这一枪是猎人射中的射中的.这个例子所作的推断已经体现了极大似然法的这个例子所作的推断已经体现了极大似然法的基本思想基本思想.考察以下例子:假设在一个罐
7、中放着许多白球和黑球,并假定已经知道两种球的数目之比是1:3,但不知道哪种颜色的球多。如果用返回抽样方法从罐中任取n个球,则其中黑球的个数为x的概率为:若取n=3,如何通过x来估计p值先计算抽样的可能结果x在这两种p值之下的概率:0 1 2 32.最大似然估计法最大似然估计法似然函数的定义似然函数的定义最大似然估计法最大似然估计法似然函数的定义似然函数的定义求最大似然估计量的步骤求最大似然估计量的步骤:最大似然估计法也适用于分布中含有多个最大似然估计法也适用于分布中含有多个未知参数的情况未知参数的情况.此时只需令此时只需令对数似然方程组对数似然方程组对数似对数似然方程然方程解解似然函数似然函数
8、例例7这一估计量与矩估计量是相同的这一估计量与矩估计量是相同的.解解例例8这一估计量与矩估计量是相同的这一估计量与矩估计量是相同的.解解X 的的似然函数为似然函数为例例9它们与相应的矩它们与相应的矩估计量相同估计量相同.解解例例10最大似然估计的性质最大似然估计的性质U.证明证明 此性质可以推广到总体分布中含有多个未知此性质可以推广到总体分布中含有多个未知参数的情况参数的情况.如例如例9中中,三、小结两种求点估计的方法两种求点估计的方法:矩估计法矩估计法最大似然估计法最大似然估计法 在统计问题中往往先使用最大似然估计法在统计问题中往往先使用最大似然估计法,在最大似然估计法使用不方便时在最大似然
9、估计法使用不方便时,再用矩估计法再用矩估计法.第三节 估计量的评选标准一、问题的提出一、问题的提出二、无偏性二、无偏性三、有效性三、有效性四、相合性四、相合性五、小结五、小结一、问题的提出 从前一节可以看到从前一节可以看到,对于同一个参数对于同一个参数,用用不同的估计方法求出的估计量可能不相同不同的估计方法求出的估计量可能不相同,如如第一节的例第一节的例4和例和例10.而且而且,很明显很明显,原则上任何原则上任何统计量都可以作为未知参数的估计量统计量都可以作为未知参数的估计量.问题问题(1)对于同一个参数究竟采用哪一个估计量好对于同一个参数究竟采用哪一个估计量好?(2)评价估计量的标准是什么评
10、价估计量的标准是什么?下面介绍几个常用标准下面介绍几个常用标准.二、无偏性无偏估计的实际意义无偏估计的实际意义:无系统误差无系统误差.证证例例1特别的特别的:不论总体不论总体 X 服从什么分布服从什么分布,只要它的数学期望存在只要它的数学期望存在,证证例例2(这种方法称为这种方法称为无偏化无偏化).三、有效性 由于方差是随机变量取值与其数学期望的由于方差是随机变量取值与其数学期望的偏离程度偏离程度,所以无偏估计以方差小者为好所以无偏估计以方差小者为好.四、相合性例如例如五、小结五、小结估计量的评选的三个标准估计量的评选的三个标准无偏性无偏性有效性有效性相合性相合性 相合性是对估计量的一个基本要
11、求相合性是对估计量的一个基本要求,不具不具备相合性的估计量是不予以考虑的备相合性的估计量是不予以考虑的.由最大似然估计法得到的估计量由最大似然估计法得到的估计量,在一定条在一定条件下也具有相合性件下也具有相合性.估计量的相合性只有当样本估计量的相合性只有当样本容量相当大时容量相当大时,才能显示出优越性才能显示出优越性,这在实际中这在实际中往往难以做到往往难以做到,因此因此,在工程中往往使用无偏性在工程中往往使用无偏性和有效性这两个标准和有效性这两个标准.例例8解解第三节第三节 区间估计区间估计置信区间定义置信区间定义置信区间的求法置信区间的求法小结小结 引言引言引言引言 前面,我们讨论了参数点
12、估计前面,我们讨论了参数点估计.它是用样本算它是用样本算得的一个值去估计未知参数得的一个值去估计未知参数.但是,点估计值仅仅但是,点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大值的误差范围,使用起来把握不大.区间估计正好区间估计正好弥补了点估计的这个缺陷弥补了点估计的这个缺陷.譬如,在估计湖中鱼数的问题中,若我们譬如,在估计湖中鱼数的问题中,若我们根据一个实际样本,得到鱼数根据一个实际样本,得到鱼数 N 的极大似然估的极大似然估计为计为1000条条.若我们能给出一个区间,在此区间内我们若我们能给出一个区间,在此
13、区间内我们合理地相信合理地相信 N 的真值位于其中的真值位于其中.这样对鱼数的这样对鱼数的估计就有把握多了估计就有把握多了.实际上,实际上,N的真值可能大于的真值可能大于1000条,也可条,也可能小于能小于1000条条.也就是说,我们希望确定一个区间,使我们能也就是说,我们希望确定一个区间,使我们能以比较高的以比较高的可靠程度可靠程度相信它包含真参数值相信它包含真参数值.湖中鱼数的真值湖中鱼数的真值 这里所说的这里所说的“可靠程度可靠程度”是用概率来度量的是用概率来度量的,称为称为置信度置信度或或置信水平置信水平.习惯上把置信水平记作习惯上把置信水平记作,这里,这里 是一个是一个 很小的正数很
14、小的正数.置信水平的大小是根据实际需要选定的置信水平的大小是根据实际需要选定的.置信区间置信区间.称区间称区间 为为 的的置信水平为置信水平为 的的例如,通常可取置信水平例如,通常可取置信水平 =0.95或或0.9等等.根据一个实际样本,由给定的置信水平,我根据一个实际样本,由给定的置信水平,我小的区间小的区间 ,使,使们求出一个尽可能们求出一个尽可能一、一、置信区间定义置信区间定义满足满足设设 是是 一个待估参数,给定一个待估参数,给定X1,X2,Xn确定的两个统计量确定的两个统计量则称区间则称区间 是是 的置信水平(置信度的置信水平(置信度)为为 的的置信区间置信区间.和和 分别称为分别称
15、为置信下限置信下限和和置信上限置信上限.若由样本若由样本若反复抽样多次若反复抽样多次(各次得到的样本容量相等各次得到的样本容量相等,都是都是n)按按伯努利大数定理伯努利大数定理,在这样多的区间中在这样多的区间中,这里有两个要求这里有两个要求:对参数对参数 作区间估计,就是要设法找出两个作区间估计,就是要设法找出两个只依赖于样本的界限只依赖于样本的界限(构造统计量构造统计量).一旦有了样本,就把一旦有了样本,就把 估计在区间估计在区间 内内.可靠度与精度是一对矛盾,一般是可靠度与精度是一对矛盾,一般是在保证可靠度的条件下尽可能提高在保证可靠度的条件下尽可能提高精度精度.1.要求要求 以很大的可能
16、被包含在区间以很大的可能被包含在区间内,就是说,概率内,就是说,概率 要尽可能大要尽可能大.即要求估计尽量可靠即要求估计尽量可靠.2.估计的精度要尽可能的高估计的精度要尽可能的高.如要求区间长度如要求区间长度 尽可能短,或能体现该要求的其它准则尽可能短,或能体现该要求的其它准则.在求置信区间时,要查表求分位点在求置信区间时,要查表求分位点.二、置信区间的求法二、置信区间的求法 设设 ,对随机变量对随机变量X,称满,称满足足的点的点 为为X的概率分布的上的概率分布的上 分位点分位点.定义定义:若若 X 为连续型随机变量为连续型随机变量,则有则有所求所求置信区间为置信区间为所求所求置信区间为置信区
17、间为标准正态分布的标准正态分布的上上 分位点分位点 分布的上分布的上 分位数分位数自由度为自由度为n的的F分布的上分布的上 分分位数位数自由度为自由度为n1,n2的的 N(0,1)选选 的点估计为的点估计为 ,求参数求参数 的置信度为的置信度为 的置信区间的置信区间.例例1 设设X1,Xn是取自是取自 的样本,的样本,明确问题明确问题,是求什么是求什么参数的置信区间参数的置信区间?置信水平是多少?置信水平是多少?寻找未知参寻找未知参数的一个良数的一个良好估计好估计.解解 寻找一个待估参数和寻找一个待估参数和统计量的函数统计量的函数,要求,要求其分布为已知其分布为已知.有了分布,就可以求出有了分
18、布,就可以求出U取值于任意区间的概率取值于任意区间的概率.对给定的置信水平对给定的置信水平查正态分布表得查正态分布表得对于给定的置信水平对于给定的置信水平,根据根据U的分布,确定一的分布,确定一个区间个区间,使得使得U取值于该区间的概率为置信水平取值于该区间的概率为置信水平.使使为什么为什么这样取?这样取?从中解得从中解得对给定的置信水平对给定的置信水平查正态分布表得查正态分布表得使使也可简记为也可简记为于是所求于是所求 的的 置信区间为置信区间为其置信区间的长度为其置信区间的长度为 从例从例1解题的过程,我们归纳出求置信区间解题的过程,我们归纳出求置信区间的一般步骤如下的一般步骤如下:1.明
19、确问题明确问题,是求什么参数的置信区间是求什么参数的置信区间?置信水平置信水平 是多少是多少?2.寻找参数寻找参数 的一个良好的点估计的一个良好的点估计T(X1,X2,Xn)3.寻找一个待估参数寻找一个待估参数 和估计量和估计量 T 的函数的函数 U(T,),且其分布为已知且其分布为已知.4.对于给定的置信水平对于给定的置信水平 ,根据,根据U(T,)的分布,确定常数的分布,确定常数a,b,使得,使得 P(a U(T,)b)=5.对对“aS(T,)b”作等价变形作等价变形,得到如下形式得到如下形式:即即于是于是 就是就是 的的100()的置信区间的置信区间.可见,确定区间估计很关键的是要寻找一
20、个可见,确定区间估计很关键的是要寻找一个待估参数待估参数 和估计量和估计量T 的函数的函数U(T,),且且U(T,)的分布为已知的分布为已知,不依赖于任何未知参数不依赖于任何未知参数.而这与总体分布有关,所以,而这与总体分布有关,所以,总体分布的形式是总体分布的形式是否已知,是怎样的类型,至关重要否已知,是怎样的类型,至关重要.需要指出的是需要指出的是,给定样本,给定置信水平,给定样本,给定置信水平,置信区间也置信区间也不是唯一不是唯一的的.对同一个参数,我们可以构造许多置信区间对同一个参数,我们可以构造许多置信区间.例如,设例如,设 X1,Xn 是取自是取自 的样本的样本,求参数求参数 的置
21、信水平为的置信水平为 的置的置 N(0,1)信区间信区间.由标准正态分布表,对任意由标准正态分布表,对任意a、b,我们可以求得我们可以求得 P(aUb).N(0,1)例如,由例如,由P(-1.96U1.96)=0.95我们得到我们得到均值均值 的置信水平为的置信水平为的的置信区间为置信区间为由由 P(-1.75U2.33)=0.95这个区间比前面一个要长一些这个区间比前面一个要长一些.置信区间为置信区间为我们得到我们得到均值均值 的置信水平为的置信水平为的的我们总是希望置信区间尽可能短我们总是希望置信区间尽可能短.类似地,我们可得到若干个不同的置信区间类似地,我们可得到若干个不同的置信区间.任
22、意两个数任意两个数a和和b,只要它们的纵标包含,只要它们的纵标包含f(u)下下95%的面积,就确定一个的面积,就确定一个95%的置信区间的置信区间.对于概率密度的图形是单峰且关于纵坐标轴对称对于概率密度的图形是单峰且关于纵坐标轴对称的情况的情况,易证取易证取a和和b关于原点对称时关于原点对称时,能使置信区间能使置信区间长度最小长度最小.a=-b 即使在概率密度不对称的情形,如即使在概率密度不对称的情形,如 分布分布,F分布分布,习惯上仍取对称的分位点来计算未知参数,习惯上仍取对称的分位点来计算未知参数的置信区间的置信区间.我们可以得到未知参数的的任何我们可以得到未知参数的的任何置信水平小置信水
23、平小于于 1 的的置信区间,并且置信区间,并且置信水平越高,相应的置信水平越高,相应的置置信区间信区间平均长度平均长度越长越长.也就是说,要想得到的区间估计可靠度高,也就是说,要想得到的区间估计可靠度高,区间长度就长,估计的精度就差区间长度就长,估计的精度就差.这是一对矛盾这是一对矛盾.实用中应在保证足够可靠的前提下,尽量使实用中应在保证足够可靠的前提下,尽量使得区间的长度短一些得区间的长度短一些.今抽今抽9件测量其长度件测量其长度,得数据如下得数据如下(单位单位:mm):142,138,150,165,156,148,132,135,160.解解例例2三、小结 点估计不能反映估计的精度点估计
24、不能反映估计的精度,故而本节引故而本节引入了区间估计入了区间估计.求置信区间的一般步骤求置信区间的一般步骤第五节 正态总体均值与方差的区间估计一、单个总体的情况一、单个总体的情况二、两个总体的情况二、两个总体的情况三、小结三、小结一、单个总体 的情况由上节例由上节例2可知可知:1.包糖机某日开工包了包糖机某日开工包了1212包糖包糖,称得质量称得质量(单单位位:克克)分别为分别为506,500,495,488,504,486,505,506,500,495,488,504,486,505,513,521,520,512,485.513,521,520,512,485.假设重量服从正态分布假设重
25、量服从正态分布,解解例例1查表得查表得推导过程如下推导过程如下:解解 有一大批糖果有一大批糖果,现从中随机地取现从中随机地取16袋袋,称得称得重量重量(克克)如下如下:设袋装糖果的重量服从正态分布设袋装糖果的重量服从正态分布,试求总体均值试求总体均值例例2就是说估计袋装糖果重量的均值在就是说估计袋装糖果重量的均值在500.4克与克与507.1克之间克之间,这个估计的可信程度为这个估计的可信程度为95%.这个误差的可信度为这个误差的可信度为95%.解解例例3(续续例例1 1)如果只假设糖包的重量服从正态分布如果只假设糖包的重量服从正态分布推导过程如下推导过程如下:根据第六章第二节定理二知根据第六
26、章第二节定理二知2.进一步可得进一步可得:注意注意:在密度函数不对称时在密度函数不对称时,习惯上仍取对称的分位点来习惯上仍取对称的分位点来确定置信区间确定置信区间(如图如图).(续续例例2)求例求例2 2中总体标准差中总体标准差 的置信度为的置信度为0.950.95的置信区间的置信区间.解解代入公式得标准差的置信区间代入公式得标准差的置信区间例例4解解例例5 (续续例例1)二、两个总体 的情况讨论两个正态总体均值差和方差比的估计问题讨论两个正态总体均值差和方差比的估计问题.推导过程如下推导过程如下:1.例例6为比较为比较,两种型号步枪子弹的枪口速度两种型号步枪子弹的枪口速度,随机地取随机地取型
27、子弹型子弹10发发,得到枪口速度的平均值为得到枪口速度的平均值为随机地取随机地取型子弹型子弹20发发,得枪口速度平均值为得枪口速度平均值为假设两总体都可认为近似假设两总体都可认为近似地服从正态分布地服从正态分布,且由生产过程可认为它们的方差且由生产过程可认为它们的方差相等相等,求两总体均值差求两总体均值差信区间信区间.解解 由题意由题意,两总体样本独立且方差相等两总体样本独立且方差相等(但未知但未知),解解 由题意由题意,两总体样本独立且方差相等两总体样本独立且方差相等(但未知但未知),例例7为提高某一化学生产过程的得率为提高某一化学生产过程的得率,试图采用试图采用一种新的催化剂一种新的催化剂
28、,为慎重起见为慎重起见,在试验工厂先进在试验工厂先进行行体都可认为近似地服从正态分布体都可认为近似地服从正态分布,且方差相等且方差相等,求求两总体均值差两总体均值差试验试验.设采用原来的催化剂进行了设采用原来的催化剂进行了次试验次试验,得到得率的平均值得到得率的平均值又采用新的催化剂进行了又采用新的催化剂进行了次试验次试验,得到得率得到得率的平均值的平均值假设两总假设两总推导过程如下推导过程如下:2.根据根据F分布的定义分布的定义,知知解解例例8 研究由机器研究由机器 A 和机器和机器 B 生产的钢管内径生产的钢管内径,随随机抽取机器机抽取机器 A 生产的管子生产的管子 18 只只,测得样本方
29、差测得样本方差为为均未知均未知,求方差比求方差比区间区间.设两样本相互独设两样本相互独抽取机器抽取机器B生产的管子生产的管子 13 只只,测测得样本方差为得样本方差为立立,且设由机器且设由机器 A 和机器和机器 B 生产的钢管内径分别服生产的钢管内径分别服从正态分布从正态分布信信解解例例9甲、乙两台机床加工同一种零件甲、乙两台机床加工同一种零件,在机床甲在机床甲加工的零件中抽取加工的零件中抽取9个样品个样品,在机床乙加工的零件在机床乙加工的零件信区间信区间.假定测量值都服从正态分布假定测量值都服从正态分布,方差分别方差分别为为的置的置在置信度在置信度由所给数据算得由所给数据算得0.98下下,试求这两台机床加工精度之比试求这两台机床加工精度之比中抽取中抽取6个样品个样品,并分别测得它们的长度并分别测得它们的长度(单位单位:mm),置信区间为置信区间为置信区间为置信区间为置信区间为置信区间为置信区间为置信区间为三、小结