《管理统计学第5章参数估计.ppt》由会员分享,可在线阅读,更多相关《管理统计学第5章参数估计.ppt(148页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第第5章章 参数估计参数估计13.1 参数估计概述参数估计概述 参数估计是统计推断的基本方法之一。我们把刻划总体X的某些特征的常数称为参数,最常用的参数是总体X的数学期望和方差。假如总体XN(),则X的分布是由参数和2确定的,其中,=E(X),2=D(X)。在实际问题中,总体X的参数是未知的,例如纱厂细纱机上的断头次数XP(),如果求每只纱绽在某一时间间隔内断头的次数为K的概率,就需要先确定参数,才能求出所求的概率。又如,灯泡厂生产的灯泡,由经验知其寿命XN(),但是由于生产过程中各种随机因素的影响,生产出来的灯泡的寿命是不一致的,为了保证灯泡的质量,必须进行抽样检查,根据样本所提供的信息,
2、对总体X的分布做出估计,也即对参数,2做出估计。这类问题称为参数估计问题。参数估计问题,就是要从样本出发构造一些统计量作为总体某些参数的估计量,当取得一个样本值时,就以相应的统计量的值作为总体参数的估计值。例如,常以统计量 作为总体数学期望的估计量。当要估计某批灯泡的平均寿命时,就从该批灯泡中随机地抽取若干个,分别测出其寿命,以这些测量数据的平均值作为该批灯泡的平均寿命的估计值。设总体X的分布函数的类型已知,但是其中有一个或多个参数未知,设X1,X2,X3,Xn为总体X的容量为n的样本。参数估计就是讨论如何由样本X1,X2,X3,Xn提供的信息对未知参数作出估计,以及讨论如何建立一些准则对所作
3、出的估计进行评价。一般是建立适当的统计量 (X1,X2,X3,Xn),当样本观察值为x1,x2,x3,xn时,如果以 (x1,x2,x3,xn)作为总体分布中未知参数的估计值,这样的估计方法叫做点估计,如果总体分布函数中有t个未知参数,则要建立t个估计量作为t个未知参数的估计量。参数估计的形式分为两类:点估计和区间估计。由估计量的观察值作为未知参数的估计值,这种作法称为点估计或定值估计。而有时并不要求对参数作定值估计,只要求估计出未知参数的一个所在范围,并指出参数被包含在该范围的概率,这种方法称为区间估计,进行参数估计并不一定要预先知道总体的分布类型。有时,虽然未知总体的分布类型,但仍可对总体
4、的某些数字特征作出估计。3.2 参数的点估计 点估计方法很多,本节介绍最常见的矩估计法和极大似然法。一、矩估计法 由大数定律可知,样本分布函数依概率收敛于总体分布函数,样本均值依概率收敛于总体均值,我们自然会想到,是否能用有关的样本矩来估计总体分布的相应矩呢?统计实践表明,这个方法是可取的,这种用样本矩来估计总体分布参数的方法称为矩估计法,通常,用样本 均值来估计总体的均值,用样本方差S2来估计总体的方差。【例】试用矩估计法对总体 XN()的参数,2作出估计。解:因E(X)=,D(X)=2设X1,X2,Xn为X的一个样本,其 样本均值为,样本方差为S2。令E(X)=,D(X)=S2,即得的估计
5、量为 ,。【例】设X1,X2,Xn是取自总 体X的样本,已知X的概率密度为:试用矩估计法估计总体参数 。解:由于 样本均值为 ,令E(X)=,得:,从而总体 参数的矩估计为 ,其 中 。【例】X1,X2,Xn为总体XB(N,P)的样本,其中N,P为未知参数,试用矩估计法估计参数N及P。解:E(X)=NP D(X)=NP(1-P)样本均值与方差分别为 ,S2。令E(X)=D(X)=S2即解得N、P的矩估计量为,其 中 ,。二、极大似然估计法先考察两个简单的例子。【例】某同学与一位男猎人一起外出打猎,只见一只野鸡在前方窜过,只听一声枪响,野鸡被他们两人中某一位一枪命中,试推测这一发命中的子弹是谁打
6、的,答案是简单的,既然只发一枪且命中,而男猎人的命中的概率一般大于这位同学命中的概率,因此可以认为这一枪是男猎人射中的。【例】假定在一个箱子里放着黑、白两种球共4只,且知道这两种球的数目之比为13,但不知道究竟哪一种颜色的球多。设黑球所占的比例为P,由上述假定推知P仅可能取1/4和3/4这两个值,现在采用有放回抽样的方法,从箱子中随机地抽取三个球,观察到球的颜色为黑、白、黑,你会对箱子中的黑球数作出什么推断呢?即你认为P的值是1/4,还是3/4?直观上觉得P=3/4(即箱子中黑球数为3)更可信,因为当P=1/4时抽到这样一个具体样本的概率为1/41/4 3/43/4 1/4=3/641/4=3
7、/64,当P=3/4时,抽到这样一个具体样本的概率为3/43/4 1/41/4 3/4=9/643/4=9/64,由于9/643/649/643/64,因此在观察到上述样本中的三个球的颜色之后,觉得P=3/4更可信,即你倾向于认为箱子中放有三个黑球,这里体现了极大似然法的基本思想。现在我们来阐明极大似然法的基本原理。设总体X的概率密度为 ,它只含一个未知参数(若X是离散型 ,表示概率 ),X1,X2,X3,Xn是取自X的样本,x1,x2,x3,xn为样本观察值。X1,X2,X3,,Xn的联合密度等于 ,显然,对于样本的 一组观察值x1,x2,x3,xn,它是 的函数,记作 并称为似然函数 当
8、已知时,似然函数描述了样本取得样本观察值x1,x2,x3,xn的可能性。同样,当一组样本观察值取定时(即抽样完成时),要问它最大可能取自什么样的总体(即总体的参数 应等于什么时的可能性最大),也要从似然函数 的极大化中求出相应的 值来,这个值就是 的一个估计值。于是,我们可以给出极大似然估计的定义。定义3.1设总体的概率密度为 ,其中 是未知参数,x1,x2,xn为X的一组样本观察值。若能求得观察值的某个函数 ,使得似然函数取极大值,即 ,则称 为 的一个极大似然估计值,其相应的统计量 ,称为参数 的极大似然估计量。由定义可知,求总体参数 的极大似然估计值 的问题,就是求似然函数 L()的极大
9、值问题。在L()可微时,要使L()取极大值 必须满足()从上式可解得 的极大似然估计值。由于lnL()与L()有相同的极值点,而且,求lnL()的极值点更为容易,所以常用下式(3.2)来代替()式。方程()或()都称为似然方程。当似然函数包含多个参数时,即:若L关于各参数的偏导数存在,则 j的极大似然估计 一般可由方程组:或 解得。上面方程组称 为似然方程组。注意上面的讨论中,我们没有提到似函数 取极大值的充分条件,对于具体的函数可作验证。【例】设总体X服从参数为 的泊松分布,求参数 的极大似然估计量。解设X1,X2,X3,Xn是来自X的样本,则 令 的极大似然估计量为 。其中为样本均值。【例
10、】设总体XN,其中 及 是未知参数,如果取得样本观测值为x1,x2,,xn,求参数 及 的极大似然估计值。解:似然函数为:对 及 求偏导数,并让它们等于零,得:解此方程组,即得 及 的极大似然估计值为:【例】设总体X服从均匀分布 ,求参数 与 的极大似然估计量解设X1,X2,Xn是X的样本,则 从而有显然由此方程组解不出1与2,现利用定义求1与2的极大似然估计量,因为:又,即 的极大似然估计量分别为 。三、估计量的优良标准在对总体参数做出估计时并非所有的估计量都是优良的,从而产生了评价估计量是否优良的标准。对于点估计量来说,一个好的估计量有如下三个标准:1无偏性 如果样本统计量的期望值等于该统
11、计量所估计的总体参数,则这个估计量叫做无偏估计量。这是一个好的估计量的一个重要条件。用样本平均数作为总体平均数的点估计量,就符合这一要求。无偏性也就是没有系统的偏差,它是从平均意义讲的,即如果这种估计方法重复进行,则从估计量所获得的平均数等于总体参数。显然,如果说一个估计量是无偏的,并不是保证用于单独一次估计中没有随机性误差,只是没有系统性的偏差而已。若以代表被估计的总体参数,代表的无偏估计量,则用数学式表示为:我们知道,总体参数中最重要的一个参数是总体平均数 ,样本平均数 是它的一个无偏估计量,即 。另外,样本方差也是总体方差的无偏估计量。2一致性 当样本容量n增大时,如果估计量越来越 接近
12、总体参数的真值时,就称这个估计量为一致估计量。估计量的一致性是从极限意义上讲的,它适用于大样本的情况。如果一个估计量是一致估计量,那么,采用大样本就更加可靠。当然,在样本容量n增大时,估计量的一致性会增强,但调查所需的人力、物力也相应增加。3有效性 有效性的概念是指估计量的离散程度。如果两个估计量都是无偏的,其中方差较小的(对给定的样本容量而言)就可认为相对来说是更有效的。严格地说,如果 和 是 的两个无偏估计量,它们的相对有效性按下述比率决定:其中,是较小的方差。以上这三个标准并不是孤立的,而应该联系起来看。如果一个估计量满足这三个标准,这个估计量就是一个好的估计量。数理统计已证明,用样本平
13、均数来估计总体平均数和用样本比率来估计总体比率时,它们是无偏的,一致的和有效的。3.3 参数的区间估计参数的区间估计一、区间估计的概念 对未知参数来说,我们除了关心它的点估计外,往往还希望估计出它的一个范围,以及这个范围覆盖参数真值的可靠程度,这种范围通常用区间的形式给出,这种区间就叫参数的置信区间。定义3.2设总体分布含有一个未知参数,若由样本确定的两个统计量(X1,X2,X3,Xn)与(X1,X2,X3,Xn),对于给定数值 ,满足(3.3)则称随机区间 为的一个 双侧置信区间,称为双侧置信下(上)限,1-称为置信水平或置信度。()式表示置信区间 包含未知参数 真值的概率是1-,若反复抽样
14、多次(每次样本容量相等),每组样本观察值确定一个区间 ,每个这样的区间或者包含 的真值,或者不包含 的真值,按贝努利定理,在所有这些区间中,包含 真值的约占 ,不包含真值的仅占 左右。当 和 时,称为置信区间观察值,也称为置信区间。在有些问题中,我们关心的是未知参数至少有多大(如设备元件使用的寿命),或不超过多大(如产品的次品率),因此下面给出单侧置信区间的概念。定义3.4在定义中,如果将()式改成 则称 或 为单侧置信区间,和 分别称为单侧置信下限与单侧置信上限。评价一个置信区间的好与坏有两个标准,一是精度,即 越小精度越高,也就越好。另一个是置信度,即 越大越好。我们当然希望 尽可能地小,
15、同时希望 尽可能地大,但是当样本容量n固定时,精度与置信度不可能同时提高。因为当精度提高时即 变小时,()覆盖真值 的可能性也变小,从而降低了置信度,相反,当置信度增大时,必然也增大,从而降低了精度,在实际问题中,一般是根据实际问题的需要,先选定置信度为1-,然后再通过增加样本容量n提高精度。二、区间估计的步骤(1)构造一个随机变量g()(含待估计的未知参数,分布已知);(2)给定置信水平 ,使 ;(3)从不等式中解出 即 得的 置信区间 ;(4)将xi代替 中的xi,即得观察区间。3.4单正态总值均值与方差的区间估计 假设总体XN(),构造 与 的置信区间有重要的实用意义,而且有关结果是完满
16、的。一、均值的置信区间 从总体X中取样本(X1,X2,Xn),设样本值为(x1,x2,x3,,xn)由于随机变量很明显,统计量Z的分布函数不依赖于未知参数。设已给定对的区间估计置信度为1-令为Z的双侧 点)解不等式(关于):得 从而所求的100(1-)%置信区间为 将样本平均值 取其观察值 ,则 100(1-)%的置信区间为【例】某厂质量管理部门的负责人希望估计移交给接受部门的5500包原材料的平均重量,一个由250包原材料组成的随机样本所给出的平均值 =65千克。总体标准差=15千克。试构造总体未知的平均值的置信区间,假定95%的置信区间已能令人满意,并假定总体为正态分布解:(1)样本平均值
17、=65千克(2)由1-,/2,查标准正态分布表得(3)写出置信区间=(63.14,66.86)于是,我们有95%的把握说总体平均值介于和千克之间。注意在很多情况下,我们遇到的总体为非正态分布,但中心极限定理告诉我们,当样本容量n足够大,无论总体服从什么分布,的柚样分布将近似地服从正态分布,因此当样本取自总体方差已知的非正态分布时,我们仍可以用 公式来近似求出总体平均值的置信区间。n2 未知时,求的置信区间n稍微留意上述求得的的置信区间,不难发现只有在 已知时方法才可行。如果 未知,则可用样本方差S2代替总体方差 ,从而根据统计量:n对给定的置信水平1-,令n可解得的1-置信区间为n将 、S2分
18、别取其观察值n则的1-置信区间为n例3.10为了估计一分钟一次广告的平均费用,抽出了15电视台的随机样本。样本的 平 均 值 =2000元,其 中 标 准 差S=1000元。假定所有被抽样的这类电视台服从正态分布,试构造总体平均值的95%的置信区间。解:(1)样本均值与方差分别为 =2000元,S=1000元(2)由1-,得 /2,n-1=14,查t分布表,得 n(3)写出置信区间:n显然我们有95%的把握说明,总体平均数处在元和元之间。=(1447.5,2552.5)注意当 未知但样本容量n30,即大样本时,可用标准正态分布近似地当作t分布。因此,在实际工作中,只有在小样本的情况下,即样本容
19、量n30时,才应用t分布,而对于大样本,则通常采用正态分布来构造总体平均数的置信区间。另外,根据中心极限定理,从非正态总体中抽样时,只要能够抽取大样本,那么,样本平均数的抽样分布就会服从正态分布。这时,我们也就能够用 来构造置信区间,但由于 是未 知的,因此,只能用 来构造置信区间。二、方差 2的置信区间n设X1,X2,X3,Xn是总体XN(,2)的一个样本,其观察值为x1,x2,x3,xn。因为在一般情况下,总体的均值是未知的,所以我们只讨论均值 未知时,对 2的区间估计。要对 2进行区间估计,须考虑样本方差S2,由 分布理论知随机变量 n对于给定的置信水平1-1-,有n由此得 2的置信水平
20、为1-的置信区间为 n而 标准差的置信水平为1-的置信区间是 例3.11 某制造厂的一名生产管理人员需要知道完成某件工作所需的时间。为此他进行了一项研究,得出一个适于分析的31个观察值组成的随机样本,从样本数据算出的方差为0.3小时,试问:(1)构造方差 2的95%的置信区间(2)构造 的95%的置信区间(3)构造置信区间时作了何种假定?解:(1)S2=0.3,自由度=n-1=31-1=30 查 分布表得:从而求得0.19162 0.5360 因此,我们有95%的把握说2落在0.1916和0.5360之间的范围内。(2)其总体标准差的置信区间为:0.4377 30),可用S12,S22、分别代
21、替12、22,于是可用区间 作为1-2的近似的1-置信区间。3 未知时,求1-2的置信区间,则t分布理论知其中 在给定的置信水平1-的条件下,有 由此可得1-2的置信水平为1-的置信区间 当 及Sw取样本观察值时,置信区间为n【例】某银行负责人想知道存户存入两家银行的钱数,他从每一家银行各抽选了一个由25个存户组成的随机样本。样本平均值如下:银行A:=450元;银行B:=325元。两个总体均服从方差分别为A2=750和B2=850的正态分布。试构造A-B的95%的置信区间。n解由于两个总体均服从正态分布,因此 也服从正态分布,从而计算总体均值之差的置信区间可用:这个公式。已知12=750,22
22、=850,=450,=325,所以所求的置信区间为:这意味着有95%的把握认为总体均值之差在109.32元和140.68元之间。:n【例3.14】某工厂中有两台生产金属棒的机器。一个随机样本由机器A生产的11根金属棒组成,另一个随机样本由机器B生产的21根金属棒组成。两个样本分别给出两台机器所生产金属棒的长度数据如下:n,SA2=0.018,SB2=0.020。假定两个总体近似服从正态分布,且总体方差相等,试构造A-B的95%的置信区间。n解1-=95%,=0.05,查t分布表得t /2=t 所以所求置信区间为:=(0.05,0.25)4两个总体均不服从正态分布且方差未知 对于一般不服从正态分
23、布的两个总体,我们往往根据中心极限定理采用大样本抽样方法。如果两个总体方差未知,就用S1和S2分别作为1和2的估计值,当n1和n2足够大时,1-2的置信水平为1-的近似置信区间为:n【例】东大和西大两所大学某学期期末英语考试采用同一试题,东大认为该校学生英语考试成绩能比西大高出10分,为了证实这一说法,主管部门从两校各抽取一个随机样本并得到如下数据:n东=75人,n西=80人,东=78.6分,西=73.8分,S东分,S西=7.4分。试在95%的置信度下确定两校平均分数之差的置信区间。解:分,=0.025,查标准正态分布表得,从而其置信区间为:(78.673.81.961.26)=()因此,我们
24、有95%的把握说东大、西大两校英语考试成绩之差在2.3分和7.3分之间。这一结果说明东大的平均成绩确实高于西大,但并未高出10分。二、二正态总体方差比的置信区间n在实际工作中还常常需要比较两个总体的方差。例如,在选择产品时,我们通常需要方差较小的产品,因为方差较小的产品的质量比较均匀。比较两个总体方差的大小,可以将两个方差相比,当两个方差相等时其比值为1。但两个总体方差12和22都是未知的,所以需要通过两个样本方差来加以比较推断。n设二正态总体XN(1,12)与YN(2,22),其中的参数均未知,它们相互独立的两个样本的容量分别为n1,n2,样本方差为S12与S22,现在求其方差比12/22的
25、置信区间n由 分布理论知n从而n于是,对给定的置信水平为1-,有:所以12/22的置信水平为1-的置信区间为:(此处利用了公式:)n【例3.16】为了比较用两种不同方法生产的某种产品的寿命,进行一项试验。试验中抽选了由方法1生产的16个产品组成一个随机样本,其方差为1200小时。又抽选了用方法2生产的21个产品组成另一个随机样本,得出的方差为800小时。试以95%的置信度估计12/22的置信区间 解:由于S12=1200,S22=800,S12 S22从而所求的置信区间为:即:0.58 12/220.05,就要采用有限总体修正系数,从而P的区间估计公式为:n【例3.17】某一大公司的人事处长希
26、望知道本公司内专业不对口的职员究竟占多大比例。于是,他从2000名具有大专以上学历的职员中随机抽取了一个由150人组成的样本进行研究,结果表明,其中有45人说他们从事的工作与所学专业不对口。试在95.5%的置信度下构造出专业不对口人员所占真正比例的置信区间。n解:由于样本容量很大,n=150,n ,和 都大于5,故可用正态分布逼近。但又由于抽样比重 n ,n故需用有限总体修正系数计算Sp,则 =(,)计算结果表明,我们有95.5%的把握说,该公司具有大专以上学历的人员中,有22.8%37.2%的人专业不对口。二、两个总体比例之差的区间估计n为了估计两个总体比例之差P1-P2,我们可从每一个总体
27、中各抽一个随机样本,并利用两个样本比例之差 。这样就可以按通常的方式构造出一个区间的估计值。我们知道,当n1和n2都很大,即大样本,而且总体比例不太接近0或1时,两个独立样本 的抽样分布近似服从正态分布,其平均值为P1-P2,标准差为:n因为P1和P2皆未知,所以标准差应通过下式来估计:n于是上述条件下P1-P2的100(1-)%的置信区间由下式给出:n【例3.18】某企业有两个车间,分别用A和B表示。为了降低废品率,该企业对车间B的工人首先进行业务培训。3个月后,该企业负责人对两个车间的产品质量进行了检验。从车间A抽取了200件产品,从车间B抽取了220件产品。查得废品率A车间为 ,B车间为
28、 ,试在95%的把握程度下,构造两个废品率之间的置信区间。n解:nZ /2=Z=1.96,从而其区间估计为:(0.15-0.03 1.96 0.0277)=(0.066,0.174)根据这一结果,我们有95%的把握说,车间A和车间B的废品率之差为6.6%17.4%。这说明,车间B人员的业务培训收到了效果。3.7样本容量的确定n以上所举的例子中,都假定样本容量已定。在实际设计抽样方案中有一个重要的问题,就是在特定的情况下,应该用多大的样本?如果使用一个比需要大的样本,就会浪费资料;如果样本太小,就不能达到分析的目的。事实上,决定样本大小的因素有以下三点:(1)受总体方差2数值大小的影响。总体方差
29、大,抽样误差大,则应多抽一些样本容量,反之,则可少抽一些。当然,当总体方差为0时,那么只需抽出其中一个就能代表总体。问题是实际工作中我们往往不知道总体方差,因而必须作试验性调查,或以过去的历史资料作参考。(2)可靠性程度的高低。要求可靠性越高,所必需的样本容量就越大,也就是说,为获得所需精度而指定的概率越大,所需要的样本容量就越大。n(3)允许误差的大小。这主要由研究目的而定。若要求推断比较精确,允许误差应该低一些,随之抽取的样本容量也要求多一些。反之,若允许误差可以大一些,样本容量也可以少一些。一、估计总体平均数样本容量的确定n在重复抽样的条件下,我们用表示允许误差,用表示总体标准差,用1-
30、表示可靠性,用Z /2表示相应的概率度,那么,允许误差的公式可表述如下:n n n这就是在重复抽样条件下确定样本容量的计算公式。当我们采用不重复抽样时,就要采用有限总体修正系数。这时nn 这就是不重复抽样条件下确定样本容量的计算公式。n【例3.19】某批产品的平均重量 =70千克,总体标准差=5千克。现准备对这批产品采用重复抽样方式进行简单随机抽样检验,要求可靠程度达到95%,允许误差不超过0.9千克。试问需要抽多少样本容量?n解:=5,Z /2,n (件)n即应抽取样本容量119件。n在实际工作中,总体标准可能是未知的,因此必须通过某种途径来估计,主要有:(1)当以前有过类似的抽样,并且总体
31、变动又不太大时,便可用以往的资料来估计,总体标准差。(2)在正式抽样研究之前,先抽出一个实验样本,算出其标准差S,并用它来代替。(3)当总体近似服从正态分布时,便可根据全距来估计标准差S。二、估计总体比例时样本容量的确定估计总体比例时,其样本容量的确定类似Z于估计总体平均数时样本容量的确定。在重复抽样时,由于nn在不重复抽样时,由于 n上述两个公式的计算都需要知道总体比例P,但一般情况下P是未知的。因此,要想确定其样本容量,必须首先寻找P的估计值,一般有以下几种方式:(1)用以往的资料估计P。(2)在正式抽样之前,先抽一个实验样本,用此样本比例 来代替P。(3)当研究者对某一总体比例有很大把握时,则可用它作为P的估计值。(4)如果什么资料也没有,那么可以令P=0.5,因为此时,P(1-P)最大,从而所需的样本也比较多,推断也就比较可靠。n【例3.20】一家市场调查公司希望估计某地区有25英寸彩色电视机的家庭所占的比例。该公司希望对P的估计误差不超过0.07,置信度为95.5%,但没有可利用的P的估计值。试问应抽取多大容量的样本?n解:由于没有较好的P的估计值可供利用,因此只能取P,从而n即应抽取容量为204的样本。