《抽样与参数估计.ppt》由会员分享,可在线阅读,更多相关《抽样与参数估计.ppt(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 抽样推断,从其内涵来说,包括抽样调查和抽样推断两部分。抽样调查,是指按照随机原则从调查对象的全部单位中抽取部分单位,进行调查,取得各项准确的数据。抽样推断,是指运用数理统计原理,根据抽样调查资料,对研究对象全体的数量特征,作出具有可靠程度的估计和判断,以达到对象总体正确认识的目的。(二)抽样推断的特点 1.按照随机原则,抽选调查单位,是抽样推断的前提;2.运用概率估计法是抽样推断的特有估计方法;3.抽样推断的误差,可以事先计算并加以控制。二、抽样推断的作用二、抽样推断的作用 1.对有些不可能或不必要进行全面调查,但又需要了解其全部数量情况的社会经济现象,则可以运用抽样推断,实现调查的目的。2
2、.抽样调查与全面调查同时进行,可以发挥互相补充和检查质量的作用。3.抽样推断可以用于工业生产过程的质量控制。4.利用抽样推断法还可以对于某种总体的假设进行检验,判断其真伪,以作出正确的决策。三、抽样推断法中几种基本概念三、抽样推断法中几种基本概念(一)全及总体、抽样总体 全及总体全及总体,简称总体。是指所要研究对象的全体。样本总体样本总体,又叫了样,简称样本。它是全及总体 中随机抽取出来的,用以代表命脉总 体的部分单位的集合。在抽样推断实践中,一般样本单位达到或超过30个称大样本,在30个以下的称为小样本。(二)全及指标和抽样指标 1.全及指标。根据全及总体各个单位的标志值或标志特征计算的、反
3、映总体某种属性的综合指标,称为全及指标。全及总体单位数用N表示,全及指标全及指标有:全及总体平均数 、全及总体所数 P、全及总体标准差 、全及总体方差 。2.抽样指标。由样本总体各个单位的标志值或标志特征计算的综合指标,称为抽样指标。抽样总体单位数用n表示,抽样指标有:抽样平均数 、抽样所数 p、样本标准差S、样本方差 。(三)样本容量 样本容量样本容量,指样本方法中的单位数。(四)抽样方法和样本数目 抽样方法抽样方法,即按随机原则从全及总体抽取样本总体的方法。样本数目样本数目,又称样本可能数目,是指一个总体中可能抽取的样本个数。1.按抽取方式,抽样方法可分为两类 (1)重复抽样;(2)不重复
4、抽样 2.按抽样是否考虑顺序,抽样方法又可分为两种 (1)考虑顺序抽样;(2)不考虑顺序抽样 将上述两种分类,互相交叉就形成四种抽样方法,即 (1)考虑顺序的重复抽样;(2)不考虑顺序的重复抽样;(3)考虑顺序的不重复抽样;(4)不考虑顺序的不重复抽样。抽样方法样本数目公式例5个单位中抽3个考虑顺序的重复抽样NN 53=125不考虑顺序的重复抽样 35(个)考虑顺序的不重复抽样 60(个)不考虑顺序的不重复抽样 10(个)上述四种不同的抽样方法,从总体N个单位中抽取n个单位所构成样本数目是不同的。样本可能数目计算公式列表如下:第二节第二节 抽样误差抽样误差 一、抽样误差一、抽样误差 抽样误差是
5、指由于随机抽样的偶然因素使样本各单位的结构对总体各单位结构的代表性差别,而引起的样本指标和全及指标之间的绝对离差。如:|、|p-P|。这种抽样误差是抽样所特有的误差,它是不可避免的,但是可以控制,故又称可控制误差。二、抽样平均误差二、抽样平均误差 (一)概念(一)概念 抽样平均误差抽样平均误差是抽样平均数(或抽样成数)的标准差。它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。(二)抽样平均误差的计算公式(二)抽样平均误差的计算公式 抽样平均误差的计算的方法原则上是一致的,但不同的抽样组织形式和不同的抽样方法,计算抽样平均误差各有其特点。现以简单随机抽样为例,说明抽样平均
6、误差的计算方法。根据抽样平均误差的定义得出其基本表达式:式中:-抽样平均数平均误差;抽样成数平均误差;样本平均数;总体平均数;P 样本成数;P 总体成数;M 可能样本数目。在实际中不可能按照上述公式计算抽样平均误差。但它可以根据总体方差、样本容量和抽样方法,通过一定公式进行计算。简单随机抽样平均误差的计算公式如下表:重复抽样不重复抽样平均数抽样平均误差成数抽样平均误差 (三)影响抽样平均误差的因素 1、总体各单位标志值的差异程度。差异程度愈大,则抽样误差愈大,返之则愈小。2、样本单位数的多少。在其他条件相同的情况下,样本单位数愈多,则抽样误差愈小,反之则愈大。3、抽样方法。抽样方法不同,抽样误
7、差也不相同。一般说,重复抽样比不重复抽样误差要大些。4、抽样调查的组织形式。抽样调查的组织形式不同,其抽样误差也不同,而且同一组织形式的合理程度也会影响抽样误差。一般说,类型抽样和按有关标志排队的等距抽样比其他抽样组织形式误差要小一些。三、抽样极限误差三、抽样极限误差 抽样极限误差是根据样本指标与总体指标之间抽样误差的可能范围,亦即允许误差范围。抽样指标与总体指标之间的离差,可能是正或负,因此允许误差范围采取绝对值形式,用表示,即:=p|p P|上两式很容易转化为下列不等式,即:+P p p P+P 上式表明,抽样平均数是以 总体平均数中心,在 之间变动,区间(,)的总长度为2 。同样,抽样成
8、数p是以总体成数为中心,在Pp之间变动,其区间(Pp,P+p)的总长度为2p。由于 和 P在抽样时是末知的,它要靠实际测定的 和 p来估计,因而 的实际价值是希望 在 的范围内变动;P在pp范围内变动。因此,上述两个不等式就要转变为:p-p P p+p 这两个不等式与上面两个不等式是完全等价的。t 此式表示极限误差与平均误差间的数量关系。由于x值与样本估计值落入允许范围有关,故t 称为概率度。第三节抽样估计的原理和方法第三节抽样估计的原理和方法 一、抽样估计的特点一、抽样估计的特点 1.逻辑上运用归纳推理而不是运用演绎推理;2.在方法上运用不确定的概率估计法;3.估计的结论存在一定的抽样误差。
9、二、抽样估计的理论基础二、抽样估计的理论基础 抽样估计是建立在概率论的大数法则基础上,大数法则一系列定理为抽样估计提供了数学依据。大数法则论证了抽样平均数趋近于总体平均数的趋势,为抽样推断提供了重要依据。中心极限定理研究了抽样平均数与总体平均数的离距不超过一定范围的概率大小问题。中心极限定理证明:如果总体变量存在有限的平均数和方差,那么不论这个总体变量的分布如何,随着抽样单位数n的增加,抽样平均数便趋近于正态分布。这个结论对于抽样推断是十分重要的,这为抽样误差的概率估计提供了一个极为有效而且方便的条件。三、抽样估计的优良标准三、抽样估计的优良标准 (一)无偏性。是指用样本指标估计总体指标时,要
10、求样本指标的平均数等于被估计总体指标的平均数。(二)一致性。是指用样本指标估计总体指标,当样本容量(n)增加时,样本指标越来越接近总体指标,则称样本指标为总体指标的一致估计量。(三)有效性。指用样本指标估计总体指标时,要求样本指标的方差最小,故有效性亦称最小方差。四、抽样估计方法四、抽样估计方法 (一)点估计 点估计也称定值估计,它是用样本指标直接估计总体参数。即总体平均数的点估计值就是样本平均数,总体成数的点估计值就是样本成数。(二)区间估计 1抽样估计精度。是指抽样估计的准确程度。它与抽样误差程度是相对的概念。误差率 /估计精度(亦称准确率)与误差率是相对的,即:估计精度1误差率 2.抽样
11、估计的置信度 抽样误差是一个随机变量,所以抽样指标(、p)落在一定区间(允许误差范围)不是一个必然事件,而只能给予一定的概率保证。因此,在进行抽样估计时,一方面要考虑抽样误差的允许范围有多大,这是估计的准确度问题,另一方面还要考虑落到这一范围的概率有多少,这是估计的准确性问题。抽样估计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。抽样误差范围和估计置信度是密不可分的,抽样误差范围愈小,则估计置信度也愈小;反之,抽样误差范围愈大,则估计置信度也愈大。理论已经证明,在样本单位足够多(n30)的条件下,抽样平均数的分布接近正态分布。正态分布的特点是,抽样平均数以总体平均数为中心
12、,两边对称分布。正态分布及曲线下的面积图:-3u -2u -u 1u 2u 3u 68.27%95.45%99.73%上图正态分布曲线与横轴围成的面积等于1。抽样平均数落在某一区间的概率P,就可以曲线在这一区间所包围的面积表示。经计算结果如下:P()P(|)68.27%P(2 2)P(|2)95.45%P(3 3)P(|3)99.73%这说明抽样平均数与总体平均数误差范围不超过1、2、3的概率,分别为68.27%、95.45%、99.73%。t为概率度,由于t|/,所以抽样误差概率就是概率度t的函数,即P(|t)=F(t)。上述关系式,可作如下表述:当t=1时,F(t)=68.27%当t=2时
13、,F(t)=95.45%当t=3时,F(t)=99.73%3.区间估计方法 区间估计是利用样本指标的数值,在一定可靠程度下给出总体相应指标的可能范围。也就是根据估计可靠程度要求,选定概率t,以及根据极限误差t,再利用抽样平均数 ,定出估计下限 和估计上限 ,下限与上限构成区间(,)称为置信区间,估计可靠程度F(t)为置信度。区间估计必须同时具备三个要素:估计值、抽样误差范围、概率保证程度。区间估计的特点是并不直接给予总体参数的被估计值,而只是规定总体参数被估计值的上限和下限,即总体参数存在的区间范围,并给予一定的概率保证程度。总体参数 、P的区间估计公式为:平均数的区间估计:+成数的区间估计:
14、p p P p p 4.区间估计小结 总体平均数的区间估计:总体平均数的区间估计:(1)抽取样本后,用简单算术平均或加权算术平均法计算样本平均数 ;(2)搜集总体方差 的数据或计算样本方差 代替总体方差 ;(3)计算抽样平均误差 ;(4)根据概率F(t)确定t,计算极限误差 ;(5)确定总体平均数的置信区间(,)。总体成数的区间估计:总体成数的区间估计:(1)抽取样本后,计算样本成数p=n1n2;(2)用经验数据或样本是非标准方差p(1-p)代替总体是非标志方差P(1P);(3)计算抽样平均误差 ;(4)根据概率F(t)确定t计算极限p ;(5)确定总体成数的置信区间(p-p,p+p)。5.抽
15、样平均误差的计算(1)重复抽样平均误差的计算 平均数平均差公式:成数平均误差公式:(2)不重复抽样平均误差的计算 平均数平均误差公式:成数平均误差公式:上式中,p、分别为总体标准差和总体成数,通常用样本标准差S和样本成数P代替。重复抽样与不重复抽样的平均误差公式只相差一个因子(),这个因子小于1。因此在同样条件下,不重复抽样的平均误差比重复抽样的平均误差要小。每包重量(克)包数(克)f(n)组中值xXf148-149149-150150-151151-15210205020148.5149.5150.5151.5148529907525303032.412.82.028.8合计10015030
16、760例1、某外贸公司出口一批小包装名茶,与外商签订合同规定每包茶叶的平均重量不能低于150克,根据下表的抽样检查结果,以99。73%的把握程度推断这批茶叶是否符合合同规定的要求。检查结果及其计算如下表:根据表中数据计算:t=3 平均每包茶叶重量的置信区间:150.3-0.261 150.3+0.261这批茶叶平均重量符合合同规定的要求。150.39 150.561 例2.例1中现用不重复抽样,随机抽取1%进行检查,其结果为例1表中数据。要求:(1)试以99.73%的概率推断这批茶叶平均每包重量是否符合合同规定要求。(2)以同样的概率估计这批茶叶包装的合格率置信区间。这批茶叶平均重量符合合同规
17、定的要求。根据表中数据计算:(1)(2)以99.73%的概率推断,这批茶叶包装合格率的范围在56%-84%之间。五、抽样单位数的决定五、抽样单位数的决定 (一)影响抽样单位数的因素 1.总体各单位标志变译程度,即总体方差 或p(1-p)的大小;2.允许的极限误差 或 的大小;3.抽样方法;4.抽样推断的可靠程度即概率F(t)的大小;5.抽样的组织形式。(2)测定成数时 用同样方法求出:(二)简单随机抽样的抽样单位数的决定 1.重复抽样下:(1)测定平均数时2.在不重复抽样下:(1)测定平均数时:(2)测定成数时:应用上面公式计算样本单位数(亦称样本容量n)应注意几个问题:1.当总体单位数不大时
18、,如果应用不重复抽样调查,必须应用不重复抽样公式;当总体单位很大时,虽应用不重复抽样调查,但一般可以应用重复抽样公式。2.测定平均数时,要事先知道总体方差 ,如果过去举办过这种调查,则可利用过去最大的 之值代替;如果过去未举办过这种调查,则可作试查,用试查,用试查中最大的 之值代替。3.测定成数时,要事先知道总体成数p。如过去举办过这种调查,则可取最接近于0.5之值;如过去未举办过这种调查,则直接取p0.5。.如果进行同一次抽样调查,用上述公式计算两个样本容量 ,且 。为了同时满足两个推断的要求,一般选择较大的一个。.上面公式计算的样本容量带小数,一般不采取四舍五入的办法化成整数,而是用比这个数第大的邻近整数代替。例1、假定总体为4000单位,被研究的标志方差不少于300,当抽样误差不超过3,概率为95.45时,需抽多少单位?已知:N=4000,=300,=3,t=2则:例2、若成数方差未知,为使极限误差不超过0.03,概率为95.45,采用重复抽样,需抽取多少单位?已知:0.03,t=2,p未知直接取p=0.5则:六、抽样资料的推算六、抽样资料的推算(一)直接推算法直接推算法,就是用已知的总体单位数乘抽样平均数来推算总体标志重量的方法。(二)修正系数法