《抽样调查:不等概率抽样课件.ppt》由会员分享,可在线阅读,更多相关《抽样调查:不等概率抽样课件.ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、简单随机抽样的特点简单随机抽样的特点:总体中每个个体被抽中入样的概率都相同。对总体中每个个体被抽中入样的概率都相同。对于各单元所处地位几乎于各单元所处地位几乎“平等平等”的总体,这种抽样原则既公正又方便。的总体,这种抽样原则既公正又方便。不等概率抽样不等概率抽样:但在许多社会经济活动中并非所有单元地位相同。但在许多社会经济活动中并非所有单元地位相同。使得使得“大大”单元入样概率大,单元入样概率大,“小小”单元入样概率小,这里的单元入样概率小,这里的“大大”、“小小”与我们所关心的调查指标有着密切的关系。与我们所关心的调查指标有着密切的关系。第三章第三章 不等概抽样不等概抽样 例如,要了解上海地
2、区钢铁企业的景气状况,总体有上钢一厂、三例如,要了解上海地区钢铁企业的景气状况,总体有上钢一厂、三厂、五厂厂、五厂等等,再加上宝钢。由于宝钢规模极大,它是否景气对整等等,再加上宝钢。由于宝钢规模极大,它是否景气对整个上海地区钢铁工业起着至关重要的作用。而在抽样中将它与其它规模个上海地区钢铁工业起着至关重要的作用。而在抽样中将它与其它规模较小的单位处于同等地位就会既不公正又使抽样推断结果有较大可能发较小的单位处于同等地位就会既不公正又使抽样推断结果有较大可能发生大的偏差。生大的偏差。3.1 PPS 3.1 PPS 抽抽 样样 PPSPPS抽样抽样:抽取概率正比于规模测度。:抽取概率正比于规模测度
3、。Sampling with Probability Proportional to Size 不等概率不等概率 抽样抽样有放回不等概率抽样有放回不等概率抽样 (PPS)无放回不等概率抽样无放回不等概率抽样 ()一、实现方法一、实现方法(1)累积和法)累积和法 或或 代码法代码法 它适合于它适合于 N N 不太大的情形。假定所有的不太大的情形。假定所有的 为整数,倘为整数,倘若在实际中存在若在实际中存在 不是整数的话,则可以乘以一个倍数使其不是整数的话,则可以乘以一个倍数使其为整数。见下表。为整数。见下表。单元单元单元大小单元大小代码数代码数表表31 31 ppspps 抽样时各单元的代码数抽
4、样时各单元的代码数每次抽样前,先在整数每次抽样前,先在整数 里面随机等可能的选里面随机等可能的选取一个整数,设为取一个整数,设为m,m,若代码若代码 m m 属于第属于第 j j个单元拥有的代码个单元拥有的代码数,则第数,则第 j j个单元入样。整个过程重复个单元入样。整个过程重复 n n次,得到次,得到 n n个单元个单元入样(当然存在重复的可能性)构成入样(当然存在重复的可能性)构成 ppspps 样本。样本。例例3.13.1 设某总体共有设某总体共有N=8N=8个单元,相应个单元,相应 及代码如表所示及代码如表所示1 12 23 34 45 56 67 78 82/52/51/21/22
5、/32/34/34/38/58/53/53/52/32/3 1 112121515202040404848181820203030累计累计1212272747478787135135153153173173203203代码代码1 112121313272728284747484887878888135135136136153153154154173173174174203203 假设第假设第 个单元在个单元在 n n次抽样中被抽中次抽样中被抽中 次,则次,则是一个随机向量,其联合分布为:是一个随机向量,其联合分布为:这是我们熟悉的这是我们熟悉的多项分布多项分布,多项抽样多项抽样其名正出于此。其
6、名正出于此。(3.1)3.1)多项分布多项分布(3.1)3.1)具有如下性质:具有如下性质:倘若单元有一个数值度量其大小,诸如职工人数、工厂产值倘若单元有一个数值度量其大小,诸如职工人数、工厂产值商店销售额等,或者感兴趣的调查指标在上一次普查时的数商店销售额等,或者感兴趣的调查指标在上一次普查时的数据也可以作为其单元大小的一种度量。记据也可以作为其单元大小的一种度量。记 为第为第 个单元的个单元的“大小大小”,并记,并记若取若取 n=3n=3,在在1 1203203中随机有放回地产生中随机有放回地产生3 3个随机整数,不个随机整数,不妨设为妨设为4545、8989、101101,则第,则第 3
7、 3 个单元入样一次,第个单元入样一次,第 5 5 个单个单元入样元入样 2 2 次。次。(2 2)最大规模法)最大规模法 或或 LahiriLahiri(拉希里拉希里)方法方法 当当 N N 相当大时,累计的相当大时,累计的 将很大,给代码法的实施带将很大,给代码法的实施带来很多不方便。来很多不方便。LahiriLahiri提出下列方法:令提出下列方法:令每次抽取每次抽取 1 1N N 中一个随机整数中一个随机整数 及及 1 1 内一个随机整数内一个随机整数 ,如果,如果 ,则第,则第 个单元入样;若个单元入样;若 ,则按前面,则按前面步骤重抽步骤重抽 ,显然,第,显然,第 个单元的入样与否
8、受到个单元的入样与否受到 的影的影响,只有响,只有 时它才入样,因此第时它才入样,因此第 个单元入样的概率与个单元入样的概率与 的大小成正比,此时的大小成正比,此时mn定理定理3.1.1 在有放回在有放回PPS抽样下,抽样下,二、估二、估 值值 法法PPS抽样法的估值法的理论依据抽样法的估值法的理论依据估计的均方偏差为:估计的均方偏差为:n证明证明 考虑随机变量考虑随机变量Z,n定理定理3.1.2 在有放回在有放回PPS抽样下,抽样下,注:注:果园序号果园序号12345678规模测度规模测度X503065801404420100例例 一村庄有一村庄有8个果园,分别由果树个果园,分别由果树50,
9、30,65,80,140,44,20,100棵,要调查该村庄水果产量,以正比于果树棵树的概率棵,要调查该村庄水果产量,以正比于果树棵树的概率取取3个果园作样本个果园作样本.如果实地调查得第如果实地调查得第5、第、第8、第、第3号三个果园的产量分别为号三个果园的产量分别为15,12,7,求该村八个果园的总产量估计,求该村八个果园的总产量估计.解:解:这一估计的均方偏差的估计为这一估计的均方偏差的估计为2 2、Hansen-Hurwitz Hansen-Hurwitz(汉森(汉森赫维茨)估计量赫维茨)估计量 若若 是按是按 为入样概率的多项抽样而得的样为入样概率的多项抽样而得的样本数据,它们相应的
10、本数据,它们相应的 值自然记为值自然记为 ,则对总,则对总体总和,体总和,Hansen-Hurwitz Hansen-Hurwitz 给出了如下的估计量:给出了如下的估计量:且且 ,即,即 是是总体总和总体总和 的无偏估计。的无偏估计。的无偏估计为的无偏估计为有放回不等概率抽样有放回不等概率抽样:从实施上还是从估计计算以及精度估计都显得从实施上还是从估计计算以及精度估计都显得十分方便。但一个单元被抽中两次以上总会使样本的代表性打折扣,从十分方便。但一个单元被抽中两次以上总会使样本的代表性打折扣,从而引起抽样误差的增加。而引起抽样误差的增加。实际调查工作者一般倾向于使用实际调查工作者一般倾向于使
11、用不放回形式不放回形式。问题问题:最简单的最简单的不放回不等概率抽样不放回不等概率抽样方式自然会想到逐一抽样这在第方式自然会想到逐一抽样这在第一次抽样时不会发生问题,但在抽第二个样本时面临的情况与有放回时一次抽样时不会发生问题,但在抽第二个样本时面临的情况与有放回时大不相同,余下的大不相同,余下的(N-1)N-1)个单元以什么样的概率参与第二次抽样就个单元以什么样的概率参与第二次抽样就是个问题;再在抽第三个样本时又面临新问题。是个问题;再在抽第三个样本时又面临新问题。一是抽样实施的复杂;一是抽样实施的复杂;二是估计量及其方差计算的复杂。二是估计量及其方差计算的复杂。在本节讨论在本节讨论:(1)
12、(1)n n 固定,尤其是固定,尤其是n=2n=2时的情形。时的情形。(2)(2)总体中每个单元的入样概率严格地与其总体中每个单元的入样概率严格地与其“大小大小”成比例,即成比例,即 抽抽样。样。3.2 3.2 不等概不等概 抽样抽样 几种严格的不放回几种严格的不放回 抽样方法抽样方法(1)Brewer(布鲁尔)抽样方法(布鲁尔)抽样方法(1963)前面已经指出,所谓前面已经指出,所谓“严格不放回严格不放回 ”是指样本容量是指样本容量n 固定,严格不放回、固定,严格不放回、的抽样。仅介绍的抽样。仅介绍n=2的情形。的情形。1.对这种抽样,总体中个体单元对这种抽样,总体中个体单元i 的入样概率为
13、的入样概率为2.设计好第一次抽取的概率,第二次抽取的概率与设计好第一次抽取的概率,第二次抽取的概率与 成成正比,使总的入样概率正比于正比,使总的入样概率正比于 .特点特点:(2)Durbin(德宾)方法(德宾)方法(1967)1.对这种抽样,总体中个体单元对这种抽样,总体中个体单元i 的入样概率为的入样概率为2.第一次抽取的概率与第一次抽取的概率与 成正比,第二次抽取的概率使成正比,第二次抽取的概率使总的入样概率正比于总的入样概率正比于 .特点特点:Durbin方法中的方法中的 与与Brewer方法中的方法中的 完全一样完全一样这表明两种不等概率抽样方法其实是等价的。这表明两种不等概率抽样方法
14、其实是等价的。(3)Sen-Midzuno抽样方法抽样方法(4)HorvitzThompson(霍维茨霍维茨汤普森汤普森)HT估计量估计量对于不放回不等概率抽样对于不放回不等概率抽样,常用常用HT估计。估计。总体总数总体总数Y的无偏估计量为:的无偏估计量为:该估计量的均方偏差为:该估计量的均方偏差为:HT估计的均方偏差的两个无偏估计量为估计的均方偏差的两个无偏估计量为注注:两估计量均有可能取负值,通过模拟比较,两估计量均有可能取负值,通过模拟比较,v2较稳定且较稳定且 较少取负值。较少取负值。3.3 3.3 RaoRao-Hartley-Cochran-Hartley-Cochran随机分群抽样随机分群抽样 拉奥拉奥-哈特利哈特利-科克伦(科克伦(19621962)在随机分群抽样下,记第在随机分群抽样下,记第t群抽出的样本单元为群抽出的样本单元为 ,其,其对应的抽取概率为对应的抽取概率为 ,则估计量,则估计量为总体总数为总体总数Y的的无偏估计无偏估计。该估计量的均方偏差为:该估计量的均方偏差为: