《抽样技术7不等概率抽样18282.pptx》由会员分享,可在线阅读,更多相关《抽样技术7不等概率抽样18282.pptx(68页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章第七章不等概抽样不等概抽样放回不等概率抽样放回不等概率抽样不放回不等概率抽样不放回不等概率抽样利用软件进行抽样和计算利用软件进行抽样和计算案例分析案例分析第一节 不等概率抽样概述一、不等概率抽样的必要性一、不等概率抽样的必要性 1、在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。等概率抽样的特点是总体中的每个单元在该总体中的地位(或重要性)相同,在抽样时对每个单元采取的是“不偏不倚”的态度。等概率抽样不仅实施简单,而且相应的数据处理公式也简单。但是在许多实际问题中,我们还需要使用不等概率抽样(sampling with unequal probabilities)。2、抽样单
2、元在总体中所占的地位不一致:例如:要反映某小麦品种的优良情况,以村作为抽样单位,但各村的种植面积不同,一些种植面积大的村庄在抽样中是否被抽中对推断总体的结果有很大影响,所以让“大单元”被抽到的概率大,“小单元”被抽到的概率小,这样能够大大提高样本的代表性,减少抽样误差。不等概率抽样概述 不等概率抽样的特点 2、不等概率抽样的主要优点优点是由于使用了辅助信息,提高了抽样策略的统计效率,能显著地减少抽样误差。1、凡需使用不等概率抽样的场合,必须提供总体单元的某种辅助信息。例如:例如:每个单元的“大小”度量Mi。注意:注意:比估计和回归估计是估计方法用到了辅助信息,本章是抽样方法用到辅助信息.不等概
3、率抽样的特点3 3、抽样框的创建比简单随机抽样和系统抽样成本、抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要存储总体中每一个单元高,更复杂,因为需要存储总体中每一个单元的度量大小的度量大小;4 4、并非在任何情况下都能使用,因为并不是每一、并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关个总体都有稳定且与主要调查变量相关的有关大小或规模的度量大小或规模的度量;5 5、抽样及估计(特别对不放回抽样)相当复杂、抽样及估计(特别对不放回抽样)相当复杂;6 6、当单元大小度量不准确或不稳定时不适用当单元大小度量不准确或不稳定时不适用。6不等概率抽样的分类放
4、回不等概抽样放回不等概抽样:按照总体单元的规模大小来确定在每次抽中的概率。抽取后放回总体,再进行下一次抽样,每次抽样都是独立的。这种抽样称为放回不等概抽样(sampling with p probabilities p proportional to s sizes,简称PPS抽样)不放回的不等概抽样不放回的不等概抽样:每次在总体中对每个单元按入样概率进行抽样,抽出的样本不再放回总体,因此,在抽取了第一个单元后,余下的单元再以什么概率被抽取就较复杂。这种抽样不是独立的,无论是抽样方法还是方差估计,都要比放回抽样繁复得多。不放回抽样通常称为PS抽样。抽样。放回不等概抽样 PPS PPS抽样:有放
5、回的不等概抽样抽样:有放回的不等概抽样在PPS抽样中,赋予每个单元与Mi相等的代码数,将代码数累加得到M0,每次抽样都等概等概产生一个1,M0之间的随机数,设为m,代码m所对应的单元被抽中。放回不等概率抽样实施方法放回不等概率抽样实施方法1.代码法代码法累计累计代码代码10.66616214.5145151715131.515166152166413.713730316730357.87838130438161515053138253171010063153263183.6366676326679660727668727101.11173872873873.8738例例5.1 设某个总体有设某
6、个总体有10个单元,相应的单元大小及其代码个单元,相应的单元大小及其代码数如下表,在其中产生一个数如下表,在其中产生一个n=3的样本。的样本。假设在假设在1,7381,738 中中等概等概产生第一个随机数为产生第一个随机数为354354,再在,再在1,7381,738中产生第二中产生第二个随机数为个随机数为553553,最后在,最后在1,7381,738中产生第三个随机数为中产生第三个随机数为493493,则它们所对,则它们所对应的第应的第5 5,7 7,6 6号单元被抽中。号单元被抽中。Mi*10例:假设有例:假设有10个乡,每个乡的村庄数不同,按个乡,每个乡的村庄数不同,按pps抽抽3个乡
7、个乡乡村庄数Mi累计代码1551522833633326593459414736073510837483638121841217712812212885017812917892180179180108188181188结合一下整群抽样、结合一下整群抽样、多阶段抽样多阶段抽样2.2.拉希里法拉希里法(二次抽取法二次抽取法)(统计学家(统计学家LahiriLahiri最先提出):最先提出):设设 M1,M2,MN为单元的规模为单元的规模放回不等概率抽样实施方法放回不等概率抽样实施方法拉希里法抽样举例:拉希里法抽样举例:例例5.1中,中,M=150,N=10.在在1,10,1,150 中分别产生中分
8、别产生(i,m)如下)如下:第一次第一次(3,121),M3=15121,舍弃,重抽舍弃,重抽;第二次(第二次(8,50),),M8=3677,第第7号单元入样;号单元入样;第四次(第四次(5,127),),M5=7877,第第4号单元入样;号单元入样;第六次第六次(9,60),M9=6060,第第9号单元入样;号单元入样;因此第因此第4,7,9号单元被抽中。号单元被抽中。三、三、Hansen-HurwitzHansen-Hurwitz(汉森汉森-郝维茨郝维茨)估计量及其性质:)估计量及其性质:因为是放回抽样,所以是独立样本,数理统计的结因为是放回抽样,所以是独立样本,数理统计的结论可以在这里
9、应用。论可以在这里应用。放回不等概率抽样对总体特征的估计放回不等概率抽样对总体特征的估计对上述结论加以说明:对上述结论加以说明:独立同分布样本y1y2yn抽中概率z1z2zn新变量 ty1/z1y2/z2yn/zn汉森汉森-赫维茨估计量估计给出总体总量的估计赫维茨估计量估计给出总体总量的估计,如果对总体均值估计可按下公式:如果对总体均值估计可按下公式:例:例:某县农业局要调查全县养猪专业户今年生猪的出栏头某县农业局要调查全县养猪专业户今年生猪的出栏头数,现有全县数,现有全县365365个养猪专业户个养猪专业户去年的生猪存栏数去年的生猪存栏数,各专业,各专业户的规模相差较大,决定以放回方式按与各
10、养猪专业户上户的规模相差较大,决定以放回方式按与各养猪专业户上年末生猪存栏头数成比例的年末生猪存栏头数成比例的PPS抽样 从中抽取从中抽取3030户进行调户进行调查,结果如下,已知全县养猪专业户上年末生猪存栏头数查,结果如下,已知全县养猪专业户上年末生猪存栏头数为为95429542头,头,试估计该县养猪专业户生猪今年出栏总头数和试估计该县养猪专业户生猪今年出栏总头数和抽样标准误。抽样标准误。(摘自:(摘自:“应用抽样技术应用抽样技术”李金昌)李金昌)imiyiimiyiimiyi11575114025821191242 2232313413412321862226160393713176923
11、372154291521426156242110458451511492574963118516362212643336724133172514527189682917318533283017791374191938382882881019872042304其中第其中第2、19号被抽中两次号被抽中两次解:根据题中所给资料,解:根据题中所给资料,n=30,M0=9542,利用汉森利用汉森-郝维茨估计量,则有:郝维茨估计量,则有:例例5.25.2:某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时
12、间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本。1*38.2310926105.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301315.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600245.00311710.802901615.80
13、23702528.43928482.00430179.00940269.9784298.8199218*21.00640275.20510773861.05相对误差达到相对误差达到20时所需样本量:时所需样本量:解:解:有放回不等概整群抽样有放回不等概整群抽样 群规模不等的整群抽样中,可采用群规模不等的整群抽样中,可采用等概和不等概等概和不等概抽样;抽样;如果群规模如果群规模差异不大差异不大,可采用,可采用等概等概抽样;如果群规模差异抽样;如果群规模差异较大较大,各个群对总体的影响不同,此时采用,各个群对总体的影响不同,此时采用不等概不等概抽样。抽样。把群规模作为辅助信息,能提高估计精度,而且
14、方差估计把群规模作为辅助信息,能提高估计精度,而且方差估计形式简单。但在抽样时要掌握辅助信息,比简单随机复杂。形式简单。但在抽样时要掌握辅助信息,比简单随机复杂。假设群的抽取是按与假设群的抽取是按与 MMi i成比例的成比例的ppspps抽样,每次按抽样,每次按 Z Zi i=M=Mi i/M/M0 0(i=1,2i=1,2,NN)的概率抽取第)的概率抽取第i i个群。个群。由汉森由汉森-赫维茨估计量,赫维茨估计量,ppspps整群抽样总体总值估计量为整群抽样总体总值估计量为例例 某企业欲估计上季度每位职工的平均病假天数。该企业共8个分厂,现用不等概整群抽样拟抽取3个分厂,并以置信度95%计算
15、其置信区间。分厂编号 职工人数 Mi 累积区间123456781200450210086028401910390320011200120116501651375037514610461174507451936093619750975112950有放回不等概整群抽样有放回不等概整群抽样解:n3,采用PPS抽样,随机抽取的3个数为02011,07972,10281。调查结果如下:有放回不等概整群抽样有放回不等概整群抽样注:注:1、对于群规模不等的整群抽样,采用不等概对于群规模不等的整群抽样,采用不等概PPS抽抽样,可以得到总体目标量的无偏估计,样,可以得到总体目标量的无偏估计,2、估计量和估计量的
16、方差都有比较简明的形式,估估计量和估计量的方差都有比较简明的形式,估计的效率也比较高,是值得优先考虑采用的方法,计的效率也比较高,是值得优先考虑采用的方法,3、使用条件:在抽取样本前,要掌握各群规模的信使用条件:在抽取样本前,要掌握各群规模的信息。息。多阶段有放回不等概抽样多阶段有放回不等概抽样 当初级单元规模不等时,常采用不等概抽样。对初级单当初级单元规模不等时,常采用不等概抽样。对初级单元进行元进行PPS抽样时,事先规定每个初级单元被抽中的概率抽样时,事先规定每个初级单元被抽中的概率 Z Zi i=M=Mi i/M/M0 0(i=1N),(i=1N),可利用代码法,可利用代码法,对抽中的对
17、抽中的初级初级单元再单元再抽抽取取m mi i个二级单元;个二级单元;如果对第二阶段实行简单随机抽样,且如果对第二阶段实行简单随机抽样,且抽相同的样本数(抽相同的样本数(第一阶段抽出来的一般是单元的规模较第一阶段抽出来的一般是单元的规模较大,而且彼此差别不大大,而且彼此差别不大),此时估计形式较简单,且是自),此时估计形式较简单,且是自加权的。加权的。这是实际中经常采用的多阶段不等概抽样法。这是实际中经常采用的多阶段不等概抽样法。多阶段有放回不等概抽样多阶段有放回不等概抽样实际工作中,如果初级单元大小不等,实际工作中,如果初级单元大小不等,人们喜欢:人们喜欢:1 1、第一阶段抽样时按放回的与二
18、级单元成比例的第一阶段抽样时按放回的与二级单元成比例的PPSPPS抽抽样;样;2 2、第二阶抽样进行简单随机抽样,且抽的样本量相同,第二阶抽样进行简单随机抽样,且抽的样本量相同,这样得到的样本是自加权的,估计量的形式也非常简单。这样得到的样本是自加权的,估计量的形式也非常简单。例:例:某县农村共有某县农村共有1414个乡个乡509509个村,在实现小康的进程中个村,在实现小康的进程中欲计算该县农村的恩格尔系数,欲计算该县农村的恩格尔系数,即居民户的食品支出占即居民户的食品支出占总支出的比例。首先要调查全县的食品总支出,现采用总支出的比例。首先要调查全县的食品总支出,现采用了二阶段抽样,第一阶段
19、先在了二阶段抽样,第一阶段先在1414个乡中,按村的数目多个乡中,按村的数目多少进行少进行PPSPPS抽样,共抽了抽样,共抽了5 5个乡,第二阶段在抽中的乡中个乡,第二阶段在抽中的乡中随机地抽选随机地抽选6 6个村,然后对抽中的村做全面调查,取得的个村,然后对抽中的村做全面调查,取得的数据如下,数据如下,估计全县的食品支出总额及其标准误。估计全县的食品支出总额及其标准误。样本乡序号村数样本村数样本村平均食品支出(万元)119648241617537261084546905366100多阶段有放回不等概抽样例题分析多阶段有放回不等概抽样例题分析多阶段有放回不等概抽样例题分析多阶段有放回不等概抽样
20、例题分析 误差有点偏大,要想提高估计精度,必须误差有点偏大,要想提高估计精度,必须 增加第增加第一阶段的样本量一阶段的样本量 例;某小区有例;某小区有10座高层建筑,每座高层建筑座高层建筑,每座高层建筑 拥有的楼层数如下表,拥有的楼层数如下表,高层建筑ABCDEFGHIJ楼层12121615101610181620 用二阶段抽样方法抽出用二阶段抽样方法抽出1010个搂层进行调查,第一阶段个搂层进行调查,第一阶段PPSPPS抽出抽出5 5座建筑座建筑,第二阶段按简单随机抽样对每座建筑,第二阶段按简单随机抽样对每座建筑抽取抽取两个两个楼层,具体数据如下表所示,对小区总居民进楼层,具体数据如下表所示
21、,对小区总居民进行估计,并给出估计的误差。行估计,并给出估计的误差。初级样本序号12345居民数18,1215,1819,13 16,1016,11多阶段有放回不等概抽样例题分析多阶段有放回不等概抽样例题分析解:已知解:已知n=5,m=2,M0=145,这时,多阶抽样的总样本量可以这样确定:这时,多阶抽样的总样本量可以这样确定:1.1.根据简单随机抽样时应抽样本量根据简单随机抽样时应抽样本量2.2.再乘以设计效应再乘以设计效应deffdeff获得。获得。多阶抽样与简单随机抽样相比其效率比较低,多阶抽样与简单随机抽样相比其效率比较低,deffdeff应该大于应该大于1 1。实际工作中,可取。实际
22、工作中,可取deffdeff的经验数据。不同项的经验数据。不同项目的目的deffdeff不同。不同。下面是一案例分析下面是一案例分析多阶有放回不等概抽样多阶有放回不等概抽样例例:某调查公司接受了一项关于某调查公司接受了一项关于全国城市成年居全国城市成年居民民人均奶制品每天至少喝一杯奶的人数的比例人均奶制品每天至少喝一杯奶的人数的比例情况的调查。确定抽样范围为全国地级及以上情况的调查。确定抽样范围为全国地级及以上城市中的成年居民。成年居民指年满城市中的成年居民。成年居民指年满1818周岁以周岁以上的居民。上的居民。第一步:确定抽样方法。第一步:确定抽样方法。调查公司决定采用多阶抽样方法进行方案调
23、查公司决定采用多阶抽样方法进行方案设计,调查的最小单元为成年居民。确定调查设计,调查的最小单元为成年居民。确定调查的各个阶段为城市、街道、居委会、居民户,的各个阶段为城市、街道、居委会、居民户,在居民户中利用在居民户中利用 简单随机法抽取成年居民。简单随机法抽取成年居民。第二步:确定样本量及各阶样本量的配置。第二步:确定样本量及各阶样本量的配置。按简单随机抽样时,在按简单随机抽样时,在9595置信度下,绝置信度下,绝对误差为对误差为5 5,取使方差达到最大时的消费奶,取使方差达到最大时的消费奶制品的居民比例为制品的居民比例为5050,则全国样本量应为:,则全国样本量应为:根据以往调查的经验,估
24、计回答率根据以往调查的经验,估计回答率b=80b=80,因此调整样,因此调整样本量为:本量为:多阶抽样的效率比简单随机抽样的效率低,这里取设计多阶抽样的效率比简单随机抽样的效率低,这里取设计效应效应deff=3.2deff=3.2,则在全国范围内应调查的样本居民为:,则在全国范围内应调查的样本居民为:各阶的样本量配置为:各阶的样本量配置为:初级单元:初级单元:2020个样本城市;个样本城市;二级单元:二级单元:每个样本市内抽每个样本市内抽4 4个街道,共个街道,共8080个街道;个街道;三级单元:三级单元:每个样本街道内抽每个样本街道内抽2 2个居委会,共个居委会,共160160个居委会;个居
25、委会;四级单元:四级单元:每个样本居委会内抽每个样本居委会内抽1010个居民户,个居民户,16001600个居民户。个居民户。在样本居民户内,利用随机表抽在样本居民户内,利用随机表抽1 1名成年居民。名成年居民。第三步:确定抽样方法。第三步:确定抽样方法。第第1 1阶,阶,在全国城市中按与人口数成比例的放回的不等在全国城市中按与人口数成比例的放回的不等概抽样,即概抽样,即PPSPPS抽样抽样(probability propotional to size)(probability propotional to size)。第第2 2阶和第阶和第3 3阶分别按与人口数成比例的不等概等距抽阶分别按
26、与人口数成比例的不等概等距抽样。样。以第以第2 2阶为例,阶为例,在某个被抽中的样本城市中,将其所属在某个被抽中的样本城市中,将其所属的街道编号,搜集各街道的人口数,赋予每个街道与其人口的街道编号,搜集各街道的人口数,赋予每个街道与其人口相同的代码数相同的代码数;根据该市总人口数除以样本量根据该市总人口数除以样本量4 4,确定抽样间,确定抽样间距;然后对代码进行随机起点的等距抽样,则被抽中代码所距;然后对代码进行随机起点的等距抽样,则被抽中代码所在的街道为样本街道。在的街道为样本街道。第第4 4阶,分别在每个样本居委会中,按等距抽样抽出阶,分别在每个样本居委会中,按等距抽样抽出1010个个民户
27、。民户。即根据居委会拥有的居民户数除以样本量即根据居委会拥有的居民户数除以样本量1010得到抽样距,得到抽样距,然后随机起点等距抽样。然后随机起点等距抽样。在每个样本居民户中,调查员按在每个样本居民户中,调查员按 随机表抽取随机表抽取1名成年居民名成年居民第四步:推算方法。第四步:推算方法。记各样本城市的记各样本城市的80位样本居民中,每天至少喝一杯奶位样本居民中,每天至少喝一杯奶的人数为的人数为ai,全国,全国1600名居民组成的样本中,每天至少名居民组成的样本中,每天至少喝一杯鲜奶的人数为喝一杯鲜奶的人数为样本是自加权的,故成年居民每天至少喝一杯鲜奶所占比例为样本是自加权的,故成年居民每天
28、至少喝一杯鲜奶所占比例为:的方差的估计为的方差的估计为:其中其中pi是各样本城市每天至少喝一杯鲜奶的人数所占比例是各样本城市每天至少喝一杯鲜奶的人数所占比例:2 2 不放回的不等概率抽样不放回的不等概率抽样 1 1、有放回不等概率抽样,无论从实施上还是从估计计算、有放回不等概率抽样,无论从实施上还是从估计计算以及精度估计都显得十分方便。但是,一个单元被抽中两次以及精度估计都显得十分方便。但是,一个单元被抽中两次以上总会使样本的代表性打折扣,从而引起抽样误差的增加。以上总会使样本的代表性打折扣,从而引起抽样误差的增加。2 2、不放回不等概率抽样,是指在抽样的过程中被抽到的单、不放回不等概率抽样,
29、是指在抽样的过程中被抽到的单元不能再被抽中,这种抽样要求元不能再被抽中,这种抽样要求 总体中第总体中第i i个单元的个单元的入样概率入样概率为为i ,这就是所谓的,这就是所谓的 抽样。抽样。3 3、因为在抽取了第一个单元后,余下的因为在抽取了第一个单元后,余下的 (N-1)(N-1)个单元以个单元以什么样的概率参与第二次抽样就很复杂;再在抽第三个样本什么样的概率参与第二次抽样就很复杂;再在抽第三个样本时又面临新问题,如此下去,时又面临新问题,如此下去,一是抽样实施的复杂,二是估一是抽样实施的复杂,二是估计量及其方差计算的复杂计量及其方差计算的复杂。因此,在本节仅讨论因此,在本节仅讨论 n n固
30、定,尤其是固定,尤其是n=2n=2时的情形时的情形。不放回不等概率抽样一、一、PSPS抽样与包含概率抽样与包含概率包含概率:包含概率:在不放回抽样中,每个单元被包含到样本的概率也即入样概率i及任意两个单元都被包含到样本中的概率ij特别的,如果每个单元入样概率与单元大小成比例的概率抽样称这种情形为严格的称这种情形为严格的 抽样抽样实施起来复杂,实施起来复杂,也不易求得,方差的估算很困难,也不易求得,方差的估算很困难,只有在只有在n=2时有简单的算法;当时有简单的算法;当n2时可以通过分层,时可以通过分层,每层中进行严格的每层中进行严格的n=2 抽样抽样 不放回不等概率抽样不放回不等概率抽样2、H
31、orvitzThompson(霍维茨(霍维茨汤普森)估计量汤普森)估计量HT估计量与估计量与HH估计量是估计量是 极其相似的。极其相似的。因为因为 ,它们在形式上似乎完全一样,但是它们在形式上似乎完全一样,但是HH估计估计量中的量中的 yi 可以互相重复,可以互相重复,而而HT中的中的yi 却是绝对地互不相同。却是绝对地互不相同。当当 n 固定时,固定时,HT估计量的方差为:估计量的方差为:例例5.3 假设有假设有5个居委会,每个居委会的住户数个居委会,每个居委会的住户数X已知已知但常住居民未知,我们从但常住居民未知,我们从5个居委会抽出个居委会抽出2个来估计常个来估计常住居民的总人数。如下表
32、:住居民的总人数。如下表:iX(住户数)Y(常住居民人数)zi140011000.80.422506000.50.2532005000.40.241002400.20.1550800.10.05总和100025202110种不同的样本分别利用种不同的样本分别利用霍维茨霍维茨汤普森估计量和简单随汤普森估计量和简单随机抽样简单估计机抽样简单估计计算对总量的估计如下表:计算对总量的估计如下表:样本1,2257542501,3262540001,4257533501,5217529502,3245027502,4240021002,520001700 3,4,245018503,5205014504,
33、52000800平均252025201、从均值上来看,它们都是无偏估计,均值都是、从均值上来看,它们都是无偏估计,均值都是2520.2、为比较估计量的优劣,需计算估计量的方差,为比较估计量的优劣,需计算估计量的方差,这用到这用到每个样本被抽出的概率。每个样本被抽出的概率。3、不放回不等概率样本,每个样本被抽出的概率计算很、不放回不等概率样本,每个样本被抽出的概率计算很复杂。复杂。不过从直观上来看,例子用不过从直观上来看,例子用霍维茨霍维茨汤普森估计量比汤普森估计量比简简单随机抽样单随机抽样简单估计要精确简单估计要精确结果分析:结果分析:(1)Brewer(布鲁尔)方法(布鲁尔)方法(1963)
34、假设对所有假设对所有,均有,均有,现抽取,现抽取两个两个单元单元,最通常的,最通常的方法是逐个选取。方法是逐个选取。几种严格的不放回不等概抽样几种严格的不放回不等概抽样其中其中第一次第第一次第i个单元被抽中的概率为:个单元被抽中的概率为:取出第一个不放回,假设第一次抽取了第取出第一个不放回,假设第一次抽取了第i个单元,个单元,第二次单元第二次单元j被抽中的概率为:被抽中的概率为:这种抽样方法可以保证每个单元入样概率为:这种抽样方法可以保证每个单元入样概率为:而而其中其中对总值和方差的估计如下:对总值和方差的估计如下:采用霍维茨采用霍维茨汤普森估计量汤普森估计量例例5.4 对于例对于例5.3,如
35、果抽样是按布鲁尔法的,则,如果抽样是按布鲁尔法的,则其所有可能样本的其所有可能样本的 如下表:如下表:样本1,225750.348791,326250.265741,425750.124571,521750.06092,324500.091352,424000.040482,520000.019383,424500.029073,520500.013844,520000.00588Brewer 抽样方法举例:抽样方法举例:乡种植面积(千亩)总产量(单位:千公斤)110100220220330285440360合计100965例:某县有四个乡,粮食总产量和种植面积如下表:例:某县有四个乡,粮食总
36、产量和种植面积如下表:用布鲁尔方法抽取两个乡作样本估计本县的总产量,用布鲁尔方法抽取两个乡作样本估计本县的总产量,验证抽选结果符合验证抽选结果符合PS的要求,并计算估计量方差。的要求,并计算估计量方差。Brewer法第一个单元的被抽中概率法第一个单元的被抽中概率乡种植面积规模比例第1次被抽中概率1100.10.11250.053462200.20.26670.126753300.30.5250.249504400.41.20.57029合计2.10421本题计算过程:本题计算过程:Brewer法法2个单元的抽选办法:个单元的抽选办法:第二次抽中第第二次抽中第j个单元(第一次抽中第个单元(第一次
37、抽中第i个单元)的概率为个单元)的概率为第一次抽中第第一次抽中第i个单元,第二次抽中第个单元,第二次抽中第j个单元的联合概率为个单元的联合概率为假定第一次抽中第假定第一次抽中第1个单元,第二次抽中第个单元,第二次抽中第2个单元,个单元,其联合概率为:其联合概率为:第一次抽中第第一次抽中第1个单元,第二次抽中第个单元,第二次抽中第4个单元的联合概率为个单元的联合概率为第一次抽中第第一次抽中第1个单元,第二次抽中第个单元,第二次抽中第3个单元的联合概率为个单元的联合概率为第一次抽中第第一次抽中第2个单元,第二次抽中第个单元,第二次抽中第1个单元的联合概率为个单元的联合概率为第一次抽中第第一次抽中第
38、2个单元,第二次抽中第个单元,第二次抽中第3个单元的联合概率为个单元的联合概率为依次可得各种可能被抽中的概率如下表依次可得各种可能被抽中的概率如下表单元第二次抽中 1 2 3 4合计1234第一次抽中第一次抽中00.011880.017820.023760.053640.0156400.047530.063380.126750.035640.0712900.142570.249500.095060.190090.2851500.57030合计0.146540.273260.35050.22971110.053460.146540.22Z1同理可验证同理可验证20.126750.273260.4
39、2Z230.24950.35050.62Z340.57030.229710.82Z4所以抽选结果符合所以抽选结果符合ps要求要求样本单元1,2100/0.2220/0.410500.027721,3100/0.2285/0.69750.053461,4100/0.2360/0.89500.118822,3220/0.4285/0.610250.118822,4220/0.4360/0.810000.253473,4285/0.6360/0.89250.42772说明:说明:本题是总体信息已知,对书中的结果做了验证。本题是总体信息已知,对书中的结果做了验证。我们在实际工作中只抽到了一个我们在实际
40、工作中只抽到了一个PS样本,比如说,样本,比如说,抽到了第抽到了第3、4个单元,个单元,只用计算只用计算p34,p43,算出算出34,其,其余不用计算。余不用计算。然后代入公式进行计算即可然后代入公式进行计算即可(2)Durbin(德宾)方法(德宾)方法(1967)的概率抽取第二个样本。此时的概率抽取第二个样本。此时以概率以概率在总体中进行一次不等概率抽样,在总体中进行一次不等概率抽样,设第设第个单元以概率个单元以概率入样,在剩余的入样,在剩余的N1个单元中,以个单元中,以正比于正比于于是可以计算出于是可以计算出(7.19)(7.18)Durbin方法中的方法中的与与Brewer方法中的方法中
41、的完全一样完全一样这表明两种不等概率抽样方法其实是等价的。这表明两种不等概率抽样方法其实是等价的。(7.20)n n总体差异不要太大n n逐个抽取:关键:第一个单元与关键:第一个单元与 成比例的概率抽取成比例的概率抽取剩余的剩余的N-1N-1个单位不放回等概抽取个单位不放回等概抽取n 2n 2条件下严格的条件下严格的PS抽样水野方法非严格的非严格的ps抽样抽样在实际工作中,有时采用非严格的在实际工作中,有时采用非严格的ps抽样:抽样:耶茨耶茨-格伦迪逐个抽取法:格伦迪逐个抽取法:包含概率与单元大小并非严格成比例,即下式不严包含概率与单元大小并非严格成比例,即下式不严格成立格成立操作简单,想法自
42、然较常用操作简单,想法自然较常用 以概率以概率z zi i抽取第一个样本单元,不妨记为第一个;以概抽取第一个样本单元,不妨记为第一个;以概率率z zi i/(1-z1-z1 1)在剩下的在剩下的 N-1N-1个单元中抽第二个,不妨记抽个单元中抽第二个,不妨记抽中的为第二个;再以概率中的为第二个;再以概率z zi i/(1-z1-z1 1-z-z2 2)在剩下的在剩下的N-2N-2个单个单元中抽取第三个,以此类推,直到抽出元中抽取第三个,以此类推,直到抽出n n 个单元。个单元。i i与单与单元大小并非严格成比例。元大小并非严格成比例。耶茨耶茨-格伦迪方法的入样概率不容易计算,因而不能用格伦迪方
43、法的入样概率不容易计算,因而不能用霍维茨霍维茨汤普森估计量汤普森估计量采用采用Raj估计量估计量例:例:总体总体 N=10个单元组成,个单元组成,M0=30,要在总体中按不,要在总体中按不等概逐个抽取法抽出个样本单元,调查后请对总体等概逐个抽取法抽出个样本单元,调查后请对总体进行推算:进行推算:(第个)(第个)(第个和 261.如果在如果在1,30范围里产生随机数,则代码范围里产生随机数,则代码所在的号单元被抽中;所在的号单元被抽中;2.如果在如果在1,26范围里产生的随机数是,则范围里产生的随机数是,则则代码所在的号单元被抽中;则代码所在的号单元被抽中;3.如果在如果在1,24范围里产生的随
44、机数是,范围里产生的随机数是,则代则代码所在的号单元被抽中;码所在的号单元被抽中;如果调查知:如果调查知:y4=150,y8=100,y3=200,具体抽样过程:具体抽样过程:放回不等概率抽样(放回不等概率抽样(PPS)()(重点掌握重点掌握)不放回不等概率抽样(不放回不等概率抽样(PS)利用软件进行抽样和计算利用软件进行抽样和计算本章小结:本章小结:谢谢观看/欢迎下载BY FAITH I MEAN A VISION OF GOOD ONE CHERISHES AND THE ENTHUSIASM THAT PUSHES ONE TO SEEK ITS FULFILLMENT REGARDLESS OF OBSTACLES.BY FAITH I BY FAITH