《不等概率抽样.pptx》由会员分享,可在线阅读,更多相关《不等概率抽样.pptx(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章 不等概率抽样7.1 概述7.2 放回不等概率抽样7.3 不放回不等概率抽样*第1页/共30页7.1 概述 一、不等概率抽样的提出与含义二、不等概率抽样的使用和优点三、不等概率抽样的分类第2页/共30页一、不等概率抽样的提出与含义前述概率抽样方式,具有“等概率”的特点。简单随机抽样下总体中每一个单元的入样概率均相等 分层随机抽样下,层内每一个单元的入样概率均相等 特别地,按比例分配的分层随机抽样对于总体中每一个单元的入样概率均相等等概率抽样的基本出发点是将总体(或层)中的每一个单元看作是平等的,不“偏向”也不“疏远”某些特定的单元如果总体单元差异不大,这种方式既简单也合理第3页/共30页
2、 但是如果总体单元相差较大,等概率抽样效果不一定好 例如估计昆明市商业零售总额,大型商场、中型超市和小型商店的差别非常明显,平等对待显然不合理 对这一情况,处理方式有多种:分层抽样:按规模分层,大型抽样比高、小型抽样比低 目录抽样:少数大单元普查而大多数小单元进行抽样 不等概率抽样第4页/共30页 不等概率抽样(sampling with unequal probability)是指在抽取样本之前给总体中的每一个单元赋予一定的入样概率,从而保证大的(重要的)单元抽到的概率大,而小的(不重要的)的单元抽到的概率小。这里每个单元被赋予的入样概率通常与某个辅助变量有关(比如单元规模等)不等概率抽样是
3、抽样理论发展的产物。代表性抽样:主观、有意识的抽样 等概率的随机抽样:每个单元平等 分层抽样:不同层不等概率,但层内等概率 不等概率抽样:单元具有不等地位第5页/共30页二、不等概率抽样的使用和优点不等概率抽样通常用于以下三种情况:需要估计总体总量但总体单元规模相差很大的情况 抽样审计 在不能直接对基本的较小单元抽样的情形下,与其它抽样结合,完成对大的单元的抽样在上述情形下,不等概率抽样的主要优点是可以大大提高估计的精度,较少抽样误差。一个必要的约束条件是对总体的每一个单元,都要已知一个辅助变量用于确定其入样概率或两个单元同时入样的概率第6页/共30页三、不等概率抽样的分类不等概率抽样有很多,
4、布鲁尔与哈尼夫在1983年专著不等概率抽样中曾列举了50多种方法。不过真正常用的在10种左右这些方法按其实施方法或特性可以分成许多不同的类型按抽样过程中被抽到的单元是否被放回总体而分为放回抽样和不放回抽样。常用的是放回抽样。按单元的入样概率是否严格地与单元大小成比例,还有最终杨本量n是固定还是随机的。不放回的抽样,按样本单元抽取方式还可以分为逐个抽取法、重抽法、系统抽取法等等。第7页/共30页7.2 放回不等概率抽样 一、多项抽样与PPS抽样二、PPS抽样的实施三、PPS抽样的估计第8页/共30页一、多项抽样与PPS抽样设总体包含N个单元,对其进行放回抽样。设在每次抽样中,抽到第i个单元的概率
5、为Zi(i=1,2,N),独立进行n次这种抽样,共抽到n个单元(有可能重复),则称这种不等概率抽样为多项抽样(multinominal sampling)特别地,当总体中每个单元具有一个说明其“大小”或“规模”的度量Mi时,则可将每个单元的入样概率取为:此时每个单元在每次抽样中的入样概率与单元大小成比例,称这种特殊的多项抽样为与大小成比例的概率抽样(sampling with probability proportional to size),简称PPS抽样。第9页/共30页二、PPS抽样的实施1、代码法(累积总和法,汉森赫维茨法,1943)设总体有N个单元,其规模度量为Mi,不妨设Mi为整数
6、(否则可以乘以一个常数使其成为整数)。记Mi之和为M0,则可以设置M0个代码,其中第i个单元相应的有Mi个代码。其代码的具体范围可以采用累积方法获得。具体而言:第1个单元拥有代码1M1,第2个单元拥有代码M1+1M1+M2,第i个单元拥有代码:每次抽样时在整数1M0之间产生一个随机数m,则代码m所属的单元即为抽中单元,如此重复n次即可获得n个样本单元。若有的随机数相同或属于同一单元,则该单元被重复抽中第10页/共30页2、拉希里法(二次抽取法,Lahiri,印度)设总体单元数为N,单元规模为Mi,记:在1N范围内产生一个随机数,设为j;在1M*范围内的随机数m 如果mMj,则第j个单元未被抽中
7、。此时需要重复上述步骤,另行抽取一组【j,m】。直到抽满n个样本单元为止。第11页/共30页三、PPS抽样的估计对于放回不等概率抽样,对于总体总量Y,汉森赫维茨提出如下估计量(HansenHurwitz,1943):特别地,对PPS抽样:有:第12页/共30页 意义:将Y理解为商店销售额,度量M理解为商店人数,则:第i个样本商店的人均销售额。所有样本商店的人均销售额的平均。所有商店的销售总额第13页/共30页 估计量的性质 汉森赫维茨估计量是总体总和的无偏估计:汉森赫维茨估计量的方差为:当n1时,这一方差的无偏估计为:第14页/共30页证明:设随机变量且:则:是n次独立观测值yi/zi的样本平
8、均数则由数理统计(放回简单随机抽样),有:第15页/共30页而样本方差:是的无偏估计从而:【例5.4,P169;例5.5,P171】第16页/共30页总体均值的估计 基于汉森赫维茨总和估计量基础上的总体均值的估计量为:方差估计:方差:第17页/共30页7.3 无放回不等概率抽样 一、包含概率与PS抽样二、PS抽样的估计三、PS抽样的实施第18页/共30页一、包含概率与PS抽样 放回不等概率抽样中,每个单元的入样概率Zi是关键 不放回不等概率抽样中,每个单元被包含到样本的概率i及任意两个单元都包含到样本的概率ij都起着重要的作用,它们统称为包含概率(inclusion probability)设
9、总体容量为N,样本量n(固定),包含概率具有以下性质:所有N个单元的入样概率之和为n,即:如此可以保证在一次抽样中可以同时抽出容量为n的一个样本第19页/共30页 固定第i个单元后,剩余的任意一个单元与其同时出现的概率之和为:总体中任意两个不同单元同时入样的概率之和为:第20页/共30页与放回的PPS抽样类似,对于不放回不等概率抽样,最感兴趣的仍然是i与单元大小Mi成比例的情形,即:ik*Mi。记单元大小的一个相对度量为:ZiMi/M0(注意Zi在此处仅表示一个相对度量,不具有第2节“入样概率”的含义)。则有:即:只要保证第i个单元的入样概率是其相对规模度量的n倍,则在不放回的情形下,这一抽样
10、就是一个与单元大小成比例的不等概率抽样。称这种不放回的与单元大小成比例的概率抽样为PS抽样第21页/共30页二、PS抽样的估计 对于不放回不等概率抽样,对于总体总量,霍维茨汤普森(HorvitzThompson)提出如下估计量:特别地,对于PS抽样:有:这里yi不可重复第22页/共30页 估计量的性质 霍维茨汤普森估计量是总体总和的无偏估计:霍维茨汤普森估计量的方差为:当n固定时,这一方差为:第23页/共30页 霍维茨汤普森估计量方差的无偏估计为:当n固定时,有耶茨格伦迪森估计(YatesGrundySen)也是上述方差的无偏估计:上述证明参见抽样调查(倪加勋)P176-177;抽样调查理论与
11、方法(冯士雍)P195196第24页/共30页二、PS抽样的实施 不放回不等概率抽样的实施非常复杂,严格的PS抽样仅讨论了n2的情形,n2时则多数属于非严格的PS抽样。实际应用中,n2并不是一个十分严重的限制。事实上,PS抽样常用于对总体分层,在每层中抽取两个样本单元的情况。注意前述证明中已经指出,只要保证每个单元的入样概率i与其相对规模度量Zi成样本容量n倍,则抽样属于严格的PS抽样第25页/共30页1、布鲁尔方法(Brewer)要求:n2,每个单元的规模大小比例Zi1/2,即总体中最大的单元规模必须小于全部单元规模的1/2。抽样方法:(逐个抽取法)第一个单元按与成比例的概率抽取 第二个单元
12、在剩余N1个单元中,按与Zj成比例的概率抽取,即第二个单元的抽取概率为:具体抽取中,每个单元的抽取可使用代码法完成。此时累计的“Mi”就是上述相应概率。【例5.7,P179】第26页/共30页2、德宾方法(Durbin)要求:n2,每个单元的规模大小比例Zi2时的一种非严格的PS抽样方法。抽样方法:(逐个抽取法)第一个单元按与成比例的概率抽取 第二个单元在剩余N1个单元中,按与 成比例的概率抽取。第三个单元在剩余N2个单元中,按与每个样本单元均是按与当时未入样的单元单元大小成比例的概率抽取的。成比例的概率抽取,以此类推。第28页/共30页4、其它方法 n2时严格的PS抽样方法。水野方法(Midzuno)布鲁尔方法:n2的布鲁尔方法的推广 拉奥桑福特方法(RaoSampford)(P189)n2时严格的PS抽样方法。拉奥哈特利科克伦方法(RaoHartleyCochran)参阅抽样调查理论与方法(冯士雍)P200204。第29页/共30页谢谢您的观看!第30页/共30页