《zCH6不等概抽样第3节.ppt》由会员分享,可在线阅读,更多相关《zCH6不等概抽样第3节.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、CH6 不等概抽样不等概抽样sampling with unequal probabilities2-3课时课时12/27/20221统计学专业必修课3学分不等概抽样在抽样方法体系中的地位不等概抽样在抽样方法体系中的地位n入样概率是概率抽样中的一个重要概念入样概率是概率抽样中的一个重要概念n等概率抽样,每个单元的入样概率相等等概率抽样,每个单元的入样概率相等 问题:典型的等概率抽样包括?问题:典型的等概率抽样包括?n不等概抽样,每个单元的入样概率不完全相等不等概抽样,每个单元的入样概率不完全相等 入样概率都是已知或是可以计算出来的入样概率都是已知或是可以计算出来的不等概率抽样不等概率抽样等概率
2、抽样等概率抽样概率抽样概率抽样非概率抽样非概率抽样广义的抽广义的抽样调查样调查12/27/20222统计学专业必修课3学分概率抽样的特点之一概率抽样的特点之一入样概率已知或可计算出来入样概率已知或可计算出来比如,简单随机抽样比如,简单随机抽样srs,1000个单元中抽个单元中抽100个个比如,分层随机抽样比如,分层随机抽样str100501000100100005001/21/101/20Nhnh大型企业大型企业中型企业中型企业小型企业小型企业被抽中的概率被抽中的概率又如,又如,PPS抽样,抽样,2个企业中取个企业中取1个个1000万元万元 500万元万元2/31/3净利润净利润入样概率入样概
3、率甲甲乙乙扩展扩展12/27/20223统计学专业必修课3学分CH6内容体系内容体系n6.1 问题的提出问题的提出 介绍不等概抽样的概念、特点、适用性、种类等介绍不等概抽样的概念、特点、适用性、种类等n6.2 放回不等概抽样放回不等概抽样(PPS抽样抽样)(Sampling with Probability proportional to size)介绍介绍与单元大小成比例的放回的与单元大小成比例的放回的不等概抽样,主要说明不等概抽样,主要说明PPS抽样的含义、抽选方法、以及抽样的含义、抽选方法、以及H-H估计量形式及其性质估计量形式及其性质n6.3 不放回不等概抽样不放回不等概抽样(PS抽样
4、抽样)介绍介绍与单元大小成比例的不放回与单元大小成比例的不放回不等概抽样,主要说明不等概抽样,主要说明PS抽样的含义、采用的估计量形式及其方差,并介绍在抽样的含义、采用的估计量形式及其方差,并介绍在n不同不同的情况下严格的的情况下严格的PS抽样以及几种非严格的抽样以及几种非严格的PS抽样抽样12/27/20224统计学专业必修课3学分6.1 问题的提出问题的提出n一、不等概抽样的必要性一、不等概抽样的必要性(一)等概率抽样的特点及缺陷(一)等概率抽样的特点及缺陷(二)不等概抽样的含义、适用性、优点、条件等(二)不等概抽样的含义、适用性、优点、条件等n二、不等概抽样的分类二、不等概抽样的分类(一
5、)放回不等概率抽样(一)放回不等概率抽样(二)不放回不等概抽样(二)不放回不等概抽样12/27/20225统计学专业必修课3学分一、不等概抽样的必要性一、不等概抽样的必要性(一)等概率抽样的特点及缺陷(一)等概率抽样的特点及缺陷nsrs是典型的等概率抽样,从三个层次上理解是典型的等概率抽样,从三个层次上理解(?)nstr的等概率性可以从两个方面来理解的等概率性可以从两个方面来理解l每一每一层内层内的抽样是按简单随机抽样进行的,因此层内的抽样是按简单随机抽样进行的,因此层内的抽样是等概率的的抽样是等概率的lPropst是典型的等概率抽样,各单元的入样概率都是是典型的等概率抽样,各单元的入样概率都
6、是相等的相等的n等概率抽样的基本点等概率抽样的基本点是将总体是将总体(或层或层)中的每一个单元看中的每一个单元看作是平等的,不作是平等的,不“偏向偏向”也不也不“疏远疏远”某些特定的单元,某些特定的单元,在抽样时对每个单元采取在抽样时对每个单元采取“不偏不倚不偏不倚”的态度的态度n评价评价:如果各总体单元间的差异不大,这种处理方法既:如果各总体单元间的差异不大,这种处理方法既简单又合理简单又合理12/27/20226统计学专业必修课3学分等概率抽样的缺陷等概率抽样的缺陷n但是,在一些调研问题下,等概率抽样存在明显的缺陷。但是,在一些调研问题下,等概率抽样存在明显的缺陷。比如,各总体单元间相差较
7、大,也即总体方差大的情况,比如,各总体单元间相差较大,也即总体方差大的情况,等概率抽样的效果就不一定好,例如:等概率抽样的效果就不一定好,例如:l居民住户调查中,以家庭为抽样单元,调查家庭的食品居民住户调查中,以家庭为抽样单元,调查家庭的食品消费支出或者调查家庭的娱乐消费支出,如何设计抽样消费支出或者调查家庭的娱乐消费支出,如何设计抽样l食品消费支出,由于各个家庭的规模相差不大,同时食品食品消费支出,由于各个家庭的规模相差不大,同时食品消费支出的价格和收入弹性也不大,实施等概率抽样是可消费支出的价格和收入弹性也不大,实施等概率抽样是可以也是有效地以也是有效地l娱乐娱乐/保健品保健品/奢侈品等消
8、费支出,价格和收入弹性较高,奢侈品等消费支出,价格和收入弹性较高,同时各家庭的成员结构不同,一视同仁的做法欠妥同时各家庭的成员结构不同,一视同仁的做法欠妥l为了估计一个城市的商业销售总额,对各商业网点进行为了估计一个城市的商业销售总额,对各商业网点进行调查调查l以船舶为抽样单元,对船舶运输量进行调查以船舶为抽样单元,对船舶运输量进行调查l以个人储户为抽样单元,调查储户对银行服务的满意度以个人储户为抽样单元,调查储户对银行服务的满意度l以个人用户为抽样单元,调查移动业务用户的满意度以个人用户为抽样单元,调查移动业务用户的满意度12/27/20227统计学专业必修课3学分(二)处理方法(二)处理方
9、法n当出现总体单元差异特别大的情况时,通常是牺牲当出现总体单元差异特别大的情况时,通常是牺牲“简单简单”来提高抽样效率来提高抽样效率n对此有两种处理方法:对此有两种处理方法:1、将总体单元按规模大小分成若干层进行、将总体单元按规模大小分成若干层进行st,比如:,比如:l对商业网点的调查,按资金总额或营业面积或员工总对商业网点的调查,按资金总额或营业面积或员工总数等规模变量分成大、中、小型等几层,大型商场的数等规模变量分成大、中、小型等几层,大型商场的抽样比可以高些,小型商店的抽样比可以低些,少数抽样比可以高些,小型商店的抽样比可以低些,少数特大型商场甚至可以进行特大型商场甚至可以进行100%抽
10、样抽样(目录抽样目录抽样)l这时每层有一个抽样比,各层抽样比不同,总的来说这时每层有一个抽样比,各层抽样比不同,总的来说也属于不等概率抽样也属于不等概率抽样lSt是等概率抽样向不等概抽样的过渡形式是等概率抽样向不等概抽样的过渡形式12/27/20228统计学专业必修课3学分2、不等概抽样、不等概抽样nSt给给各层的各层的单元一个不同的入样概率单元一个不同的入样概率n更进一步地,考虑得更细一点,给更进一步地,考虑得更细一点,给每个单元每个单元一个不同的一个不同的入样概率,即,在抽样时将总体各单元被抽中的概率与入样概率,即,在抽样时将总体各单元被抽中的概率与其规模大小联系起来:入样概率与规模成比例
11、,大单元其规模大小联系起来:入样概率与规模成比例,大单元抽到的概率大,小单元抽到的概率小抽到的概率大,小单元抽到的概率小n这就是这就是典型的典型的不等概(率)抽样不等概(率)抽样nst实际上是不等概抽样的粗略方式实际上是不等概抽样的粗略方式n比如:按比如:按PPS抽样,抽样,2个企业中取个企业中取1个个1000万元万元 500万元万元2/31/3净利润净利润入样概率入样概率甲甲乙乙扩展扩展12/27/20229统计学专业必修课3学分(三)不等概抽样的一般问题(三)不等概抽样的一般问题n1、含义、含义n2、作用、作用/适用性适用性n3、主要优点、主要优点n4、要求、要求/前提条件前提条件12/2
12、7/202210统计学专业必修课3学分1、含义、含义n所谓不等概抽样,即总体中各单元所谓不等概抽样,即总体中各单元被抽中的概率被抽中的概率不相等。不相等。这个概率通常这个概率通常与各单元的某个辅助变量大小成正比例与各单元的某个辅助变量大小成正比例各单元被抽中的概率称为各单元被抽中的概率称为“入样概率入样概率”。设总体含有。设总体含有N个单元,那么各单元入样概率用个单元,那么各单元入样概率用Zi(i=1,2,N)表示。)表示。在不等概抽样下,在不等概抽样下,Zi是不完全相同的是不完全相同的“Zi与某一辅助变量与某一辅助变量Xi大小成正比例大小成正比例”。如果某一单元的。如果某一单元的辅助变量越大
13、,则该单元被抽中的概率越大。所以,辅辅助变量越大,则该单元被抽中的概率越大。所以,辅助变量也称为助变量也称为入样指标入样指标ZiXi/Xi,(i=1,2,N)Zi=1l是否需要入样指标来确定入样概率,成为不等概率抽样是否需要入样指标来确定入样概率,成为不等概率抽样和等概率抽样的本质区别和等概率抽样的本质区别12/27/202211统计学专业必修课3学分1、含义、含义(续续)最重要、也是最常用的入样指标是最重要、也是最常用的入样指标是规模变量规模变量(size),即,即,抽样是严格按照与单元大小成比例的概率来进行。此时,抽样是严格按照与单元大小成比例的概率来进行。此时,不等概抽样称为不等概抽样称
14、为PPS抽样抽样(Sampling with probability proportional to size)不等概抽样可分为放回的和不放回的。放回的不等概抽样不等概抽样可分为放回的和不放回的。放回的不等概抽样简称为简称为PPS抽样,不放回的简称为抽样,不放回的简称为PS抽样抽样狭义的狭义的狭义的狭义的PPSPPS抽样,简称抽样,简称抽样,简称抽样,简称PPSPPS抽样抽样抽样抽样 PSPS抽样抽样抽样抽样广义的广义的广义的广义的PPSPPS抽样抽样抽样抽样第二节第二节第二节第二节第三节第三节第三节第三节12/27/202212统计学专业必修课3学分2、作用或适用性、作用或适用性各抽样单元在
15、总体中所占的地位不一致各抽样单元在总体中所占的地位不一致l居民住户调查中,调查家庭的日常消费支出或娱乐居民住户调查中,调查家庭的日常消费支出或娱乐/保保健品等奢侈消费支出,会采用不同的抽样设计健品等奢侈消费支出,会采用不同的抽样设计l为估计一城市的商业销售总额,对各商业网点进行调查为估计一城市的商业销售总额,对各商业网点进行调查l以船舶为抽样单元,对船舶运输量进行调查以船舶为抽样单元,对船舶运输量进行调查l以个人储户为抽样单元,调查储户对银行服务的满意度以个人储户为抽样单元,调查储户对银行服务的满意度l以个人用户为抽样单元,调查移动业务用户的满意度以个人用户为抽样单元,调查移动业务用户的满意度
16、调查的总体单元与抽样总体的单元不一致的情况,比如:调查的总体单元与抽样总体的单元不一致的情况,比如:l大型企业对职工家庭情况进行调查大型企业对职工家庭情况进行调查l某小学对在校生家庭情况进行调查某小学对在校生家庭情况进行调查改善估计量改善估计量12/27/202213统计学专业必修课3学分改善估计量改善估计量n不等概抽样还广泛应用于由于种种原因不能或不需要不等概抽样还广泛应用于由于种种原因不能或不需要对基本单元对基本单元(BU:Base Unit)直接抽样的情形,比如直接抽样的情形,比如n整群抽样整群抽样(CL:cluster sampling)中,若群大小中,若群大小(用群内包含的用群内包含
17、的BU数数Mi表示表示)相差较大,常采用相差较大,常采用对对群的不等概抽样群的不等概抽样n多阶段抽样多阶段抽样(MS:Multi-Stage sampling)中,若中,若初级单元大小初级单元大小(用所包含的次级单元数目表示用所包含的次级单元数目表示)相差相差较大,则常采用较大,则常采用对初级单元的不等概抽样对初级单元的不等概抽样n比率估计中消除小样本比率估计量偏倚的方法比率估计中消除小样本比率估计量偏倚的方法水野法水野法12/27/202214统计学专业必修课3学分3、主要优点、主要优点n主要优点:可以大大提高估计的精度,减少抽样误差主要优点:可以大大提高估计的精度,减少抽样误差n这一点可弥
18、补其他方法的局限性,比如这一点可弥补其他方法的局限性,比如l采用采用srs,虽然简单估计量是无偏的,但如果,虽然简单估计量是无偏的,但如果S2较大,较大,srs估计效果不好;而要提高估计精度,需要增加估计效果不好;而要提高估计精度,需要增加n,从而增大费用,影响经济效果从而增大费用,影响经济效果l比率估计量可有效地提高估计精度,但是有偏比率估计量可有效地提高估计精度,但是有偏l可以利用可以利用st,提高抽样估计精度,但这种抽样的估计效,提高抽样估计精度,但这种抽样的估计效果很大程度上取决于层内方差果很大程度上取决于层内方差Sw2,有时层是客观存在、,有时层是客观存在、而非人为划分的,因此有可能
19、层内方差还较大而非人为划分的,因此有可能层内方差还较大l而而CL当各群的大小差别较大时,每个群对总体的影响当各群的大小差别较大时,每个群对总体的影响是不同的,此时在等概率抽样时推断总体均值需采用是不同的,此时在等概率抽样时推断总体均值需采用加权的方法从而增加了估计的难度。加权的方法从而增加了估计的难度。MS也是如此也是如此l上述情况下,若采用不等概抽样,就有可能改善估计量,上述情况下,若采用不等概抽样,就有可能改善估计量,减少偏差或抽样误差,从而得到较好的抽样估计效果减少偏差或抽样误差,从而得到较好的抽样估计效果12/27/202215统计学专业必修课3学分4、要求、要求n基本要求:必须获得各
20、单元的某辅助变量基本要求:必须获得各单元的某辅助变量Xi用以确定其用以确定其Zin这不仅在抽样时是必需的,在估计推断中也是必要的这不仅在抽样时是必需的,在估计推断中也是必要的选择合适的辅助变量选择合适的辅助变量l一般是规模变量一般是规模变量l表示单元规模的标志有很多,如:以企业为抽样单元,表示单元规模的标志有很多,如:以企业为抽样单元,企业的职工人数、注册资本金、产品销售收入、增加值、企业的职工人数、注册资本金、产品销售收入、增加值、利润等都可用来表示企业的大小。哪个最优?利润等都可用来表示企业的大小。哪个最优?l如果目标量为如果目标量为Y的总体总值或总体均值,则的总体总值或总体均值,则l应选
21、择与应选择与Y成比例的规模变量作为计量单位大小的尺度,成比例的规模变量作为计量单位大小的尺度,此时抽样效果更好此时抽样效果更好事先确知各单元辅助变量事先确知各单元辅助变量Xi的数值的数值12/27/202216统计学专业必修课3学分二、不等概抽样的分类二、不等概抽样的分类(一)放回不等概抽样(一)放回不等概抽样(二)不放回不等概抽样(二)不放回不等概抽样12/27/202218统计学专业必修课3学分1、放回放回不等概抽样不等概抽样n对总体各单元按入样概率进行抽样,每次只抽对总体各单元按入样概率进行抽样,每次只抽1个个n抽出来的单元记录后再放回总体,再进行下一次抽取抽出来的单元记录后再放回总体,
22、再进行下一次抽取n因此,每次抽样过程都是从同一总体中独立进行的因此,每次抽样过程都是从同一总体中独立进行的n优点:放回不等概抽样的优点:放回不等概抽样的实施及估计过程实施及估计过程比不放回的比不放回的相对要相对要简单简单n缺点:但是由于抽样是放回的,因此,某单元可能在缺点:但是由于抽样是放回的,因此,某单元可能在样本中出现多次。出现这种情况时,对这个单元只调样本中出现多次。出现这种情况时,对这个单元只调查一次,但计算时,抽中几次就参与计算几次查一次,但计算时,抽中几次就参与计算几次n与单元大小与单元大小(Size)成比例的放回不等概抽样即狭义的成比例的放回不等概抽样即狭义的PPS抽样,简称抽样
23、,简称PPS抽样抽样12/27/202219统计学专业必修课3学分2、不放回不等概抽样(了解)、不放回不等概抽样(了解)(1)逐个抽取法逐个抽取法n逐个抽取,但后面的抽取与前面的抽样结果不独立,各逐个抽取,但后面的抽取与前面的抽样结果不独立,各单元的入样概率受前面抽取结果的影响单元的入样概率受前面抽取结果的影响(2)重抽法重抽法n逐个进行放回抽样,如果有重复,则放弃所有抽到的单逐个进行放回抽样,如果有重复,则放弃所有抽到的单元,重新抽取,直到所有元,重新抽取,直到所有n个单元均不重复为止个单元均不重复为止(3)全样本抽取法全样本抽取法n确定入样概率的一定界限,入样概率高于此标准的单元确定入样概
24、率的一定界限,入样概率高于此标准的单元入样入样n所以,样本量是一个随机变量所以,样本量是一个随机变量(4)系统抽样法系统抽样法n类似于系统抽样,与放回类似于系统抽样,与放回PPS抽样的代码法也类似抽样的代码法也类似12/27/202220统计学专业必修课3学分6.1小结小结n不等概抽样在现实中的意义不等概抽样在现实中的意义/作用作用/优点优点nPPS抽样的含义抽样的含义6.1结束结束12/27/202221统计学专业必修课3学分6.2 放回的不等概抽样放回的不等概抽样(重点重点)PPS抽样:抽样:sampling with Probability Proportional to Size12/
25、27/202222统计学专业必修课3学分6.2的内容体系的内容体系一、多项抽样与一、多项抽样与PPS抽样抽样n(一)多项抽样(一)多项抽样n(二)(二)PPS抽样抽样二、实施方法二、实施方法/样本抽选方法样本抽选方法n(一)代码法(一)代码法n(二)拉希里(二)拉希里(Lahiri)法法三、汉森三、汉森赫维茨估计量赫维茨估计量n(一)估计量的形式(一)估计量的形式n(二)估计量的性质:无偏性、方差、方差的估计(二)估计量的性质:无偏性、方差、方差的估计n典型例题:典型例题:P130 例例6.212/27/202223统计学专业必修课3学分一、多项抽样与一、多项抽样与PPS抽样抽样(一)(一)多
26、项抽样多项抽样(multi-nomial sampling)nPPS抽样是一种多项抽样抽样是一种多项抽样n设设Zl,Z2,ZN是一组概率,其和为是一组概率,其和为1,按这组概率,按这组概率对总体中的对总体中的N个单元进行放回抽样,每次抽中第个单元进行放回抽样,每次抽中第i个单个单元的概率为元的概率为Zi,独立地进行这样的抽样,独立地进行这样的抽样n次,则这种不次,则这种不等概抽样为多项抽样等概抽样为多项抽样n问题:为何称为多项抽样呢?问题:为何称为多项抽样呢?这种抽样方式的结果,其联合分布为多项式分布这种抽样方式的结果,其联合分布为多项式分布二项式分布二项式分布n重贝努里试验重贝努里试验共抽到
27、共抽到n个单元,个单元,有可能重复有可能重复12/27/202224统计学专业必修课3学分n重贝努里试验重贝努里试验n贝努里试验产生于有放回的抽样,是在相同条件下重复进贝努里试验产生于有放回的抽样,是在相同条件下重复进行试验行试验n次次n每次试验有两个可能的结果每次试验有两个可能的结果n 每次试验,两个结果出现每次试验,两个结果出现的概率分别为的概率分别为n 现在独立地进行这样的试验现在独立地进行这样的试验n次,两种结果出现的次数为次,两种结果出现的次数为n 则则n1服从参数为服从参数为n和和p的二项式分布的二项式分布n二项式分布的数字特征二项式分布的数字特征12/27/202225统计学专业
28、必修课3学分将二项式分布扩展到多项式分布将二项式分布扩展到多项式分布(P125 6.16.2)n如果每次试验有如果每次试验有N个可能的结果个可能的结果n 每次试验,每次试验,N个结果出现个结果出现的概率分别为的概率分别为n 现在独立地进行这样的试验现在独立地进行这样的试验n次,次,N种结果出现的次数为种结果出现的次数为n 则则ti服从多项式分布服从多项式分布n 这个多项式分布的数字特征这个多项式分布的数字特征12/27/202226统计学专业必修课3学分(二)(二)PPS抽样抽样n特别地,在多项抽样中,如果每个单元有说明其大小或规特别地,在多项抽样中,如果每个单元有说明其大小或规模的度量模的度
29、量Mi,则,则Zi可取可取n这时,每个单元在每次抽选中入样的概率与其单元规模的大这时,每个单元在每次抽选中入样的概率与其单元规模的大小成比例小成比例n此时,多项抽样称为放回的与单元规模大小成比例的概率抽此时,多项抽样称为放回的与单元规模大小成比例的概率抽样样(sampling with probability proportional to size),简称,简称PPS抽抽样样12/27/202227统计学专业必修课3学分关于规模的度量关于规模的度量n实际问题中总体单元大小的度量往往不止一个,实际问题中总体单元大小的度量往往不止一个,比如比如n企业的员工数量、产值、销售量、利润等都可以度企业的
30、员工数量、产值、销售量、利润等都可以度量企业规模的大小量企业规模的大小n商业网点或超市等,营业面积也是不错的选择商业网点或超市等,营业面积也是不错的选择n对于运输企业或运输工具的度量,运载能力或载重对于运输企业或运输工具的度量,运载能力或载重吨位等吨位等n居民小区的居民户数居民小区的居民户数n12/27/202228统计学专业必修课3学分二、实施方法二、实施方法(PPS抽样的抽选方法)抽样的抽选方法)(一)代码法(累计总和法)(一)代码法(累计总和法)nHansen和和 Hurwitz于于1943年提出的,所以也称汉森年提出的,所以也称汉森赫维茨方法赫维茨方法n做法做法1、首先,赋予每个单元与
31、、首先,赋予每个单元与Mi相等的代码数相等的代码数2、然后,将代码数累加得到、然后,将代码数累加得到M03、最后进行抽样,每次抽样都产生一个、最后进行抽样,每次抽样都产生一个1,M0之间的之间的随机数随机数m,则代码,则代码m所属的总体单元被抽中所属的总体单元被抽中4、重复以上做法、重复以上做法n次,则得到由次,则得到由n个单元构成的个单元构成的PPS样本样本n在累加时要注意在累加时要注意:抽选随机数通常抽选的是整数,所以,:抽选随机数通常抽选的是整数,所以,如果如果Mi是整数,则直接累加;如果是整数,则直接累加;如果Mi不是整数,则需不是整数,则需要乘以某个倍数转化为整数要乘以某个倍数转化为
32、整数12/27/202229统计学专业必修课3学分P126例例6.1说明说明n累计累计Mi很重要很重要n借助累计借助累计Mi给每个单元赋一个代码范围给每个单元赋一个代码范围n如果如果Mi不是整数,需要乘以某个倍数转化为整数不是整数,需要乘以某个倍数转化为整数n取样的过程转化为取取样的过程转化为取1,M0中的一个随机数的过程中的一个随机数的过程n这样做,确实能够保证各单元被抽中的概率与这样做,确实能够保证各单元被抽中的概率与Mi成比成比例例n现实应用时,取样的过程可以灵活处理现实应用时,取样的过程可以灵活处理12/27/202230统计学专业必修课3学分补例补例6.1iMiMi10累计累计Mi1
33、0代码范围代码范围10.66616214.5145151715131.515166152166413.713730316730357.87838130438161515053138253171010063153263183.6366676326679660727668727101.111738728738合计合计73.8738M0l设某个总体有设某个总体有N=10个单元,个单元,试用试用PPS抽样抽抽样抽取一个取一个n=3的的样本样本l在在1,738中取随机数中取随机数3个个l随机数落到了随机数落到了哪个单元的代哪个单元的代码范围内,哪码范围内,哪个单元入样个单元入样12/27/202231统
34、计学专业必修课3学分(二)拉希里法(二)拉希里法n印度统计学家拉希里印度统计学家拉希里(DBLahiri)1951年提出的年提出的n做法做法l令令M*=Max(Mi),即,即M*为诸为诸Mi中最大的一个中最大的一个l抽取抽取1,N中一个随机整数中一个随机整数il再抽取再抽取1,M*内一个随机整数内一个随机整数ml判断:如果判断:如果mMi,则第,则第i个单元入样;个单元入样;如果如果mMi,则放弃,再重抽,则放弃,再重抽(i,m)l直到抽满直到抽满n个单元为止个单元为止n抽取抽取n个样本单元的过程实际上是抽取个样本单元的过程实际上是抽取n组(也可能多组(也可能多于于n组)随机数组)随机数(i,
35、m)的过程的过程n例例6.1,比如,比如:M*=260,(3,58),(6,236)12/27/202232统计学专业必修课3学分三、三、Hansen-Hurwitz估计量估计量 (P128 6.46.5)(一)(一)H-H估计量的定义估计量的定义说明:说明:1.不等概抽样下,总值估计更有意义不等概抽样下,总值估计更有意义 理由:不等概抽样往往应用于总体单元规模相差较大理由:不等概抽样往往应用于总体单元规模相差较大的情况的情况 2.HH估计量的意义,体现了自加权的性质(估计量的意义,体现了自加权的性质(P128)第第i个样本单元单位规模个样本单元单位规模的平均目标量大小的平均目标量大小12/2
36、7/202233统计学专业必修课3学分(二)性质(二)性质(P128 6.76.8)1.无偏性无偏性2.方差方差3.方差的无偏估计方差的无偏估计12/27/202234统计学专业必修课3学分无偏性的证明无偏性的证明证明的基本思路:证明的基本思路:变量转换变量转换设设则则PPS抽样的过程就相当于:抽样的过程就相当于:总体各单元目标量总体各单元目标量D1,D2,DN 入样概率分别为入样概率分别为 Z1,Z2,ZN则,则,D变量的总体均值为变量的总体均值为12/27/202235统计学专业必修课3学分方差的证明方差的证明总体总体方差方差12/27/202236统计学专业必修课3学分方差的无偏估计方差
37、的无偏估计12/27/202237统计学专业必修课3学分H-H估计量的性质证明估计量的性质证明 (P129)n利用的是多项分布的数学性质利用的是多项分布的数学性质 (P125 6.2)12/27/202238统计学专业必修课3学分H-H估计的特点估计的特点n无偏估计无偏估计n在不等概抽样的过程中完成了加权,具有自加权的性在不等概抽样的过程中完成了加权,具有自加权的性质,因此估计量形式及其方差都很简洁质,因此估计量形式及其方差都很简洁n引入了辅助变量,所以估计效果也不错引入了辅助变量,所以估计效果也不错nP126【例例6.2】12/27/202239统计学专业必修课3学分补例补例6.2典型例题典
38、型例题n研究目的:某部门要了解所属研究目的:某部门要了解所属8500家家生产企业生产企业当月完成当月完成的利润的利润n该部门手头已有一份各企业该部门手头已有一份各企业去年完成产量去年完成产量的报告,将其汇的报告,将其汇总得到所属企业去年完成产量为总得到所属企业去年完成产量为3676万吨万吨n考虑到时间紧,拟采用抽样调查来推断当月完成利润考虑到时间紧,拟采用抽样调查来推断当月完成利润n根据经验,企业的产量和利润相关性较强,且企业的特点根据经验,企业的产量和利润相关性较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较是规模和管理水平差异比较大,通常大企业的管理水平较高,因此采用与
39、去年产量成比例的高,因此采用与去年产量成比例的PPS抽样,从所属企业抽样,从所属企业中抽出一个样本量为中抽出一个样本量为30的样本,调查结果如下表的样本,调查结果如下表n要求:要求:n(1)根据调查结果估计该部门所属企业当月完成的利润根据调查结果估计该部门所属企业当月完成的利润n(2)给出给出95%置信度下,估计的相对误差置信度下,估计的相对误差n(3)若要求在相同条件下相对误差达到若要求在相同条件下相对误差达到20%,则所需的样,则所需的样本量应该是多少?本量应该是多少?12/27/202240统计学专业必修课3学分作业作业n思考:思考:P144 6.1、6.2n作业:作业:P145 6.3
40、、6.4、6.66.2结束结束12/27/202241统计学专业必修课3学分案例介绍案例介绍中国公众科学素养抽样调查中国公众科学素养抽样调查12/27/202242统计学专业必修课3学分中国公众科学素养抽样调查的问卷题目中国公众科学素养抽样调查的问卷题目n“父亲的基因是否决定孩子的性别?父亲的基因是否决定孩子的性别?”n“宇宙产生于大爆炸吗?宇宙产生于大爆炸吗?”n“DNA是什么?是什么?”n“你是否相信占星术?你是否相信占星术?”n“”12/27/202243统计学专业必修课3学分关于公众科学素养抽样调查关于公众科学素养抽样调查n作为一项基础性工作,公众科学素养抽样调查受到了作为一项基础性工
41、作,公众科学素养抽样调查受到了许多国家和地区的高度重视许多国家和地区的高度重视n美国从美国从1972年起每年起每2年进行一次,其调查结果在年进行一次,其调查结果在科科学和工程学指标学和工程学指标中公布中公布n日本、加拿大、欧盟成员国也定期开展调查日本、加拿大、欧盟成员国也定期开展调查n中国自中国自1992年起,也陆续实施了八次公众科学素养抽年起,也陆续实施了八次公众科学素养抽样调查,调查的时间分别为:样调查,调查的时间分别为:n1992、1994、1996、2001、2003、2005、2007、201012/27/202244统计学专业必修课3学分调查目的调查目的n总的来说:为制定科普规划和
42、科普政策提供科学依据总的来说:为制定科普规划和科普政策提供科学依据n具体地:具体地:1、把握人们对科学知识、科学方法和过程的了解程度、把握人们对科学知识、科学方法和过程的了解程度2、把握人们对科学对个人和社会的影响的了解程度、把握人们对科学对个人和社会的影响的了解程度3、了解公众获取科学技术信息的渠道和方法、了解公众获取科学技术信息的渠道和方法4、探究人们对科学技术的态度、探究人们对科学技术的态度5、12/27/202245统计学专业必修课3学分调查内容调查内容n第六次调查从公众的不同性别、不同年龄段、不同文第六次调查从公众的不同性别、不同年龄段、不同文化程度、不同职业以及城乡的差异上反映基础
43、数据化程度、不同职业以及城乡的差异上反映基础数据n其中,有关其中,有关“中国公众对科技信息的感兴趣程度和获中国公众对科技信息的感兴趣程度和获取科技信息的渠道取科技信息的渠道”调查是公众科学素养调查的重要调查是公众科学素养调查的重要组成部分,主要内容包括:组成部分,主要内容包括:1、我国公众对科技信息的感兴趣程度、我国公众对科技信息的感兴趣程度2、公众获得科技发展信息的主要渠道和方法、公众获得科技发展信息的主要渠道和方法3、公众对科普活动的参与度和知晓度、公众对科普活动的参与度和知晓度4、公众利用科普设施的情况等、公众利用科普设施的情况等12/27/202246统计学专业必修课3学分方法方法n调
44、查对象:中国大陆调查对象:中国大陆1869岁成年公民岁成年公民(不含港、澳、台不含港、澳、台)n抽样方法:与人口规模成比例的分层四阶抽样方法:与人口规模成比例的分层四阶段不等概抽样段不等概抽样n调查方法:派员入户调查调查方法:派员入户调查n样本容量:样本容量:8570人人(第六次第六次)12/27/202247统计学专业必修课3学分调查结果中的一些有意思的结论调查结果中的一些有意思的结论n2001年调查结果显示:年调查结果显示:中国大陆有一半以上的父母希望子女未来的职业是医生中国大陆有一半以上的父母希望子女未来的职业是医生n2005年调查结果显示:年调查结果显示:男性公众、低年龄段公众、受教育
45、程度较高的公众以及职业为国男性公众、低年龄段公众、受教育程度较高的公众以及职业为国家机关、党群组织负责人的,对各种科技信息感兴趣的比例排在前列家机关、党群组织负责人的,对各种科技信息感兴趣的比例排在前列 在正规的学校教育之外,大众媒体是科技信息的主要传播途径在正规的学校教育之外,大众媒体是科技信息的主要传播途径 电视是我国公众科技信息的最主要来源,比例高达电视是我国公众科技信息的最主要来源,比例高达91.0%;其次;其次是是“报纸杂志报纸杂志”,比例为,比例为44.9%;通过;通过“广播广播”获得信息的比例为获得信息的比例为22.4%;通过;通过“图书图书”、“科学期刊科学期刊”和和“其他其他
46、”途径的比例依次途径的比例依次为为10.2%、9.5%和和7.9%;通过;通过“因特网因特网”获得信息的比例仍最低获得信息的比例仍最低(7.4%),但比,但比2003年提高了年提高了1.5个百分点个百分点 另外,有另外,有48.7%的公众还通过的公众还通过“与人交谈与人交谈”的方式获取信息。的方式获取信息。相比而言,相比而言,女性女性(51.4%)、50-59岁年龄段岁年龄段(54.3%)、小学文化程度、小学文化程度(60.3%)、农林牧渔水利业生产人员、农林牧渔水利业生产人员(61.0%)和乡村居民和乡村居民(57.5%),利,利用用“与人交谈与人交谈”的比例相对较高的比例相对较高 影响科普
47、设施利用的因素中,影响科普设施利用的因素中,“交通不便交通不便”对离退休人员的影响对离退休人员的影响最大最大(3.9%);“门票太贵门票太贵”对失业人员及下岗人员的影响最大对失业人员及下岗人员的影响最大(2.8%);商业及服务业人员;商业及服务业人员“不感兴趣不感兴趣”的比例最高的比例最高(23.5%);16.7%的家的家务劳动者因务劳动者因“不知道不知道”而未利用这些设施而未利用这些设施 12/27/202248统计学专业必修课3学分6.3 不放回不等概抽样不放回不等概抽样不要求不要求12/27/202249统计学专业必修课3学分CH6小结小结n掌握:掌握:n什么是不等概抽样?有哪些优点?适
48、用性?条件?什么是不等概抽样?有哪些优点?适用性?条件?n什么是什么是PPS抽样?抽样?PPS抽样的方法有哪些?抽样的方法有哪些?n掌握掌握PPS抽样的抽样的HH估计方法估计方法n(典型例题:例和补例典型例题:例和补例6.2)n理解:理解:nPPS抽样与多项抽样之间的关系抽样与多项抽样之间的关系12/27/202250统计学专业必修课3学分补充思考题补充思考题12/27/202251统计学专业必修课3学分思考题思考题1n某大型企业集团欲对总部及子公司各部门工作情况进某大型企业集团欲对总部及子公司各部门工作情况进行抽查,根据时间要求,准备抽出行抽查,根据时间要求,准备抽出n个部门进行调查个部门进
49、行调查n调查人员从人事部门的计算机里获得了集团全体职工调查人员从人事部门的计算机里获得了集团全体职工的名单,这份名单注明了每个职工工作的部门。调查的名单,这份名单注明了每个职工工作的部门。调查人员在计算机上顺序给每位职工编号,最大为人员在计算机上顺序给每位职工编号,最大为N,并利,并利用计算机分别从用计算机分别从1N中产生了中产生了n个伪随机数,根据这个伪随机数,根据这n个随机数所对应的号码,找到了对应的职工,于是将个随机数所对应的号码,找到了对应的职工,于是将这这n个职工所在的部门记录下来,然后调查者分别对这个职工所在的部门记录下来,然后调查者分别对这些部门进行了调查访问些部门进行了调查访问
50、n有人认为:有人认为:“这不是抽部门,而是抽职工,而且抽到这不是抽部门,而是抽职工,而且抽到某个职工则这个部门的所有某个职工则这个部门的所有(可以看作抽样框中与之相可以看作抽样框中与之相邻的邻的)职工均被抽中,这显然违反了随机原则,而且操职工均被抽中,这显然违反了随机原则,而且操作费事,应该直接抽部门。作费事,应该直接抽部门。”对此,你有何评论?对此,你有何评论?12/27/202252统计学专业必修课3学分思考题思考题2n某个调查人员从总体中抽出了一个样本量为某个调查人员从总体中抽出了一个样本量为n的简单随机样的简单随机样本,调查开始之前,他又获得了一份总体单元的详细名单,本,调查开始之前,