《第四章分层抽样 (2)优秀课件.ppt》由会员分享,可在线阅读,更多相关《第四章分层抽样 (2)优秀课件.ppt(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章分层抽样第四章分层抽样(2)第1页,本讲稿共83页本章要点本章要点 本章主要是对分层抽样理论包括抽样方式、估计量及其本章主要是对分层抽样理论包括抽样方式、估计量及其性质、样本量的确定及分配、分层抽样设计效果等进行系统性质、样本量的确定及分配、分层抽样设计效果等进行系统全面地介绍。具体要求:全面地介绍。具体要求:正确理解层、分层抽样以及分层随机抽样的涵义,分正确理解层、分层抽样以及分层随机抽样的涵义,分层抽样的特点及作用;层抽样的特点及作用;掌握分层抽样的参数估计量及其性质;掌握分层抽样的参数估计量及其性质;掌握分层抽样样本量的确定方法;掌握分层抽样样本量的确定方法;了解分层抽样的设计效果
2、;了解分层抽样的设计效果;了解分层抽样其他有关理论问题,包括层权偏了解分层抽样其他有关理论问题,包括层权偏差、最优分配偏差、事后分层等。差、最优分配偏差、事后分层等。第2页,本讲稿共83页第一节第一节 抽样方式抽样方式 第二节第二节 简单估计量及其性质简单估计量及其性质第三节第三节 样本量的分配样本量的分配第四节第四节 样本量的确定样本量的确定第五节第五节 分层抽样设计效果分析分层抽样设计效果分析第六节第六节 进一步讨论的问题进一步讨论的问题 第3页,本讲稿共83页一、分层抽样与分层随机抽样一、分层抽样与分层随机抽样 在抽样之前,先将总体在抽样之前,先将总体N N个单元划分成个单元划分成L L
3、个互不重复的子总体,每个互不重复的子总体,每个子总体称为层,它们的大小分别为个子总体称为层,它们的大小分别为 ,这,这L L个层构成整个个层构成整个总体(总体()。然后,在每个层中分别独立地进行抽样,这种)。然后,在每个层中分别独立地进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是简单抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本。随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本。第一节第一节 抽样方式抽样方式第4页,本讲稿共83页二、分层抽样的特点及作用二、分层抽样的特点及作用(一)分一)
4、分层层抽抽样样可以提高参数估可以提高参数估计计的精度。的精度。(二二)分分层层抽抽样样不不仅仅能能对对总总体体参参数数进进行行估估计计,而而且且能能对对各各层层(子子总总体体)参参数数进进行估行估计计。(三三)便便于于依依托托行行政政管管理理机机构构进进行行组组织织和和实实施施,同同时时还还可可以以根根据据各各层层的的不同特点采用不同的抽不同特点采用不同的抽样样方式。方式。(四)分(四)分层层抽抽样样样样本在本在总总体中分布更加均匀。体中分布更加均匀。第一节第一节 抽样方式抽样方式第5页,本讲稿共83页三、层的划分原则三、层的划分原则 (一一)层层内内单单元元具具有有相相同同性性质质,通通常常
5、按按调调查查对对象象的的不不同同类类型型进进行行划划分分。这这时,分层抽样能够对每一类的目标量进行估计。时,分层抽样能够对每一类的目标量进行估计。(二二)尽尽可可能能使使层层内内单单元元的的标标志志值值相相近近,层层间间单单元元的的差差异异尽尽可可能能大大,从从而而达到提高抽样估计精度的目的。达到提高抽样估计精度的目的。(三三)既既按按类类型型又又按按层层内内单单元元标标志志值值相相近近的的原原则则进进行行多多重重分分层层,同时达到实现估计类值以及提高估计精度的目的。同时达到实现估计类值以及提高估计精度的目的。(四四)为为了了抽抽样样组组织织实实施施的的方方便便,通通常常按按行行政政管管理理机
6、机构构设设置置进进行行分层。分层。第一节第一节 抽样方式抽样方式第6页,本讲稿共83页四、符号说明四、符号说明 设设总总体体分分为为L L层层,下下标标h h表表示示层层号号(h=1(h=1,2 2,L)L)。则则关关于于第第h h层层的记号如下:的记号如下:第第h h层总体单元数:层总体单元数:(通常已知),且(通常已知),且第第h h层样本单元数:层样本单元数:,且,且第第h h层总体和样本第层总体和样本第i i个单元标志值个单元标志值(观察值观察值):第一节第一节 抽样方式抽样方式第7页,本讲稿共83页第一节第一节 抽样方式抽样方式层权层权:第第h h层层抽抽样样比:比:第第h h层总层
7、总体均体均值值:第第h h层样层样本均本均值值 第第h h层总层总体体总值总值:第8页,本讲稿共83页第一节第一节 抽样方式抽样方式第第h h层样层样本本总值总值:第第h h层总层总体方差体方差 第第h h层样层样本方差:本方差:第9页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质 一、总体均值的估计一、总体均值的估计(一一)简单估计量的定义简单估计量的定义 在分在分层层抽抽样样中,中,对总对总体均体均值值 的估的估计计是通是通过对过对各各层层的的 的估的估计计,按按层权层权 加加权权平均得到的。公式平均得到的。公式为为:如果得到的是分如果得到的是分层层随机随机样样本,本,
8、则则总总体均体均值值 的的简单简单估估计为计为:第10页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质(二二)估计量的性质估计量的性质性性质质l l 对对于一般的分于一般的分层层抽抽样样,如果,如果 是是 的无偏估的无偏估计计(h=1,2,(h=1,2,,L)L),则则 是是 的无偏估的无偏估计计。的方差的方差为为:值值得得强强调调的是,在分的是,在分层层抽抽样样中只要中只要对对各各层层估估计计是无偏的,是无偏的,则对总则对总体的估体的估计计也是无偏的。因此,各也是无偏的。因此,各层层可以采用不同的抽可以采用不同的抽样样方法,只方法,只要相要相应应的估的估计计量是无偏的,量
9、是无偏的,则对总则对总体的推算也是无偏的。体的推算也是无偏的。第11页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质性性质质2 2 对对于分于分层层随机抽随机抽样样,是是 的无偏估的无偏估计计,的方差的方差为为:性性质质3 3 对对于分于分层层随机抽随机抽样样,的一个无偏估的一个无偏估计为计为:第12页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质二、总体总量的估计二、总体总量的估计(一一)简单估计量的定义简单估计量的定义总总体体总总量量Y Y的估的估计为计为:如果得到的是分如果得到的是分层层随机随机样样本,本,则总则总体体总总量量Y Y的的简单简单估估
10、计为计为:第13页,本讲稿共83页第二节第二节 简单简单估估计计量及其性量及其性质质(二)估(二)估计计量的性量的性质质 性性质质4 4 对对于一般的分于一般的分层层抽抽样样,如果,如果 是是 的无偏估的无偏估计计,则则 是是Y Y的的无偏估无偏估计计。的方差的方差为为:第14页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质性性质质 5 5 对对于分于分层层随机抽随机抽样样,的方差的方差为为:性性质质 6 6 对对于分于分层层随机抽随机抽样样,的一个无偏估的一个无偏估计为计为:第15页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质 【例例4.14.1】为
11、为调调查查某某地地区区住住户户的的平平均均家家庭庭成成员员数数,将将该该地地区区分分成成城城市市和和乡乡村村2 2层层,每每层层按按简简单单随随机机抽抽样样抽抽取取1010户户,调调查查所所获获得得的的数数据据如如表表4-14-1。请请估估计该计该地区住地区住户户的平均家庭成的平均家庭成员员数及其数及其95%95%的置信区的置信区间间。95%95%的的置置信信区区间间为为 ,其其中中 。经经计计算算可可得得:平平均均家家庭庭成成员员数数的的95%95%的的置置信信区区间间为为:(3.24,4.243.24,4.24)第16页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质第1
12、7页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质三、总体比例的估计三、总体比例的估计(一)(一)简单简单估估计计量的含量的含义义 记记层层比比例例为为 ,层层样样本本比比例例 ,其其中中 与与 是是第第h h层层总总体体及及样样本本中中具具有有所所考考虑虑特特征征的的单单元元数数,则则总总体体比比例例P P的估的估计为计为:第18页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质 (二)估(二)估计计量的性量的性质质 如果定如果定义义 则对总则对总体比例的估体比例的估计类计类似似对总对总体均体均值值的估的估计计,这时这时 具有同具有同样样的性的性质质。第
13、19页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质性性质质7 7对对于于一一般般的的分分层层抽抽样样,如如果果 是是 的的无无偏偏估估计计(h=1,2,h=1,2,,L L),),则则 是是P P的无偏估的无偏估计计。的方差的方差为为:性性质质8 8 对对于分于分层层随机抽随机抽样样,是是P P的无偏估的无偏估计计,则则 :的方差的方差为为:第20页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质第21页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质性质性质 9 9 对对于分于分层层随机抽随机抽样样,的一个无偏估的一个无偏估计为计为:
14、第22页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质【例例4.24.2】对对某某地地区区的的居居民民拥拥有有家家庭庭电电脑脑的的情情况况进进行行调调查查,以以居居民民户户为为抽抽样样单单元元,根根据据收收入入水水平平将将居居民民户户划划分分为为四四层层,每每层层按按简简单单随随机机抽抽样样抽抽取取1010户户,调调查查获获得得如如下下数数据据(单单位位:台台),如如表表4-34-3。估估计计该该地地区区居居民民拥拥有有家家庭庭电电脑脑的比例的比例计计估估计计的的标标准差。准差。第23页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质解:由上表可得解:由上
15、表可得:第24页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质因此,该地区居民拥有家庭电脑比例的估计为:因此,该地区居民拥有家庭电脑比例的估计为:估计量的方差为:估计量的方差为:第25页,本讲稿共83页第二节第二节 简单估计量及其性质简单估计量及其性质估计量的标准差为:估计量的标准差为:第26页,本讲稿共83页第三节第三节 样本量的分配样本量的分配 在在分分层层抽抽样样抽抽样样中中,若若总总样样本本量量n n一一定定时时,还还需需研研究究各各层层应应该该分分配配多多少少样样本本量量的的问问题题,因因为为对对总总体体参参数数进进行行估估计计时时,估估计计量量的的方方差差不不仅
16、仅与与各各层层的的方方差差有有关关,还还与与各各层层所所分分配配的的样样本本量量有有关关。实实际际工工作作中中有有不不同同的的分分配配方方法法,既既可可以以按按各各层层单单元元数数占占总总体体单单元元数数的的比比例例分分配配,也也可可以以采采用用使使估估计计量量总总方方差差达达到到最最小小等等几几种种方方法法进进行行样样本本量量的分配。的分配。第27页,本讲稿共83页第三节第三节 样本量的分配样本量的分配一、比例分配一、比例分配 比比例例分分配配指指的的是是按按各各层层单单元元数数占占总总体体单单元元数数的的比比例例,也也就就是是按按各各层的层权进行分配,即:层的层权进行分配,即:这时:这时:
17、第28页,本讲稿共83页第三节第三节 样本量的分配样本量的分配总体比例总体比例P P的估计是:的估计是:对于分层随机抽样,这时总体均值的估计值是:对于分层随机抽样,这时总体均值的估计值是:第29页,本讲稿共83页第三节第三节 样本量的分配样本量的分配 的方差为:的方差为:总总体体中中的的任任一一个个单单元元,不不管管它它在在哪哪一一层层,都都以以同同样样的的概概率率入入样样,因因此此按按比比例例分分配配的的分分层层随随机机样样本本,估估计计量量的的形形式式特特别别简简单单。这这种种样样本本也也称称为为自自加权的样本。加权的样本。第30页,本讲稿共83页第三节第三节 样本量的分配样本量的分配 的
18、方差为:的方差为:第31页,本讲稿共83页第三节第三节 样本量的分配样本量的分配二、最优分配二、最优分配 (一)最优分配(一)最优分配 最最优优分分配配是是指指在在分分层层随随机机抽抽样样中中,如如何何将将样样本本量量分分配配到到各各层层,使使得得在在总总费费用用给给定定的的条条件件下下,估估计计量量的的方方差差达达到到最最小小;或或在在给给定定估估计计量量方方差差的的条条件件下下,使总费用最小,能满足这个条件的样本量分配就是最优分配。使总费用最小,能满足这个条件的样本量分配就是最优分配。如果我们考虑简单线性费用函数,总费用如果我们考虑简单线性费用函数,总费用第32页,本讲稿共83页第三节第三
19、节 样本量的分配样本量的分配则这时的最优分配是:则这时的最优分配是:由由此此得得出出下下面面的的行行为为准准则则,如如果果某某一一层层单单元元数数较较多多,内内部部差差异异较较大大,费用比较省,则对这一层的样本量要多分配一些。费用比较省,则对这一层的样本量要多分配一些。第33页,本讲稿共83页第三节第三节 样本量的分配样本量的分配 (二)二)NeymanNeyman(内曼)分配(内曼)分配 对对于于分分层层随随机机样样本本,作作为为特特例例,如如果果每每层层抽抽样样的的费费用用相相同同,即即 时,最优分配可简化为:时,最优分配可简化为:这种分配称为这种分配称为NeymanNeyman分配。这时
20、,分配。这时,达到最小。达到最小。第34页,本讲稿共83页第三节第三节 样本量的分配样本量的分配 【例例4.34.3】对对某某地地区区的的居居民民豆豆制制品品年年消消费费支支出出进进行行调调查查,以以居居民民户户为为抽抽样样单单元元,根根据据收收入入水水平平将将居居民民户户划划分分为为四四层层,每每层层按按简简单单随随机机抽抽样样抽抽取取1010户户,调调查查获获得得如如下下数数据据(单单位位:元元),如如表表4-44-4。样样本本量量为为n=40n=40,则则按比例分配和按比例分配和NeymanNeyman分配时,各层的样本量应为多少?分配时,各层的样本量应为多少?第35页,本讲稿共83页第
21、三节第三节 样本量的分配样本量的分配解:由上表,解:由上表,各各层层的的层权层权及抽及抽样样比比为为:第36页,本讲稿共83页第三节第三节 样本量的分配样本量的分配各各层样层样本均本均值值及方差及方差为为:同理可得:同理可得:第37页,本讲稿共83页按比例分配时,各层的样本量为:按比例分配时,各层的样本量为:第三节第三节 样本量的分配样本量的分配即各层的样本量分别为即各层的样本量分别为3 3,6 6,1111,22 22 对于对于NeymanNeyman分配,根据前面对分配,根据前面对 及及 的计算结果,得到:的计算结果,得到:第38页,本讲稿共83页第三节第三节 样本量的分配样本量的分配第3
22、9页,本讲稿共83页因此,按因此,按NeymanNeyman分配时,各层应分配的样本量为:分配时,各层应分配的样本量为:第三节第三节 样本量的分配样本量的分配即各层的样本量分别为即各层的样本量分别为3 3,7 7,2323,7 7。第40页,本讲稿共83页(三)某些层要求大于(三)某些层要求大于100%100%抽样时的修正抽样时的修正 按按最最优优分分配配时时,有有时时抽抽样样比比 较较大大,某某个个层层的的 又又比比较较大大,则则可可能能出出现现按按最最优优分分配配计计算算的的这这个个层层的的样样本本量量 超超过过 的的情情况况。实实际际工工作作中中,如如果果第第k k层层出出现现这这种种情
23、情况况,最最优优分分配配是是对对这这个个层层进进行行100%100%抽抽样样,即即取取 ,然后,将剩下的样本量,然后,将剩下的样本量 按最优分配各层。按最优分配各层。第三节第三节 样本量的分配样本量的分配第41页,本讲稿共83页一、一般公式一、一般公式 令令 ,其中,其中 已经选定,于是当方差已经选定,于是当方差V V给定时,给定时,第四节第四节 样本量的确定样本量的确定 得得到到确确定定样样本本量量的的一般公式为:一般公式为:第42页,本讲稿共83页如果估计精度是以误差限的形式给出,则如果估计精度是以误差限的形式给出,则 ,第四节第四节 样本量的确定样本量的确定第43页,本讲稿共83页当按比
24、例分配时,当按比例分配时,第四节第四节 样本量的确定样本量的确定实际工作中,实际工作中,n n的计算可以分为两步,先计算的计算可以分为两步,先计算 然后进行修正:然后进行修正:当按当按NeymanNeyman分配时,分配时,第44页,本讲稿共83页 【例例4.44.4】(续续例例4.34.3)如如果果要要求求在在95%95%置置信信度度下下,相相对对误误差差不不超超过过10%10%,则按比例分配和,则按比例分配和NeymanNeyman分配时,总样本量分别为多少?分配时,总样本量分别为多少?解:当按比例分配时,解:当按比例分配时,由前面的计算结果,可以得到各层的由前面的计算结果,可以得到各层的
25、第四节第四节 样本量的确定样本量的确定第45页,本讲稿共83页在在95%95%值信度时,对应的值信度时,对应的t=1.96t=1.96。又又 第四节第四节 样本量的确定样本量的确定因此得到:因此得到:由此可以得到:由此可以得到:第46页,本讲稿共83页对对 进行修正,得到修正后的进行修正,得到修正后的n n:第四节第四节 样本量的确定样本量的确定当按当按NeymanNeyman分配时:分配时:综综合合上上述述,按按比比例例分分配配时时,样样本本量量至至少少应应为为179179,按按NeymanNeyman分分配配时时,样本量至少应为样本量至少应为110110。第47页,本讲稿共83页当当方方差
26、差V V给给定定时时,得到样本量为:得到样本量为:第四节第四节 样本量的确定样本量的确定二、最优分配需要考虑费用时二、最优分配需要考虑费用时 在最优分配时,如果考虑费用为简单线性费用函数在最优分配时,如果考虑费用为简单线性费用函数:则:则:第48页,本讲稿共83页而当总费用而当总费用C C是给定时,有:是给定时,有:第四节第四节 样本量的确定样本量的确定则:则:第49页,本讲稿共83页第四节第四节 样本量的确定样本量的确定对其求和得到样本量为:对其求和得到样本量为:第50页,本讲稿共83页第四节第四节 样本量的确定样本量的确定三、总体参数为三、总体参数为P P的情形的情形 当方差当方差V给定时
27、,如果给定时,如果 都比较大,使得都比较大,使得则总样本量为:则总样本量为:或或:第51页,本讲稿共83页第四节第四节 样本量的确定样本量的确定 (二)(二)NeymanNeyman分配分配 计算样本量之前,需要对计算样本量之前,需要对 作预估计。作预估计。第52页,本讲稿共83页第四节第四节 样本量的确定样本量的确定 【例例4.54.5】(续续例例4.24.2)如如果果要要求求在在95%95%置置信信度度下下,绝绝对对误误差差不不超过超过5%5%,则按比例分配和,则按比例分配和NeymanNeyman分配时,总样本量分别为多少?分配时,总样本量分别为多少?解:在置信度解:在置信度95%95%
28、时,对应的时,对应的t=1.96t=1.96,而绝对误差,而绝对误差d=5%d=5%,因此,因此 第53页,本讲稿共83页第四节第四节 样本量的确定样本量的确定按比例分配时:按比例分配时:可以得到可以得到 第54页,本讲稿共83页第四节第四节 样本量的确定样本量的确定调整后的样本量为:调整后的样本量为:Neyman Neyman 分配时:分配时:所所以以,按按比比例例分分配配和和按按NeymanNeyman分分配配所所需需的的样样本本量量分别为分别为206206和和196196。第55页,本讲稿共83页第五节第五节 分层抽样设计效果分析分层抽样设计效果分析 一、分层随机抽样与简单随机抽样的比较
29、一、分层随机抽样与简单随机抽样的比较 本本节节我我们们将将从从理理论论上上将将分分层层随随机机抽抽样样与与简简单单随随机机抽抽样样进进行行效效果果比比较较,也也即即在在相相同同样样本本量量下下,比比较较其其估估计计量量的的方方差差大大小小。为为比比较较分分层层随随机机抽抽样样于简单随机抽样的精度,我们拟在样本量为比例分配的形式下讨论。于简单随机抽样的精度,我们拟在样本量为比例分配的形式下讨论。记简单随机抽样(对均值估计量)的方差为:记简单随机抽样(对均值估计量)的方差为:比例分配的分层随机抽样相应估计量的方差为:比例分配的分层随机抽样相应估计量的方差为:第56页,本讲稿共83页第五节第五节 分
30、层抽样设计效果分析分层抽样设计效果分析根据总体单元指标的平方和分解可得:根据总体单元指标的平方和分解可得:如果各层如果各层 都比较大,则:都比较大,则:因而:因而:第57页,本讲稿共83页第五节第五节 分层抽样设计效果分析分层抽样设计效果分析上式右边第二项是层间平方和,为非负,因此有:上式右边第二项是层间平方和,为非负,因此有:方差差值为:方差差值为:这这表表明明层层平平均均数数的的差差异异愈愈大大,分分层层的的效效果果就就愈愈好好,若若层层平平均均数数都相等,则分层与不分层效果相同。都相等,则分层与不分层效果相同。第58页,本讲稿共83页第五节第五节 分层抽样设计效果分析分层抽样设计效果分析
31、二、分层随机抽样各种样本量分配方法之间的比较二、分层随机抽样各种样本量分配方法之间的比较 主主要要针针对对比比例例分分配配与与最最优优分分配配抽抽样样效效果果进进行行比比较较分分析析。为为此此考考虑虑比比例例分分配方差配方差 与与 最优分配方差之差。最优分配方差之差。其中:其中:第59页,本讲稿共83页第五节第五节 分层抽样设计效果分析分层抽样设计效果分析 结结论论:如如果果各各层层均均值值差差异异越越大大,则则采采用用按按比比例例分分配配的的方方式式较较好好,而而当当各各层层的的标标准准差差相相差差很很大大时时,则则最最优优分分配配更更好好。实实际际工工作作中中,除除非非各各层层的的标标准准
32、差差相相差差很很大大,人人们们通通常常还还是是喜喜欢欢采采用用按按比比例例分分配配的的方方式式,这这主主要要是是因因为为最最优优分分配配只只是是针针对对某某个个指指标标(或或变变量量)而而言言的的。实实际际调调查查项项目目中中,目目标标变变量量通通常常不不止止一一个个,这这时时,针针对对某某个个变变量量的的最最优优分分配配,对对其其他他变变量量可可能能就就是是很很不不合合适适的的,因因此此,在在调调查查多多个个目目标标变变量量时时,按按比比例分配的分层抽样可能更好些。例分配的分层抽样可能更好些。第60页,本讲稿共83页第六节第六节 进一步讨论的问题进一步讨论的问题 一、层权误差对估计量的影响一
33、、层权误差对估计量的影响 在在分分层层抽抽样样中中,我我们们总总是是假假定定层层权权 (或或每每层层的的大大小小 )是是已已知知的的。如果未知且不能精确地估计时,将对估计量带来十分严重的影响。如果未知且不能精确地估计时,将对估计量带来十分严重的影响。设设估估计计的的权权重重为为 ,因因此此实实际际采采用用的对总体均值的估计是:的对总体均值的估计是:对对于于分分层层随随机机抽抽样样,仍仍是是 的的无无偏偏估估计计,但:但:第61页,本讲稿共83页第六节第六节 进一步讨论的问题进一步讨论的问题 因此,因此,不是不是 的无偏估计,且偏倚的无偏估计,且偏倚B B为:为:该该偏偏倚倚只只依依赖赖于于 的
34、的偏偏差差,而而与与样样本本量量n n无无关关。因因此此当当考考虑虑 的的均均方误差时方误差时 当当n n增增加加时时,前前一一项项虽虽然然逐逐渐渐减减少少,但但第第二二项项保保持持不不变变,它它不不随随着着n n的的增增大大而而减减少少,因因而而 不不再再是是一一个个可可用用的的估估计计量量。当当n n超超过过一一定定量量时时,分分层层估估计计量量 的的均均方方误误差差就就可可能能超超过过简简单单随随机机抽抽样样的的方方差差。由由于分层获得的精度上的得益会完全丧失。于分层获得的精度上的得益会完全丧失。第62页,本讲稿共83页第六节第六节 进一步讨论的问题进一步讨论的问题 二、最优分配偏差对方
35、差的影响二、最优分配偏差对方差的影响 令令 是理论最优分配的样本量,而实际分配为是理论最优分配的样本量,而实际分配为 ,根据指定分配及最优分配,估计量根据指定分配及最优分配,估计量 的方差分别为:的方差分别为:第63页,本讲稿共83页第六节第六节 进一步讨论的问题进一步讨论的问题 因此由于实际分配因此由于实际分配 偏离了理论最优分配偏离了理论最优分配 引起的方差增加为:引起的方差增加为:根据最优(奈曼)分配公式可解得根据最优(奈曼)分配公式可解得 第64页,本讲稿共83页第六节第六节 进一步讨论的问题进一步讨论的问题 即有:即有:第65页,本讲稿共83页第六节第六节 进一步讨论的问题进一步讨论
36、的问题 如果忽略有限总体修正系数如果忽略有限总体修正系数fpc,fpc,因此,估计量方差的相对增加为:因此,估计量方差的相对增加为:由由于于 ,因因此此上上式式右右边边即即是是 的的加加权权平平均均,它它的的上上限限是是最最大大相相对对偏偏离离值值的的平平方方。如如果果最最大大相相对对偏偏离离g=50%g=50%,则则方方差差最最多多增增加加25%25%;若若最最大大相相对对偏偏离离g=20%g=20%,则则方方差差最最多多增增加加4%4%。所所以以在在一一般般情情形形,由由于于最最优分配偏差引起的方差增大是相当有限的。优分配偏差引起的方差增大是相当有限的。第66页,本讲稿共83页第六节第六节
37、 进一步讨论的问题进一步讨论的问题 三、层数确定三、层数确定 有有时时,分分层层是是为为了了提提高高抽抽样样效效率率,这这时时就就要要考考虑虑如如何何进进行行分分层层。按按调调查查目目标标量量 进进行行分分层层当当然然是是最最好好的的,但但我我们们在在调调查查之之前前并并不不知知道道 的的值值,因因此此分分层层只只能能是是通通过过与与 高高度度相相关关的的辅辅助助指指标标 来来进进行行。常常用用的的一一种种方方法法是是确确定定层层界界的的快快速速近近似似法法,它它是是由由戴戴伦伦纽纽斯斯(Dalenius)(Dalenius)与与霍霍捷捷斯斯(Hodges)(Hodges)提提出出的的。其其做
38、做法法是是将将分分层层变变量量(例例如如x xi i)分分布布的的累累积积平平方方根根进进行行等等分分来来获获得得最最优优分分层层,因因此此这这种种方方法法也也称称为为累积平方根法。累积平方根法。第67页,本讲稿共83页第六节第六节 进一步讨论的问题进一步讨论的问题 当当分分层层是是按按自自然然层层或或单单元元类类型型划划分分时时,层层数数是是自自然然的的,但但当当遇遇到到运运用用累积平方根法进行分层时,就存在确定层数的问题。累积平方根法进行分层时,就存在确定层数的问题。在在实实际际工工作作中中,因因为为要要保保证证每每个个层层有有样样本本单单元元,因因此此层层数数不不能能超超过过样样本本量量
39、,如如果果要要给给出出估估计计量量方方差差的的无无偏偏估估计计,则则每每层层至至少少2 2个个样样本本单单元元,那那么层数不能超过么层数不能超过 。通通过过对对分分层层抽抽样样与与简简单单随随机机抽抽样样的的比比较较,我我们们知知道道前前者者比比后后者者的的精精度度高高。因因此此人人们们设设想想是是否否对对总总体体尽尽可可能能多多地地进进行行划划分分,使使得得层层内内差差异降低,这时就要涉及层数增加时估计量方差的下降速度。异降低,这时就要涉及层数增加时估计量方差的下降速度。第68页,本讲稿共83页第六节第六节 进一步进一步讨论讨论的的问题问题 首首先先考考虑虑以以目目标标量量本本身身作作为为分
40、分层层指指标标。以以最最简简单单的的情情形形为为例例,Y Y是是区区间间d d上上的的均均匀匀分分布布,则则总总体体方方差差 ,样样本本量量为为n n的的简简单单随随机机抽抽样样简简单单估估计计量量的的方方差差为为 。将将总总体体分分成成大大小小相相同同的的L L层,并按比例分配样本量,即层,并按比例分配样本量,即 则则 第69页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 但但在在工工作作中中,本本身身未未知知,只只能能通通过过与与 高高度度相相关关的的辅辅助助指指标标 来来进进行行。这这时时估估计计量量的的方方差差可可以以分分为为两两部部分分,一一部部分分与与层层数数有有
41、关关,另另一一部部分分与与层层数数无无关关,用用模模型型表表示示即即 ,其其中中 是是方方差差中中受受层层数数影影响响的的部部分分,是是不不受受层层数数影影响响的的部部分分。因因此此,当当层层数数增增加加到到一一定定的的时时候候,在在精精度度上上的的收收益益将将非非常常小小。根根据据研研究究,除除非非Y Y与与X X的的相相关关系系数数 ,层层数数一一般般不不超超过过6 6为宜。为宜。第70页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 四、多目标分层的样本量的确定四、多目标分层的样本量的确定 本本节节从从最最优优分分配配角角度度来来考考虑虑多多指指标标情情形形样样本本量量的
42、的分分配配方方法法。本本质质上上这这些些方法都是对不同指标最优分配结果的折衷。方法都是对不同指标最优分配结果的折衷。(一)(一)最优分配平均法最优分配平均法在在所所考考虑虑的的所所有有目目标标中中,选选取取最最重重要要的的k k个个,对对每每个个指指标标j j,计计算算最最优优分配的层样本量分配的层样本量,然后计算它们的平均值:,然后计算它们的平均值:第71页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 (二二)查特吉查特吉(Chatterjee)法法 考考虑虑实实际际分分配配的的样样本本量量 对对每每个个目目标标偏偏离离其其最最优优分分配配 引引起起的的方方差差相相对对增加
43、增加RVRVj j:取极小化取极小化RVRVj j的平均值的平均值 的的 ,结果为,结果为 第72页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 (三)耶茨(三)耶茨(Yates)法)法 将每个目标估计量的方差看作损失,考虑总的损失函数:将每个目标估计量的方差看作损失,考虑总的损失函数:第73页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 若非用函数仍是简单的线性形式若非用函数仍是简单的线性形式 耶茨法的目标是极小化耶茨法的目标是极小化根据柯西根据柯西-许瓦兹不等式,极小值当且仅当许瓦兹不等式,极小值当且仅当 时达到。若令时达到。若令第74页,本讲稿共83页
44、第六节第六节 进进一步一步讨论讨论的的问题问题 则最优分配为:则最优分配为:从而:从而:第75页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 五、事后分层五、事后分层 对对于于分分层层抽抽样样,我我们们一一般般在在抽抽样样之之前前将将总总体体中中的的所所有有单单元元分分好好层层,但但在在实实际际工工作作中中,有有时时没没有有层层的的抽抽样样框框,或或总总体体特特别别大大来来不不及及事事先先分分层层,或或者者几几个个变变量量都都适适合合于于分分层层,要要进进行行事事先先的的交交叉叉分分层层比比较较困困难难,并并且且我我们们并并不不需需要要交交叉叉分分层层后后每每个个子子层层的的
45、估估计计,如如需需要要按按年年龄龄分分层层的的结结果果,还还需需要要按按受受教教育育程程度度分分层层的的结结果果,但但并并不不需需要要这这两两个个指指标标的的交交叉叉结结果果。这这时时如如果果想想利利用用分分层层抽抽样样的的优优点,可以采用对样本的事后分层方法。点,可以采用对样本的事后分层方法。第76页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 要要采采用用事事后后分分层层技技术术,要要求求我我们们可可以以通通过过某某种种途途径径知知道道各各层层的的层层大大小小 或层权或层权 。如如果果利利用用事事后后分分层层提提高高估估计计精精度度,而而层层权权与与实实际际情情况况相相差
46、差很很大大,则则事事后后分层技术不能达到提高估计精度的目的。分层技术不能达到提高估计精度的目的。事事后后分分层层方方法法还还可可以以用用于于YzYz值值存存在在离离群群值值(特特别别大大或或特特别别小小)的的情情况,这时要考虑将总体的离群单元分解,进行事后分层。况,这时要考虑将总体的离群单元分解,进行事后分层。第77页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 最最简简单单的的事事后后分分层层是是先先抽抽取取一一个个样样本本量量为为咒咒的的简简单单随随机机样样本本,然然后后将将样样本本按某个特征进行分层,落到第按某个特征进行分层,落到第h h层的单元数为:层的单元数为:则用
47、估计量则用估计量 来替代样本均值来替代样本均值 。当当固固定定且且都都大大于于零零的的条条件件下下,落落到到各各层层的的样样本本可可以以看看成成是是独独立立地地从从各各层层中中抽抽取取的的简简单单随随机机样样本本。这这时时,事事后后分分层层估估计计量量 的的方方差为:差为:式中:式中:第78页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 理理论论上上,只只要要n n充充分分大大,事事后后分分层层估估计计量量是是无无偏偏估估计计,且且它它的的方方差有如下性质:差有如下性质:第79页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 【例例3.73.7】某某高高校校欲
48、欲了了解解在在校校学学生生用用于于课课外外进进修修(如如各各种种考考证证辅辅导导班班、外外语语辅辅导导班班等等)的的开开支支,在在全全校校8 8 000000名名学学生生中中抽抽出出了了一一个个200200人人的的简简单单随随机机样样本本。根根据据学学生生科科的的统统计计,本本科科生生人人数数为为全全校校学学生生的的70%70%,调调查查最最近近一一个个学学期期课课外外进进修修支支出出(单单位位:元元)的的结结果果如如表表4.44.4。试试估估计计全全校校学学生生用用于于课课外外进进修修的的平均开支。平均开支。第80页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 解:全校学生用于课外进修的平均开支为:解:全校学生用于课外进修的平均开支为:估计的方差为:估计的方差为:第81页,本讲稿共83页第六节第六节 进进一步一步讨论讨论的的问题问题 估计的标准差为:估计的标准差为:如果采用简单估计,则估计的方差为:如果采用简单估计,则估计的方差为:估计的标准差为:估计的标准差为:第82页,本讲稿共83页编号为奇数的习题答案编号为奇数的习题答案4.1(略)(略)4.3解:解:(1),(2)按比例分配 ,(3)Neyman分配 ,4.5 ,置信区间(60.63,90.95)元。4.7(1)错;(2)错;(3)错 ;(4)对;(5)样本量足够大时是对的。第83页,本讲稿共83页