分层随机抽样概论.pptx

上传人:修**** 文档编号:5638059 上传时间:2022-01-13 格式:PPTX 页数:50 大小:545.43KB
返回 下载 相关 举报
分层随机抽样概论.pptx_第1页
第1页 / 共50页
分层随机抽样概论.pptx_第2页
第2页 / 共50页
点击查看更多>>
资源描述

《分层随机抽样概论.pptx》由会员分享,可在线阅读,更多相关《分层随机抽样概论.pptx(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2022-1-131第三章第三章 分层随机抽样分层随机抽样 第一节第一节 分层随机抽样的定义、使用场合以及符号分层随机抽样的定义、使用场合以及符号第二节第二节 估计量及其性质估计量及其性质第三节第三节 样本量的分配原则样本量的分配原则第四节第四节 样本量的确定样本量的确定第五节第五节 分层抽样的若干问题分层抽样的若干问题2022-1-132第一节第一节 引引 言言一、定义l在抽样之前,先将总体在抽样之前,先将总体N N个单元划分成个单元划分成L L个互不个互不重复的子总体,每个子总体称为层,它们的大重复的子总体,每个子总体称为层,它们的大小分别为小分别为 ,这个层合起来就是,这个层合起来就是整

2、个总体整个总体 ,然后,在每个层中分别,然后,在每个层中分别进行抽样,这种抽样就是分层抽样,所进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。得到的样本称为分层样本。l如果每层都是独立按照简单随机抽样进行,则如果每层都是独立按照简单随机抽样进行,则称为分层随机抽样称为分层随机抽样 NNNL12,NNhhL1不重不漏2022-1-133作用n分层抽样的抽样效率较高,也就是说分分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。这是因为分层层抽样的估计精度较高。这是因为分层抽样估计量的方差只和层内方差有关,抽样估计量的方差只和层内方差有关,和层间方差无关。和层间方差无关。n分层抽样不

3、仅能对总体指标进行推算,分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。而且能对各层指标进行推算。n层内抽样方法可以不同,而且便于抽样层内抽样方法可以不同,而且便于抽样工作的组织。工作的组织。2022-1-134二、分层原则:总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个层或不属于任何一个层。层或不属于任何一个层。n1.1.估计:层内单元具有相同性质,通常按调查对估计:层内单元具有相同性质,通常按调查对象的不同类型进行划分。象的不同类型进行划分。n2.2.精度:尽可能使层内单元的指标值相近,层间精

4、度:尽可能使层内单元的指标值相近,层间单元的差异尽可能大,从而达到提高抽样估计精单元的差异尽可能大,从而达到提高抽样估计精度的目的。度的目的。n3.3.估计和精度:既按类型、又按层内单元指标值估计和精度:既按类型、又按层内单元指标值相近的原则进行多重分层,同时达到实现估计类相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。值以及提高估计精度的目的。n4.4.实施:抽样组织实施的方便,通常按行政管理实施:抽样组织实施的方便,通常按行政管理机构设置进行分层。机构设置进行分层。2022-1-135例题例题n例如,对全国范围汽车运输的抽样调查,调查目的不例如,对全国范围汽车运输的抽样

5、调查,调查目的不仅要推算全国货运汽车完成的运量,还要推算不同经仅要推算全国货运汽车完成的运量,还要推算不同经济成分(国有、集体、个体)汽车完成的运量。济成分(国有、集体、个体)汽车完成的运量。n为组织的方便,首先将货运汽车总体按省分层,由为组织的方便,首先将货运汽车总体按省分层,由各省运输管理部门负责省内的调查工作。各省运输管理部门负责省内的调查工作。n各省再将省内拥有的汽车按经济成分分层。各省再将省内拥有的汽车按经济成分分层。n为提高抽样效率,再对汽车按吨位分层。为提高抽样效率,再对汽车按吨位分层。n例如,某高校对学生在宿舍使用电脑的情况进行调查,例如,某高校对学生在宿舍使用电脑的情况进行调

6、查,根据经验,本科生和研究生拥有电脑的状况差异较大。根据经验,本科生和研究生拥有电脑的状况差异较大。n因此,在抽样前对学生按本科生和研究生进行分层因此,在抽样前对学生按本科生和研究生进行分层是有必要的。是有必要的。2022-1-136三、符号说明三、符号说明 ( (关于第关于第h h层的记号层的记号 ) )n层号层号 hL12 , ,NhnhiyhiWNNhhfnNhhhYNyhhhiiNh11ynyhhhiinh11SNyYhhhihiNh22111snyyhhhihinh22111单元总数样本单元数第 个单元的值层权抽样比总体均值样本均值总体方差样本方差2022-1-137第二节第二节 估

7、估 计计 量量一、对总体均值的估计一、对总体均值的估计n分层样本分层样本,总体均值总体均值 的估计的估计n分层随机样本分层随机样本,总体均值总体均值 的简单估计的简单估计 YW YNN YsthhhLhhhL111yW yNN ysthhhLhhhL111YY2022-1-138估计量的性质估计量的性质 n性质性质1 1:对于一般的分层抽样,如果:对于一般的分层抽样,如果 是是 的的无偏估计(无偏估计( ),则),则 是是 的无偏的无偏估计。估计。 的方差为:的方差为:n只要对各层估计无偏,则总体估计也无偏。只要对各层估计无偏,则总体估计也无偏。n各层可以采用不同的抽样方法,只要相应的估计量各

8、层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的。是无偏的,则对总体的推算也是无偏的。YhYhhL12 , ,YstYYst V YW V YsthhhL212022-1-139证明性质证明性质1 1 由于对每一层有由于对每一层有 因此,因此, 估计量的方差估计量的方差 由于各层是独立抽取的,因此上式第二项中的协方差全由于各层是独立抽取的,因此上式第二项中的协方差全为为0,从而有,从而有 hhYYE LhhhLhhhstYEWYWEYE11YNYYNYNNYWLhhLhhhLhhh11111 LhLhkkhkhLhhhLhhhstYYCovWWYVWYWVYV112

9、1,2 LhhhstYVWYV122022-1-1310n 性质性质2:对于分层随机抽样,:对于分层随机抽样, 是是 的无偏估计,的无偏估计, 的方差为:的方差为: YystystV yW V yWfnSsthhhLhhhhhL2122112022-1-1311证明性质证明性质2 2: 对于分层随机抽样,各层独立进行简单随机抽对于分层随机抽样,各层独立进行简单随机抽样,对每一层有样,对每一层有 因此,由性质因此,由性质1,有,有 由第二章性质由第二章性质2,得,得 因此因此n hhYyEYyEstLhhhstyVWyV1221hhhhSnfyVV yW V yWfnSsthhhLhhhhhL2

10、122112022-1-1312n 性质性质3:对于分层随机抽样,:对于分层随机抽样, 的一个的一个无偏估计为:无偏估计为: V ystv yW v yWfnssthhhLhhhhhL2122112022-1-1313证明性质证明性质3 3: 对于分层随机抽样,各层独立进行简单随对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质机抽样,由第二章性质3,得,得 的无偏的无偏估计为:估计为: 因此,因此, 的一个无偏估计为:的一个无偏估计为: hyV21hhhhsnfyvV ystLhhhhhLhhhstsnfWyvWyv1221212022-1-1314二、对总体总量的估计二、对总体总量的

11、估计n 总体总量总体总量 的估计为:的估计为: n如果得到的是分层随机样本,则总体总如果得到的是分层随机样本,则总体总量的简单估计为:量的简单估计为: LhhstYYNY1YNystY2022-1-13152.估计量的性质n性质性质4 4:对于一般的分层抽样,如果:对于一般的分层抽样,如果是是 的无偏估计,则的无偏估计,则 是是 的无偏估的无偏估计。计。 的方差为:的方差为:YstYYY LhhstYVYVNYV12Y LhhhLhhhYVNYVWN121222022-1-1316n性质性质5:对于分层随机抽样,:对于分层随机抽样, 的方差为:的方差为:Y LhhhhhLhhhSnfNyVNY

12、V1221212022-1-1317n性质性质6 6:对于分层随机抽样,:对于分层随机抽样, 的一个的一个无偏估计为:无偏估计为: YV LhhhhhLhhhsnfNyvNYv1221212022-1-1318例例3.13.1 n调查某地区的居民奶制品年消费支出,以居民户为抽调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为样单元,根据经济及收入水平将居民户划分为4层,每层,每层按简单随机抽样抽取层按简单随机抽样抽取10户,调查获得如下数据(单户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及位:元),要估计该地区居民奶制品年消费总支出及

13、估计的标准差。估计的标准差。层层居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252022-1-13192850N 10hn112000.070182850NWN111100.05200nfN224000.140352850NWN222100.025400nfN337500.263162850NWN333100.0133750nfN4415000.

14、526322850NWN444100.00671500nfN11111139.5niiyyn1221111111624.7221niisyyn2105y 3165y 424y 222166.667s 238205.556s 24193.333s 2022-1-132041hhhyNY200 39.5400 105750 165150024209650 44222281115.93 10hhhhhhhhfv YNW v yNsn 23208v Y s Y 209650223208ts YY2022-1-1321 三、对总体比例的估计三、对总体比例的估计 n总体比例总体比例P P的估计为:的估计为

15、: n估计量的性质估计量的性质 pW psthhhL1 性质性质7:对于一般的分层抽样,如果 是 的无偏估计( ),则 是 的无偏估计。 的方差为:hphPhL12 , ,pstPpstV pW V psthhhL212022-1-1322性质性质8:对于分层随机抽样,:对于分层随机抽样, 是是 的无偏估计,的无偏估计,pstPV pNnNP Qnhhhhhhh1NNhh 1因而 的方差为: pstV pW V pNNNnNP QnsthhhLhhhhhhhhL21221111221NNNnNP QnhhhhhhhhLWfP QnhhhhhhL2112022-1-1323 性质性质9:对于分层

16、随机抽样, 的一个无偏估计为:V pstLhhhhhLhhhstsnfNNpvWpv12221211Wfp qnhhhhhhL21112022-1-1324例例3.23.2 n在例在例3.1的调查中,同时调查了居民户拥有家的调查中,同时调查了居民户拥有家庭电脑的情况,获得如下数据(单位:台),庭电脑的情况,获得如下数据(单位:台),要估计该地区居民拥有家庭电脑的比例及估计要估计该地区居民拥有家庭电脑的比例及估计的标准差。的标准差。层层居民居民户总户总数数样本户拥有家庭电脑情况样本户拥有家庭电脑情况1234567891012000001000100240001000000103750110000

17、10104150010000000002022-1-1325解:由上表可得,由上表可得, 根据前面对各层层权根据前面对各层层权 及抽样比及抽样比 的计算结果,可得各层估计量的方差:的计算结果,可得各层估计量的方差: 因此,该地区居民拥有家庭电脑比例的估计为:因此,该地区居民拥有家庭电脑比例的估计为: 估计量的方差为:估计量的方差为: 估计量的标准差为:估计量的标准差为:2 . 01p2 . 02p4 . 03p1 . 04phWhf1 111110.01691p qv pfn2222210.01731p qv pfn3333310.02631p qv pfn4444410.00991p qv

18、pfn41411hhhhhhstpNNpWp1200 0.2 400 0.2 750 0.4 1500 0.128500.241221hhhstpvNNpv2222212000.01694000.0173 7500.0263 15000.009928500.0050.07ststs pv p 2022-1-1326第三节第三节 样本量在各层的分配样本量在各层的分配 n 确定样本量:总的样本量,各层样本量确定样本量:总的样本量,各层样本量n估计量的方差不仅与各层的方差有关,估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。还和各层所分配的样本量有关。n实际工作中有不同的分配方法,可以

19、按实际工作中有不同的分配方法,可以按各层单元数占总体单元数的比例分配,各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到最小、也可以采用使估计量总方差达到最小、费用最小。费用最小。 2022-1-1327【例例3.1】n调查某地区的居民奶制品年消费支出,调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入以居民户为抽样单元,根据经济及收入水平将居民户划分为水平将居民户划分为4层,每层按简单随层,每层按简单随机抽样抽取机抽样抽取10户,调查获得如下数据户,调查获得如下数据(单位:元),要估计该地区居民奶制(单位:元),要估计该地区居民奶制品年消费总支出及估计的标准差。

20、品年消费总支出及估计的标准差。2022-1-1328hWhs层居民户总数 权数 方差常数分配与权数成比例 与正比 12000.07 103 3 24000.14 46.5106 7 37500.26 90.61011 23 415000.53 13.91020 7 hWhshhnwn 40.32022-1-1329hWhs层居民户总数 权数 标准差常数分配与权数成比例与方差成比例与正比 120000.2 20100604940 230000.3 301009011090 350000.5 34100150141170 估计方差 3.863.093.113 hWhs2022-1-1330一、比例

21、分配一、比例分配 n按各层单元数占总体单元数的比例,也按各层单元数占总体单元数的比例,也就是按各层的层权进行分配就是按各层的层权进行分配. .n对于分层随机抽样,这时总体均值的估对于分层随机抽样,这时总体均值的估计是计是nnNNWhhhfNnNnfhhhLhnihihhLhhhLhhhprophynnnynnyWy11111yynynniiLhnihih11111自加权2022-1-1331总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样因此按比例分配的分层随机样本,估

22、计量的形式特别简单。这种样本也称为自加权的样本。本也称为自加权的样本。n总体比例的估计是总体比例的估计是 ppnaprophhL1V yW V yWnnfnSfnW SprophhhLhhhhhhLhhhL21212111V pfNnN P QNfnW P QprophhhhhLhhhhL111211NSWnSWyVLhhhLhhhprop12122022-1-1332二、最优分配二、最优分配 (一)最优分配(一)最优分配n在分层随机抽样中,如何将样本量分配在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方计

23、量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。个条件的样本量分配就是最优分配。2022-1-1333n对所有层成立时, 达到极小 22220111LLLhhhhhhhhhhhWWV CVSCcSc nNn VC hhhhW SnKc11LLhhhhhhW SnnKcnnW ScW ScN ScN SchhhhhhhhLhhhhhhhL11222hhh haba bhhhhW Sanhhhbc nhhhhhhhhhhhc nncbKaW SW Sn常数2022-1-1334n简单线性费用函数,总费用简单线性费用

24、函数,总费用由此得出下面的行为准则,如果某一层由此得出下面的行为准则,如果某一层n单元数较多单元数较多n内部差异较大内部差异较大n费用比较省费用比较省n则对这一层的样本量要多分配一些。则对这一层的样本量要多分配一些。Ccc nhhhL01nnW ScW ScN ScN SchhhhhhhhLhhhhhhhL112022-1-1335(二)(二)Neyman(内曼)分配(内曼)分配n如果每层抽样的费用相同,最优分配可如果每层抽样的费用相同,最优分配可简化为简化为n这种分配称为这种分配称为NeymanNeyman分配。这时,分配。这时, 达到最小。达到最小。 nnW SW SnN SN Shhhh

25、hhLhhhhhL11V ystLhhhLhhhstSWNSWnyV1212min112022-1-1336LhhhnhstSnfWyV122min1LhhhLhhhstSWNSWnyV1212min11LhLhhhhhnhhSWSnWfSW11221LhLhhhhhhhLhhhSWNnSWnSWn11121)(1LhLhhhhhLhhhSWNSnnSWn11121)(1LhLhhhLhhhhhLhhhSWSWNSnWnSWn1112121)(12022-1-1337例例3.33.3 n(续例(续例3.1),如果样本量仍为),如果样本量仍为40,则,则按比例分配和按比例分配和Neyman分配时

26、,各层的分配时,各层的样本量应为多少?样本量应为多少?n按比例分配时,各层的样本量为:按比例分配时,各层的样本量为: 110.07018402.81nWn220.14035405.61nW n330.2631640nW n10.53440.526324021.05nW n2022-1-1338n对于Neyman分配, 1 10.070181624.7222.8286W s 220.140352166.6676.5330W s 3 30.263168205.55623.8380W s 440.52632193.3337.3181W s 412.82866.533023.83807.318140.

27、51775h hhW s1 11412.8286402.7940.51775hhhW snnW S26.45n 323.53n 47.23n 2022-1-1339某些层要求大于某些层要求大于100%100%抽样时的抽样时的修正修正 n 按最优分配时,有时按最优分配时,有时抽样比抽样比f f较大,某较大,某个层的个层的 又比较大,又比较大,则可能出现按最优则可能出现按最优分配计算的这个层的样本量分配计算的这个层的样本量 超过超过 的的情况。情况。n实际工作中,如果第实际工作中,如果第 k k 层出现这种情况,层出现这种情况,最优分配是对这个层进行最优分配是对这个层进行100%100%的抽样,的

28、抽样,即取即取 ,然后,将剩下的样本量,然后,将剩下的样本量 按最优分配分到各层。按最优分配分到各层。 ShNhnhnNkknnk2022-1-1340第四节第四节 样本量的确定样本量的确定 n令 当方差 给定时 222222222211111111LLLLLhhhhhhhhhhhhhhhhhhhhhfWWWWVWSSSSSnnNnwNWhhnwn VNSWVwSWnhhhhh22222tYrtdVNSWtYrwSWNSWtdwSWnhhhhhhhhhh222222222022-1-1341n当按比例分配时,当按比例分配时, n实际工作中,实际工作中,n的计算可以分为两步,先的计算可以分为两步

29、,先计算:计算:n然后进行修正:然后进行修正: wWhhnW SVW SNhhhh22VSWnhh20nnnN0012022-1-1342n当按当按NeymanNeyman分配时,分配时, wW SW ShhhhhnW SVW SNhhhh222022-1-1343例例3.43.4 n(续例(续例3.13.1),如果要求在),如果要求在95%95%置信度下,置信度下,相对误差不超过相对误差不超过10%10%,则按比例分配和,则按比例分配和NeymanNeyman分配时,总样本量分别为多少?分配时,总样本量分别为多少? =2679.22=2679.22 2211 112001624.722114

30、.0162850NW ssN2222 224002166.667304.0942850NW ssN2233 337508205.5562159.362850NW ssN2244 441500193.333101.7542850NW ssN2hhSW209650 285073.5614styY N086.1496. 15614.731 . 022tyrVst2 .190086.1422.267920VsWnhh1792850/2 .19012 .190/100Nnnn2022-1-1344n当按当按NeymanNeyman分配时:分配时: 1102850/22.2679086.1451775.4

31、0/)(222NSWVSWnhhhh2022-1-1345二、最优分配需要考虑费用时二、最优分配需要考虑费用时n给定给定V时时Ccc nhhhL011hhhhLhhhhW ScwW ScnW ScW ScVW SNhhhhhhhh()22022-1-1346给定C时011LLhhhhhhhCcc nKc W S01LhhhhCcKc W S01hhhLhhhhhCcW Sncc W S00()()()()hhhhhhhhhhhhhhhhCcW ScCcN ScnW ScN SchhhhW SnKc2022-1-1347三、总体参数为三、总体参数为P P的情形的情形 n当方差给定时,如果当方差给

32、定时,如果 都比较大,使得都比较大,使得 , ,则总样本量为则总样本量为 (一)按比例分配(一)按比例分配NhNNhh 1nW PQVW PQNhhhhhhVQPWnhhh0Nnnn0012022-1-1348n(二)(二)Neyman分配分配。NQPWVQPWnhhhhhh2Ph2022-1-1349例例3.53.5 n(续例(续例3.2),如果要求在),如果要求在95%置信度置信度下,绝对误差不超过下,绝对误差不超过5%,则按比例分,则按比例分配和配和Neyman分配时,总样本量分别为分配时,总样本量分别为多少?多少?n按比例分配时:按比例分配时:000651. 096. 105. 022tdVNQPNQPWhhhhhh0.14425 .221000651. 01442. 00VQPWnhhh2062850/5 .22115 .221/100Nnnn2022-1-1350nNeyman分配时:hhhhhhQPNNQPW10.3710NQPWVQPWnhhhhhh21962850/1442. 0000651. 0)3710. 0(2

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 其他资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁