《分层随机抽样概述.pptx》由会员分享,可在线阅读,更多相关《分层随机抽样概述.pptx(148页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2022-4-241第三章分层随机抽样第三章分层随机抽样 3.1 概述概述 3.2简单估计量及其性质简单估计量及其性质 3.3样本量在各层的分配样本量在各层的分配 3.4 回归估计量及其性质回归估计量及其性质 3.5 各层样本量的分配各层样本量的分配 3.6总样本量的确定总样本量的确定2022-4-242 简单随机抽样只适合小型的抽样调查简单随机抽样只适合小型的抽样调查: 1. 抽样框抽样框 2. 代表性代表性 如如:了解中国各民族的情况了解中国各民族的情况:(鄂伦春族鄂伦春族)2022-4-243第一节概述第一节概述 一定义与作用一定义与作用 (一一)分层抽样和分层随机抽样分层抽样和分层随机
2、抽样 先将总体个单元划分成个互不重复的子总体,每个子先将总体个单元划分成个互不重复的子总体,每个子 总体称为层,它们的大小分为别,这个层总体称为层,它们的大小分为别,这个层 合起来就是整个总体()。合起来就是整个总体()。 然后,在每个层中分别然后,在每个层中分别独立独立进行抽样,这种抽样就是分层抽样,进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是简单随机抽样,则所得到的样本称为分层样本。如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本。称为分层随机抽样,所得到的样本称为分层随机样本。LNNN,.,21LhhN1不重不漏2022-4-244 各
3、层中的抽样是独立进行的,因此,在各各层中的抽样是独立进行的,因此,在各层中所采取的抽样手段完全可以不相同,层中所采取的抽样手段完全可以不相同,在一个层进行简单随机抽样,在另一层则在一个层进行简单随机抽样,在另一层则可采用更复杂一些的抽样,完全视各层的可采用更复杂一些的抽样,完全视各层的情况不同而定,这种因地制宜的手段将使情况不同而定,这种因地制宜的手段将使样本尽可能反映总体的特性以及子总体的样本尽可能反映总体的特性以及子总体的特性。特性。 分层抽样有时也称为分层抽样有时也称为类型抽样或分类抽样类型抽样或分类抽样。2022-4-245 分层随机抽样三原则:分层随机抽样三原则:(1)每层都抽样每层
4、都抽样;(2)各层都)各层都独立独立地抽样;地抽样;(3)各层的抽样都是)各层的抽样都是简单随机抽样简单随机抽样。2022-4-246 (二)特点:(二)特点: .分层抽样的抽样效率较高,也就是说分层分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。抽样的估计精度较高。 注意:注意: 分层抽样估计量的方差只和层内方差有关,分层抽样估计量的方差只和层内方差有关,和层间方差无关。和层间方差无关。 .分层抽样不仅能对总体指标进行推算,分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。而且能对各层指标进行推算。 如如:消费物价指数消费物价指数(全国和各省全国和各省) .层内抽样方法可
5、以不同,而且便于抽样层内抽样方法可以不同,而且便于抽样 工作的组织。工作的组织。2022-4-247(三三)作用作用 可以对各层的参数进行估计可以对各层的参数进行估计, 有助于提有助于提高估计精度高估计精度。2022-4-248二使用场合二使用场合 应用条件:应用条件: 适合于适合于各层差异较大各层差异较大,有进行分层的辅助信息有进行分层的辅助信息。 层的划分原则:层的划分原则:层内单元具有相同性质,通常按调查对象的不同类型进层内单元具有相同性质,通常按调查对象的不同类型进 行划分,行划分,这时,分层抽样能够对每一类的目标量进行估这时,分层抽样能够对每一类的目标量进行估 计。计。尽可能使层内单
6、元的标志值相近,层间单元的差异尽可尽可能使层内单元的标志值相近,层间单元的差异尽可 能大,从而达到提高抽样估计精度的目的。能大,从而达到提高抽样估计精度的目的。既按类型又按层内单元标志值相近的原则进行多重分既按类型又按层内单元标志值相近的原则进行多重分 层,同时达到实现估计类值以及提高估计精度的目的。层,同时达到实现估计类值以及提高估计精度的目的。为了抽样组织实施的方便,通常按行政管理机构设置进为了抽样组织实施的方便,通常按行政管理机构设置进 行分层。行分层。2022-4-249如:对全国汽车货运量调查,目的是不仅要如:对全国汽车货运量调查,目的是不仅要了解全国货运量,而且推算不同经济成分了解
7、全国货运量,而且推算不同经济成分货运量。货运量。 首先为组织方便首先为组织方便,按省分层;各省再按按省分层;各省再按经济成分分层;为提高抽样效率经济成分分层;为提高抽样效率,再按吨位再按吨位分层。分层。2022-4-2410三符号说明三符号说明层号:层号:h(h=1,2,L) 第第h层的记号如下层的记号如下: 单元总数:单元总数:样本单位数:第样本单位数:第i个单元标志值为个单元标志值为: 从该层中抽取的样本的单元值为从该层中抽取的样本的单元值为: 层权:层权: 抽样比:抽样比:总体均值:总体均值: 样本均值:样本均值:hNhn),.,2, 1(hhiniyNNWhhhhhNnfhNihihh
8、YNY11hnihihhyny11),.,2 , 1(hhiNiY2022-4-2411 层内方差:层内方差: 样本方差:样本方差:212)(11hNihhihhYYNShnihhihhyyns122)(112022-4-2412第二节简单估计量及其性质第二节简单估计量及其性质 一总体均值的估计一总体均值的估计 (一一)简单估计量的定义简单估计量的定义 对于分层样本,对总体均值对于分层样本,对总体均值 的估计是通过对的估计是通过对各层的各层的 的估计的估计,按层权按层权 加权平均得到的。加权平均得到的。公式为公式为: YhYhWLhhhhLhhstYNNYWY1112022-4-2413 如果
9、得到的是如果得到的是分层随机样本分层随机样本,则总体均值则总体均值 的简单的简单估计为估计为: (二二)估计量的性质估计量的性质 性质性质1 对于对于一般的分层随机抽样一般的分层随机抽样,如果如果 是是 的无偏估计的无偏估计(h=1,2,L),则则 是是 的无偏估计。的无偏估计。即对各层估计是无偏的,则对总体的估计也是无即对各层估计是无偏的,则对总体的估计也是无偏的。偏的。 的方差为的方差为: YLhhhhLhhstyNNyWy111hYhYstYYstY LhhhstYVWYV12由于各层的抽样由于各层的抽样是相互独立的是相互独立的2022-4-2414证明:因各层抽样是相互独立,则证明:因
10、各层抽样是相互独立,则 也相互独立,也相互独立,则有则有 LhhhLhLjhhLhhstYVWWWWVYV121hjjhL1h2h1hY,Ycov2YVWYhY0Y,covjhY2022-4-2415性质性质2 对于对于分层随机抽样分层随机抽样 , 是是 的无偏估计的无偏估计, 的方差为的方差为: styYLhhhLhhhhhLhhhhLhhhhhLhhhstNSWnSWSNnWSnfWyVWyV1212221212212111)()(sty2022-4-2416 性质性质3 对于分层随机抽样对于分层随机抽样, 的一个无偏估的一个无偏估计为:计为:)(styVLhhhLhhhhhLhhhhLh
11、hhstNsWnsWsnfWyvWyv12122212121)()(2022-4-2417 注注: 当当 适当的大,各层样本适当的大,各层样本平均数平均数 均可适用正态近似,因此一般地均可适用正态近似,因此一般地 也适用于正态近似其置信区间。也适用于正态近似其置信区间。hhhhnNnN与,styhy2022-4-2418二总体总量的估计二总体总量的估计 (一)简单估计量的定义(一)简单估计量的定义 总体总量总体总量Y的估计为:的估计为: 分层随机样本分层随机样本: (二)估计量的性质(二)估计量的性质性质对于性质对于一般的分层抽样一般的分层抽样,如果是,如果是 偏估计,则偏估计,则是是Y的无偏
12、估计。的无偏估计。的方差为:的方差为:LhhstYYNY1YYYstYstyNY 2022-4-2419LhhststYVYVNYNVYV12)()()(LhhhLhhhYVNYVWN12122)()(2022-4-2420 性质对于性质对于分层随机抽样分层随机抽样,的方差为:的方差为: 性质对于分层随机抽样性质对于分层随机抽样, 的一个无偏估计为:的一个无偏估计为: Y)(YV212121)()(hLhhhhLhhhSnfNYVNYV212121)()(hLhhhhLhhhsnfNyvNYv2022-4-2421【例例3.1】调查某地区的居民奶制品年调查某地区的居民奶制品年 消费支出,以居民
13、户为抽样单元,根据经消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为层,每层济及收入水平将居民户划分为层,每层按简单随机抽样抽取户,调查获得如按简单随机抽样抽取户,调查获得如下数据(单位:元),估计该地区居民奶下数据(单位:元),估计该地区居民奶制品年消费总支出及估计的标准差。制品年消费总支出及估计的标准差。69P2022-4-2422样本户奶制品年消费支出样本户奶制品年消费支出层层 居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出2022-4-2423 解: N = 200+400+750+1500=2850 =10( h=1,2,3,4)各层的层权及抽样比为:
14、 hn52632. 02850150026316. 0285075014035. 0285040007018. 0285020044332211NNWNNWNNWNNW0067.01500100133.075010025.04001005.020010444333222111NnfNnfNnfNnf2022-4-2424各层样本均值及样本方差为:各层样本均值及样本方差为:241651055 .39143211111yyyynynii333.193556.8205667.2166722.1624)y(1124232212111211sssynsnii2022-4-2425 该地区居民奶制品年消费
15、总支出该地区居民奶制品年消费总支出: : 估计量方差及标准差的样本估计为估计量方差及标准差的样本估计为: :2096502415001657501054005 .3920041hhhyNY82h41hhh2h41221039. 5snf1N)()(hhhyvWNYv2022-4-2426 在在95%的概率保证下的概率保证下该地区居民该地区居民奶制品年消费总支出区间为奶制品年消费总支出区间为: :)(23208)()(元YvYs元之间即在2551381641622320896. 1209650)(YtsY2022-4-2427 【例例3.2】某市进行家庭收入调查某市进行家庭收入调查, ,分城镇居
16、民分城镇居民和农村居民两部分抽样和农村居民两部分抽样, ,在全部城镇在全部城镇2356023560户户中抽取中抽取300300户户, ,在全部农村在全部农村148420148420户中抽取户中抽取250250户户( (均按简单随机抽样进行均按简单随机抽样进行),),调查结果是城镇调查结果是城镇年平均户收入为年平均户收入为1518015180元元, ,标准差为标准差为29722972元;元;农村年平均收入为农村年平均收入为98569856元元, ,标准差为标准差为25462546元。元。求全市年平均户收入的估计及其求全市年平均户收入的估计及其90%90%的置信区的置信区间。间。2022-4-24
17、28解:)(39.1058573.850566.20799856863. 015180137. 0863. 0171980/148420137. 0171980/23560171980,148420,235602211212121元yWyWyWWNNNNNst2022-4-242920245.5225.5277.2029725.52)72.1931005.987(171980/2546863. 02972137. 0)2502546863. 03002972137. 0(22222212122LhhhLhhhhstNsWnsWyv2022-4-2430 全市年户均收入的置信区间全市年户均收入的
18、置信区间: 10585.39 1.645 142.287,即即 10351.33 10819.45(元元)注注:由于城镇居民与农村居民收入水平,抽样由于城镇居民与农村居民收入水平,抽样比不同比不同(前者大于后者前者大于后者)。如果不分层,计算。如果不分层,计算样本平均数作为全市户均年收入是不合理样本平均数作为全市户均年收入是不合理的的:287.142ststyvys12760550/250985630015180y2022-4-2431三三. . 总体比例的估计总体比例的估计 (一一)简单估计量的定义简单估计量的定义 总体比例总体比例P的估计为的估计为:(二二)估计量的性质估计量的性质 如果定
19、义如果定义 1, 第第i个单元具有所考虑的特征个单元具有所考虑的特征 0, 其他其他 i=1,2N LhhhstpWp1iY2022-4-2432 性质性质7 对于对于一般的分层抽样一般的分层抽样,如果是,如果是 的无偏估计的无偏估计(h=1,2,L),则则 是是P的无偏估的无偏估计计. 的方差为的方差为: 性质性质8 对于对于分层随机抽样分层随机抽样,是是P的一个无偏估的一个无偏估计计, 的方差为的方差为: 因为因为: 及及 hphPstpstpLhhhstpVWpV12)(stphhhhhhhnQPNnNpV1)(hhNN1stp2022-4-2433 LhhhstpVWpV12)(hhh
20、LhhhhhhLhhhhhLhhhhhhhhnQPfWnQPNnNWnQPNnNW121212)1 ()(1)(2022-4-2434 性质性质对于分层随机抽样,对于分层随机抽样, 的一个无偏估计为:的一个无偏估计为:)(stpV1)1 (11)()()(121212hhhLhhhhhhLhhhhhLhhhstnqpfWnqpNnNWpvWpv2022-4-2435【例例3.3】 了解某地区居民户拥有家庭电脑的情况如下,估计该了解某地区居民户拥有家庭电脑的情况如下,估计该地区家庭拥有电脑的比例及估计的标准差。地区家庭拥有电脑的比例及估计的标准差。 样本户拥有家庭电脑情况样本户拥有家庭电脑情况层
21、层居民户居民户总数总数样本户拥有家庭电脑情况样本户拥有家庭电脑情况 2022-4-2436解:, 2 . 01021p2 . 02p, 4 . 0,3p1 . 01014p0099.01)1()(0263.01)1()(0173.01)1()(0169.01)1()(44444333332222211111nqpfpvnqpfpvnqpfpvnqpfpv2022-4-2437 该地区家庭拥有电脑的比例的估计、估计量的方差、该地区家庭拥有电脑的比例的估计、估计量的方差、估计的标准差为估计的标准差为:2 . 0) 1 . 015004 . 07502 . 04002 . 0200(28501141
22、41hhhhhhstpNNpWp005. 0)0099. 015000263. 07500173. 04000169. 0200(28501)(1)(222224122hhhstpvNNpv2022-4-2438(三三) 总体具有所考虑特征单元总数总体具有所考虑特征单元总数A的估计的估计 它的方差 及方差估计 分别是:07. 0)()(ststpvpshLhhststpNNpA1stAVstAvhhLhhhhhstLhhhhhhhhstqpnnNNAvnQPNnNNAV112112022-4-2439 【例例3.4】为调查某个高血压高发病地区青少年与成年人高血为调查某个高血压高发病地区青少年与
23、成年人高血压的患病率压的患病率, ,对对1414岁以上的人分四个年龄组进行岁以上的人分四个年龄组进行分层随机抽样分层随机抽样, ,调查结果如下调查结果如下, ,求总体高血压的患病率求总体高血压的患病率P P的估计及其标准差的的估计及其标准差的估计。估计。 高血压患病率调查数据高血压患病率调查数据年龄组年龄组(岁岁)层权层权层样本量层样本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.536hWhnhphq2022-4-2440解: P的估计量为: 为求为求 的方差估
24、计的方差估计,取取%08.232308. 0464. 0184. 0310. 0213. 0174. 0322. 0083. 0281. 01LhhhstpWpstp的近似公式为:则LhhhhhhsthhhnqpfWpvnnf12,111, 11%884. 000884. 000007818. 012ststLhhhhhstpvpsnqpWpv2022-4-24413.3 比率估计及其性质比率估计及其性质 (一一)分别比率估计分别比率估计 条件:条件: 各层的样本量都比较大各层的样本量都比较大的情况下的情况下 方法:各层分别进行比率估计,将各层加权汇总得方法:各层分别进行比率估计,将各层加权汇
25、总得到总体指标的估计。到总体指标的估计。(先比后加权先比后加权)总体均值总体均值 和总体总量和总体总量Y的分别比率估计量的分别比率估计量:LhRhhLhhhRsRshLhhhhLhRhhRsYXxyyNYXxyWyWy1111Y已知已知各层各层的的均值和总量均值和总量2022-4-2442 对分别比估计,若各层样本量都比较大,则有对分别比估计,若各层样本量都比较大,则有:xhyhhhxhhyhLhhhhLhRhhRsRSRSSSRSRSnfWyWVyVyMSEYyE21)(222121h为第为第h层层X与与Y的相关系数的相关系数注:公式中注:公式中S、R、 用样本数据替代用样本数据替代2022
26、-4-2443 证明:根据比估计量的性质,当证明:根据比估计量的性质,当 比较大时,则有:比较大时,则有: 所以所以hnxhyhhhxhhyhhhRhRhhRhSSRSRSnfyVyMSEYyE21222xhyhhhxhhyhLhhhhRSLhRhhLhRhhLhRhhRSLhhhRhLhhRSSSRSRSnfWyVyVWyMSEWyWMSEyMSEYYWyEWyE21)(2221212121112022-4-2444 总量:总量: xhyhhhxhhyhLhhhhRsRsSSRSRSnfNyNVYV21)(222122022-4-2445 (二二) 联合比率估计联合比率估计条件:条件:各层的
27、样本量不是都很大各层的样本量不是都很大的情况的情况方法:先分别对方法:先分别对 作分层估计,然后再采用比估计作分层估计,然后再采用比估计方法。(先加权后比)方法。(先加权后比)总体均值总体均值 和总体总量和总体总量Y的联合比率估计量:的联合比率估计量:XRXxyYXRXxyycststRccststRc的分层估计。和分别为和XYxyststXY、Y已知已知总体总体的的均值和总量均值和总量2022-4-2446的均方误差为的均方误差为:RcRcYy ,yxhxhyhhhhhRcRcyxhxhyhhhhhRcRcRSSRSnfNYVYMSERSSRSnfyVyMSE2121W22222222v对联
28、合比估计,若总样本量对联合比估计,若总样本量 n比较大,则有比较大,则有:YyERc证明:证明:p75注意与分别比估计方差公式的差异注意与分别比估计方差公式的差异(Rh)2022-4-2447(三三) 分别比率估计量与联合比率估计量的比较分别比率估计量与联合比率估计量的比较 如果如果各层的样本量都较大各层的样本量都较大,且有理由认为,且有理由认为各层的比率各层的比率 差异较大差异较大,则,则分别比率估计分别比率估计优于联合比率估计。优于联合比率估计。 当当各层的样本量不大各层的样本量不大,或,或各层比率各层比率 差异很小差异很小,则,则联合比率估计联合比率估计更好些。更好些。 hRhR【例例4
29、.4】某市某市1996年对年对950家港口生产单家港口生产单位完成的吞吐量进行了调查,位完成的吞吐量进行了调查,1997年欲对年欲对全市港口生产单位完成的吞吐量进行抽样全市港口生产单位完成的吞吐量进行抽样调查。对港口生产单位按非国有调查。对港口生产单位按非国有(h=1)和和国有国有(h=2)分为两层,单位数分别为分为两层,单位数分别为800家家和和150家,分别在两层中调查了家,分别在两层中调查了10家、家、15家港口生产单位,调查数据如下表,试估家港口生产单位,调查数据如下表,试估计计1997年全市港口生产单位完成的吞吐量。年全市港口生产单位完成的吞吐量。2022-4-2449 1997年非
30、国有和国有企业调查数据年非国有和国有企业调查数据ii195801495530222021022103203359384336049641201174230400517718056006516253258610008807302349770056083322868110012309272215972082310137971031039011478465ixiyixiy接上表接上表128176501391911601411601070157356982022-4-2451h=1,非国有H=2,国有合计1015258001509500.8421050.15789510.01250.117140010
31、2900274300214.25686226.7655.6217.6688.28477.34494665.2610704.7182541.899072.281071.510.9598591.049725hnhNhWhfhXhXhxhy2xhs2yhshRyxhs2022-4-2452 1.按分别比率估计量估计按分别比率估计量估计:5 .272536102900049725. 1171400959859. 021hhhRSXRY68.9193895253.2247762815.6946132421222212yxhhxhhhyhhhhRSSRsRsnfNYv48.9588RSRSYvYs2022
32、-4-24532.按联合比率估计量估计按联合比率估计量估计212773102 .6881506 .217800hhhstyNY2797006 .6551507 .22680021hhhstxNX1 .271956274300279700277310XXYYststRC2022-4-245484.8629369819.2003236265.6626143621222212yxhxhyhhhhhRCsRsRsnfNYv44.9289RCRCYvYsn两种途径:两种途径:n分别回归估计:分别回归估计:对每层样本分别求取回归估计量,对每层样本分别求取回归估计量,然后对各层的回归估计量进行加权平均,即先
33、然后对各层的回归估计量进行加权平均,即先“回回归归”后后“加权加权”;n联合回归估计:联合回归估计:对两个变量先分别计算出总体总对两个变量先分别计算出总体总值或总体均值的分层简单估计量,然后再对它们值或总体均值的分层简单估计量,然后再对它们的分层估计量来构造回归估计,即先的分层估计量来构造回归估计,即先“加权加权”后后“回回归归”。3.3回归估计量及其性质回归估计量及其性质2022-4-24563.3分层随机抽样下的回归估计分层随机抽样下的回归估计 ( (一一) ) 分别回归估计分别回归估计 适用适用: 各层样本量不小的情况各层样本量不小的情况 方法方法: 先对各层的平均数或总和作回归估计,然
34、先对各层的平均数或总和作回归估计,然后按层权平均或相加,得到总体指标的估计后按层权平均或相加,得到总体指标的估计。(先。(先回归再加权)回归再加权)定义定义 3.6 分别回归估计是指在分层随机抽样中,分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均。对对各层的回归估计按总体层权进行加权平均。对 的分别回归估计为:的分别回归估计为:2022-4-2457 总体均值的分别估计量:总体均值的分别估计量: 总体总量的分别估计量:总体总量的分别估计量: 1、当各层的回归系数为给定的常数时,分别
35、估计、当各层的回归系数为给定的常数时,分别估计量是无偏的,其方差为:量是无偏的,其方差为:hhhhLhhLhlrshlrsxXyWyWy11LhhhhhhlrslrsxXyNyNY1yxhhxhhyhhhhlrsSSSnfWYV2122222022-4-2458 并且当并且当 时时, 达到最小达到最小,即即 2、通常、通常 未知未知,可以用样本回归系数可以用样本回归系数 作为作为 的估计的估计: 这时分别估计量是有偏的,但当每一层的样本量这时分别估计量是有偏的,但当每一层的样本量LhSSBxhyxhhh,.2 , 1,2lrsyVLhhyhhhhlrsSnfWyV1222min11hhbhhh
36、nihhinihhihhihxxxxyyb121hn2022-4-2459 都较大时,估计的偏倚可以忽略,其方差近似都较大时,估计的偏倚可以忽略,其方差近似为为: 方差方差 的样本估计为的样本估计为: 式中式中,212211hLhyhhhhlrsSnfWyVlrsyV2121)(ehLhhhhlrssnfWyv21221hnihhihhhihehxxbyyns2221(1)()(1)LhhlrsyhhhhWfV ySn121()()()hhnhihhihihnhihiyyxxbxx2221(1)()1(1)(2)LhhlrshyhhhhhWfv ynsrn n2:hr第第h层样层样本相关系本相
37、关系数的平方数的平方2022-4-2461(二二) 联合回归估计联合回归估计 条件:各层样本量不大条件:各层样本量不大 联合回归估计是对联合回归估计是对 作分层估计;然作分层估计;然后构造总体均值和总量的联合估计量。后构造总体均值和总量的联合估计量。(先分层(先分层再回归)再回归) 总体均值、总量的联合估计量:总体均值、总量的联合估计量: ststlrcxXyyststlrclrcXXYyNYXY与其中:hhhstyWyhhhstxWx2022-4-2462 1、当回归系数为事先给定的常数时,联合估计量、当回归系数为事先给定的常数时,联合估计量 是无偏的,其方差为:是无偏的,其方差为:yxhx
38、hyhhhhhlrcSSSnNfNyV2122222 hyxhxhyhhhhlrcSSSnfNYV212222lrclrcYy及2022-4-2463 当当 取取 时时, 达到最小。达到最小。 2、当回归系数未知时,取、当回归系数未知时,取 为为 的样本估计:的样本估计: LhhxhhhLhhyxhhhcnSfWnSfWB1221211lrcyVcBhxhhhhhyxhhhhhniihhhhhnihhihhihhhhcsnfWsnfWxxnnfWxxyynnfWbhh222122111111122221(1)()(2)LhhlrcyhcxhcxyhhhWfV ySB SBSn222 21(1)
39、()(2)Lhhlrcyhcxhc xyhhhWfv ysb sb sn2:hr第第h层层样本相样本相关系数关系数的平方的平方21221(1)/(1)/LhhxyhhhcLhhxhhhWfsnbWfsn2022-4-2465这时联合估计是有偏的这时联合估计是有偏的,但当样本量但当样本量n 较大时较大时,估估计量的偏倚趋于零计量的偏倚趋于零,回归估计是渐近无偏的,且回归估计是渐近无偏的,且yxhcxhcyhhhhhlrcSBSBSnfWyV212222lrcyVyxhcxhcyhhhhhlrcsbsbsnfWyv212222方差方差 的样本估计为的样本估计为:2022-4-2466(三三)分别回
40、归估计与联合回归估计的比较分别回归估计与联合回归估计的比较 当回归系数当回归系数事先设定事先设定时,分别回归估优于联合时,分别回归估优于联合回归估计,尤其在回归估计,尤其在各层回归系数相差较大时,分别各层回归系数相差较大时,分别回归估计更好。回归估计更好。 当回归系数由当回归系数由样本估计样本估计时,如果各层的时,如果各层的样本量样本量不太小,且各层的不太小,且各层的回归系数回归系数相差较大,还是采用分相差较大,还是采用分别回归估计为宜。若各层的样本量不太大,且各层别回归估计为宜。若各层的样本量不太大,且各层的回归系数大致相同,则采用联合回归估计较好。的回归系数大致相同,则采用联合回归估计较好
41、。若层内的回归系数差别不太大,而每层的样本量并若层内的回归系数差别不太大,而每层的样本量并非都相当大时,联合回归估计可能更保险些。非都相当大时,联合回归估计可能更保险些。2022-4-2467 【例例4.6】P P4545 :(续前例续前例)利用回归估计量估利用回归估计量估计该市港口生产单位计该市港口生产单位1997年完成的吞吐年完成的吞吐量。量。解解: 样本回归系数样本回归系数: (1)按分别回归估计量估计按分别回归估计量估计: =163421.10+107135.19=270556.30h=1,非国有 h=2,国有1.070170.856402hb2121hhhhhhlrhhhlrsxXb
42、yNyNY2022-4-246822.8987246981.190629464 .70809522211222212xhhyhhhhhhhlrssbsnnnfNYv11.9480lrslrsYvYs0290.12535.7355757.75611222hxhhhhhyxhhhhcsnfWsnfWb(2)按联合回归估计量估计按联合回归估计量估计:2022-4-24694 .271753279700274300029. 1277310stcstlrcXXbYY17.8535833267.215084155 .63849916212222yxhcxhcyhhhhhlrcsbsbsnfNYv96.92
43、38lrclrcYvYs2022-4-2470小结小结比估计量与回归估计量的异同:比估计量与回归估计量的异同: 1.从形式上看,比估计量是一个简单估计量从形式上看,比估计量是一个简单估计量 的的线性组合,而回归估计量两个简单估计量线性组合,而回归估计量两个简单估计量 的的线性组合;但实质上都是利用两个简单估计量和线性组合;但实质上都是利用两个简单估计量和辅助变量来估计总体指标。辅助变量来估计总体指标。 2.比估计量借助主要变量与辅助变量之间的比值比估计量借助主要变量与辅助变量之间的比值关系;回归估计量借助两者之间的线性相关关系。关系;回归估计量借助两者之间的线性相关关系。Ryx、2022-4-
44、2471 第四节第四节 样本量在各层的分配样本量在各层的分配 简单随机抽样只需要根据调查精度的要求与简单随机抽样只需要根据调查精度的要求与费用的限制来确定抽样容量的大小,而分层抽样费用的限制来确定抽样容量的大小,而分层抽样则提出另一个重要的问题,一旦确定则提出另一个重要的问题,一旦确定n,又如何,又如何在各层中分配抽样容量在各层中分配抽样容量 ,其中有些问题要考,其中有些问题要考虑,比如在各层中各有精度的要求以及费用的限虑,比如在各层中各有精度的要求以及费用的限制,由于各层具有各自的鲜明特征,其花费自然制,由于各层具有各自的鲜明特征,其花费自然不同,因而在样本容量分配上必须带有经济观点。不同,
45、因而在样本容量分配上必须带有经济观点。另一个重要考虑因素是由于另一个重要考虑因素是由于 的不同而带来数据的不同而带来数据处理的困难。处理的困难。 样本量的分配必须尽可能地使估计量及其方样本量的分配必须尽可能地使估计量及其方差具有较简单的形式,从而使数据汇总工作量小,差具有较简单的形式,从而使数据汇总工作量小,做到省时省力。做到省时省力。hnhn2022-4-2472样本量分配对精度的影响样本量分配对精度的影响2022-4-2473 某个总体分为三层,其层权某个总体分为三层,其层权 及层标准差及层标准差 见下表,见下表,设总样本量为设总样本量为300,考虑四种不同的样本量分配,并,考虑四种不同的
46、样本量分配,并计算出每一种分配下,总体均值估计量的方差:计算出每一种分配下,总体均值估计量的方差: 样本量的不同分配对方差的影响样本量的不同分配对方差的影响hWhSh常数分配与 成正比与 成正比与 成正比 10.22010049604020.330100110909030.5341001411501703.863.113.093.00hWhS yV2hShWhhSW2022-4-24742022-4-2475 (一一)比例分配(比例分配(proportional allocation ) 即在分层抽样中,若每层的样本量nh 都与层的大小Nh 成比例,即 也就是按各层的层权进行分配,即大的子总体
47、多抽一些,小的子总体少抽一些。 比例分配时, 也与层权 成比例。 简单随机抽样中总体的每一个单元入样的概率即为抽样比f 。因而按比例分配而在各层中进行简单随机抽样的分层方法,任何一层中的样本被抽中的概率都为f。因此比例分配的分层随机抽样是一种等概率抽样。hhhWNNnnfNnNnfhhhhnhWhw2022-4-2476总体均值 的估计是:YyynynynnnynnyWyniiLhnihinihihLhhhLhhLhhhprophh1111111111LhhpropanppP11的估计:总体比例显然估计量有相当简单的形式。2022-4-2477 自加权:自加权:如果总体总量(或均值)的无偏估计
48、量可以写成样本观测值的总和(或平均数)的常数倍(如:Y=ky或 ),那么这种样本(或估计量)称作自加权自加权的或等加权等加权的。 按比例分配的分层抽样就是自加权的。简单随机抽样(放回的和不放回的)也是自加权的。ynNyNyNyproppropykY 2022-4-2478的方差为:LhhhLhhhhhhLhhhpropSWnfSnfnnWyVWyV12121211)()(propyLhhhhLhhhhhpropQPWnfNQPNNnfpV112111)(的方差为:proppLhhhSW122022-4-2479二二. 最优分配最优分配 (一) 最优分配 在分层随机抽样中, 在总费用给定的条件下
49、,估计量的方差达到最小;或在给定估计量方差的条件下,使总费用最小的各层样本量的分配称为最优分配(optimum allocation)。 简单线性费用函数:LhhhTnccC102022-4-2480 建立目标函数: 根据柯西-许瓦兹(Cauchy-Schwarz)不等式,对于任意的 ,有 , 0, 0hhba221221120hhhhhLhhhhLhhhLhhhnSWncnSWncNSWVCCVC222hhhhbabaLhhhLhhhhstNSWnSWyV12122)(通过极小化目标函数,可同时达到给定方差下费用最小和给定费用下方差最小的效果。2022-4-2481 当且仅当 (K为常数)时
50、,上式等号成立。所以对于目标函数则有: 上式成立的条件是:Kbahh22hhhhhhhhSWcnSWncVCKSWncnSWnchhhhhhhhh/2022-4-2482 所以则使目标函数达到最小时的最优分配为:hhhhcSKWn/hhhhcSWKnn/hhhhhhhhhhhhhcSNcSNcSWcSWnn/2022-4-2483 上式表明, 越大(即层越大),则层内抽样应越多;又若 越大(即层内变差越大),则层内抽样也应越多;但如果 越大(即层内平均每单元费用越大),则在该层中的抽样应少一些。即最优分配的 与 或 成正比,与 成反比。LhhhhhhhLhhhhhhhhcSNcSNcSWcSW