《最新域估计和不等概抽样幻灯片.ppt》由会员分享,可在线阅读,更多相关《最新域估计和不等概抽样幻灯片.ppt(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、域估计和不等概抽样域估计和不等概抽样一、定义已知:=(1,2N) =(1,2.Nd), d=1,2.D 对于 对于分层抽样,dDnnnnsrs.,21hDhhhnnnn.21Mean ,srsddkdskdsdddnyInNynNNYy因为222222211) 1(1)(111)(111)(ddddddnkkddkdnkdkddsnfnsnNNnfyynNNnfIyynNNnfydddkdkkI, 0, 1212)(11dnkkddyynsd212)(111)(iniixRynXnfR,dddnyy 汽车运量调查中,载货汽车 N=167500, n=1250(SRS)dndyds域(归属部门
2、)交通部门410345.547.4非交通部门72581.261.6个体联营11543830.7 估计每个部门的月总运量及其标准差 。)(ddYvY 和习题 81.2*725=58870 438*115=50370dddkdynyy958.674,858.788)(177.1898141655.1250167500321YYYynNYdkd万吨3 4 5 . 5 * 4 1 0 = 1 4 1 6 5 5解:)11() 1() 1()()(22dddddynnsnnnnNNYv故221167500(167500 1250)11( )(410 1)47.4()141655 1250(1250 1)
3、410 125077.6534V Y9348.59)(1223.29)(32YVYV每个单元入样的概率每个单元入样的概率第五章第五章 不等概抽样不等概抽样例nOBrien et al.(1995) 对Philadelphia地区的病人进行抽样,目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。 总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。等概率的抽取样本医院的缺点?n首先,可能医院中愿意接受CPR治疗的病人数量会正比与医院床位的数量,采用等概简单估计量可能会有大的方差。n其次,自加权的等概率样本可能难于管理。可能仅仅为了调查一
4、两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。n第三,调查成本在调查开始的时候是未知的-一个40个医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。其他办法?n调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。n如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?n而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。而且,总体总量的方差可能更小。n分层抽样:抽样选择概率小的单位会有较高的权数。n采用不等概率抽样来减少抽样方差而不
5、采用清晰的分层。采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。n抽样的关键是每个样本的选择概率是已知的。 (iiP单元 在第一次抽取中被抽中)(iiP单元 被选入样本)场合:总体单元差异比较大时; 抽样审计; 多阶段的PSU.入样概率不同是否导致估计偏差?例如“水野法”抽样使得比估计为无偏估计量一、不等概抽样的必要性*提高估计精度*放回的PPS抽样简化方差计算应用条件:通常需要知道一个辅助变量,用以确定其入样的概率类型n放回不等概抽样n不放回不等概抽样n逐个抽取n重抽法n全样本抽取;样本量随机n系统抽样法(Probability Proportional to Siz
6、e)也称PPZ01iiiNiiMMZMM1代码法案例累计累计代码代码10.66616214.5145151715131.515166152166413.713730316730357.87838130438161515053138253171010063153263183.6366676326679660727668727101.111738728738738738一种多项抽样Mi100iMiMi100M02拉希里方法n不需要累计,两次随机数决定抽中的单位。n第一次:1-N之间的随机数in第二次: 1-maxM之间的随机数mn如果Mi m,第i个单位被抽中KM0/nMik可能重复2k肯定重复估
7、计量n对于放回不等概抽样,对总体总量的估计是汉森-赫维茨(Hansen-hurwitz)估计 例如:估计超市销售额,m:员工人数解释公式意义niiiniiiHHmynMzynY1011n可以证明可以证明221()()()1()(1)NiHHiiniHHiHHYV YZYnZyYZv Ynn22201101111nniiHHHHHHiiiiyMyYv YYn nzn nmM()()()HHHHHHE YYE v YV Y例5.2 n某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用
8、抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用以与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本, 1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702
9、528.43928482.00430179.00940269.9784298.8199218*21.00640276.20510iimiyiimiyiimiy757087(元)相对误差相对误差达到20时所需样本量?niiiHHmynMY102 . 651070.13102423.381092623.3810926303676niHHiiHHMYmynnMYv120201HHHHYvYs75708717411896. 1HHHHYYstr152302 . 045. 02n174118 不放回的与单元大小成比例的概率抽样为PS抽样 n固定条件下的包含概率 第i单位入样概率第i,j单位都入样概率NN
10、N2iikikiiki 1i 1 k iiik211()YYY()(/)HTNNikikiikkiK iV YYY SkSkkkii2iS2iiYY)(/Y)1 ()(iiikikkiiHTYv2SkSk)/()()(kkiiiiikikkiHTYYYv2()()nnijijjiHTijijyyY i=1 jiHTY()HTY()HTV YHHYHTY是Y的无偏估计是 的无偏估计PPSPS其他公式在某种程度上可用这两个公式表现。如:在srs中iynNY(等概抽样)在srs等概抽样条件下,每个单元包含概率是nNWNniii1,则iniiHTynNyWY又如,对于霍维茨汤普森估计量iiHTyY在入
11、选概率与规模成比例条件下,i的性质为iinZ则HHniiniiHTYZynnZyY1PS抽样的实施nn=2条件下严格的PS抽样n布鲁尔方法n德宾方法nn 2条件下严格的PS抽样n水野方法nn2条件下非严格的PS抽样n莫蒂方法布鲁尔方法n条件:所有Zi0.5n逐个抽取:n第一个与 成比例的概率抽取n第二个与 成比例的概率在N-1个单元内抽取(1)1 2iiiZZZ1ijZZ德宾方法n条件:所有Zi0.5n逐个抽取:第一个 与Zi成比例的概率抽取第二个与 成比例的概率抽取11()1 21 2jijZZZ水野方法n总体差异不要太大n逐个抽取:关键:第一个单元与 成比例的概率抽取剩余的N-1个单位不放
12、回等概抽取1(1)inZn N*(1)1()iin NZnZNnNn莫蒂方法n逐个抽取:n第一个 单元按照Zj 的概率抽取n第二个 单元按照Zj /(1 Zi )的概率抽取n第三个 单元按照Zk /(1 Zi Zj )的概率抽取n依次递推,直至第n个单位n估计量:Pr( / )Pr( )iMS i yYS作业5Q1假定所给数据为总体,1.利用前面的简单随机样本和分层样本分别估计产销国为502的审核差错率和减免税总额(假定总体中来自产销国为502 的记录数未知)。2.利用PPS抽样抽取样本,写出抽样设计和过程,估计审核差错率和减免税总额,并给出估计误差P112nQ4, Q5nQ740 结束语结束语