《《抽样技术》全书ppt完整版课件最全电子教案正本书教学教程.pptx》由会员分享,可在线阅读,更多相关《《抽样技术》全书ppt完整版课件最全电子教案正本书教学教程.pptx(569页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、抽样技术抽样技术第 1 章 绪论1.1 调查与抽样调查调查与抽样调查n调查(调查(survey):通过使用明确的概念、方:通过使用明确的概念、方法和程序,依据专门设计的调查方案指导的法和程序,依据专门设计的调查方案指导的方式,从一个总体全部或部分单元中搜集感方式,从一个总体全部或部分单元中搜集感兴趣的指标信息,并将这些信息综合整理成兴趣的指标信息,并将这些信息综合整理成数据系列的有关活动。数据系列的有关活动。n例:调查北京市民对出租车行业的满意度调查全面全面调查与调查与非全面非全面调查调查根据根据“调查是否针对总体的所有单元调查是否针对总体的所有单元”划分:划分:l全面调查全面调查:普查普查l
2、非全面调查非全面调查非全面调查相对于全面调查的优点:(1)时间短速度快;(2)费用少成本低;(3)调查结果比较准确;(4)应用范围广泛。应用前提抽样调查的基本概念n抽样调查抽样调查(sampling survey)是一种非全面的调查,指从研究对象的全体(总体)中抽取一从研究对象的全体(总体)中抽取一部分单元作为样本,根据对所抽取的样本进行部分单元作为样本,根据对所抽取的样本进行调查,获得有关总体目标量的了解调查,获得有关总体目标量的了解。n抽样调查的作用抽样调查的作用n1节约费用节约费用 n2时效性强时效性强 n3可以承担全面调查无法胜任的项目可以承担全面调查无法胜任的项目 n4有助于提高调查
3、数据的质量有助于提高调查数据的质量 根据根据“单元是否按照一定的概率入样”划分:划分: 概率抽样和概率抽样和 非概率抽样非概率抽样n随机抽样是指按照概率概率原则,从总体中抽取一定数目的单位作为样本进行观察,随机抽样使总体中每个单位都有一定的概率被选入样本,从而使根据样本所做出的结论对总体具有充分的代表性。n非随机抽样是以方便为出发点或根据研究者主方便为出发点或根据研究者主观的判断观的判断来抽取样本。非随机抽样主要依赖研究者个人的经验和判断,它无法估计和控制抽样误差,无法用样本的量化数据来推断总体。 l概率抽样调查概率抽样调查l非概率抽样调查非概率抽样调查优点:能够保证样本的代表性,避免人为因素
4、的干扰;用概率抽样取得的样本去估计总体特征时,可以对由抽样产生的抽样误差进行估计。缺点:难以评价样本的代表性无法估计抽样误差偏倚往往较大概率(随机)抽样概率(随机)抽样(probability sampling )非概率(非随机)抽样非概率(非随机)抽样(non- probability sampling ) 抽样调查应用领域抽样调查应用领域 n社会经济现象的调查社会经济现象的调查 n社会性的民意调查社会性的民意调查 n市场调查市场调查 1.2 基本概念基本概念 n目标总体与抽样总体目标总体与抽样总体n 抽样框与抽样单元抽样框与抽样单元 n 总体参数与统计量总体参数与统计量 n估计量方差、偏差
5、、均方误差估计量方差、偏差、均方误差 n抽样误差与非抽样误差抽样误差与非抽样误差 n精度与费用精度与费用 目标总体与抽样总体目标总体与抽样总体n总体总体n目标总体也可简称为总体,是指所要研究对象目标总体也可简称为总体,是指所要研究对象的全体,或者说是希望从中获取信息的总体,的全体,或者说是希望从中获取信息的总体,它是由研究对象中所有性质相同的个体所组成它是由研究对象中所有性质相同的个体所组成n组成总体的各个个体称作总体单元或单位。组成总体的各个个体称作总体单元或单位。 n抽样总体是指从中抽取样本的总体。抽样总体是指从中抽取样本的总体。 抽样框与抽样单元抽样框与抽样单元n抽样总体的具体表现是抽样
6、框。通常抽样框是一份包含所有抽样单元的名单。n抽样框的形式:名单、手册、地图、数据包等等。n抽样框的要求:n(1)抽样框必须是有序的,即抽样单元必须编号,且根据某种顺序进行了排列。n(2)抽样框中包含的抽样单元务必要“不重不漏”,否则将出现抽样框误差。n抽样单元分级:n初级单元次级单元三级单元四级单元基本抽样单元。总体参数和(样本)统计量总体参数和(样本)统计量n总体参数:总体是调查的客体,而总体参数是总体某个特征或属性的数量表现。n常见的总体参数有4种:(1)总体总值;(2)总体均值;(3)总体比例;(4)总体比率。n总体总值、总体均值、总体比例三者是统一的,它们都可以用总体均值来表示。wh
7、y统计量和估计方法统计量和估计方法n统计量是根据样本的统计量是根据样本的n个单元的变量值计算出的个单元的变量值计算出的一个量,也叫估计量,用于对总体参数的估计。一个量,也叫估计量,用于对总体参数的估计。n估计量是随机变量,比如样本均值n估计方法:最常见的估计方法是简单线性估计,除此之外,还可以借助于辅助变量。n辅助变量必须满足的两个条件:(1)与要估计的变量高度相关;(2)其总体信息已知。估计量方差、偏差、均方误差估计量方差、偏差、均方误差n估计量分布的方差称为估计量分布的方差称为估计量方差估计量方差,它,它是从平均的意义上说明估计值与待估参是从平均的意义上说明估计值与待估参数的差异状况数的差
8、异状况,也是我们对抽样方案进行评价的标准之一。 n估计量方差表达式: n偏差偏差是指按照某一抽样方案反复进行抽是指按照某一抽样方案反复进行抽样,估计值的数学期望与待估参数之间样,估计值的数学期望与待估参数之间的离差。的离差。 n偏差的表达式 :n对于无偏估计量 ,偏差为零 。估计量方差、偏差、均方误差估计量方差、偏差、均方误差n均方误差均方误差(Mean Square Error, MSE )指所指所有可能的估计值与待估参数之间离差平方的均有可能的估计值与待估参数之间离差平方的均值,它等于估计量方差加偏差的平方。值,它等于估计量方差加偏差的平方。 EEE2=估计量方差、偏差、均方误差估计量方差
9、、偏差、均方误差抽样误差与非抽样误差抽样误差与非抽样误差抽样误差是由于抽取样本的随机性造成的样本值与总体值之间的差异,只要采用抽样调查,抽样误差就不可避免。n抽样误差是一个一般的概念,它可以用不同的量值来表示。例如:估计量方差或估计量标准差。n非抽样误差:是相对于抽样误差而言的,它不是由于抽样的随机性,而是由于其它多种原因引起的估计值与总体参数之间的差异。 包括:抽样框误差、计量误差、无回答误差等精度与费用精度与费用n调查的费用是一个与样本量有关的函数,最简单的是线性费用函数。n最优抽样设计:指以最小的费用达到要求的精度或者在给定费用的情况下达到最大的精度样本容量抽样误差n精度由误差来表现。n
10、抽样误差与样本量有关,样本量越大,在其它条件相同情况下,抽样误差就越小,抽样调查的精度就越高。几种基本的抽样方式 概率抽样调查概率抽样调查 非概率抽样调查非概率抽样调查简单随机抽样简单随机抽样分层抽样分层抽样系统抽样系统抽样整群抽样整群抽样多阶段抽样多阶段抽样 判断抽样判断抽样(包括包括典型调查和重点调查典型调查和重点调查)便利抽样便利抽样自愿样本自愿样本滚雪球抽样滚雪球抽样配额抽样等配额抽样等简单随机抽样n简单随机抽样(simple random sampling)又称纯随机抽样,考虑一个包含N个单位的母体,从中抽取n个单位作为样本。如果抽样是不放回的,即同一个单位不能在样本中重复出现,那么
11、总共有C(N,n) 种不同的取法,也就是说共有C(N,n)个可能的不同样本。如果每个样本被抽中的概率都相等,则称这种抽样方法为简单随机抽样,所得到的样本叫做简单随机样本(SRS)。 n例题:某大学欲了解该校研究生中打算报考托福人数的比例,全校研究生共有570人,随机抽取了100人,其中有14人准备参加托福考试,试以95%的把握程度对研究生中欲报考托福人数的比例作出估计。 简单随机抽样分层抽样n 分层抽样(stratified sampling)又称类别抽样,它是先将总体所有单位按某些重要标志进行分类(层),然后在各类(层)中采用简单随机抽样或系统抽样方式抽取样本单位的一种抽样方式。例如,对员工
12、收入状况进行调查,就可将员工按职业不同,分为生产人员、商业人员、服务性工作人员等各层,再从各层中抽取员工。n等比例抽样n不等比例抽样n优点n更为精确n对每层的推论 分层抽样系统抽样n 系统抽样是将N个总体单位按一定顺序排列,先随机抽取一个单位作为样本的第一个单位,然后按某种确定的规则抽取样本的其它单位。n其中最简单也是最常用的规则是等间隔抽取。所以系统抽样又称等距抽样。系统抽样n排列顺序与调查项目无关n排列顺序与调查项目有关n例如,从600名大学生中抽选50名大学生n利用学校现有名册按顺序编号排序,从第001号编至600号。n抽选距离=N/n=600/50=12(人)n如从第一个12人中用简单
13、随机抽样方式,抽取第一个样本单位,如抽到的是8号,依次抽出的是20号,32号,44号等。 系统抽样n优点n均匀地分布 n简单易行 n缺点n抽样误差计算较为复杂 n周期性重合时会影响调查的精确度n需要较为详细、具体的相关资料 整群抽样n整群抽样是先将总体划分成许多不相重合的子总体或群,然后以群为抽样单位,按某种随机方式从中抽取若干个群,形成一个“群”的随机样本,对抽中的群内所有单位都进行调查。n例如,某大学要调查学生的视力,可以将班做为一个群,随机抽取几个班,对这些班的全部学生进行调查。 整群抽样n一是没有总体最终单位的抽样框n实施便利、节省费用n影响整群抽样误差的主要是群间方差。分群时使群内方
14、差尽可能大,使群间方差尽可能小。 n整群抽样的估计精度一般低于简单随机抽样 多阶段抽样多阶段抽样( (multi multi stage sampling)stage sampling) 多阶段抽样是指抽取样本单位时分几个阶段进行:n首先在总体中按随机原则抽取若干初级(一级)单位,n然后再从被抽中的初级单位中抽取若干次级(二级)单位,这种抽样称为二阶段抽样。n如果每个次级单位又可以进一步分为更小的三级单位,那么在每个被抽中的二级单位中再抽取三级单位,这称为三阶段抽样,n以此类推,可以定义更多阶段的抽样。多阶段抽样n例如,全国性调查,省;市或县;街道、镇、或乡,等等。n在大规模的抽样调查中,特别
15、是当抽样单位为各级行政单位时,通常都采用多阶段抽样。n优点:n样本单位相对集中,实施调查比较方便,可以节省调查费用。n抽样时并不需要全部低级单位的抽样框非随机抽样技术 n原因:v1受客观条件限制,无法进行严格的随机抽样;v2为了快速获得调查结果;v3在调查对象不确定,或无法确定的情况下采用,例如,对某一突发(偶然)事件进行现场调查等;v4总体各单位间离散程度不大,且调查员具有丰富的调查经验时。n方便抽样n根据调查者的方便与否来抽取样本,“街头拦人法” n判断抽样n凭研究人员的主观意愿、经验和知识,从总体中选择具有典型代表性样本作为调查对象n平均型”或“多数型”n按照一定标准,主观选取样本非随机
16、抽样技术 n配额抽样n事先要对总体中所有单位按其属性、特征分为若干类型,这些属性、特征称为“控制特征”。如被调查者的姓名、年龄、收入、职业、教育程度等;n然后,按照各个控制特征分配样本数额。n简单易行,样本具有较高的代表性n雪球抽样n前提:是总体单位之间具有一定的联系,非随机抽样技术 1.4 抽样抽样步骤步骤n(1) 确定调研问题确定调研问题n(2) 抽样方案设计抽样方案设计n(3) 问卷设计问卷设计 n(4) 实施调查过程实施调查过程 n(5) 数据处理分析数据处理分析n(6) 撰写调查报告撰写调查报告 n第一、确定抽样调查的目的、任务和要求;n第二、确定调查对象的范围和抽样单位;n第三、确
17、定抽取样本方法;n第四、确定必要的样本数;n第五、对主要抽样指针的精度提出要求;n第六、确定总体目标量的估算方法;n第七、制订实施总体方案的办法和步骤。 第第2章章 简单随机抽样(简单随机抽样(SRS)2.1 概述2.2 简单估计量及其性质2.3 比率估计量及其性质2.4 回归估计量及其性质2.5 简单随机抽样的实施2.1 概述概述n简单随机抽样也称为纯随机抽样。n从含有 N 个单元的总体中抽取 n 个单元组成样本,如果抽样是不放回的,则所有可能的样本有 个,若每个样本被抽中的概率相同,都为 ,这种抽样方法就是简单随机抽样。n具体抽样时,通常是逐个抽取样本单元,直到抽满n个单元为止。 CNn有
18、限放回简单随机抽样与不放回简单随机抽样n放回简单随机抽样(SRS with replacement)n当从总体N个抽样单元中抽取n个抽样单元时,如果依次抽取单元时,不管以前是否被抽中过,每次都从N个抽样单元中随机抽取,这时,所有可能的样本为 ? 个(考虑样本单元的顺序),n每个样本被抽中的概率为?n放回简单随机抽样在每次抽取样本单元时,都将前一次抽取的样本单元放回总体,因此,总体的结构不变,抽样是进行的,这一点是它与不放回简单随机抽样的主要不同之处。n放回简单随机抽样的样本量不受总体大小的限制,可以是任意的。n除非特别说明,简单随机抽样指的是不放回简单随机抽样【例例2.1】n设总体有5个单元(
19、1、2、3、4、5),按放回简单随机抽样的方式抽取2个单元,则所有可能的样本为25个(考虑样本单元的顺序):1,12,13,14,15,11,22,23,24,25,21,32,33,34,35,31,42,43,44,45,41,52,53,54,55,5n不放回简单随机抽样n当从总体N个抽样单元中依次抽取n个抽样单元时,每个被抽中的单元不再放回总体,而是从总体剩下的单元中进行抽样。n不放回简单随机抽样的样本量要受总体大小的限制。n在实际工作中,更多的采用不放回简单随机抽样。 【例例2.2】n设总体有5个单元(1、2、3、4、5),按不放回简单随机抽样的方式抽取2个单元,则所有可能的样本为个
20、:1,22,33,44,51,32,43,5 1,42,5 1,5 n简单随机抽样的抽取原则:n(1)按随机原则取样;n(2)每个抽样单元被抽中的概率都是已知的或事先确定的;n(3)每个抽样单元被抽中的概率都是相等的。所有可能样本每个样本被抽中的概率相同所有可能样本每个样本被抽中的概率相同符号 n大写符号表示总体的标志值,n小写符号表示样本的标志值 NNiiYYYYY211nniiyyyy211NYYYYNYNNii2111nyyyynynnii2111NiiYNNAP1110或iYniiynnap1110或iyXYXYXYRNiiNii11xyxyRniinii112122111NNYYNS
21、Niiniiyyns12211总体样本n数理统计中的任何参数估计问题都是抽样调查涵盖的范围,理论上人们一般只关注四个方面的总体特征:n总体均值n总体总值n总体比率n总体比率2.2 简单估计量及其性质简单估计量及其性质n 判断下面要估计的总体目标量分别属于什么类型?n调查城市居民家庭平均用电量。n估计湖中鱼的数量。n测试日光灯的寿命。n估计居民家庭用于做饭菜及饮用的用水量占家庭总用水量的比重。n估计婴儿出生性别比。n检测食盐中碘含量。 一、对总体均值的估计一、对总体均值的估计 以样本均值作为总体均值的估计n性质性质1 1:对于简单随机抽样, 是 的无偏估计。 ynyiin11y例设总体为0,1,
22、3,5,6,计算总体均值=3、总体方差=5.2和=6.5;给出全部的样本,并验证及。Y22S2n E yY22E sSyY1010.5-2.50.52031.5-1.54.53052.5-0.512.540630185132-126153087163.50.512.58354129364.51.54.510平均565.52.50.5306.5方差1.95样本编号单元1单元2样本均值-样本方差 证明 性质性质1 1 n对于固定的有限总体,估计量的期望是对所有可能样本求平均得到的,因此n总体中每个特定的单元 在不同的样本中出现的次数。 证明 性质性质1 1(对称性论证法)(对称性论证法) n由于每
23、个单元出现在总体所有可能样本中的次数相同,因此 一定是 的倍数,且这个倍数就是 , 性质性质2:n对于有限总体的方差定义 :n性质性质2:对于简单随机抽样, 的方差式中: 为抽样比, 为有限总体校正系数。 2211NYYiiNSNYYiiN22111yfn N1 f证明性质性质2(对称论证法): n 中的求和是对 项的,n 中的求和是对 项的 2121YynEYyEyVnii)( )(1)(1)(12212212YyYyEnYyEnYyEnjjiiniinii2121)()(YYNnYyENiinii)( )() 1() 1()( )(YYYYNNnnYyYyEjjiijjii)( )(YyY
24、yEjjii)( )(YYYYjjii2) 1( nn2) 1(NN )( )(1)(12212YyYyEnYyEnyVjjiiniijijiNiiYYYYNNnnnYYNnn)() 1() 1(1)(12212jijiNiiYYYYNnYYnN)(11)(1212121)(11)(11YYNnYYNnNiiNii2121)(11)(1111YYNnYYNnnNNiiNii2121)(111)(11YYNNnNnYYNnNnNNiiNii221SnfSnNnN每个特定单位被选入样本的概率:=P(i)=故其定义为:*不放回抽样*每个样本被抽中的概率为*每个单位被选入样本的概率NnNnNn)()(
25、1111)(1Nn) 1() 1()()(2222NNnnNnNni利用无限总体理论),(jiPijMean=随机变量证明性质性质2简单随机抽样下,简单估计量估计精度影响因素: n估计量的方差 是衡量估计量精度的度量。影响估计量方差的因素主要是样本量 。n通常N很大,当f0.5 ,比率估计比简单估计更为精确比率估计的其他问题n为何不对 的分子、分母各自按简单估计获得置信区间,然后根据两个区间的上下限构造R的区间边界n为何不对每个样本点计算ri,然后使用 估计R呢?n是否存在具有无偏性的比率估计量?2.4 回归估计量及其性质n回归估计的性质 假如研究发现,Y和X之间存在近似的线性关系,但这(直)
26、线并不通过Y和X构成的平面坐标的原点,也就是所谓截距不等于0,那么这时利用比率估计显然不合适,最好构造Y对X的线性回归关系进行估计。n主要变量总体均值 的回归估计量定义 时为简单估计量 时为比率估计 时为差估计因此简单估计量与比率估计量都是回归估计量的特例。n回归估计里辅助变量X的特点与比率估计里的十分相似:l辅助变量必须与主要变量高度相关;l辅助变量与主要变量之间的相关关系整体上相当稳定;l辅助变量的信息质量更好,帮忙而不添乱;l辅助变量的总体总值必须是已知的,或是更容易获得的。n对于简单随机抽样,如为常数(记为0),则有 具体证明见定理2.8n使回归估计量的估计精度最高,即V( )最小的0
27、为n此时n对于简单随机抽样,n足够大时, 的数学期望n对于简单随机抽样,n足够大时, 的方差这个定理的内容也包含两个结论:一个是说 不是无偏的;一个是说在某种条件下, 是近似无偏的。各种估计量的精度比较nn足够大的情形简单估计:比率估计:回归估计:nn不够大的情形 v yfns122.5 简单随机抽样的实施n费用n 总费用 固定费用 可变费用n 设计费分析费办公费管理费场租费等访问员费交通费礼品费电话费等样本量的确定样本量的确定STEPSn所需要的精度n找出样本量与精度之间的关系n估计所需的数值,求解 nn如超出预算,调整精度值重新计算精度margin of errorn对精度的要求通常以允许
28、绝对误差( 绝对误差限)或允许相对误差( 相对误差限)来表示。 drPd 1Pr 1样本量足够大时,可用正态分布近似 变异系数 SampleSizen0为重复抽样条件下的样本量当N很大时,0,nn0,wr与wor几乎没有区别。总体参数为总体参数为P P的情形的情形 V pPQnNnN1n f0.05 nnnN0011总体方差的估计n根据预调查数据或以前文献资料n根据数据的分布粗略估算S,例如全距/4,全距/ 6n对于比例估计,如果P在0.5附近(),可根据PQ在P=0.5时达到极大值来对样本量进行计算 .n如果时间允许,且总体在时间上变化不快,调查可以分为两步,首先确定一个可以承受的样本量,调
29、查后对估计精度进行计算,如果精度达到要求,则不再进行下一步,否则,计算为达到精度要求所需的样本量,再调查补充样本n通过定性分析 ,最好是对总体变异系数进行分析并估计,因为变异系数通常变化不大.样本量设计中的误区样本量设计中的误区 1. 估计精度越高越好吗?估计精度越高越好吗? 简单随机抽样估计比例简单随机抽样估计比例P的样本量与误差(当的样本量与误差(当P=0.5时)时) 样本量样本量 误差误差d 50 0.14 100 0.10 500 0.045 1000 0.032 10000 0.0098 对精度要求的判断十分重要。为得到最小误差而选择最对精度要求的判断十分重要。为得到最小误差而选择最
30、大样本量不是好的选择。大样本量不是好的选择。2. 样本量与总体规模样本量与总体规模N有关吗?按照总体比例确定样本量合有关吗?按照总体比例确定样本量合适吗?适吗?例:简单随机抽样估计例:简单随机抽样估计P,置信度,置信度95%,允许误差,允许误差5%,在,在P=0.5条件条件下下 总体规模(总体规模(N) 所需样本量(所需样本量(n) 50 44 100 80 500 222 1000 286 5000 370 10000 385 100000 398 1000000 400 10000000 400 由此可知,在精度要求相同条件下,在北由此可知,在精度要求相同条件下,在北京市进行一项调查和在全
31、国进行一项调查,样京市进行一项调查和在全国进行一项调查,样本量的差别并不大。本量的差别并不大。 总体规模越大,进行抽样调查的效率越高。总体规模越大,进行抽样调查的效率越高。u 若分类、分区、分层分别进行估计,如何处若分类、分区、分层分别进行估计,如何处理?理?u 对于多项目,如何处理?对于多项目,如何处理?其他影响因素n1. 所研究问题目标量的个数n2. 调查表的回收率 例如回收率估计为80%,则应接触的样本量为计算出所需样本量的1.25倍;n3.非抽样误差n4.资源限制n5.有效样本netc定义:简单随机抽样的样本估计量的方差与复杂抽样的样本估计量的方差的比率。DeffVar()为复杂样本估
32、计量的方差。设计效果设计效果(Design effect, Deff)设计效应设计效应n基什(L. Kish)提出 比较不同抽样方法的效率. 不放回简单随机抽样简单估计量的方差 某个抽样设计在同样样本量条件下估计量的方差。 Deff的作用:(1)评价抽样设计的一个依据, 如果deff1, 则抽样设计比简单随机抽样的效率低。(2)计算样本量如多阶段抽样的Deff大约在22.5之间。n=n(deff)n为简单随机抽样所需样本量。n放回简单随机抽样的deff为:n 常用于复杂抽样样本量的确定;在一定精度条件下,简单随机抽样所需的样本量比较容易得到,复杂抽样的样本量为, deffnn第三章第三章 分层
33、随机抽样分层随机抽样 3.1 概述3.2 简单估计量及其性质3.3 比率估计量及其性质3.4 回归估计量及其性质3.5 各层样本量的分配3.6 总样本量的确定3.7 分层抽样的其他方面2022-5-9106第一第一节节 概述概述2022-5-91072022-5-9108 定义定义3.3 分层随机抽样(stratified random sampling):如果每层中的抽样都是独立地按照简单随机抽样进行的,那么这样的分层抽样称为分层随机抽样,所得的样本称为分层随机样本(stratified random sample)。2022-5-9109二、作用n由于每层都进行抽样,这就可使样本在总体中分
34、布更加均匀,从而具有更好的代表性。n由于抽样在每一层中独立进行,所以一者允许各层选择不同的适合本层的抽样方法,二则可同时对各子总体(层)进行参数估计,而不单是对整个总体的参数进行估计。n由于各层的总体方差因单元之间差异小而肯定小于整个总体的方差,而抽样精度与此成正比,所以分层抽样可以提高参数估计的精度。2022-5-9110三、符号2022-5-9111所有总体参数的估计量都采用下标“st”以示区别:2022-5-9112第二节第二节 简单估计量及其性质简单估计量及其性质一、对总体均值的估计一、对总体均值的估计n分层样本分层样本,总体均值总体均值 的估计的估计n分层随机样本分层随机样本,总体均
35、值总体均值 的简单估计的简单估计 2022-5-9113估计量的性质 n性质性质1&21&2:对于一般的分层抽样,如果 是 的无偏估计( ),则 是 的无偏估计。 的方差为:n只要对各层估计无偏,则总体估计也无偏。n各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的。2022-5-9114证明性质1 由于对每一层有 因此, 估计量的方差 由于各层是独立抽取的,因此上式第二项中的协方差全为0,从而有 2022-5-9115n 性质性质3:对于分层随机抽样, 是 的无偏估计, 的方差为: 2022-5-9116证明性质3: 对于分层随机抽样,各层独立进行简单随机抽样,对
36、每一层有 因此,由性质1,有 由第二章性质2,得 因此n 2022-5-9117n 性质性质4:对于分层随机抽样, 的一个无偏估计为: 2022-5-9118证明性质4: 对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质3,得 的无偏估计为: 因此, 的一个无偏估计为: 2022-5-9119二、对总体总量的估计二、对总体总量的估计n 总体总量 的估计为: n如果得到的是分层随机样本,则总体总量的简单估计为: 2022-5-91202.估计量的性质n性质性质1 1:对于一般的分层抽样,如果是 的无偏估计,则 是 的无偏估计。 的方差为:2022-5-9121n性质性质2:对于分层随机抽
37、样, 的方差为:2022-5-9122n性质性质3 3:对于分层随机抽样, 的一个无偏估计为: 2022-5-9123例例3.13.1 n调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及其95%的置信区间。2022-5-9124层层居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060
38、2001803002204150050351502030251030252022-5-9125同理,求得:2022-5-9126 三、对总体比例的估计三、对总体比例的估计 n总体比例P的估计为: n估计量的性质 2022-5-9127性质性质1:对于一般的分层抽样,如果是的无偏估计(),则是的无偏估计。的方差为:性质性质2:对于分层随机抽样,是的无偏估计,2022-5-9128因而的方差为: 性质性质3:对于分层随机抽样,的一个无偏估计为:2022-5-9129第三节第三节 比率估计量及其性质比率估计量及其性质n先“比”后“加权”,此时所得的估计量称为分别比估计(separate ratio
39、estimator)n先 “加权”后“比”,这样所得的估计量称为联合比估计(combined ratio estimator)2022-5-9130分别比估计n定义3.4 总体均值 和总体总量 的分别比估计为:2022-5-9131n定理3.5 对于分层随机抽样的分别比估计,若各层的样本量 都比较大,则有2022-5-9132证明n根据比估计量的性质,当 比较大时,有2022-5-9133联合比估计2022-5-91342022-5-9135分别比估计与联合比估计的比较2022-5-91361)当 ,即 或 分别比估计的精度与联合比估计的精度是一样的。2)当 ,即 ,分别比估计的精度不低于联合
40、比估计的精度。3)当 且 ,这意味着分别比估计的精度要高于联合比估计的精度。2022-5-91374)当 且 , 或 且 ,联合比估计的精度要高于分别比估计的精度。5)当 ,即比估计量的方差小于简单估计量的方差时,需视具体情况而定。 2022-5-9138第四节第四节 回归估计量及其性质回归估计量及其性质n与比估计相似,将回归估计的思想与技术用于分层随机样本时,同样有两种可行的办法:n先“回归”后“加权”,此时所得的估计量称为分别回归估分别回归估计计;n先“加权”后“回归”,这时所得的估计量称为联合回归估联合回归估计计3.4.1分别回归估计分别回归估计n定义3.6分别回归估计分别回归估计是指在
41、分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均。1. 各各层的回归系数层的回归系数h事先给定事先给定 2.不能事先设定各层的回归系数不能事先设定各层的回归系数h3.4.2联合回归估计联合回归估计1.当当为事先设定的常数时为事先设定的常数时2.当回归系数当回归系数不能事先设定时不能事先设定时3.4.3 分别回归估计与联合回归估计的比较分别回归估计与联合回归估计的比较经化简得经化简得:例3.3n已知某公司一般职员(包括办事员和保管人员)及高级管理(经理)人员刚进入公司时的工资总额,欲通过抽样调查估计当前该公司职员的工资总额Y。抽样按照一般职员层与
42、高管层进行分层随机抽取。一般职员层抽取n1=15名职员,高管层抽取n2=10名职员。同时还知道一般职员层人员总数N1=390名,该类职员进入公司时工资总额为X1=5 523 965元;高管层人员总数N2=84名,该类职员进入公司时工资总额为X2=2 541 660元。经过分层随机抽样调查所得的数据如表35所示。请对上述数据分别按照分别比估计、联合比估计、分别回归估计、联合回归估计以及差估计方法对该公司当前职员工资总额Y做出估计,同时计算出各个估计量的精度。五种估计方法五种估计方法结果比较结果比较n注意注意:此时的比估计和回归估计(回归系数采用样本回归系数进行估计)均为有偏估有偏估计,并且考虑到
43、各层的样本量都不大,回归估计的偏倚有可能更大,所以此时采用比估计,特别是联合比估计会更保险。 而差估计虽然标准差相对较大,但它却是无偏的无偏的,均方误差并不一定大,所以仍然有采用的价值。3.4.4 比率比率估计与回归估计小结估计与回归估计小结n在分层随机抽样中,当辅助变量可加以利用时辅助变量可加以利用时,为了提高估提高估计量的精度计量的精度,可以采用分别比估计、联合比估计、分别回归分别比估计、联合比估计、分别回归估计以及联合回归估计估计以及联合回归估计等估计方法。n在比估计比估计中, 当各层样本量都较大时,分别比估计与联合比估计近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比估计近似
44、无偏。n在回归估计回归估计中,少数情况下,回归系数可以是事先设定的常数,其估计量无偏;多数情况下,回归系数需利用样本回归系数进行估计,其估计有偏,但在大样本的情况下近似无偏。n当Y与X高度相关时,分别比估计、联合比估计、分别回归估计以及联合回归估计等估计等产生的估计量都是有效的都是有效的。选择估计方选择估计方法,法,大致需遵循的原则大致需遵循的原则n在选择估计方法时在选择估计方法时,大致需遵循下面的原则大致需遵循下面的原则:(1)由于分别估计(无论是分别比估计还是分别回归估计)要求各层的样本量都比较大,所以当某些层的样本量不够大时,建议采用联合估计(2)当回归系数需要由样本进行估计时,回归估计
45、量是有偏的。 在这种情况下,采取比估计尤其是联合比估计也许更保险(3)如果各层的样本量都比较大,同时每层的比估计或回归估计也比较有效(即h均比较大),而且各层的Rh之间(或h之间)差异较大,则此时分别估计优于联合估计,估计量的方差更小(4) 如果各层的样本量不大,而且各层的Rh之间(或h之间)差异较小,则采用联合估计较为适宜(5) 如果各层的Rh之间(或h之间)差别不是太大,而且并不是每层的样本量都相当大,则联合估计可能更保险一些n如果各层的回归系数都接近于1,则可以采用差估计。虽然有时差估计量的方差偏大,但由于它为无偏估计量,所以总的均方误差不一定大第五节第五节 各层样本量的分配各层样本量的
46、分配 n 确定样本量:总的样本量,各层样本量n估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。2022-5-9166n实际工作中有不同的分配方法,可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到最小、费用最小。 2022-5-9167一、比例分配一、比例分配 n按各层单元数占总体单元数的比例,也就是按各层的层权进行分配.n对于分层随机抽样,这时总体均值的估计是2022-5-9168自加权总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样因
47、此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。本也称为自加权的样本。n总体比例的估计是 2022-5-9169二、最优分配二、最优分配 (一)最优分配(一)最优分配n在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。2022-5-91702022-5-91712022-5-9172定理定理3.7的证明的证明n对所有层成立时, 达到极小 2022-5-9173常数n简单线性费用函数,总费用由此得出下面的行为准则,如果某一层n单元数较多n内部差异较大
48、n费用比较省则对这一层的样本量要多分配一些。2022-5-9174三三 Neyman(内曼)最优分配(内曼)最优分配n如果每层抽样的费用相同,最优分配可简化为n这种分配称为Neyman分配。这时, 达到最小。 2022-5-9175例例3.43.4 某市有甲、乙两个地区,现要进行家庭收入的调查。令n=500,已知甲地区共有20 000户居民,乙地区共有50 000户居民;甲地居民和乙地居民年收入标准差估计分别为S1=2 500,S2=2 000;同时对甲地和乙地每户的平均抽样费用之比为2 3,请分别计算出在甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本
49、量。2022-5-91762022-5-91772022-5-9178四、某些层要求大于四、某些层要求大于100%100%抽样抽样时的修正时的修正 n 按最优分配时,有时抽样比f较大,某个层的 又比较大,则可能出现按最优分配计算的这个层的样本量 超过 的情况。n实际工作中,如果第 k 层出现这种情况,最优分配是对这个层进行100%的抽样,即取 ,然后,将剩下的样本量 按最优分配分到各层。 2022-5-9179五、五、偏离最优分配时对精度的影响偏离最优分配时对精度的影响2022-5-9180例3.62022-5-91812022-5-9182第六节第六节 总样本量的确定总样本量的确定 n令 当
50、方差 给定时 2022-5-9183n当按比例分配时, n实际工作中,n的计算可以分为两步,先计算:n然后进行修正: 2022-5-9184nnnN001n当按Neyman分配时, 2022-5-91852022-5-91862、精度要求是以精度要求是以 的绝对误差限的绝对误差限d(在给定的置在给定的置信水平信水平1-下下)的形式给出的的形式给出的2022-5-91872022-5-91883.精度要求以精度要求以 的相对误差限的相对误差限r(在给定的置信水在给定的置信水平平1-下下)的形式给出的形式给出2022-5-91892022-5-9190例3.72022-5-91912022-5-9