《调查中的非抽样误差课件.ppt》由会员分享,可在线阅读,更多相关《调查中的非抽样误差课件.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、调查中的非抽样误差第1页,此课件共41页哦本章结构11.1 引言11.2 抽样框误差11.3 无回答误差(补充敏感问题调查)11.4 计量误差11.5 离群值的检测和处理第2页,此课件共41页哦学习目标理解调查中的误差来源掌握抽样框误差的类型及不完善抽样框的使用掌握无回答误差的来源、影响及弥补措施掌握敏感性问题调查模型了解计量误差的来源第3页,此课件共41页哦11.1 引言一、概念抽样误差(sampling error)是由于样本的随机性引起的样本统计量的数值与总体目标量真值之间的差异。它随着样本容量的增大而减小。非抽样误差(non-sampling error)是指除了抽样误差之外,由于其他
2、各种原因而引起的误差,是所有调查都可能存在的误差。第4页,此课件共41页哦非抽样误差的特点1、具有普遍性,由于它不是由于样本的随机性带来的,因而它不随样本容量的增大而减小;2、非抽样误差的存在往往造成估计量的有偏(如:无回答);3、具有隐蔽性,难以识别或测定;4、产生原因复杂。第5页,此课件共41页哦非抽样误差的产生1、可能在调查及抽样设计阶段产生,如:问卷设计不合理造成词义含糊;抽样设计中抽样框不完善(这是一个重要原因);抽样设计中使用了不准确的辅助信息等等;2、可能在数据采集阶段产生,如:无法找到被调查者或被调查者不在家或者不愿意接受调查(无回答是数据收集阶段产生非抽样误差的主要原因);3
3、、可能产生在数据处理与分析阶段,如:对数据的审核、整理、编码及录入引起误差。第6页,此课件共41页哦非抽样误差的分类按照来源、性质分三类:(1)抽样框误差抽样框不完善;(2)无回答误差没有从调查单元获得调查结果,造成数据的缺失;(3)计量误差所获得的数据与其真值之间不一致。第7页,此课件共41页哦11.2 抽样框误差一、概念:1、抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。2、理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。3、现实中完善的抽样框往往难以得到第8页,此课件共4
4、1页哦二、抽样框误差的类型及影响(一)类型1、丢失目标总体单元(少或漏),这种误差不易被察觉,可能造成总量估计偏低,均值估计有偏;2、包含非目标总体单元(多),容易造成总量估计偏高,但比较容易察觉;3、复合连接(重复),指抽样框中的单元与目标总体单元不完全一一对应,一个抽样框单元与多个目标单元连接或一个目标单元与多个抽样框单元连接,如:入户调查中常出现的一门多户或一户多个住处等等;4、不正确的辅助信息,有些抽样如分层臭氧、比率估计和回归估计等等需要辅助信息,若信息不完全或不正确就会影响抽样效果。第9页,此课件共41页哦(二)对抽样框的一些基本认识1、建立抽样框事先要做好充分的研究和资料搜集2、
5、抽样框的维护、使用需要不断总结与研讨3、有些不完善的抽样框还可以使用,但是需要一定的财力、人力来修补、调整;4、抽样框误差有时会被解释成其他形式的误差第10页,此课件共41页哦(三)抽样框误差的影响只对丢失目标总体单元的抽样框引起的误差进行分析:1、对总体总和的估计(1)总体总和的真值(2)总体总和的样本估计值(3)偏倚(4)相对偏倚第11页,此课件共41页哦分析1、总体总和和估计的相对偏倚取决于r和 W0两个因素。2、r=1即丢失单元均值与抽样框单元均值相等时,相对偏倚为-W03、r1估计偏低,r1估计偏高。第14页,此课件共41页哦三、不完善抽样框的使用(一)实行连接在调查方案设计阶段制定
6、一定的规则,使没有包含在抽样框中的目标单元与包含在抽样框中的单元相连接。如:对不在抽样框中的学生与被抽中的学生实行连接(二)惟一连接对于抽样框中存在的复合连接,在方案设计中规定只有唯一的单元被抽中。第15页,此课件共41页哦(三)使用多个抽样框设样本来自A、B两个抽样框,两个抽样框的单元总数分别为NA,NB,目标总体被分成三个部分:区域a、区域b、区域ab1、利用抽样框A的样本对区域a、区域ab进行事后分层的总和估计为:2、利用抽样框B的样本对区域b、区域ab进行事后分层的总和估计为:第16页,此课件共41页哦3、目标总体的总和估计为:其中WA,WB为适当的权数,且WA+WB=14、估计量的方
7、差近似表达为:其中,、分别为重叠部分的单元占抽样框单元的比例:第17页,此课件共41页哦5、结合调查费用来确定各抽样框的样本量na、nb和权数WA总费用函数为:在总费用给定的条件下使总方差最小的最优抽样比为:权数分别为:第18页,此课件共41页哦11.3 无回答误差一、概念1、无回答误差是指在调查中由于各种原因,调查人员没有能够从入选样本的单元获得所需要的信息,由于数据缺失而造成的估计量的偏误。2、无回答从内容来看分为单元无回答和项目无回答。所谓单元无回答是指被调查单元没有参与或拒绝接受调查而造成数据缺失;项目无回答指被调查者虽然接受了调查但是有些项目没有回答。3、无回答从性质上分为有意无回答
8、和无意无回答。有意无回答往往是因为对内容反感或涉及个人隐私不愿意回答,它对数据质量产生很大的影响;而无意无回答往往是被调查者生病、不在家或很忙无法接受调查。第19页,此课件共41页哦二、无回答产生的原因及影响在数据收集过程中都可能产生无回答误差:1、查找阶段由于地址不详或已经搬迁而无法找到被调查者,调查者不熟悉地址等等;2、接触阶段被调查者由于客观原因无法接受调查或由于主观原因不愿意接受调查;3、采访阶段,被调查者对于某些问题不愿意提供答案或调查人员粗心遗漏一些项目或调查中断等等。第20页,此课件共41页哦将总体分为“回答层”和“无回答层”1、总体均值为:2、从总体中抽取容量为n的简单随机样本
9、,n1来自“回答层”,n0来自“无回答层”,则用来作为总体均值的估计的偏倚为:相对偏倚为:第21页,此课件共41页哦将总体分为“回答层”和“无回答层”,对总体总量估计带来的偏倚为:说明:1、总量估计的相对偏倚与均值估计的相对偏倚相等,但绝对偏倚是均值估计绝对偏倚的N倍;2、导致无回答偏倚的因素有两个:“回答层”与“无回答层”之间数量的差异 及无回答率R03、如果无回答单元与回答单元目标变量的数量特征没有明显的差异,则无回答可以看成是由于随机原因所致,不会造成偏倚,而如果两者不一致,差异越大偏倚就越大。第22页,此课件共41页哦三、降低无回答的措施1、问卷设计合理,激起被调查者的兴趣2、利用调查
10、组织者的权威性扩大影响、激发参与意识3、选择合适的调查员,做好调查前的培训4、对调查过程进行监控5、采用奖励措施6、再次调查,一般对被调查者要尝试三次仍不成功才可以将其放弃7、替换被调查单元,替换原则应该是调查设计时就规定好的;8、对敏感性问题采用随机化回答技术第23页,此课件共41页哦四、对存在无回答数据的调整(了解)(一)在抽样调整是指在第一次无回答的单元中随机抽取一个子样本,通过更加细致、更充分的工作获得该子样本的数据作为无回答层的代表值,然后将第一次调查中的回答层与第二次无回答层调查所得数据结合起来对总体参数进行估计的方法。第24页,此课件共41页哦(二)加权调整即通过给每个回答数据赋
11、以不同的权数然后进行数据处理,从而调整由于无回答引起的偏差。(三)相关推估法主要用于项目无回答时。思路是寻找与无回答问题变量有关联的其他调查问题变量,利用调查数据建立起变量之间的回归方程,对项目无回答变量值进行推估。(四)插补调整是指在数据整理阶段利用调查结果,采用一定的方式为无回答的缺失值确定一个合理的估计值,插补到原缺失数据的位置上。实际中一般涌均值插补。第25页,此课件共41页哦补充:敏感性问题调查与随机化回答技术1、敏感性问题(sensitive question)是指所调查的内容涉及私人机密而不愿意或不便于公开表态或陈述的问题,如:社会上的卖淫嫖娼、赌博吸毒、偷税漏税、婚前性行为等等
12、。2、随机化回答(randomized response)的基本特征是被调查者对所调查问题采取随机回答的方式,避免在没有任何保护的情况下直接回答敏感性问题,从而既保护了被调查者的隐私和机密,又取得了真实的资料。第26页,此课件共41页哦沃纳随机化回答模型该模型是由沃纳(S.L.Warner)首先提出的。被调查者对两个与敏感性特征有关的问题给出肯定或否定的答案,问题经常以下面的形式出现:问题1:你具有特征A吗?(如:问题1:你在考试中曾作过弊,对吗?)问题2:你具有特征 吗?(问题2:你在考试中不曾作过弊,对吗?)设计一个随机化装置使两个问题出现的概率比为P:(1-P);但只有被调查者才知道自己
13、回答的是哪个问题.第27页,此课件共41页哦具体操作1、在一密闭的容器中放入两种颜色不同(红色和白色),但大小、形状和重量完全相同的球,红球和白球的比例为P:(1-P)(球的比例事先设定),抽到红球如实回答1,抽到白球如实回答2。2、如果n个被调查者中共有m个回答“是”,那么,敏感性问题1回答“是”的比例可以按照条件概率得到。第28页,此课件共41页哦沃纳模型的估计量第29页,此课件共41页哦例题某高校教务处采用沃纳随机化回答技术欲调查某学期期末考试作弊人数的真实比例。设计中直接提“你在期末考试中作过弊,对吗?”问题的比例为P=3/4,样本量n=200,调查结果回答“是”的人数为60人,请估计
14、曾经作过弊的人数的比例,并给出90%的置信区间。第30页,此课件共41页哦西蒙斯随机化回答模型(无关问题的随机化回答模型)西蒙斯(W.R.Simmons)在沃纳模型基础上进行改进,将第二个问题改为与所调查的敏感性问题完全无关的另外一个非敏感性问题.两个问题的一般陈述为:问题1:你具有特征A吗?(特征A为敏感性)问题2:你具有特征B吗?(特征B为非敏感性)其中:具有特征的真实比例 为未知的,而特征B的比例 是设计时已知的,两个问题在随机化回答中出现的比例假设仍为p:(1-p),其中p已知。第31页,此课件共41页哦例如:问题1:你在期末考试中曾作过弊,对吗?问题2:你父亲的生肖属牛,对吗?()在
15、n个被调查者中,有m个人回答“是”,那么:第32页,此课件共41页哦例题例某社会学研究所欲调查已婚男子瞒着妻子存私房钱的情况,利用西蒙斯模型对随机抽出的800个已婚男子进行调查,设计的两个问题是:问题:你是否存私房钱?问题:你的阳历生日日期是奇数,对吗?第33页,此课件共41页哦解:n=800,m=420,p=0.5,第34页,此课件共41页哦采用随机化回答技术应注意的问题1、要使被调查者充分理解调查方法,特别是让他们明白,他回答的是哪个问题别人并不知晓,事前可以让他抽取几次,以便确信盒子中有不同颜色的球。2、所提的问题必须简单明了,防止不同的理解,在调查之前就应该明确问题的含义。如:你的生日
16、在五月,对吗?(阴历和阳历)3、在应用西蒙斯模型时,无关问题的选择特别重要,一定要有隐蔽性,即:调查人员无从猜测被调查者的答案,否则就失去意义。(如:你的身份证号码最后一位是奇数吗?这个问题就不好)第35页,此课件共41页哦11.4 计量误差一、概念:计量误差是指由于种种原因导致的调查中的数据与其真值不一致。二、原因1、设计不周引起的误差2、被调查者误差3、调查者误差4、其他误差(测量工具、编码、录入)第36页,此课件共41页哦其中,被调查者误差分为两类:(1)无意识误差主要表现为回忆误差,是对被调查的内容记忆不清而回答失真,无意识误差还包括“倾向性数字”。(2)有意识误差大多是由于问题的敏感
17、或其他因素使回答具有某种倾向性。如:对收入、学历、职称等回答会偏高,对应纳税额会偏低。无意识误差可以看成是随机的,不会带来估计偏倚,但有意识误差存在倾向性,会带来估计偏倚。第37页,此课件共41页哦减少计量误差的措施1、调查设计方面方案的设计人员一定要经验丰富、素质高2、现场准备方面对调查人员的招聘、培训和管理都要规范3、数据结果的审核方面要细致的审核数据的完整性、一致性和有效性第38页,此课件共41页哦11.5 离群值的检测和处理一、概念离群值是调查数据集中的极端值和其他数据明显不一致的观测值。离群值可以分为单变量离群值和多变量离群值。二、产生原因1、被调查者回答数据有错误2、调查人员记录数据有错误或数据录入有误。3、可能数据本身具有差异性第39页,此课件共41页哦三、离群值的确认1、若m和s分别是测度数据集中趋势和离散趋势的指标,那么每个数据偏离中心的相对距离di为:超过了预先确定的偏离值就为离群值。或者利用置信区间确认2、虽然样本均值和样本方差是常用的统计量,但是他们对离群值比较敏感,容易造成屏蔽效应因此不适合选择它们。第40页,此课件共41页哦最流行的检测办法是利用四分位数法,利用中位数测度集中趋势、利用四分位域测度离散趋势,因为这两个测度值对离群值都不太敏感。上、下四分位域:第41页,此课件共41页哦