非抽样误差抽样调查理论与方法精选课件.ppt-淘文阁

资源描述

《非抽样误差抽样调查理论与方法精选课件.ppt》由会员分享，可在线阅读，更多相关《非抽样误差抽样调查理论与方法精选课件.ppt（27页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、关于非抽样误差抽样调查理论与方法第一页，本课件共有27页美国文学摘要对于美国文学摘要对于19361936年美国总统选举进行了预测，年美国总统选举进行了预测，当时大多数观察家认为罗斯福会轻易获胜，而文学摘要根当时大多数观察家认为罗斯福会轻易获胜，而文学摘要根据自己的抽样断定兰登与罗斯福的获胜比率将是据自己的抽样断定兰登与罗斯福的获胜比率将是5757和和4343。然而却是罗斯福以然而却是罗斯福以6262比比3838的绝对优势坐上了总统宝座。与的绝对优势坐上了总统宝座。与事实完全相悖的预测断送了这家原本颇有名气的杂志的前程，事实完全相悖的预测断送了这家原本颇有名气的杂志的前程，不久它只得停刊就此不

2、久它只得停刊就此“关门大吉关门大吉”。美国文学摘要发出了美国文学摘要发出了10001000万张调查表，收回了万张调查表，收回了200200万张，万张，花费了那么大的精力，收集了那么多的数据花费了那么大的精力，收集了那么多的数据，怎么会出那么大的，怎么会出那么大的错误呢？主要原因就是抽样框的选取。原来它是按照电话簿和俱乐错误呢？主要原因就是抽样框的选取。原来它是按照电话簿和俱乐部成员的名单发出调查表的，由此选取的样本明显地排斥穷人！因部成员的名单发出调查表的，由此选取的样本明显地排斥穷人！因为当时一般穷人很少拥有私人电话或隶属于哪个俱乐部（为当时一般穷人很少拥有私人电话或隶属于哪个俱乐部（19

3、361936年，年，美国大约有美国大约有11001100万部住宅电话）。众所周知，经济地位在很大程度万部住宅电话）。众所周知，经济地位在很大程度上影响着政治态度：穷人压倒多数地倾向于罗斯福而有钱人则偏向上影响着政治态度：穷人压倒多数地倾向于罗斯福而有钱人则偏向于兰登。文学摘要的样本反映不出这个社会现实从而犯了致命于兰登。文学摘要的样本反映不出这个社会现实从而犯了致命的错误。的错误。第二页，本课件共有27页设计带来非抽样误差有很多表现在抽样框出了问题，第设计带来非抽样误差有很多表现在抽样框出了问题，第一章中所述的文学摘要的抽样框明显地偏向于某一部分一章中所述的文学摘要的抽样框明显地偏向于某一部

4、分人而忽略了另一部分人，从中产生的非抽样误差使得抽样结人而忽略了另一部分人，从中产生的非抽样误差使得抽样结果不能反映总体（全体选民）的意见。这种致命的错误来源果不能反映总体（全体选民）的意见。这种致命的错误来源于抽样框于抽样框“丢失丢失”了总体中占有一定比例的单元，如果这一部了总体中占有一定比例的单元，如果这一部分被分被“丢失丢失”的群体在调查关心的参数方面有其独特的一面，的群体在调查关心的参数方面有其独特的一面，那么这种那么这种“丢失丢失”引起的非抽样误差使推断或估计带有明显的引起的非抽样误差使推断或估计带有明显的偏性。偏性。如果我们的抽样方案是分层抽样，分层抽样不太可能按照如果我们的抽样方

5、案是分层抽样，分层抽样不太可能按照关心的总体参数去实施，而常常根据若干辅助信息来进行，当关心的总体参数去实施，而常常根据若干辅助信息来进行，当然这些辅助信息与调查变量应当有较强的相关程度。倘若这些然这些辅助信息与调查变量应当有较强的相关程度。倘若这些辅助变量资料不健全，不准确甚至借用这些辅助变量本身属于辅助变量资料不健全，不准确甚至借用这些辅助变量本身属于判断失误，由此引起的非抽样误差可能会严重威胁到估计的准判断失误，由此引起的非抽样误差可能会严重威胁到估计的准确性。确性。第三页，本课件共有27页有时候陈旧的抽样框将带来我们所不希望看到的非抽样误有时候陈旧的抽样框将带来我们所不希望看到的非抽

6、样误差，因为陈旧的抽样框会造成总体单元的差，因为陈旧的抽样框会造成总体单元的“丢失丢失”现象，一般地现象，一般地它还难以反映近期有关变量的一些变化。它还难以反映近期有关变量的一些变化。以上所述的非抽样误差属于在抽样之前的设计方案工作及以上所述的非抽样误差属于在抽样之前的设计方案工作及编制抽样框中需要认真对待的。本章就抽样过程中产生的非抽编制抽样框中需要认真对待的。本章就抽样过程中产生的非抽样误差进行详尽的讨论。样误差进行详尽的讨论。2 2 无回答现象无回答现象在设计方案相当合理，编制的抽样框令人十分满意的情况，无在设计方案相当合理，编制的抽样框令人十分满意的情况，无回答现象的发生是非抽样误差

7、表现的主要形式之一。无回答类型通回答现象的发生是非抽样误差表现的主要形式之一。无回答类型通常可归结为：常可归结为：（1 1）遗漏。由随机抽样所确定的调查单位出现）遗漏。由随机抽样所确定的调查单位出现“找不到找不到”现象，现象，或者由于客观存在的一些困难，诸如交通极端不便，气候异常恶劣或者由于客观存在的一些困难，诸如交通极端不便，气候异常恶劣等而无法找到确定要去访问的对象。等而无法找到确定要去访问的对象。第四页，本课件共有27页（2 2）被调查对象不在家。有时候可以请家庭中其他人甚至就）被调查对象不在家。有时候可以请家庭中其他人甚至就近换一家进行访问，这样的做法虽然方便，但是在一定程度近换一家进

8、行访问，这样的做法虽然方便，但是在一定程度上破坏了随机性。有时候为了确保抽样的随机性，上破坏了随机性。有时候为了确保抽样的随机性，“不在家不在家”就造成了就造成了“无回答无回答”。（3 3）不能回答。某些被访问者对于问卷中的若干问题缺乏有关资）不能回答。某些被访问者对于问卷中的若干问题缺乏有关资料或者出于各种各样的原因而不愿意回答。料或者出于各种各样的原因而不愿意回答。（4 4）坚决拒绝调查。这是由于各种原因造成的，尤其是有些）坚决拒绝调查。这是由于各种原因造成的，尤其是有些问题涉及到个人隐私等等，由此产生的偏差一般较难消除。问题涉及到个人隐私等等，由此产生的偏差一般较难消除。造成无回答现象的

9、原因有许许多多，但一般地，由政造成无回答现象的原因有许许多多，但一般地，由政府部门出面组织的抽样调查常常能得到被调查者的友好合府部门出面组织的抽样调查常常能得到被调查者的友好合作，这种情况下无回答现象的比例相对地较少，然而对于作，这种情况下无回答现象的比例相对地较少，然而对于一般的市场信息调查等非政府组织的抽样调查无回答现象一般的市场信息调查等非政府组织的抽样调查无回答现象比例非常的高。随着我国社会主义市场经济的发展和完善，比例非常的高。随着我国社会主义市场经济的发展和完善，这种情况正在逐步得到改善。这种情况正在逐步得到改善。第五页，本课件共有27页其实调查人员的素质，调查问题的拟定，被调查

10、人员的文其实调查人员的素质，调查问题的拟定，被调查人员的文化素质等等都对无回答率有一定影响。每件抽样调查，我们需化素质等等都对无回答率有一定影响。每件抽样调查，我们需要力求低比率的无回答现象，从目前来看，完全避免无回答现要力求低比率的无回答现象，从目前来看，完全避免无回答现象是不可能的。对于无回答现象产生的非抽样误差我们关心的象是不可能的。对于无回答现象产生的非抽样误差我们关心的是：是：1 1、问卷的回收率、问卷的回收率调查报告一般要求列出回收率，尤其是通过邮寄方式调查报告一般要求列出回收率，尤其是通过邮寄方式进行的调查，更需如此。因为回收率的高低将有力地论证进行的调查，更需如此。因为回收率

11、的高低将有力地论证调查的成功与否。调查的成功与否。对回收率的分析将有助于在无回答现象较严重的情况下进对回收率的分析将有助于在无回答现象较严重的情况下进行数据分析，同时也有助于分析出哪些对象是可以再访问从而行数据分析，同时也有助于分析出哪些对象是可以再访问从而采取多次访问的手段尽量减少无回答率。采取多次访问的手段尽量减少无回答率。2 2、如何进行数据分析、如何进行数据分析第六页，本课件共有27页设抽样容量为设抽样容量为 n,n,无回答个数为无回答个数为 ,那么我们的实际那么我们的实际调查量为调查量为。根据。根据个有效数据分析将比原定的个有效数据分析将比原定的计划少了很多信息。如果这计划少了

12、很多信息。如果这个访问到的对象是从原定的个访问到的对象是从原定的对象中随机无放回地抽取的，那么推断的结果只是精度上对象中随机无放回地抽取的，那么推断的结果只是精度上的损失，至于估计量的一些良好性质，例如无偏性等仍然的损失，至于估计量的一些良好性质，例如无偏性等仍然保留。保留。然而事情并非这样地如意，无回答者常常拥有某些特然而事情并非这样地如意，无回答者常常拥有某些特征以致对调查的问题持有特定的态度，因此依据征以致对调查的问题持有特定的态度，因此依据个回答个回答数据所作出的推断往往带有偏性。以总体平均数的估计为数据所作出的推断往往带有偏性。以总体平均数的估计为例，我们面临的情况相当于总体中例

13、，我们面临的情况相当于总体中N N 个单元划分为两部分：个单元划分为两部分：回答者，回答者，无回答者。倘若抽样方式是简单随机无回答者。倘若抽样方式是简单随机的，那么的，那么与与的比例理应相当于的比例理应相当于与与的比例。这两部的比例。这两部分的平均数分别记为分的平均数分别记为和和，于是总体平均数为：，于是总体平均数为：(12.1)(12.1)第七页，本课件共有27页根据根据“回答者回答者”部分的平均数部分的平均数是是的无偏估计，用的无偏估计，用估计估计显然会产生偏倚：显然会产生偏倚：(12.2)(12.2)这个偏倚中，这个偏倚中，与与是可以利用调查得到的数据进行估计是可以

14、利用调查得到的数据进行估计的，但是由于的，但是由于“无回答无回答”，是根本无法获知其信息的，因此是根本无法获知其信息的，因此要对估计量要对估计量给于给于“纠偏纠偏”，其难度极大，尤其是在，其难度极大，尤其是在较大时较大时也就是也就是“无回答者无回答者”占有相当大比例时，连占有相当大比例时，连的置信限都难于的置信限都难于得到。得到。在有些实例中，人们只能对偏倚作出一些猜测，这些猜测有时在有些实例中，人们只能对偏倚作出一些猜测，这些猜测有时候可以根据一些历史的资料作出，有一定的参考价值；但是有时候候可以根据一些历史的资料作出，有一定的参考价值；但是有时候凭主观作出的猜测无法证实其正确性，因此

15、利用它来凭主观作出的猜测无法证实其正确性，因此利用它来“纠偏纠偏”缺缺乏依据也缺乏精确度，这显然归因于无回答现象带来的恶乏依据也缺乏精确度，这显然归因于无回答现象带来的恶果。果。第八页，本课件共有27页（1 1）对某些问题无回答的数据以该问题回答数据的平均数）对某些问题无回答的数据以该问题回答数据的平均数来代替；来代替；（2 2）从对某问题回答的）从对某问题回答的个数据中作个数据中作次随机有放回次随机有放回的抽样，以填补的抽样，以填补个无回答者的数据。个无回答者的数据。然而在用计算机处理抽样数据时，不单单是简单地用然而在用计算机处理抽样数据时，不单单是简单地用去代替去代替或者最多给

16、出一定量的纠偏。众所周知，抽样调或者最多给出一定量的纠偏。众所周知，抽样调查一般不止问一个问题，我们的问卷经常围绕调查的目的查一般不止问一个问题，我们的问卷经常围绕调查的目的而设置一系列问题，我们遇到的无回答现象经常表现为：而设置一系列问题，我们遇到的无回答现象经常表现为：全部问题无回答或部分问题无回答。在部分问题无回答者全部问题无回答或部分问题无回答。在部分问题无回答者中，将会呈现回答问题的多少以及哪些问题无回答的复杂中，将会呈现回答问题的多少以及哪些问题无回答的复杂情况，这给计算机处理及整体推断带来一定的困难。有些情况，这给计算机处理及整体推断带来一定的困难。有些学者提出对于这样的学者提出

17、对于这样的“丢失丢失”数据能否人为地补缺，如果数据能否人为地补缺，如果对无回答对象一无所知的情况下，我们可以采取下述措施：对无回答对象一无所知的情况下，我们可以采取下述措施：第九页，本课件共有27页上述做法还是相当于从上述做法还是相当于从个回答者的数据出发对总体个回答者的数据出发对总体作出推断，但是在计算机上整体考虑来说是作为作出推断，但是在计算机上整体考虑来说是作为个样本个样本来处理的，给整体全面的推断带来某种方便，且也具有一来处理的，给整体全面的推断带来某种方便，且也具有一定合理性，因为我们的抽样调查本身是要求定合理性，因为我们的抽样调查本身是要求个均有回答个均有回答的。然而这样的

18、处理在精度上如何计算，或者说新构成的的。然而这样的处理在精度上如何计算，或者说新构成的估计量方差如何估计，国外的一些统计学家曾作过研究与估计量方差如何估计，国外的一些统计学家曾作过研究与进一步的探索。进一步的探索。3 3、多次访问、多次访问为了缩小无回答所引起的偏差，减少无回答的数量，有为了缩小无回答所引起的偏差，减少无回答的数量，有必要采取一些措施，例如对访问者的培训，对敏感问题的适必要采取一些措施，例如对访问者的培训，对敏感问题的适当处理以消除被访问者的疑虑，调查前作好充分的准备工作当处理以消除被访问者的疑虑，调查前作好充分的准备工作等等，采用多次访问是个有效的方法。当然，对于那些等等，

19、采用多次访问是个有效的方法。当然，对于那些“坚坚决拒绝回答者决拒绝回答者”来说，多次访问很难奏效，但是对于那些来说，多次访问很难奏效，但是对于那些“不在家不在家”或或“不能回答不能回答”原因的无回答者应当有不小的作用。原因的无回答者应当有不小的作用。第十页，本课件共有27页实际工作表明，多次访问的确能做到减少无回答率，实际工作表明，多次访问的确能做到减少无回答率，随之而引出的问题是承担的费用问题。一般地，抽样方案随之而引出的问题是承担的费用问题。一般地，抽样方案设计中会留下一部分经费用于设计中会留下一部分经费用于“再访问再访问”以便提高回答率。以便提高回答率。所谓多次访问不可能所谓多次访问不

20、可能“许多次许多次”，因为随着访问次数的增加，每，因为随着访问次数的增加，每次的回收率将随之减少，因此次的回收率将随之减少，因此“许多次许多次”是不必要的。另外在是不必要的。另外在再次访问时，最好的办法是换一个访问员独立地对前一次再次访问时，最好的办法是换一个访问员独立地对前一次无回答者进行访问，这样常常可以收到很好的效果。无回答者进行访问，这样常常可以收到很好的效果。4 4、PolizePolizeSimmonsSimmons较正较正如果由于条件的限制，只能进行一次调查，如何较正由如果由于条件的限制，只能进行一次调查，如何较正由于无回答而引起的误差呢？于无回答而引起的误差呢？PolizeP

21、olizeSimmonsSimmons对总体平均数对总体平均数提出的建议对我们有一定的参考价值。提出的建议对我们有一定的参考价值。假定所有访问者均是在除周日以外的假定所有访问者均是在除周日以外的6 6个晚上进行，对于每一个晚上进行，对于每一个实际被调查者在答完问卷以后再附带询问一个问题：个实际被调查者在答完问卷以后再附带询问一个问题：“除周日除周日之外，您在今晚以前的之外，您在今晚以前的5 5个晚上有几天在家？个晚上有几天在家？”这个问题的如这个问题的如实回答实际上告诉了访问员关于他晚上在家实回答实际上告诉了访问员关于他晚上在家第十一页，本课件共有27页的频率的频率的一个大致估计：的一个大致

22、估计：（其中（其中是被调是被调查者回答的天数）。查者回答的天数）。根据调查的结果可以将被访问人分为根据调查的结果可以将被访问人分为6 6部分，即部分，即。设每个部分含有。设每个部分含有个人。显然，个人。显然，越大，越大，就越大，对就越大，对应此应此的组入样的可能性就越大，这样该部分的平均数的组入样的可能性就越大，这样该部分的平均数在估计总体平均数的过程中应当赋予与该组在家频率在估计总体平均数的过程中应当赋予与该组在家频率相相适应的权。适应的权。这种思想实质上类似于不等概率抽样时的平均数估计。这种思想实质上类似于不等概率抽样时的平均数估计。按照这种加权平均的思想，我们将原先的样本平均

23、数（当按照这种加权平均的思想，我们将原先的样本平均数（当然是基于被调查到的样本）然是基于被调查到的样本）调整为所谓调整为所谓Polize-SimmonsPolize-Simmons估计量估计量:(12.3)(12.3)第十二页，本课件共有27页Polize-SimmonsPolize-Simmons较正在直观上有合理的解释：某些调查指较正在直观上有合理的解释：某些调查指标标诸如生活费用的平均年收入或年支出诸如生活费用的平均年收入或年支出与被调查与被调查者是否容易找到是较强相关的两个因素。如果不采用加权者是否容易找到是较强相关的两个因素。如果不采用加权平均数而采用被调查者的平均数，那么所得到的估

24、计就相平均数而采用被调查者的平均数，那么所得到的估计就相对地突出了那些容易被找到的人的影响，而掩盖了另一部对地突出了那些容易被找到的人的影响，而掩盖了另一部分不容易找到的人的影响。分不容易找到的人的影响。P-S P-S较正采用加权平均对偏差作了一定程度上的较正。较正采用加权平均对偏差作了一定程度上的较正。当然所利用的权当然所利用的权本身是通过抽样调查的数据估算出来的，它将无可质疑地本身是通过抽样调查的数据估算出来的，它将无可质疑地影响到估计量的方差（增大），对估计的精度付出代价，影响到估计量的方差（增大），对估计的精度付出代价，但是我们毕竟不要再花费时间、精力和费用去作多次访问但是我们毕竟不要

25、再花费时间、精力和费用去作多次访问并达到纠偏的作用。并达到纠偏的作用。第十三页，本课件共有27页3 3 计量误差计量误差计量误差是又一种重要的非抽样误差。由于计量工具的不计量误差是又一种重要的非抽样误差。由于计量工具的不够精确，或由于调查人员工作的粗糙失误，或者是数据处理人够精确，或由于调查人员工作的粗糙失误，或者是数据处理人员的马马虎虎，都有可能造成调查所得数据与真值之间的不一员的马马虎虎，都有可能造成调查所得数据与真值之间的不一致。这样的计量误差（或称调查误差）将严重地威胁到抽样推致。这样的计量误差（或称调查误差）将严重地威胁到抽样推断。本节还要简略讨论到另一种调查误差，那就是人为的断。

26、本节还要简略讨论到另一种调查误差，那就是人为的“虚虚假假”数据，数据的伪造与虚假干扰了我们的调查与推断，数据，数据的伪造与虚假干扰了我们的调查与推断，有时候会发生不堪设想的严重后果。有时候会发生不堪设想的严重后果。1 1、设计引起的误差、设计引起的误差因为方案以及问卷的设计引起偏差的问题，我们已经在第一章因为方案以及问卷的设计引起偏差的问题，我们已经在第一章中较为详尽地阐述过，本节稍稍谈论由此引起的计量方面的误差。中较为详尽地阐述过，本节稍稍谈论由此引起的计量方面的误差。在调查咨询方面取得极大成功的盖洛普十分强调问卷在调查咨询方面取得极大成功的盖洛普十分强调问卷设计中的用词，用词欠妥有可能引

27、起调查结果在计量方面设计中的用词，用词欠妥有可能引起调查结果在计量方面显著的不同，足以例证的当推显著的不同，足以例证的当推RuggRugg试验：试验：第十四页，本课件共有27页问题甲：问题甲：“您认为美国应当禁止反对民主的公开言论吗您认为美国应当禁止反对民主的公开言论吗？”其结果是其结果是5454的人赞成。的人赞成。问题乙：问题乙：“您认为美国应该允许反对民主的公开言论吗？您认为美国应该允许反对民主的公开言论吗？”结结果是果是7575的人不赞成。的人不赞成。两个问题表示美国多数以上的人不同意在美国有公开两个问题表示美国多数以上的人不同意在美国有公开反对民主的言论，但比例为反对民主的言论，但比

28、例为5454：7575，相距甚远。既然人们，相距甚远。既然人们倾向于不允许反对民主的公开言论，但倾向于不允许反对民主的公开言论，但“禁止禁止”两字使不少两字使不少人感到这与人感到这与“民主及言论自由民主及言论自由”有相悖之处。这里面涉及到有相悖之处。这里面涉及到美国的国情、美国人的心理承受等各种因素。美国的国情、美国人的心理承受等各种因素。当然，要想完全避免问题设计引起的计量上的误差很当然，要想完全避免问题设计引起的计量上的误差很难做到，因此我们主张有时候可以做些小范围的试调查，难做到，因此我们主张有时候可以做些小范围的试调查，从而调整我们的各种用词。从而调整我们的各种用词。第十五页，本课件共

29、有27页2 2、调查员误差、调查员误差对于一个对象的访问，如果不存在调查员方面的问题，对于一个对象的访问，如果不存在调查员方面的问题，照理调查所取得的数据与真值之间只有随机误差，因此从照理调查所取得的数据与真值之间只有随机误差，因此从理论上讲，只要对该对象多次访问再取平均数则可以基本理论上讲，只要对该对象多次访问再取平均数则可以基本上上“抵消抵消”随机误差的影响。然而由于调查员方面引起的随机误差的影响。然而由于调查员方面引起的误差（通常称为系统误差）不可能通过多次访问而抵消。误差（通常称为系统误差）不可能通过多次访问而抵消。调查员误差常常归因于：调查员误差常常归因于：（1 1）调查员本身的素

30、质，倘若一个调查员工作粗糙、登）调查员本身的素质，倘若一个调查员工作粗糙、登录马虎等，则会引起不必要的差错。有些调查员只在调查中录马虎等，则会引起不必要的差错。有些调查员只在调查中将对象提供的以前的或公开的资料照抄，殊不知这些将对象提供的以前的或公开的资料照抄，殊不知这些以前的以前的或公开的数据与现在要调查得到的数据之间有时是存在差异或公开的数据与现在要调查得到的数据之间有时是存在差异的，这样的误差当然是由调查员而引起的。的，这样的误差当然是由调查员而引起的。（2 2）调查员的诱导引起的调查误差。调查员为了将问题）调查员的诱导引起的调查误差。调查员为了将问题展开下去，常启发被调查人员，或做一

31、些示范暗示，做一些展开下去，常启发被调查人员，或做一些示范暗示，做一些比喻，言语与动作之间常带有调查员本身的一些想法比喻，言语与动作之间常带有调查员本身的一些想法第十六页，本课件共有27页愿望等，只要回答的结果不对被调查人员的生活及其他带来愿望等，只要回答的结果不对被调查人员的生活及其他带来不利影响的话，有些被调查人员就会自然地顺着调查员的思不利影响的话，有些被调查人员就会自然地顺着调查员的思路回答问卷。路回答问卷。（3 3）调查员按照被调查人员给自己留下的初步印象而）调查员按照被调查人员给自己留下的初步印象而推测填写问卷。不能否认，调查员本身是生活在社会中的推测填写问卷。不能否认，调查员本身

32、是生活在社会中的一员，对许多事情有自己的思想，会作出自己的判断。被一员，对许多事情有自己的思想，会作出自己的判断。被调查人员的年龄、性别、社会职业、家庭收入，以及一进调查人员的年龄、性别、社会职业、家庭收入，以及一进门就可看到的家庭摆设、卫生状况，甚至被调查人员的容门就可看到的家庭摆设、卫生状况，甚至被调查人员的容貌等都会给调查人员一个较深刻的印象，在问卷中有些不貌等都会给调查人员一个较深刻的印象，在问卷中有些不清楚的问题，或者需要被调查人员讲述一些观点而由调查清楚的问题，或者需要被调查人员讲述一些观点而由调查员记录下来的内容，都有可能由于调查员认为这样的人必员记录下来的内容，都有可能由于调查

33、员认为这样的人必定如何回答该问题的印象而引起误差。定如何回答该问题的印象而引起误差。或者调查员根据先前对其他人的访问留下的印象，比或者调查员根据先前对其他人的访问留下的印象，比如对某问题持赞成者多，那么这种印象也很有可能成为他如对某问题持赞成者多，那么这种印象也很有可能成为他采访下一个对象时已经形成初步结论。采访下一个对象时已经形成初步结论。第十七页，本课件共有27页以上这些调查员误差都是属于系统误差，称为偏差，不可以上这些调查员误差都是属于系统误差，称为偏差，不可能通过大量访问或多次访问加以克服。要尽可能地避免或减少能通过大量访问或多次访问加以克服。要尽可能地避免或减少调查员误差就必须挑选

34、合格称职的调查员，并且对调查员预先调查员误差就必须挑选合格称职的调查员，并且对调查员预先进行培训，讲清楚注意点，尤其是要向调查员反复强调职业道进行培训，讲清楚注意点，尤其是要向调查员反复强调职业道德。另外抽样调查的督导十分重要，督导的作用是检查调查质德。另外抽样调查的督导十分重要，督导的作用是检查调查质量，并从中抽取少部分进行核查访问以评估调查的质量。核查量，并从中抽取少部分进行核查访问以评估调查的质量。核查通常采用电话方式，若上门核查则常常采用调查员之间交叉核通常采用电话方式，若上门核查则常常采用调查员之间交叉核查的办法。查的办法。3 3、被调查人员误差、被调查人员误差被调查人员误差虽然需

35、要被调查人员误差虽然需要“防治防治”，但有些是可以原谅，但有些是可以原谅的，例如被调查者对问题的理解发生差错就是一例，当然如的，例如被调查者对问题的理解发生差错就是一例，当然如果是调查员上门访问，那么这种差错就容易及时更正，但如果是调查员上门访问，那么这种差错就容易及时更正，但如果是邮寄问卷等则无法纠正了。另外，有不少事情是需要被果是邮寄问卷等则无法纠正了。另外，有不少事情是需要被调查人员回忆后再回答的，它不像调查人员回忆后再回答的，它不像“什么时侯出生什么时侯出生”、“何地何地出生出生”、“家中有几口人家中有几口人”等这些问题既简单且不易发生差错。等这些问题既简单且不易发生差错。第十八页，本

36、课件共有27页有些事情，时间比较长且又比较复杂，回忆有一定的困有些事情，时间比较长且又比较复杂，回忆有一定的困难，差错也是难免的。对于这种类型的差错，一般要求调查难，差错也是难免的。对于这种类型的差错，一般要求调查员有耐心地等待，给予一定的回忆时间。倘若被调查人员身员有耐心地等待，给予一定的回忆时间。倘若被调查人员身体不适、情绪欠佳，或者调查环境使人烦躁等都会引起回答体不适、情绪欠佳，或者调查环境使人烦躁等都会引起回答误差。误差。另一类由被调查人员引起的调查误差是不可原谅的，那就另一类由被调查人员引起的调查误差是不可原谅的，那就是被调查人员是被调查人员“谎报军情谎报军情”提供虚假数据。这里面

37、有一部分提供虚假数据。这里面有一部分人因为牵涉到一些敏感性问题而不愿如实回答，对于敏感人因为牵涉到一些敏感性问题而不愿如实回答，对于敏感性问题的巧妙处理将在下一节进行讨论。但是，在我国的性问题的巧妙处理将在下一节进行讨论。但是，在我国的确存在着虚报瞒报、篡改统计数据等现象，使国家统计局确存在着虚报瞒报、篡改统计数据等现象，使国家统计局掌握统计信息，反映我国国民经济发展及社会运行状况工掌握统计信息，反映我国国民经济发展及社会运行状况工作遇到人为麻烦。因此，广泛宣传统计法，加强对统计法作遇到人为麻烦。因此，广泛宣传统计法，加强对统计法执行的力度已经刻不容缓。执行的力度已经刻不容缓。关于样本数据是否

38、虚假，存在一个发现与判断的问题，往关于样本数据是否虚假，存在一个发现与判断的问题，往往只有比较样本数据的整体变化才有可能确定，或者可以利用往只有比较样本数据的整体变化才有可能确定，或者可以利用历史样本以及经验进行判断。历史样本以及经验进行判断。第十九页，本课件共有27页例如，如果我们发现某村申报小麦亩产量为例如，如果我们发现某村申报小麦亩产量为500500公斤，从该公斤，从该村历史上的小麦亩产量以及周围地区的小麦亩产量的抽样数据，村历史上的小麦亩产量以及周围地区的小麦亩产量的抽样数据，也许我们会很果断地判定它的虚假性。一般来说，抽样调查总也许我们会很果断地判定它的虚假性。一般来说，抽样调查总

39、是调查一批数据，是多参数的，各参数之间存在一定的相关，是调查一批数据，是多参数的，各参数之间存在一定的相关，根据历史资料等有时可以估算到相关程度，即使是粗略估计也根据历史资料等有时可以估算到相关程度，即使是粗略估计也能有助于我们及时发现虚报数据能有助于我们及时发现虚报数据.在数值上利用计算机作出判断是人们感兴趣的研究课在数值上利用计算机作出判断是人们感兴趣的研究课题，它其实与对抽样的质量评估紧密地联系在一起。简单题，它其实与对抽样的质量评估紧密地联系在一起。简单地说，设地说，设为抽样获得的数据，从这几个对象中为抽样获得的数据，从这几个对象中随机选取一个子集进行再调查，两次调查的数据分别记为随

40、机选取一个子集进行再调查，两次调查的数据分别记为和和。（1 1）比较这两组数据之间的差异，它在某种程度上可以鉴别）比较这两组数据之间的差异，它在某种程度上可以鉴别真伪性，同时也对整个抽样的质量进行适当评估。真伪性，同时也对整个抽样的质量进行适当评估。第二十页，本课件共有27页（2 2）利用）利用，对总体参数的估计量为，对总体参数的估计量为，利用利用对总体参数相应的估计量记为对总体参数相应的估计量记为，与与之间的差异可以评估抽样推断的质量，同时也可以检之间的差异可以评估抽样推断的质量，同时也可以检测即使有虚假数据存在可能是否会影响到整体的估计。测即使有虚假数据存在可能是否会影响到

41、整体的估计。在处理数据过程中，一旦发现虚假数据，通常采用的处理手段在处理数据过程中，一旦发现虚假数据，通常采用的处理手段是：删去或重新调查。删去数据必须小心谨慎，如果确定是虚假数是：删去或重新调查。删去数据必须小心谨慎，如果确定是虚假数据，那么毋庸置疑地剔除。但是在实际情况中有些数据看起来相当据，那么毋庸置疑地剔除。但是在实际情况中有些数据看起来相当“异常异常”，而且在历史资料中似乎也从未发生过，大有，而且在历史资料中似乎也从未发生过，大有“虚假虚假”之嫌，而它也许是真实的。例如某县遭到史无前例的天灾，那么在之嫌，而它也许是真实的。例如某县遭到史无前例的天灾，那么在该年该县的农产量便会呈现极度

42、异常值，像这样的虽异常但真实的该年该县的农产量便会呈现极度异常值，像这样的虽异常但真实的数据是不应该轻易剔除的，因为每一个数据为我们提供了一定的信数据是不应该轻易剔除的，因为每一个数据为我们提供了一定的信息，轻易地丧失信息将严重地威胁到估计的精度。息，轻易地丧失信息将严重地威胁到估计的精度。第二十一页，本课件共有27页4 4 敏感性问题的调查敏感性问题的调查在社会经济调查中经常会出现一些敏感性的或高度私在社会经济调查中经常会出现一些敏感性的或高度私人绝密的问题。例如对于青少年吸毒问题的调查，吸毒是人绝密的问题。例如对于青少年吸毒问题的调查，吸毒是个敏感性问题，几乎没有一个吸毒的青少年会向公安

43、部门个敏感性问题，几乎没有一个吸毒的青少年会向公安部门或政府机构的调查者袒露自己的吸毒行为。又如科技人员或政府机构的调查者袒露自己的吸毒行为。又如科技人员的流向或有关流向意愿，国家人事部门为了掌握有关人才的流向或有关流向意愿，国家人事部门为了掌握有关人才流动信息曾作过抽样调查，但是被调查者未必愿意在正式流动信息曾作过抽样调查，但是被调查者未必愿意在正式流动之前表白自己的意向，否则也许会在原工作单位造成流动之前表白自己的意向，否则也许会在原工作单位造成不必要的麻烦。调研工作者很希望设计一种办法既使被调不必要的麻烦。调研工作者很希望设计一种办法既使被调查者不担心暴露隐私，又使调查者获得正确的资料，

44、这就查者不担心暴露隐私，又使调查者获得正确的资料，这就是本节所要介绍的两种处理敏感问题的方法。是本节所要介绍的两种处理敏感问题的方法。1 1、WarnerWarner装置装置针对有些问题仅有针对有些问题仅有“是是”或或“否否”两种回答而我们的目的是两种回答而我们的目的是获取总体中获取总体中“是是”的比例这样的调查，的比例这样的调查，WarnerWarner设计了一种随机设计了一种随机化装置，基本想法如下：化装置，基本想法如下：第二十二页，本课件共有27页对于对于 n n 个对象中的每一个以概率个对象中的每一个以概率 P P 与与 1-1-P P 就关心的敏感就关心的敏感性问题提出两个截然相

45、反的回答，例如性问题提出两个截然相反的回答，例如“我赞成某事我赞成某事”或或“我我不赞成某事不赞成某事”，任何一个对象面对任何一个回答只需回答，任何一个对象面对任何一个回答只需回答“是是”或或“否否”。Warner Warner装置的巧妙之处在于调查人员无法知道被调查装置的巧妙之处在于调查人员无法知道被调查人员回答了哪个问题，要做到这一点并不困难，只要准备人员回答了哪个问题，要做到这一点并不困难，只要准备几张无差异的折叠纸条，以概率几张无差异的折叠纸条，以概率 P P 与与 1-1-P P 在纸条上写上在纸条上写上述两个问题。被调查者随机地摸出一张纸条打开，但是调查述两个问题。被调查者随机地摸

46、出一张纸条打开，但是调查员不允许查看纸条上书写哪个问题，被调查者针对他所摸到员不允许查看纸条上书写哪个问题，被调查者针对他所摸到的那个问题如实回答，若回答的那个问题如实回答，若回答“是是”，则以红球投进一密闭，则以红球投进一密闭口袋，若回答口袋，若回答“否否”，则投之于白球，整个投球过程也不让调查，则投之于白球，整个投球过程也不让调查员看到，调查员唯有在整个过程结束后打开口袋查点红白球个数。员看到，调查员唯有在整个过程结束后打开口袋查点红白球个数。这种装置使被调查者确信不会泄漏自己的态度从而如实投球。这种装置使被调查者确信不会泄漏自己的态度从而如实投球。第二十三页，本课件共有27页现在假定最

47、后打开口袋发现现在假定最后打开口袋发现 n n 个球中有个球中有 m m 个红球，个红球，可知总体对两个截然相反问题回答可知总体对两个截然相反问题回答“是是”的比例中的一个的比例中的一个估计量为：估计量为：，由概率论知识，有，由概率论知识，有其中其中是总体中是总体中“赞成某事赞成某事”的真正比例，也就是我们所要估的真正比例，也就是我们所要估计的参数。由于计的参数。由于 P P 是调查人员预先自行确定，是调查人员预先自行确定，可以估计可以估计只要只要，可从上式得：，可从上式得：从数学表达式看是一目了然的。其实直观来看，从数学表达式看是一目了然的。其实直观来看，时，意味着两个截然相反的问题完全

48、混淆在一起，时，意味着两个截然相反的问题完全混淆在一起，使我们无法估计真正的参数使我们无法估计真正的参数。(12.5)(12.5)(12.4)(12.4)第二十四页，本课件共有27页容易计算得：容易计算得：(12.6)(12.6)如果对如果对 n n 个被调查人员都提问个被调查人员都提问“您赞成某事吗？您赞成某事吗？”，且设想，且设想这这 n n 个人均如实回答了这个敏感性问题，这样得到个人均如实回答了这个敏感性问题，这样得到的估的估计具有方差计具有方差，恰好为，恰好为(12.6)(12.6)式右端第一项。而第式右端第一项。而第二项恒为正说明用二项恒为正说明用 Warner Warner

49、装置将比理想调查的精度差得多装置将比理想调查的精度差得多，但是对于敏感性问题来说，理想调查是不现实的，而此方，但是对于敏感性问题来说，理想调查是不现实的，而此方法毕竟可以粗略地解决这个难题。法毕竟可以粗略地解决这个难题。第二十五页，本课件共有27页2 2、SimonsSimons问题问题 WarnerWarner装置是使被调查人员确信装置是使被调查人员确信“安全性安全性”从而采取合从而采取合作态度。作态度。SimonsSimons提出如果我们将第二问题改为与第一个敏提出如果我们将第二问题改为与第一个敏感性问题风马牛不相及的问题也许可以进一步改进被调查感性问题风马牛不相及的问题也许可以进一步改

50、进被调查者的合作态度。者的合作态度。第二个问题的要求是：第二个问题的要求是：（1 1）与第一个问题毫不相干；）与第一个问题毫不相干；（2 2）该问题也只有）该问题也只有“是是”与与“否否”两个回答；（两个回答；（3 3）回答）回答“是是”的比例是已知的。例如对青少年吸毒问题的调查，在的比例是已知的。例如对青少年吸毒问题的调查，在SimonsSimons装置中，第一个问题是装置中，第一个问题是“你吸毒吗？你吸毒吗？”，第二个问题，第二个问题是是“你是左撇子吗？你是左撇子吗？”，根据有关资料，我们知道左撇子在，根据有关资料，我们知道左撇子在社会中的大概比例为社会中的大概比例为，现在：，现在：(1

展开阅读全文