《第五章抽样.ppt》由会员分享,可在线阅读,更多相关《第五章抽样.ppt(146页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、现代社会调查方法现代社会调查方法 主讲人:闫军印EMAIL:yjy-第五章 抽样 n抽样是研究设计的主要内容之一,也是社会调查的一个重要步骤,它不仅与研究目的及研究内容紧密相关,而且还直接关系到资料的收集、整理与分析,同时它还涉及到整个研究的费用以及应用的范围。本章主要讲述将如何通过选择一小部分人进行研究,并将结论推及到千百万未被研究的人。n抽样的意义与作用n 概率抽样的原理与程序n 概率抽样方法n 户内抽样与PPS抽样n 非概率抽样n样本规模与抽样误差一、本章内容第一节 抽样的意义与作用n抽样调查(Sampling survey)运用一定的方法在调查对象总体中抽取一部分调查对象作为样本,并对
2、样本调查结果来推断总体的方法一、基本术语1、元素(element)元素是构成总体的最基本单位,是搜集信息的单位和进行分析的基础 2、总体(population)总体是构成它的所有元素的集合 总体通常与构成它的元素(Element)共同定义:总体是构成它的所有元素的集合,而元素则是构成总体的基本单位。(一个总体所包含的元素数常用大写字母 N 表示)(1)研究总体n研究总体是在理论上明确界定的个体的集合体。n它必须受几个方面的限定:内容、单位、范围、时间。(2)调查总体n调查总体是研究者从中实际抽取调查样本的个体的集合体。它往往是对研究总体的进一步界定,即对时间、范围做更进一步规定 n一般地说,样
3、本只能推论调查总体而不是研究总体 n3、样本 样本(sample)就是从总体中按一定方式抽取出的一部分元素的集合 一个样本就是总体的一个子集 4、抽样 所谓抽样(sampling),指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程过程 抽样是从总体中按一定方式选择或抽取样本的过程 n抽样单位(sampling unit)抽样单位就是一次直接的抽样所使用的基本单位 n 指在抽样各阶段中考虑选取的某个元素或者某组元素 n在更复杂的抽样中,需要采用不同层次的抽样单位 n抽样框 抽样框(sampling frame)又称做抽样范围,它指的是一次直接
4、抽样时总体中所有抽样单位的名单 n参数值 参数值(parameter)也称为总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现 在统计中最常见的参数值是某一变量的平均值 参数值只有通过对总体中的每一个元素都进行调查或测量才能得到 n统计值 n统计值(statistic)也称为样本值,它是关于样本中某一变量的综合描述 n是样本中所有元素的某种特征的综合数量表现 n抽样的目的之一,就是要通过这些样本值去估计和推断各种参数值 n抽样设计的目标,就是尽可能使所抽取的样本的估计量接近总体的参数值 n抽样误差 概率抽样方法很少能提供与所要推论的总体参数值完全相等的统计
5、值。n置信水平与置信区间 n 置信水平与置信区间是测量抽样误差程度的两个关键概念。n 我们用置信水平来表示样本统计值的精确度,它是指样本统计值落在参数值某一正负区间内的概率。n 置信区间是某个统计值的扩展,可使我们的置信度提高 二、抽样的作用n在社会研究中,抽样主要解决的是对象的选取问题,即如何从总体中选山一部分对象作为总体的代表的问题 n抽样方法是架在研究者十分有限的人力、财力和时间与庞杂、广阔、纷繁、多变的社会现象之间的一座桥梁 三、抽样的类型第二节 概率抽样的原理与程序一、概率抽样的基本原理 “世上没有两片完全相同的树叶”,现实社会中更没有两个完全相同的人。在各种社会总体都普遍存在异质性
6、的现实面前,严格的概率抽样程序与方法就必不可少。而概率样本所要反映的正是总体本身所具有的那种内在的异质性结构。n同质性与异质性n概率抽样基本前提:异质性n投掷硬币事件发生的客观概率n概率抽样的合理性:随机事件的发展变化规律一个100人组成的总体n44位女性汉族n44位男性汉族n6位女性少数民族n6位男性少数民族一个方便的样本:易得,但没有代表性n抽样的最终目的在于通过对样本的统计值的描述来相对准确地勾画出总体的面貌。概率抽样的方法可以帮助我们实现这一目标。并且可以对这种勾画的准确程度作出估计。n随机抽取(random selection)是这一过程的关键。所谓随机抽取,就是保证总体中的每一个个
7、体都有同等的机会入选样本。或者说,总体中的每一个成员被抽中的概率相等(也即被抽中的机会相等)。而且,任何一个个体的入选与否,与其他个体毫不相关,互不影响。或者说,每一个个体的抽取都是相互独立的,是一种随机事件。最好的例子:投掷硬币n对于投掷硬币的结果(总体)来说,只有正面和反面(个体)两种可能。每次投掷硬币相当于一次抽样过程(从两种可能性中抽取一种);这种抽样是随机的(两种可能性都可能出现,且出现的机会均等)n尽管一次具体的随机抽样(一次投掷)只会有一种结果,或者说出现某一种情况(正面或反面)的概率为100;但是若下次不同的抽样的结果,却总是趋向于两种情况出现的次数各为50即趋向于两种不同结果
8、本身所具有的概率,或者说趋向于总体内在结构中所蕴涵的随机事件的概率。n这个例子告诉我们,在各种随机事件的背后,存在着事件发生的客观概率,正是这种概率决定着随机事件的发展变化规律。n概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好地按总体内在结构中所蕴涵的各种随机事件的概率来构成样本,使样本成为总体的缩影。概率抽样的一个基本原则 如果总体中的每一个体被抽去作为样本的概率相同,那么,从这个总体中抽去的样本就具有对该总体的代表性。概率抽样的优点n概率抽样虽然无法完美地代表总体,但较其他抽样方法更具代表性 n概率理论使我们能够估计样本的精确度和代表性 抽样的独立性要求n任何一个元素的抽
9、取都不影响到其他元素被抽取的概率。q放回抽样q不放回抽样二、抽样分布抽样分布是根据概率的原则而成立的理性分布。显示出:从一个总体中不断抽取样本时,各种可能出现的样本统计值的分布情况。例子:n我们先来看一个总体为10个个案的平均数抽样分布。n假如这10个人参加工作的年限分别为6、7、8、9、10、11、12、13、14、15年。n举例:总体为10个个案的平均数的抽样分布n样本容量为1,10次取样。n样本容量为2,45次取样n样本容量为3,120次取样平均数的范围将逐步缩小(即底部越来越窄);相同的平均数会相应增多;全部平均数的分布向总体平均数集中的趋势也会越来越明显。变化趋势n样本容量为4,21
10、0次取样中心极限定理n在一个含有N个元素且平均数为,标准差为的总体中,抽取所有可能含有n个元素的样本。全部可能的样本数目为m:n若用 ,来分别表示这m个样本的平均数,那么,样本平均数 的分布将是一个随n愈大而愈趋于具有平均数和标准差 的正态分布。当当n n足够大时(通常假定大于足够大时(通常假定大于3030),无论总体的分布),无论总体的分布如何。其样本平均数所构成的分布都趋于正态分布。如何。其样本平均数所构成的分布都趋于正态分布。正态分布图正态分布的特点:1、单峰对称;2、平均数、中位数、众数合一,都在峰点;3、包含了95%(出现概率)的面积n注:平均值往左或往右1.964、包含了90%的面
11、积,即面积和标准差(方差开方)之间有一个固定换算。n其中:Xi 为分布中任何一个值,是平均数;是标准差。nZ是距离平均数的标准差单位,又称Z分数,同时也表示与平均数之间的面积。例某校同学的身高为正态分布,平均值为170cm,标准差为10cm。问:(1)高于平均数1.5个标准差的同学身高是多少?(2)162cm身高的同学距离平均数有几个标准差?(3)95%的同学身高会在什么范围内?解1:解2:解3:(150.4189.6)三、抽样的一般程序n界定研究总体和调查总体n制定抽样框n决定抽样方案n实际抽取样本n评估样本质量抽样的程序n 界定总体:对从中抽取样本的总体范围与界限作明确的界定。n 这一方面
12、是由抽样的目的所决定的。n 另一方面,界定总体也是达到良好的抽样效果的前提条件。案例:1936年文摘杂志总统民意测验n这个民意调查机构预测兰登会获胜,结果富兰克林罗斯福以压倒多数的选票获胜。据说,这些调查的样本是从电话薄里抽取的,而1936年,在家里安装了电话的共和党(兰登所属的党派)成员很可能比民主党成员多。除此之外,文摘杂志使用了邮件调查,无回应率也是预测失败的原因之一,只有少数的人按要求寄回了问卷。这点在邮寄问卷的调查中很典型:那些希望处于劣势的候选人获胜的人,即兰登的支持者,特别希望能表达他们自己的观点(Bryson,1976;Converse,1987)。n这一实例告诉我们,要有效地
13、进行抽样,必须事先了解和掌握总体的结构及各方面的情况,并依据研究的目的明确地界定总体的范围。n样本必须取自明确界定后的总体,样本中所得的结果,也只能推广到这种最初已作出明确界定的总体范围中。制定抽样框:n根据已经明确的总体范围,收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立其供抽样使用的抽样框。n需要注意的是,当抽样是分几个阶段、在几个不同的抽样层次上进行时,则要分别建立起几个不同的抽样框。决定抽样方案:n根据研究的目的要求n依据各种抽样方法的特点n以及其他有关因素。实际抽取样本:n从抽样框中抽取一个个的抽样样本,构成调查样本。n依据抽样方法的不同,以及依据抽样框是否可以事先得到
14、等因素,实际的抽样工作既可能在研究者到达实地之前就完成,也可能需要到达实地后才能完成。即既可能先抽好样本,再下去直接对预先抽好的对象进行调查或研究;也可能一边抽取样本一边就开始调查或研究。评估样本质量:n样本评估:对样本的质量、代表性、偏差等等进行初步的检验和衡量,其目的是防止由于样本的偏差过大而导致调查的失误。n方法:将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比。第三节 概率抽样方法n概率抽样q简单随机抽样q系统抽样q分层抽样q整群抽样q多段抽样非概率抽样q偶遇抽样q判断抽样q定额抽样q雪球抽样n概率抽样是按照概率原理进行的,它要求样本的抽取具有随机性。n随
15、机原则就是使总体中每一个体都有一个已知不为零的被选机会进入样本。n特点:能够避免抽样过程中的人为误差,保证样本的代表性。n概率抽样分为两大类:等概率抽样和不等概率抽样。一、简单随机抽样n又称纯随机抽样,是概率抽样的最基本形式。n常用的方法:A、总体元素较少时,类似于抽签方法。B、总体元素较多时,随机数表法n基本原理:从N中抽取n 练习练习 1 1:我系共有学生300人,系学生会打算采用简单随机抽样的办法,从中抽取60人进行调查。具体方法(总体元素少时):n先编制一个抽样框,把总体各单位编上号码写在纸片上搓成纸团,作成签和阄(给每个学生编号,从001到300,并写在纸片上);n然后,把签和阄放在
16、一个盒子内搅拌均匀;n最后,随机从盒子内抽取签和阄,被抽中的签和阄上的号码所代表的单位就是样本,直到抽满规定的样本为止(从300张纸条里抽取60张,并找相关同学)。n特点:总体单位很多时,写号码的工作量就很大,搅拌均匀也不容易,因而此法经常在总体规模较小的时候使用总体元素多时,采用随机数表利用随机数表进行抽样的具体步骤:n先取得一份总体所有元素的名单(即抽样框)n将总体中所有元素一一按顺序编号 n根据总体规模是几位数来确定从随机数表中选几位数码 n以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍 n根据样本规模的要求选择出足够的数码个数 n依据从随机数表中选出的数码,到抽样框中去找
17、出它所对应的元素 练习n对照附表中的随机数表,练习随机抽样。n要从3000个人(或其他分析单位)的总体中用简单随机抽样的方法选取100个人作为样本进行调查。步 骤n首先,将总体中所有的人编码:本例中编码为1-3000。接下来的问题是从随机数表中随机选取100个数字。这100个数字所对应的人就是样本。n接下来是确定所选择的随机数需要几位数。需要有四位数字才能保证所有人都有被选中的机会。(如果总数为21654的话,需要选择五位数的随机数)。因此,我们要从0001到9999的数字中抽取100个随机数。我们可以随意确定表格中选取数字的顺序:依纵列的方向向下选取,也可以依纵列的方向往上选取,由左到右或者
18、由右到左,也可以依对角线的方式选取。什么方式并不重要,关键是从头到尾贯彻使用这种方法。这里我们为了方便选择从纵列方向,当一列到了末端时,可以从下一列最顶端选起,当一页选完以后,可以从下一页的第一纵列继续选取。随机数表抽样例随机数表中的数码选用的数码不选用的原因310601080585269776026357332135737964575398520177671180505431834529963488685402009959467348080521350200后面四位数大于3000后面四位数大于3000后面四位数大于3000后面四位数大于3000后面四位数大于3000后面四位数大于3000二、
19、系统抽样n又称等距抽样或机械抽样n是把总体的单位进行编号排序后,在计算出来某种间隔,然后按照这一固定的间隔抽取个体的号码来组成样本的方法。练习练习:在某大学总共3000名学生中,抽取一个容量为100的大学生样本。具体步骤n给总体中的每一个个体按顺序编号,即制定出抽样框 n计算出抽样间距。计算方法是用总体的规模除以样本的规模:KN N(总体规模)n n(样本规模)K=K=n在最前面的K个个体中,采用简单随机抽样的方法抽取一个个体,记下这个个体的编号(假设所抽取的这个个体的编号为A),它称做随机的起点 e.g.如果K=10,就从01-10号中抽签决定一个号码作为起点,假定为05n在抽样框中,自A开
20、始,每隔K个个体抽取一个个体,即所抽取个体的编号分别为A,A十K,A十2K,A十(n一1)K n将这n个个体合起来,就构成了该总体的一个样本 001011021031091002012022032092003013023033093004014024034094005015025035095006016026.096007017027097008018028098009019029099010020030100随机起始的分层系统抽样 n值得注意的是,系统抽样的一个十分重要的前提条件,是总体中个体的排列,相对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。否则,系统抽样的结果
21、将会产生极大的偏差。n因此,我们在使用系统抽样方法时,一定要注意抽样框的编制方法。注意:n总体名单中,个体的排列具有某种次序上的先后、等级上的高低的情况 n 例如:我们从2000户家庭的社区,抽取50户进行消费状况的调查,而2000户家庭的名单是按照家庭收入的多少按照由高到低排列的。n 抽样间距=2000/50=40n 如果两个人选择样本,一个人选择初始号码为3,另一个人选择初始号码为38,那么肯定前者家庭平均收入远远高于后者。n 解决措施:重新编排总体名单;改用其他抽样方法。n总体名单中,个体的排列上有与抽样间隔相对应的周期性分布的情况 n 例如:某大学总共3000名学生,抽取100人,抽样
22、间隔为30。但是如果总体名单按教学班排列、每班刚好30人左右,而且各班的名单按照成绩高低排列,如果样本的初始号为2号,那么样本全是好学生;如果样本初始号为25 号,样本全部为差学生。三、分层抽样 (stratified sampling)n又称做类型抽样n是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分为若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。分类分类随机随机抽样抽样总体子群样本分层抽样示意图例:800家私营企业,抽取100家。n(譬如:我们调查的主题是看各种不同类型企业为国家创税情
23、况)n步骤:(1)800家企业按产业分为3个类型,第一产业80个,第二产业320个,第三产业400个。(2)第一产业10%,100*10%应该抽取10个 第二产业40%,100*40%应该抽取40个 第三产业50%,100*50%应该抽取50个(3)按照简单随机抽样或等距随机抽样抽取样本。优点n当一个总体其内部分层明显时,分层抽样能够克服简单随机抽样的缺点。n 采用分层抽样的最基本目的,正是在于把异质性较强的总体分成一个个同质性较强的子总体,以便提高抽样的效率,达到更好的抽样效果。n分层抽样可以提高总体参数估计值的精确度 n有些研究不仅要了解总体的情形,而且还要了解某些类别的情形,分层抽样可以
24、同时满足这两个要求,因为我们可以将每一类(层)看作一个总体。此外,对总体的不同部分还可以采用不同的抽样方法。注意事项:n分层的标准问题(分层原则):n以调查所要分析和研究的主要变量或相关的变量作为分层的标准。n以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。n以那些已有明显层次区分的变量作为分层变量。分层的比例问题:n按比例分层:指的是按照各种类型或层次中的单位数目同总体单位数目间的比例来抽取子样本的方法。n不按比例分层:便于对不同层次的子总体进行专门研究或进行相互比较,但若要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理。四、整群抽样n整群抽样:又称
25、为聚类随机抽样或者集体随机抽样),它是从总体中随机抽取一些小的群体,然后由所抽出的若干小群体(家庭、学校中的班级、工厂的车间、城市中的居委会)内的所有元素构成抽样调查的样本。n最大特点是:抽样单位不是单个的个体,而是成群的个体。n从总体中随机抽取一些小的群体,所抽取的若干小群体内的所有元素构成调查的样本。n整群抽样中对小群体的抽取可采用简单随机抽样、系统抽样或分层抽样的方法。具体步骤A、先将总体各单位按一定的标准分成许多群体,并将每一个群体看做一个抽样单位。B、利用简单随机抽样、系统随机抽样或分层抽样从这些群体中抽取若干作为样本。C、对样本群体中每一个单位逐个进行调查。例如:某中学共有100个
26、班级,每班都是30名学生,总共有3000名学生,现在要抽300名学生作为样本进行体检。整群抽样示意图划分划分子群子群随机随机抽样抽样优点:n简便易行n节省费用缺点:n样本分布面不广n样本对总体的代表性相对较差几种抽样方法的比较n假设我们的总体是全国所有城市的集合,我们要抽取一个规模为40个城市的样本。n请分别用简单随机抽样、系统抽样、分层抽样和整群抽样方法进行抽样,并比较彼此之间的异同。整群抽样与分层抽样的区别n当某个总体是由若干个有着自然界限和区分的子群(或类别、层次)所组成,同时,不同子群相互之间差别很大、而每个子群内部的差异不大时,则适合于分层抽样的方法n反之,当不同子群相互之间差别不大
27、、而每个子群内部的异质性程度比较大时,则特别适合于采用整群抽样的方法五、多段抽样n又称为多级抽样或分段抽样n是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行n e.g.大学院系班级学生具体操作n从总体中随机抽取若干大群,从大群中抽取小群,一层层抽,抽到最基本的抽样元素为止。多级整群抽样例 1:调查某市青年工人的状况n以企业为单位抽样,即以全市所有企业为抽样框,从中随机抽取一部分企业 n在抽中的企业里,以车间为抽样单位抽样,即从全部车间中抽取若干个车间 n再在抽中的车间内抽取青年工人 注 意:n在运用多段抽样方法时,需要注意的是要在类别和个体之间保持平衡,或者,保持合适的比例。例 2
28、:n假设某市共有2.4万名教师,他们分布在全市10个区的200所学校中。现在要抽取一个由1200名教师组成的样本。抽样方案选择第一阶段第二阶段第三阶段方案1:方案2:方案3:方案4:方案5:方案6:方案7:方案8:方案9:抽抽1010个区个区抽抽2 2个区个区抽抽1010个区个区抽抽8 8个区个区抽抽5 5个区个区抽抽4 4个区个区抽抽3 3个区个区抽抽2 2个区个区抽抽1 1个区个区每个区抽每个区抽4 4所学校所学校每个区抽每个区抽2020所学校所学校每个区抽每个区抽2020所学校所学校每个区抽每个区抽1515所学校所学校每个区抽每个区抽1212所学校所学校每个区抽每个区抽1010所学校所学
29、校每个区抽每个区抽1010所学校所学校每个区抽每个区抽1010所学校所学校每个区抽每个区抽2020所学校所学校每个学校抽每个学校抽3030名教师名教师每个学校抽每个学校抽3030名教师名教师每个学校抽每个学校抽6 6名教师名教师每个学校抽每个学校抽1010名教师名教师每个学校抽每个学校抽2020名教师名教师每个学校抽每个学校抽3030名教师名教师每个学校抽每个学校抽4040名教师名教师每个学校抽每个学校抽6060名教师名教师每个学校抽每个学校抽5050名教师名教师究竟该选择哪一种抽样方案呢?或者说,如何确定每一阶段抽样的单位数目呢?主要考虑的因素n各个抽样阶段中的子总体同质性程度 n要考虑研究
30、者所拥有的人力和经费 n多段抽样的方法适用于总体范围特别大、对象的层次特别多的社会研究。n由于它不需要总体的全部名单,各阶段的抽样单位数一般较少,因而抽样比较容易进行。但由于每级抽样时都会产生误差,故这种抽样方法的误差较大,这是它的主要不足。n在同等条件下减少多段抽样误差的方法是:相对增加开头阶段的样本数而适当减少最后阶段的样本数。n所以,当研究者的人力和经费允许时,应尽量扩大开头阶段的抽样规模。练习n某县20个乡镇,每个乡镇有10个行政村,每个行政村有10个自然村,每个自然村有50户。这样,全县就共有200个行政村,2000个自然村,10万户。现在决定采用多段抽样方法对该县计划生育状况按5/
31、1000的比例进行抽样调查,共抽取500户,如何抽?步 骤n首先,确定抽样单位。n根据该县社会组织的4个层次,即乡镇、行政村、自然村和户,采取4段抽样抽取样本。乡镇为1级单位,行政村为2级单位,自然村为3级单位,户为4级单位。(4级单位也可以是企业、车间、班组、工人;学校、年级、班组、学生。)采用不同的方法,分4段逐步抽取样本 一段抽样,从县抽到乡镇。适宜用分层抽样一段抽样,从县抽到乡镇。适宜用分层抽样(由于该县乡镇之间经济发展状况差异较大)。(由于该县乡镇之间经济发展状况差异较大)。n具体做法 首先,编制抽样框。假定以经济发展状况为标准,将该县的20个乡镇分为经济发展状况较好的、一般的和较差
32、的3类,分别为4个、12 个、4个。其次,确定样本的数量。假定在一级单位中抽取25%的单位即5个乡镇作为样本。再次,按照随机抽样和上述比例,在经济状况较好的4个乡镇中抽取1个乡镇,一般的几个乡镇中抽3个乡镇,较差的4个乡镇中抽1个乡镇作为样本。二段抽样,从乡镇抽到行政村,采用系统抽样。二段抽样,从乡镇抽到行政村,采用系统抽样。具体做法:首先,编制抽样框。就是把第1级样本中的5个乡镇的50个行政村(2级单位),按一定的标准(如按空间分布)确定他们的编号1-50。其次,计算抽样间隔。假定从第2级单位中抽取20%的单位即10个行政村作为第2级样本,其间隔就是50/10=5。再次,抽取第一个样本,我们
33、随机抽取第3个行政村作为样本。这样我们就抽到了第3、8、13、18、23、28、33、38、43、48这些行政村作为样本。三段抽样,从行政村抽到自然村,为了便于集中三段抽样,从行政村抽到自然村,为了便于集中调查,节约人财物力和时间,我们采用整群抽样。调查,节约人财物力和时间,我们采用整群抽样。具体做法:首先,划分群体,将2级样本10个行政村所属的100个自然村,按照地理位置把每两个相近的自然村划分为一个群体,共50个群体。其次,抽取第3级样本,即按照随机抽样的原则从50个群体中抽出10个群体作为第3级样本。四段抽样,从自然村到户。(为了简便,选用简四段抽样,从自然村到户。(为了简便,选用简单随
34、机抽样)单随机抽样)4 户内抽样与PPS抽样n一、户内抽样 以家庭为单位时,从入选家庭中抽取一个成年人构成访谈对象的抽样方法。n(一)方法:科什选择法(kish)具体做法:1、调查表编号。表编号AB1B2CDE1E2F表数量(N)1/61/121/121/61/61/121/121/62、印制选择卡,给每个调查员发一套(八张)Kish 选择表A 式选择表如果家庭户中18岁以上人口数为被抽选人的序号为11213141516或或以上以上1B1 式选择表如果家庭户中18岁以上人口数为被抽选人的序号为11213141526或或以上以上2B2 式选择表如果家庭户中18岁以上人口数为被抽选人的序号为112
35、13142526或或以上以上2C 式选择表如果家庭户中18岁以上人口数为被抽选人的序号为11213242536或或以上以上3D 式选择表如果家庭户中18岁以上人口数为被抽选人的序号为11223243546或或以上以上4E1 式选择表如果家庭户中18岁以上人口数为被抽选人的序号为11223343536或或以上以上5E2 式选择表如果家庭户中18岁以上人口数为被抽选人的序号为11223244556或或以上以上5F 式选择表如果家庭户中18岁以上人口数为被抽选人的序号为11223344556或或以上以上63、给抽中家庭每个成年人进行编号并排序。方法是男性在前、年级大的在前。序号年龄和性别特征1最年长
36、的男性2次年长的男性n最年幼的男性n+1最年长的女性n+2次年长的女性n+m最年幼的女性序号成员特征1爸爸50岁2儿子23岁3奶奶70岁4妈妈48岁5女儿27岁4、根据调查表上的编号找出编号相同的那种“选择表”查出中选个体的序号,进行调查。序号成员特征1爸爸50岁2儿子23岁3奶奶70岁4妈妈48岁5女儿27岁F 式选择表如果家庭户中18岁以上人口数为被抽选人的序号为11223344556或以上6优 点它不仅可以使研究者收集到样本家庭的资料,同时也可以收集到由这些被访者所构成的个人样本的资料,这种资料可以用来描述这一地区所有成年人所构成的总体。因为由按这种方法抽出来的人所组成的样本,在年龄、性
37、别、文化程度等方面的分布与总体的分布往往十分接近。生日法n随机确定一年中的某一天为标准日期 n与Kish方法相似,需要了解所抽中的户中18岁以上的人口数,以及每人的生日是几号 n计算出每人的生日距离标准日期的天数 n从中选出生日距离标准日期最近的人作为调查对象 二、PPS抽样n多段抽样中,其实暗含了一个假定:即每一个阶段抽样时,其元素的规模是相同的。n比如第一阶段抽取街道时,暗含了每个街道规模相同。第二阶段从街道抽取居委会时,也是暗含了每个居委会的规模相同。n n在这样的假定下,采取上述几种随机抽样的,最终每户居民被抽中的概率相等。但现在的问题是,现实生活中不仅每一个街道包含的居委户数不同,而
38、且每一个居委会中所包含的居民户数也不同。因而按照上述多段抽样的方法来抽取样本时,最终每户居民被抽中的概率实际上是不同的。举 例n例1:假设一个城市有100000户居民,分属200个居委会,从中抽取1000名居民。n例2:从全市100家企业、总共20万名职工中,抽取1000名职工进行调查。PPS 抽样n不等概率抽样n概率与元素的规模大小成比例的抽样(Sampling with Probability Proportional to size)原 理 以阶段性的(或暂时的)不等概率换取最终的、总体的等概率。具体做法n在第一阶段,每个群按照其规模(其所含元素的数量)被给予大小不等的抽取概率。大的群具
39、有比小的群更大一些的概念。n到了抽样的第二阶段,从每个抽中的群中都抽取同样多的元素(也是不等概率的)。正是通过这样两个阶段上的不等概率抽样,使得总体中的每一个元素最终都具有同样的被抽中的概率。实 质n第一个阶段中,大的群被抽中的概率大,而小的群被抽中的概率小;这样到了第二阶段,被抽中的大的群中的元素被抽中的概率显然就小于被抽中的上群中的元素了。n正是这一大一小,平衡了由于群的规模带来的概率差异。公 式每一个元素每一个元素被抽中的概率被抽中的概率所抽取的群数总体的规模群的规模群的规模平均每个群中所要抽取的元素 PPS 抽样方法的多阶段情形(例1)每一户居民被抽中的概率所抽取的街道数总体的规模街道
40、的规模街道的规模居委会的规模 每个居委会中所要抽取的户数居委会的规模例 2:第五节 非概率抽样方法非概率抽样探索性研究偶遇抽样判断抽样定额抽样雪球抽样一、偶遇抽样n又称作方便抽样或自然抽样n是研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象n区别随机抽样二、判断抽样n又叫立意抽样(purposive sampling)n调查者根据研究的目标和自己主观的分析来选择和确定调查对象的方法n难点:确定抽样标准n优点:发挥研究者主观能动性n缺点:无法判断样本代表性三、定额抽样n又称作配额抽样n研究者尽可能地依据那些有可能影响研究变量
41、的各种因素来对总体分层,并找出具有各种不同特征的成员在总体中所占的比例n然后依据依据这种划分以及各类成员的比例选择调查对象 如果把各种因素或各种特征看作不同的变数的话,那么,定额抽样实际上就是依据这些变数的组合。例:假设某高校有4000名学生,其中男生占60,女生占40;文科学生和理科学生各占50;一年级学生占40、二年级、三年级、四年级学生分别占30、20和10。现在要用定额抽样方法依上述三个变数抽取一个规模为100人的样本。依据总体的构成和样本规模,我们得到的定额表男生(60人)女生(40人)文科(30人)理科(30人)文科(20人)理科(30人)年级一 二 三 四一 二 三 四一 二 三
42、 四一 二 三 四人数12 9 6 312 9 6 38 6 4 28 6 4 2n当研究的主要目标不是去推断总体状况,而主要是为了检验理论、解释关系或比较不同性质的群体时,通常不需要进行严格的随机抽样,不需要得到对总体有代表性、有概括性的样本。n此时的抽样标准不是代表性,而是合适性抽样适合研究的目标,适合检验理论和假设的需要,适合比较的需要。英克尔斯在研究“人的现代性”时的配额抽样设计定额抽样与分层抽样的区别n定额抽样之所以分层分类,其目的在于要抽选出一个总体的“模拟物”,其方法则是通过主观的分析来确定和选择组成这种模拟物的成员。也就是说,定额抽样注重的是样本与总体在结构比例上的表面一致性。
43、n分层抽样进行分层,一方面是要提高各层间的异质性与同层中的同质性,另一方面也是为了照顾到某些比例小的层次,使得所抽样本的代表性进一步提高,误差进一步减小。而其抽样的方法则是完全依据概率原则,排除主观因素,客观地、等概率地到各层中进行抽样,这与定额抽样中那种“按事先规定的条件,有目的地寻找”的做法是完全不同的。四、雪球抽样n当我们无法了解总体情况时,可以从总体中少数成员入手,对他们进行调查,向他们询问还知道哪些符合条件的人;再去找那些人并再询问他们知道的人。n如同滚雪球一样,我们可以找到越来越多具有相同性质的群体成员。第六节样本规模与抽样误差n一、样本规模n样本规模又称为样本容量,它指的是样本中
44、所含个案的多少n确定样本规模也是每一项具体的社会研究所必须解决的问题之一n统计学中通常以30为界,把样本分为大样本(30个个案及以上)和小样本(30个个案以下)n当样本规模大于30时,其平均值的分布将接近于正态分布样本规模确定(一)均值样本容量公式n t*t 为某一信度所对应的临界 N=-为总体标准差 e e 为误差范围(允许误差)(二)成数的样本规模计算公式 t2(1-)t 为某一信度所对应的临界 N=-为总体的成数或百分比 e e 为误差范围(允许误差)95%置信水平下不同抽样误差所要求的样本规模容许的抽样误差e()样本规模n容许的抽样误差e()样本规模n1.01.52.02.53.03.
45、54.04.55.01000045002500160011008166254944005.56.06.57.07.58.08.59.09.510.0330277237204178156138123110100计算公式:n=t/4 e二、影响样本规模确定的因素n总体的规模 n估计的精确性要求 n总体的异质性程度 n研究者所拥有的经费、人力和时间 1、总体的规模2、抽样的精确性n置信度又称为置信水平,它指的是总体参数值落在样本统计值某一区间的概率,或者说,总体参数值落在样本统计值某一区间中的把握性程度。它反映的是抽样的可靠性程度n一般来说,在其他条件一定的情况下,置信度越高,即推论的把握性越大,则
46、所要求的样本规模就越大n置信区间是指在一定的置信度下,样本值与总体值之间的误差范围。它所反映的是抽样的精确性程度。范围越大,精确性程度越低;范围越小,精确性程度越高n在其他条件一定的情况下,置信区间越小,即样本值与总体值之间的误差范围越小,则所要求的样本规模就越大3、总体的异质性程度一般来说,要达到同样的精确性,在同质程度高的总体中抽样时,所需要的样本规模就小一些;而在异质程度高的总体中抽样时,所需要的样本规模就大一些。原 因n同质性越高,表明总体在各种变量上的分布越集中,波动性越小,同样规模的样本对总体的反映就越难确。n异质性程度越高,表明总体在各种变量上的分布越分散,波动性越大,同样规模的
47、样本对总体的反映就会越差。4、研究者所拥有的经费、人力和时间n从样本的代表性、抽样的精确性考虑,则样本规模当然是越大越好;但抽样所得到的样本是要用来进行调查的。n样本规模越大,同时也意味着所需要投入的人力、物力和时间越多;意味着所可能受到的限制和障碍也越多。n从抽样的可行性、简便性考虑,样本规模又是越小越好;究竟选择多大规模的样本,往往需要作出选择。n这种选择的一个重要祛码,就是研究者所拥有的经费、人力利时间。三、样本规模与抽样误差n抽样误差就是用样本值去估计总体值时所出现的误差。它是由于抽样本身的随机性所引起的误差。n抽样误差主要取决于总体的分布方差和抽样规模,这两个因素都可以导致抽样误差的
48、增加或降低。n样本规模:100-300为小型调查;300-1000为中型调查;100-3000为大型调查。注 意n对于比较小的样本来说,样本规模上的很小的一点增加,便会带来精确性方面很明显的增加 n而对于比较大的样本来说,同样增加这么多个个案,却收效甚微 思考与实践思考与实践n什么是抽样中的随机性?为什么概率抽样的方法能够保证样本对总体的代表性?n分层抽样与整群抽样的具体操作方法是怎样的?二者之间有何异同?n 什么情况下应选用分层抽样?什么情况下则应选用整群抽样?n如果条件允许,多段抽样中应尽可能扩大哪一级样本的规模?为什么?n在实际社会调查中,有哪些因素影响到研究者对样本规模的确定?n某市有300所小学,共240000名学生。这些小学分布在全市5个行政区中。其中重点小学有30所,一般小学有240所,较差的小学有30所。现要从全市小学生中抽取1200名学生进行调查,以了解全市小学生的学习情况。请设计一种抽样方案。n从社会科学期刊中选择三篇研究报告,分析并评价这些研究中所采用的抽样方法。