《第四章、抽样.pptx》由会员分享,可在线阅读,更多相关《第四章、抽样.pptx(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章第四章 抽样抽样 总体总体 抽取样本推断总体样本 第四章第四章 抽样抽样 1. 1.抽样的意义与作用抽样的意义与作用 2. 2.概率抽样的原理与程序概率抽样的原理与程序 3. 3.概率抽样方法概率抽样方法 4. 4.非概率抽样方法非概率抽样方法 5. 5.样本规模与抽样误差样本规模与抽样误差一、抽样的意义与作用一、抽样的意义与作用1.抽样的意义与作用抽样的意义与作用 人们在研究某个自然现象或社会现象时,人们在研究某个自然现象或社会现象时,往往会遇到不方便、不可能或不必要对所有的往往会遇到不方便、不可能或不必要对所有的对象作调查的情况,于是从中抽取一部分对象对象作调查的情况,于是从中抽取一
2、部分对象作调查,这就是作调查,这就是抽样抽样复杂的社会现象复杂的社会现象 有限的研究资源有限的研究资源 抽样主要涉及和处理有关总体与部分之间的关抽样主要涉及和处理有关总体与部分之间的关系问题。抽样作为人们从部分认识整体这一过系问题。抽样作为人们从部分认识整体这一过程的关键环节,其基本作用是向人们提供一种程的关键环节,其基本作用是向人们提供一种实现实现“由部分认识总体由部分认识总体”这一目标的途径和手这一目标的途径和手段。段。抽样抽样一、抽样的意义与作用一、抽样的意义与作用 1.1.抽样的作用抽样的作用 n抽样是社会研究的主要内容之一,也是社会调抽样是社会研究的主要内容之一,也是社会调查的一个重
3、要步骤。查的一个重要步骤。n它与研究目的及研究内容紧密相关。它与研究目的及研究内容紧密相关。n它直接关系到资料的收集、整理与分析。它直接关系到资料的收集、整理与分析。n它还涉及到整个研究的费用以及应用的范围。它还涉及到整个研究的费用以及应用的范围。n抽样是否科学,直接关系到研究的成败抽样是否科学,直接关系到研究的成败侯选人侯选人Literary Digest预测预测%选举结果选举结果%罗斯福罗斯福4362兰顿兰顿5738 一个著名的案例抽样中的泰坦尼克事件n1936年美国正从经济大恐慌中复苏,全国仍有9百万人失业当年的美国总统大选,由民主党员罗斯福与共和党员兰登进行角逐文学文摘(Literar
4、y Digest)杂志对结果进行了调查预测他们根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮寄1千万份问卷调查表,回收约240万份工作人员获得了大量的样本,对此进行了精确的计算,根据数据的整理分析结果,他们断言:在总统选举中,兰登将以370 161的优势,即以57%比43%,领先14个百分点击败罗斯福与之相反,一个名叫乔治盖洛普的人,对文学文摘调查结果的可信度提出质疑他也组织了抽样调查,进行民意测验他的预测与文学文摘截然相反,认为罗斯福必胜无疑结果,罗斯福以62%比38%压倒性地大胜兰登这一结果使文学文摘销声匿迹,而盖洛普则名声大噪年代年代候选人候选人盖洛普民意测验结果(盖洛普民意测验结果
5、(%)总统选举真实结果(总统选举真实结果(%)盖洛普误差(盖洛普误差(%)2000布什布什48.047.9+0.11996克林顿克林顿52.049.2+2.81992克林顿克林顿49.043.3+5.71988老布什老布什56.053.9+2.11984里根里根59.059.2-0.21980里根里根47.050.8-3.81976卡特卡特48.050.1-2.11972尼克松尼克松62.061.8+0.21968尼克松尼克松43.043.5-0.51964约翰逊约翰逊64.061.3+2.71960肯尼迪肯尼迪51.050.1+0.91956艾森豪威尔艾森豪威尔59.557.8+1.7195
6、2艾森豪威尔艾森豪威尔51.055.4-4.41948杜鲁门杜鲁门44.549.5-5.01944罗斯福罗斯福51.553.8-2.31940罗斯福罗斯福52.055.0-3.01936罗斯福罗斯福55.762.5-6.8从美国总统大选预测看抽样的效率:从美国总统大选预测看抽样的效率: 一、抽样的意义与作用一、抽样的意义与作用 n在我们的日常生活中经常存在着抽样。如抽血化验,尝试水温,窥一斑而知全豹。n抽样抽样n抽样调查,就是从研究总体中抽取一部分代表加以调查抽样调查,就是从研究总体中抽取一部分代表加以调查研究,然后用所得结果推论和说明总体的特性。研究,然后用所得结果推论和说明总体的特性。 一
7、、抽样的意义与作用一、抽样的意义与作用 n抽样框(抽样框(sampling frame) 抽样范围,指一次直接抽抽样范围,指一次直接抽样时总体中所有抽样单位的名单样时总体中所有抽样单位的名单 n参数值(参数值(parameter) 是对总体中某一变量的综合描是对总体中某一变量的综合描述述,或总体中所有元素某些特征的综合数量表现。最常,或总体中所有元素某些特征的综合数量表现。最常见的参数值是总体某一变量的平均值。见的参数值是总体某一变量的平均值。 n统计值(统计值(statistic)是对样本中某一变量的综合描述是对样本中某一变量的综合描述,或样本中所有元素某些特征的综合数量表现。或样本中所有元
8、素某些特征的综合数量表现。根据样本根据样本计算出来的关于样本变量的数量表现计算出来的关于样本变量的数量表现 n置信度(置信度(confidence level) 总体参数值落在样本统计总体参数值落在样本统计值某一区间内的概率,或者说,是总体参数值落在样本值某一区间内的概率,或者说,是总体参数值落在样本统计值某一区间内的把握性程度统计值某一区间内的把握性程度n置信区间(置信区间(confidence intevalue) 上述上述“某一区某一区间间”,就是置信区间,就是置信区间总体分布(总体分布(population distribution) 总体分布总体分布: 总体中各元素的观察值所形成的相
9、对频数(频率)分布 分布通常是未知的分布通常是未知的(因为几乎得不到总体所有观察值因为几乎得不到总体所有观察值)可以(根据理论分析)假定它服从某种分布可以(根据理论分析)假定它服从某种分布 (sample distribution)n样本分布样本分布也称经验分布,指一个样本中各观察也称经验分布,指一个样本中各观察值的形成的相对频数(频率)分布。当样本容值的形成的相对频数(频率)分布。当样本容量量n逐渐增大时,样本分布逐渐接近总体的分逐渐增大时,样本分布逐渐接近总体的分布。布。抽样分布抽样分布(sampling distribution)n抽样分布抽样分布:样本统计量的概率分布,样本统计量的概率
10、分布,是是一种理论分布。在重复选取容量为一种理论分布。在重复选取容量为n n的样的样本时,由该统计量的所有可能取值形成本时,由该统计量的所有可能取值形成的相对频数分布的相对频数分布 n样本统计量样本统计量是样本的函数,依据不同的样本计算出来的值是不同的,所以统计量是随机变量样本均值, 样本比例,样本方差等样本均值的抽样分布样本均值的抽样分布n在重复选取容量为在重复选取容量为n的样本时,由的样本时,由样本样本均值的所有可能取值均值的所有可能取值形成的形成的总体分布、样本均值的抽样分布总体分布、样本均值的抽样分布(例题分析例题分析)5 . 21NxNii25. 1)(122NxNii现从总体中抽取
11、现从总体中抽取n2的简单随机样本,在重复抽样条件下的简单随机样本,在重复抽样条件下,共有,共有42=16个样本。所有样本的结果为个样本。所有样本的结果为3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值个样本的均值( )nxx样本均值的分布与总体分布的比较样本均值的分布与总体分布的比较 (例题分析例题分析)5 . 2x625. 02xx样本均值的抽样分布与中心极限定理样本均值的抽样分布与中心极限定理x5x50 x5 . 2x 当总体服从正态分布当总体服从正态分布N(,2
12、)时,来自该总体的所时,来自该总体的所有容量为有容量为n的样本的均值的样本的均值 x也服从正态分布,也服从正态分布, x 的数的数学期望为学期望为,方差为,方差为2/n。即。即 xN(,2/n)当样本容量足够当样本容量足够大时大时(n 30) ,样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布nx设从均值为设从均值为 ,方差为,方差为 2的一个的一个任意总体任意总体中中抽取容量为抽取容量为n的样本,当的样本,当n充分大时,样本均值的抽样分布近似充分大时,样本均值的抽样分布近似服从均值为服从均值为、方差为、方差为2/n的正态分布的正态分布x抽样分布与总体分布的关系抽样分布与总
13、体分布的关系正态分布正态分布非正态分布非正态分布正态分布正态分布正态分布正态分布非正态分布非正态分布1.样本均值的数学期望样本均值的数学期望2.样本均值的方差(方差的概率意义在于刻画了随样本均值的方差(方差的概率意义在于刻画了随机变量取值的分散程度。方差越小,随随机变量机变量取值的分散程度。方差越小,随随机变量的取值越集中在期望值附件。)的取值越集中在期望值附件。) 重复抽样重复抽样)(xEnx22n界定总体界定总体:对从中抽取样本的总体范围与界限作明确的对从中抽取样本的总体范围与界限作明确的界定界定 n制定抽样框制定抽样框:依据已经明确界定的总体范围,收集总体依据已经明确界定的总体范围,收集
14、总体中全部抽样单位的名单,并通过对名单进行统一编号来中全部抽样单位的名单,并通过对名单进行统一编号来建立起供抽样使用的抽样框建立起供抽样使用的抽样框 n决定抽样方案决定抽样方案:选择抽样方法,确定样本规模选择抽样方法,确定样本规模 n实际抽取样本实际抽取样本:n评估样本质量评估样本质量:抽样的类型抽样的类型 偶遇抽样偶遇抽样判断抽样判断抽样定额抽样定额抽样雪球抽样雪球抽样简单随机抽简单随机抽系统多层抽样系统多层抽样分层抽样分层抽样整群抽样整群抽样多段抽样多段抽样概率抽样概率抽样非概率抽样非概率抽样抽样类型抽样类型 概率抽样的最基本形式概率抽样的最基本形式 方法:方法: 1. 1.总体较少:搅拌
15、抽签;总体较少:搅拌抽签; 2. 2.总体较多:用随机数表总体较多:用随机数表 见见P269.P269.表表4-24-21.简单随机抽样简单随机抽样n概念:一般地,设一个总体的个体数为概念:一般地,设一个总体的个体数为N,如果通过逐,如果通过逐个个不放回不放回地抽取的方法从中抽取地抽取的方法从中抽取n (nN) 个样本,且每个样本,且每次抽取时各个个体被抽到的次抽取时各个个体被抽到的概率相等概率相等,就称这样的抽样,就称这样的抽样为为简单随机抽样简单随机抽样。n要点:它要求被抽取样本的总体的个体数有限要点:它要求被抽取样本的总体的个体数有限它是从总体中逐个进行抽取它是从总体中逐个进行抽取它是一
16、种不放回抽样它是一种不放回抽样它是一种等概率抽样它是一种等概率抽样用从个体数为用从个体数为N的总体中抽取一个容量为的总体中抽取一个容量为n的的样本,那么每个个体被抽取的概率等于样本,那么每个个体被抽取的概率等于 Nn1.简单随机抽样简单随机抽样n抽签法抽签法(抓阄法抓阄法)将总体中的所有个体(共将总体中的所有个体(共N个)编号(号码可以从个)编号(号码可以从1到到N),并把号码写在形状、大小相同的号签上),并把号码写在形状、大小相同的号签上( 号签可以用小球、卡片、纸条等制作),然后号签可以用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌。抽将这些号签放在同一个箱子里,
17、进行均匀搅拌。抽签时,每次从中抽出签时,每次从中抽出1 个号签,连续抽取个号签,连续抽取n次,就次,就得到一个容量为得到一个容量为n的样本。对个体编号时,也可以的样本。对个体编号时,也可以利用已有的编号。例如学生的学号,座位号等。利用已有的编号。例如学生的学号,座位号等。练习练习n1.高二高二(21)班有班有53名同学,现要从中抽取名同学,现要从中抽取8名去参加一个名去参加一个座谈会,请写出用抽签法抽选的过程。座谈会,请写出用抽签法抽选的过程。n2.假设一个总体有假设一个总体有5个元素,分别记为个元素,分别记为a、b、c、d、e,采用抽签法抽取一个容量为采用抽签法抽取一个容量为2的样本,样本共
18、有多少个的样本,样本共有多少个?n为了考察某公司生产的为了考察某公司生产的250克袋装牛奶的质量是否达标,克袋装牛奶的质量是否达标,现从现从800袋牛奶中抽取袋牛奶中抽取60件产品进行检查件产品进行检查.当总体的个数较多时,将总体“搅拌均匀”比较困难,抽签法产生的样本代表性差的可能性很大。1.简单随机抽样简单随机抽样n随机数表法随机数表法随机数表是统计工作者用计算机生成的随机数,保证随机数表是统计工作者用计算机生成的随机数,保证表中的每个位置上的数字是等可能出现的表中的每个位置上的数字是等可能出现的用随机数表进行抽样的步骤:将总体中个体编号;选用随机数表进行抽样的步骤:将总体中个体编号;选定开
19、始的数字;获取样本号码定开始的数字;获取样本号码用随机数表抽取样本,可以任选一个数作为开始,读用随机数表抽取样本,可以任选一个数作为开始,读数的方向可以向左,也可以向右、向上、向下等等。数的方向可以向左,也可以向右、向上、向下等等。因此并不是唯一的因此并不是唯一的由于随机数表是等概率的,因此利用随机数表抽取样由于随机数表是等概率的,因此利用随机数表抽取样本保证了被抽取个体的概率是相等的本保证了被抽取个体的概率是相等的练习练习n例:为了考察某公司生产底例:为了考察某公司生产底250克袋装牛奶的质量是否达标克袋装牛奶的质量是否达标,现从现从800袋牛奶中抽取袋牛奶中抽取60件产品进行检查件产品进行
20、检查.nS1,将,将800袋牛奶编号,可以编为袋牛奶编号,可以编为000,001,799;nS2,在随机数表中任意选一个数,例如第,在随机数表中任意选一个数,例如第8行第行第7列的数列的数7;nS3,从选定的数,从选定的数7开始向右读,得到一个三位数,如果开始向右读,得到一个三位数,如果这个三位数在这个三位数在000799范围内,则取出,否则去掉;继范围内,则取出,否则去掉;继续向右读,得下一个三位数;依次下去,直到样本的续向右读,得下一个三位数;依次下去,直到样本的60个号码全部取出个号码全部取出.n将总体中的个体编号时从将总体中的个体编号时从000开始,用意何在开始,用意何在?n当随机地选
21、定开始读数的数后,读数的方向只能向右吗当随机地选定开始读数的数后,读数的方向只能向右吗?练习练习n将全班同学按学号编号,制作相应的卡片号签,放入同将全班同学按学号编号,制作相应的卡片号签,放入同一个箱子里均匀搅拌,从中抽出一个箱子里均匀搅拌,从中抽出15个号签,就相应的个号签,就相应的15名学生对看足球比赛的喜爱程度名学生对看足球比赛的喜爱程度(很喜爱、喜爱、一般、很喜爱、喜爱、一般、不喜爱、很不喜爱)进行调查。不喜爱、很不喜爱)进行调查。上述问题中抽取样本的方法用上述问题中抽取样本的方法用随机数表法随机数表法来进行!来进行!n规则规则1:从:从269页表中第页表中第3行第行第11列的两位数开
22、始,依次列的两位数开始,依次向下读数,到头后再转向它左面的两位数号码,并向上向下读数,到头后再转向它左面的两位数号码,并向上读数,以此下去,直到取足样本。读数,以此下去,直到取足样本。n规则规则2:从:从269页表中第页表中第12行第行第10列的两位数开始,依列的两位数开始,依次向左读数,到头后再转向它下面的两位数号码,并向次向左读数,到头后再转向它下面的两位数号码,并向右读数,以此下去,直到取足样本。右读数,以此下去,直到取足样本。1.简单随机抽样简单随机抽样1.简单随机抽样简单随机抽样简单随机抽样方法的优缺点简单随机抽样方法的优缺点n优点优点:可能产生代表性样本可能产生代表性样本n缺点缺点
23、:不容易做不容易做n抽样元素多,编号难抽样元素多,编号难n必须能够接触到被选中的个体必须能够接触到被选中的个体n搅拌均匀不易搅拌均匀不易 定义:定义:等距抽样或机械抽样,将总体的单位编等距抽样或机械抽样,将总体的单位编号排序后,按照固定的间隔抽取个体组成样本号排序后,按照固定的间隔抽取个体组成样本的方法。的方法。步骤:步骤:编号编号确定抽样间距确定抽样间距确定抽样起点确定抽样起点等间距抽样等间距抽样2.系统抽样(等距抽样系统抽样(等距抽样)n举例:举例:一个礼堂有一个礼堂有30排座位,每排有排座位,每排有40个座位。一次报个座位。一次报告会礼堂坐满了听众。会后为听取意见,需要抽取告会礼堂坐满了
24、听众。会后为听取意见,需要抽取30名听众进行座谈,除了用简单随机抽样获得样本名听众进行座谈,除了用简单随机抽样获得样本外,你能否设计其他的抽取样本的方法?外,你能否设计其他的抽取样本的方法?留下每排座位号为留下每排座位号为20的的30名听众进行座谈。名听众进行座谈。注意:这种抽取样本的方法与简单随机抽样有什么区注意:这种抽取样本的方法与简单随机抽样有什么区别?你能说出操作步骤吗?别?你能说出操作步骤吗?2.系统抽样(等距抽样系统抽样(等距抽样)n优点优点:简便易行简便易行n条件条件:抽样框里的元素应该是随机排列抽样框里的元素应该是随机排列的的.n。例如:从总体例如:从总体2000户家庭的社区中
25、,抽取一个户家庭的社区中,抽取一个50户家户家庭的样本进行调查消费状况的调查,而这庭的样本进行调查消费状况的调查,而这2000户家庭户家庭的名单是按每个家庭总收入的多少,由高到低的顺序的名单是按每个家庭总收入的多少,由高到低的顺序排列的。初始号码为排列的。初始号码为3和和38,所抽样本家庭平均收入,所抽样本家庭平均收入有很大区别,消费状况也有很大区别。有很大区别,消费状况也有很大区别。例如:每个班级内的例如:每个班级内的50名学生按照学生成绩的高低来排名学生按照学生成绩的高低来排序,每个班抽取一名学生组成样本,初始号码为序,每个班抽取一名学生组成样本,初始号码为2和和48号,所抽样本的平均成绩
26、差别很大号,所抽样本的平均成绩差别很大2.系统抽样(等距抽样系统抽样(等距抽样)n以下抽样方法的区别中,说法错误的是以下抽样方法的区别中,说法错误的是_ n(A)4个人打牌时,将洗好的牌(个人打牌时,将洗好的牌(52张)随机确定一张牌为起始牌,张)随机确定一张牌为起始牌,然后按次序发牌,每人然后按次序发牌,每人13张,这种抽样方法属于随机抽样张,这种抽样方法属于随机抽样n(B)从标号为)从标号为115的的15个球中,任选个球中,任选3个做为样本,按从小到大排个做为样本,按从小到大排序,随机选取起点号序,随机选取起点号i0,以后选取,以后选取i0+5, i0+10(超过(超过5则从则从1数起),
27、数起),这种抽样方法属于系统抽样这种抽样方法属于系统抽样n(C)工厂生产某种产品,用传送带送入包装车间,检验人员每隔五)工厂生产某种产品,用传送带送入包装车间,检验人员每隔五分钟从传送带上抽一产品进行检验,这种抽样方法属于系统抽样分钟从传送带上抽一产品进行检验,这种抽样方法属于系统抽样n(D)电影院为调查观众某项指标,通知每排的座位号为)电影院为调查观众某项指标,通知每排的座位号为8号的观众留号的观众留下来,这种抽样方法属于系统抽样下来,这种抽样方法属于系统抽样2.系统抽样(等距抽样系统抽样(等距抽样)n应用举例应用举例n某地区有某地区有3000名学生参加学科竞赛,现要从中抽取一个样名学生参加
28、学科竞赛,现要从中抽取一个样本对他们的成绩进行分析,每个学生被抽到的概率均为本对他们的成绩进行分析,每个学生被抽到的概率均为1/15,试确定样本容量,并说出抽样步骤。试确定样本容量,并说出抽样步骤。n设某校共有设某校共有108名教师,为了支援西部的教育事业,要从名教师,为了支援西部的教育事业,要从中随机抽出中随机抽出16名教师组成暑期西部讲师团。请用系统抽样名教师组成暑期西部讲师团。请用系统抽样方法选出讲师团成员。方法选出讲师团成员。n有人说,可以借用居民身份证号码(有人说,可以借用居民身份证号码(18位)来进行央视春位)来进行央视春晚的收视率调查:在晚的收视率调查:在1999中抽出一个随机数
29、,比如中抽出一个随机数,比如632,那么身份证后三位是那么身份证后三位是632的观众就是要调查的对象。你觉的观众就是要调查的对象。你觉得这样所获得的样本有代表性吗?得这样所获得的样本有代表性吗?系统抽样的优缺点如何改进?n优点优点:n(1)简单易操作)简单易操作n(2)当对总体结构有一定了解时,充分利用已有的信息)当对总体结构有一定了解时,充分利用已有的信息对总体中的个体进行排队后再抽样,可提高抽样效率对总体中的个体进行排队后再抽样,可提高抽样效率n(3)当总体中的个体存在一种自然编号时,采用系统抽)当总体中的个体存在一种自然编号时,采用系统抽样比较方便样比较方便n缺点:缺点:n(4)当在不了
30、解样本总体的情况下(如性别差异,经济)当在不了解样本总体的情况下(如性别差异,经济基础,个人喜好,天气因素等等),所抽出的样本可能会基础,个人喜好,天气因素等等),所抽出的样本可能会有一定的偏差。有一定的偏差。3.分层抽样分层抽样问题情景:问题情景: 一个单位的职工有一个单位的职工有500人,其中不到人,其中不到35岁的有岁的有125人,人,3549岁的有岁的有280人,人,50岁以上的有岁以上的有95人。为了了解该单位职工人。为了了解该单位职工年龄与身体状况的有关指标,从中抽取年龄与身体状况的有关指标,从中抽取100名职工作为样本,应该怎样抽取?名职工作为样本,应该怎样抽取? n首先将总体中
31、的所有单位按某种特征或标志划首先将总体中的所有单位按某种特征或标志划分成若干类型或层次,然后再在各个类型或层分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后将这些子样本合起来构成总一个子样本,最后将这些子样本合起来构成总体的样本体的样本。 分层抽样的步骤n1.总体与样本容量确定抽取的比例。总体与样本容量确定抽取的比例。n2.由分层情况,确定各层抽取的样本数。由分层情况,确定各层抽取的样本数。n3.各层的抽取数之和应等于样本容量。各层的抽取数之和应等于样本容量。n4.对于不能取整的数,求其近似值。对于不能取整
32、的数,求其近似值。Nnk iiNkn nninnNkniii,问题:每个个体在整个抽样过程中被抽取的概率是否相等?每部分抽取的个体数样本容量该部分的个体总数总体中的个体数 在不增加样本规模的前提下降低抽样误差,提高抽样精在不增加样本规模的前提下降低抽样误差,提高抽样精度,增大代表性。度,增大代表性。便于了解总体内不同层次的情况,以及对总体中的不同便于了解总体内不同层次的情况,以及对总体中的不同层次进行单独研究或者进行比较。层次进行单独研究或者进行比较。 对抽样框的要求比较高,必须有分层的辅助信息;对抽样框的要求比较高,必须有分层的辅助信息;收集或编制抽样框的费用比较高;收集或编制抽样框的费用比
33、较高;若调查变量与分层的变量不相关,效率可能降低;若调查变量与分层的变量不相关,效率可能降低; 分层的标准问题分层的标准问题分层的比例问题分层的比例问题 n分层抽样举例分层抽样举例 一个单位的职工有一个单位的职工有500人,其中不到人,其中不到35岁的有岁的有125人,人,3549岁的有岁的有280人,人,50岁以上的有岁以上的有95人。为了了解该单人。为了了解该单位职工年龄与身体状况的有关指标,从中抽取位职工年龄与身体状况的有关指标,从中抽取100名职工作名职工作为样本,应该怎样抽取?为样本,应该怎样抽取?n解:解:抽取人数与职工总数的比是抽取人数与职工总数的比是100:5001:5,则各年
34、龄段(层)的职工人数依次是则各年龄段(层)的职工人数依次是125:280:9525:56:19,然后分别在各年龄段(层)运用简单随机,然后分别在各年龄段(层)运用简单随机抽样方法抽取。抽样方法抽取。n 答:在分层抽样时,不到答:在分层抽样时,不到35岁、岁、3549岁、岁、50岁以上岁以上的三个年龄段分别抽取的三个年龄段分别抽取25人、人、56人和人和19人。人。练习练习n1.某科研单位有科研人员某科研单位有科研人员160人,其中具有高级以上职称的人,其中具有高级以上职称的24人,中级职称人,中级职称48人,其余均为初级以下职称,现要抽取一个人,其余均为初级以下职称,现要抽取一个容量为容量为2
35、0的样本,试确定抽样方法的样本,试确定抽样方法,并写出抽样过程并写出抽样过程.n2.某市某市3个区共有高中学生个区共有高中学生20000人,且人,且3个区的高中学生人个区的高中学生人数之比为数之比为2:3:5,现在要用分层抽样的方法从所有学生中抽,现在要用分层抽样的方法从所有学生中抽取一个容量为取一个容量为200的样本,这的样本,这3个区应该分别抽取多少人?个区应该分别抽取多少人?n3.如果采用分层抽样,从个体数为如果采用分层抽样,从个体数为N的总体中,抽取一个容量的总体中,抽取一个容量为为n的样本,那么每个个体被抽到的概率等于的样本,那么每个个体被抽到的概率等于 ( )nND.nC.NB.N
36、nA.114.4.下列属于分层抽样特点的是下列属于分层抽样特点的是( )( )A. .从总体中逐个抽取从总体中逐个抽取 B.B.将总体分成几层将总体分成几层, ,分层进行抽取分层进行抽取 C.C.将总体分成几部分将总体分成几部分, ,按事先确定的规则在各部分抽取按事先确定的规则在各部分抽取 D.D.将总体随意分成几部分将总体随意分成几部分, ,然后进行随机抽取然后进行随机抽取n5.5.某校高中生共有某校高中生共有900900人人, ,其中高一年级其中高一年级300300人人, ,高二年级高二年级200200人人, ,高三年级高三年级400400人人, ,现采用分层抽样抽取容量为现采用分层抽样抽
37、取容量为4545的样本的样本, ,那么高一那么高一, ,高二高二, ,高三各年级抽取人数分别为高三各年级抽取人数分别为( )A 15, 5, 25 B 15, 15 ,15C 10, 5, 30 D 15, 10, 206. 某公司在某公司在A、B、C、D四个地区分别有四个地区分别有150个、个、120个、个、180个和个和150个销售点,公司为了调查产个销售点,公司为了调查产品销售情况,需从这品销售情况,需从这600个销售点中抽取容量为个销售点中抽取容量为100的样本,记这项调查为;在的样本,记这项调查为;在C地区有地区有20个特个特大型销售点,现从中抽取大型销售点,现从中抽取7个调查它的销
38、售收入和销个调查它的销售收入和销后服务情况,记这项调查为;则完成、后服务情况,记这项调查为;则完成、这两这两项调查应采取的抽样方法依次为项调查应采取的抽样方法依次为( )A.分层抽样法,系统抽样法;分层抽样法,系统抽样法;B.分层抽样法,简单随机抽样法;分层抽样法,简单随机抽样法;C.系统抽样法,分层抽样法;系统抽样法,分层抽样法; D.简单随机抽样法,分层抽样法;简单随机抽样法,分层抽样法;A7.7.在在100100个零件中个零件中, ,有一级品有一级品2020个个, ,二级品二级品3030个个, ,其余为三级品其余为三级品, ,从从中抽取中抽取2020个作为样本个作为样本.(1).(1)采
39、用随机抽样法采用随机抽样法, ,将零件编号为将零件编号为00,01,99.00,01,99.抽签取出抽签取出2020个个;(2);(2)采用系统抽样法采用系统抽样法, ,将所有零件将所有零件分成分成2020组组, ,每组每组5 5个个, ,然后每组中随机抽取然后每组中随机抽取1 1个个;(3);(3)采用分层抽采用分层抽样法样法, ,从一级品中从一级品中 随机抽取随机抽取4 4个个, ,从二级品中随机抽取从二级品中随机抽取6 6个个, ,从从三级品中随机抽取三级品中随机抽取1010个个, ,则下列说法正确的是则下列说法正确的是 ( )( )A .A .不论用哪种抽样方法不论用哪种抽样方法, ,
40、这这100100个零件中每个被抽到的概率都是个零件中每个被抽到的概率都是1/51/5B. (1),(2)2B. (1),(2)2种方法种方法, ,这这100100个零件中每个被抽到的概率都是个零件中每个被抽到的概率都是1/5;(3)1/5;(3)并非如此并非如此C. (1),(3)2C. (1),(3)2种方法种方法, ,这这100100个零件中每个被抽到的概率都是个零件中每个被抽到的概率都是1/5;(2)1/5;(2)并非如此并非如此D.D.用不同的抽样方法用不同的抽样方法, ,这这100100个零件中每个被抽到的概率是各不相同的个零件中每个被抽到的概率是各不相同的n8某中学有学生某中学有学
41、生20002000名,高一、高二、高三的学名,高一、高二、高三的学生人数之比为生人数之比为5 5:3 3:2 2,现要抽取一个容量为,现要抽取一个容量为200200的的样本,则学生甲被抽到的概率是样本,则学生甲被抽到的概率是_,_,若高一学生抽取若高一学生抽取5050人,则样本的容量为人,则样本的容量为_._.n9.9.一个电视台在因特网上就观众对其某一节目的喜一个电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的总人数为爱程度进行调查,参加调查的总人数为1200012000人,人,其中持各种态度的人数如下所示:其中持各种态度的人数如下所示: 很喜爱很喜爱 喜爱喜爱 一般一般 不
42、喜爱不喜爱 2400 4200 3800 16002400 4200 3800 1600 打算从中抽取打算从中抽取6060人进行详细调查,如何抽取?人进行详细调查,如何抽取?三种抽样方法的比较三种抽样方法的比较类别类别各自特点各自特点相互联系相互联系适用范围适用范围 共同点共同点简单随机抽样简单随机抽样 从总体中从总体中逐个抽取逐个抽取总体中的个总体中的个体数较少体数较少抽样过程抽样过程中每个个中每个个体被抽取体被抽取的的概率相概率相等等系统抽样系统抽样将总体均分成几部将总体均分成几部分,按事先确定的分,按事先确定的规则在各部分抽取规则在各部分抽取在起始部分抽样在起始部分抽样时采用简单随机时采
43、用简单随机抽样抽样总体中的个总体中的个体数较多体数较多分层抽样分层抽样将总体分成将总体分成 几层,几层,分层进行抽取分层进行抽取各层抽样时采用各层抽样时采用简单随机抽样或简单随机抽样或系统抽样系统抽样总体由差异总体由差异明显的几部明显的几部分组成分组成简单随机抽样最简单,但是也是相对复杂的。系统抽样操作简单,简单随机抽样最简单,但是也是相对复杂的。系统抽样操作简单,在有充分的总体信息的前提下,估计精度比随机抽样高,且操作在有充分的总体信息的前提下,估计精度比随机抽样高,且操作、简单。分层抽样由于已经利用了总体信息,因此估计精度也比、简单。分层抽样由于已经利用了总体信息,因此估计精度也比随机简单
44、抽样要高。随机简单抽样要高。 将总体按某种标准划分为一些子群体,每个子群为将总体按某种标准划分为一些子群体,每个子群为一个抽样单位,用随机方法从中抽若干子群,将抽出的一个抽样单位,用随机方法从中抽若干子群,将抽出的子群中的所有个体结合起来构成样本。子群中的所有个体结合起来构成样本。 整群抽样特点:整群抽样特点: 抽样单位不是单个的个体,而是成群的个体抽样单位不是单个的个体,而是成群的个体 优缺点:优缺点: 优点:不需要详细的所有元素的名单,简单,费用低优点:不需要详细的所有元素的名单,简单,费用低 缺点:样本的分布面不广,代表性相对较差缺点:样本的分布面不广,代表性相对较差 整群抽样和分层抽样
45、的比较:整群抽样和分层抽样的比较: 子群间异质性强,群内同质性强子群间异质性强,群内同质性强分层抽样分层抽样 子群间同质性强,群内异质性强子群间同质性强,群内异质性强整群抽样整群抽样 5.多阶段抽样多阶段抽样 按抽样元素的隶属关系或层次关系,把抽样分为几个阶按抽样元素的隶属关系或层次关系,把抽样分为几个阶段进行。段进行。 例例1:大学:大学院系院系班级班级学生学生 例例2:城市:城市区区街道街道居委会居委会 家庭家庭个人个人 特征:特征: 适用于范围大、总体数量多的社会调查适用于范围大、总体数量多的社会调查 优缺点:优缺点:优点:不需要总体的全部名单,各阶段的抽样单一般较优点:不需要总体的全部
46、名单,各阶段的抽样单一般较少,容易操作少,容易操作 缺点:每一个阶段都存在误差,抽样误差可能较大缺点:每一个阶段都存在误差,抽样误差可能较大 应对方法:尽量增加开头阶段的样本数适当减少最后阶应对方法:尽量增加开头阶段的样本数适当减少最后阶段的样本数段的样本数 6.PPS抽样(概率与元素的规模大小成比例的抽抽样(概率与元素的规模大小成比例的抽样)样) 什么情况下要使用什么情况下要使用PPS抽样:抽样: 以上所介绍的抽样方法有一个共同的特点:总体以上所介绍的抽样方法有一个共同的特点:总体(或或子总体子总体)中的每一个元素都具有同等的被抽中的概率。中的每一个元素都具有同等的被抽中的概率。如果总体中每
47、个元素的如果总体中每个元素的“大小大小”基本相同,或者每一个基本相同,或者每一个元素在总体中的地位或重要性相差不多,则这种基于同元素在总体中的地位或重要性相差不多,则这种基于同等概率的抽样是合适的。但当元素的大小不同,或者元等概率的抽样是合适的。但当元素的大小不同,或者元素在总体中的地位不同时,则需要采用不等概率抽样的素在总体中的地位不同时,则需要采用不等概率抽样的方法。方法。 如何进行如何进行PPS抽样?(抽样?( P72)例:从全市例:从全市100家不同规模的企业(共家不同规模的企业(共20万职工)中抽取万职工)中抽取1000名职工进行调查名职工进行调查 100家企业抽取家企业抽取20家企
48、业,家企业, 20家企业每家抽取家企业每家抽取50个工人,个工人,合计合计1000名职工名职工 20家企业抽取概论相同家企业抽取概论相同每个企业职工抽取的概论不同每个企业职工抽取的概论不同企业企业3每个职工抽取的概论每个职工抽取的概论=50/16000企业企业4每个职工抽取的概论每个职工抽取的概论=50/200 偶遇抽样偶遇抽样 判断抽样判断抽样 定额抽样定额抽样 定义:方便抽样或自然抽样,指研究者根据现实情定义:方便抽样或自然抽样,指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近、最容易找到的人作为或者仅仅
49、选择那些离得最近、最容易找到的人作为对象。对象。适用范围适用范围可用于经常性的市场调查;可用于经常性的市场调查;可用于正式市场调查之前可用于正式市场调查之前 的试验调查;的试验调查;任意调查适用于同质总体。任意调查适用于同质总体。 n优点:方便、灵活,简便易行,及时取得所需资料,节约时间和费用成本低n缺点:样本的代表性差、有很大的偶然性。例:1.在商场、码头等公共场所调查 2.街头拦截调查 3.报刊的读者调查 : 也叫立意抽样,研究者根据自己的主观判断来抽选样也叫立意抽样,研究者根据自己的主观判断来抽选样本,分为印象判断抽样和经验判断抽样。本,分为印象判断抽样和经验判断抽样。印象判断抽样:纯粹
50、凭研究者的主观印象抽样印象判断抽样:纯粹凭研究者的主观印象抽样经验判断抽样:根据以往经验和对调查对象的了解抽样经验判断抽样:根据以往经验和对调查对象的了解抽样注意的问题注意的问题: 判断抽样的关键是抽样标准的确立,这种方法的运用判断抽样的关键是抽样标准的确立,这种方法的运用与研究者本人的因素比如理论修养、实践经验以及对调查与研究者本人的因素比如理论修养、实践经验以及对调查对象的熟悉程度有关对象的熟悉程度有关 :多用于无法确定总体边界、或总体:多用于无法确定总体边界、或总体规模小、调查所涉及的范围较窄,或调查时间、规模小、调查所涉及的范围较窄,或调查时间、人力等条件有限而难以进行大规模抽样的情况