《抽样与抽样调查精选课件.ppt》由会员分享,可在线阅读,更多相关《抽样与抽样调查精选课件.ppt(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于抽样与抽样调查第一页,本课件共有82页l为什么要知道一个人的血液情况,只需抽为什么要知道一个人的血液情况,只需抽一点点血来化验就行了?一点点血来化验就行了?l由部分认识总体由部分认识总体l同质和异质同质和异质第二页,本课件共有82页盖洛普,美国民意测验中心l1936年美国总统大选预测(配额抽样)l1948年美国总统大选预测(失败)l1984年美国总统大选预测l1994年美国总统大选预测样本数据3000左右第三页,本课件共有82页1994年美国总统大选预测民意调查日期主办机构总统候选人克林顿多尔佩罗其他10/28-31CBS/N.Y TIME54359211/1-3Reuter4941821
2、1/1-3Harris51399111/1-3ABC52399211/1-3NBC/Wall ST.51387211/1-3Gallup/CNN513892选举结果494192第四页,本课件共有82页l抽样解决什么问题?l对象的选取问题:如何从总体中选出一部分对象来作为总体的代表第五页,本课件共有82页抽样调查的含义l抽样调查:是指按照科学的原理和计算从所要研究是指按照科学的原理和计算从所要研究现象的全部分析单位中按随机原则抽取部分单位进现象的全部分析单位中按随机原则抽取部分单位进行调查,取得资料后,再根据样本的实际数据对总行调查,取得资料后,再根据样本的实际数据对总体的数量特征作出具有一定可
3、靠程度的估计和判断体的数量特征作出具有一定可靠程度的估计和判断的方法的方法。l抽样调查旨在以样本的资料来推断调查对象总体的旨在以样本的资料来推断调查对象总体的相关统计数据。相关统计数据。第六页,本课件共有82页l抽样理论与方法是构建在现代统计学和概率论(尤其是概率抽样)基础上的。第七页,本课件共有82页抽样调查的特点1 1)抽取样本时要遵循随机原则,即产生样本时,)抽取样本时要遵循随机原则,即产生样本时,调查对象总体中的所有单位都有同等被抽中的机调查对象总体中的所有单位都有同等被抽中的机会。会。2 2)大数规律起作用的条件是样本容量足够大,)大数规律起作用的条件是样本容量足够大,如此样本对总体
4、才有充分的代表性如此样本对总体才有充分的代表性3 3)抽样误差可以事先经过计算而控制在一定范围内,)抽样误差可以事先经过计算而控制在一定范围内,并且能采取一定的组织措施控制这个误差。并且能采取一定的组织措施控制这个误差。第八页,本课件共有82页几个关键概念l抽样抽样sampling:指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素的过程。l抽样单位抽样单位sampling unit:是一次直接的抽样所使用的基本单位或与元素。如班级(学生)元素element:构成总体的单位,也是样本所包含的内容。抽样单位与构成总体的元素有时相同,有时不同。如抽样单位班级构成总体的元素学生
5、l抽样框抽样框sampling frame:又称作抽样范围。指一次直接抽样时总体中所有抽样单位的名单。班级(学生)名单 第九页,本课件共有82页抽样框的重要性举例:1936年文学文摘的民意测量:从电话薄和车牌登记名单中选择1000万人,最后收到200万人预测出43%的罗斯福支持率(实际是61%)思考:抽样框是什么?为什么预测不准?抽样框选择的不合理只选择了不成比例的富人样本,而排除了穷人。成功的对比:盖洛普的配额抽样第十页,本课件共有82页抽样的一般程序l界定总体掌握总体的结构及各方面情况l制定抽样框对名单进行统一编号,多阶段抽样需要分别建立不同的抽样框。l决定抽样方案抽样方法抽样规模主要目标
6、量的精确程度l实际抽取样本l评估样本质量对样本的质、代表性、偏差进行初步检验和衡量。即用样本中某些重要指标与总体中的指标进行比较,结果越接近越好。第十一页,本课件共有82页抽样方法 概率抽样 非概率抽样 简单随机抽样 偶遇抽样 等距抽样 判断抽样 分层抽样 定额抽样 整群抽样 雪球抽样 多阶段抽样第十二页,本课件共有82页l概率抽样概率抽样probability sampling 是依据概率论基本原理,按照随机原则进行抽样,不加主观因素,组成总体的每个单位都有被抽中的概率(非零概率),可以避免样本出现偏差,样本对总体有很强的代表性。l非概率抽样非概率抽样nonprobability sampl
7、ing 是按主观意向进行的抽样(非随机的),组成总体的很大部分单位没有被抽中的机会(零概率),使调查很容易出现倾向性偏差。常在探索性调查中使用。第十三页,本课件共有82页方便/偶遇抽样accidental sampling l样本限于总体中易于抽到的一部分。因此它并没有保证总体中的每一成员都具有同等被抽中的概率。常被误认为随机抽样,但有以上差别。l最常见的方便抽样是偶遇抽样,即研究者将在某一时间和环境中所遇到的每一总体单位均作为样本成员。“街头拦人法”就是一种偶遇抽样。l某些调查对被调查者来说是不愉快的、麻烦的,这时为方便起见就采用以自愿被调查者为调查样本的方法。l方便抽样是非随机抽样中最简单
8、的方法,省时省钱,但样本代表性因受偶然因素的影响太大而得不到保证。不能依赖偶遇抽样的样本值来推断总体。第十四页,本课件共有82页立意判断抽样purposive sampling立意抽样又称判断抽样,研究人员从总体中选择那些被判断为最能代表总体的单位作样本的抽样方法。研究者对自己的研究领域十分熟悉,对研究总体比较了解时采用这种抽样方法,可获代表性较高的样本。这种抽样方法多应用于总体小而内部差异大的情况,以及在总体边界无法确定或因研究者的时间与人力、物力有限时采用。第十五页,本课件共有82页滚雪球抽样 snowball samplingl以若干个具有所需特征的人为最初的调查对象,然后依靠他们提供认
9、识的合格的调查对象,再由这些人提供第三批调查对象,依次类推,样本如同滚雪球般由小变大。l滚雪球抽样多用于总体单位的信息不足或观察性研究的情况。l这种抽样中有些分子最后仍无法找到,有些分子被提供者漏而不提,两者都可能造成误差。如喜欢公园活动的老人喜欢在家的老人第十六页,本课件共有82页定额抽样quota samplingl定额抽样也称配额抽样,是将总体依某种标准分层(群);然后按照各层样本数与该层总体数成比例的原则主观抽取样本。参考书145表6-7 100个人的定额样本分布表(性别学科年级种分类特征)l定额抽样与分层概率抽样很接近,最大的不同是分层概率抽样的各层样本是随机抽取的,而定额抽样的各层
10、样本是非随机的,是按事先规定的条件有目的地寻找的。第十七页,本课件共有82页定额抽样l总体也可按照多种标准的组合分层(群),例如,在研究自杀问题时,考虑到婚姻与性别都可能对自杀有影响,可将研究对象分为未婚男性、已婚男性、未婚女性和已婚女性四个组,然后从各群非随机地抽样。l定额抽样是通常使用的非概率抽样方法,这项抽样方法要求对总体的情况比较了解。盖洛普1948年失败的案例(二战导致1940年人口普查数据的变化)第十八页,本课件共有82页简单随机抽样 simple random samplingl思考什么是随机?在班上随便抽点10个同学是不是随机?l是概率抽样最基本的形式。常用办法有抽签、随机数表
11、、人民币等来抽样l要点:取得抽样框名单 将总体中所有元素一一按顺序编号 根据总体规模是几位数来确定从随 机数表中选几位数。l特点:在差异较大的总体中,简单随机抽样的样本不一定能保证样本的代表性。第十九页,本课件共有82页随机数表的使用l将总体中所有数据编码l确定所选择的随机数需要几位数字根据总体数据的位数来定l查阅随机数表,建立某个执行原则(如从上到下或从左到右)来选择随机数l当选到的数超过范围或重复时,跳过这个数选择下一个 P353第二十页,本课件共有82页系统抽样等距抽样systematic samplingl又称系统抽样。把总体中的单位进行编号排序后,再计算出某种间隔,然后按这一固定的间
12、隔抽取个体的号码来组成样本的方法。lK(抽样间隔)=N(总体规模)/n(样本规模)l个体编号为A,A+K,A+2K,A+(n-1)Kl抽样比率=样本大小/总体大小l注意:若总体名单中,个体的排列具有某种等级的高低(如学生名单是按学生成绩高低来排的)或周期性分布,则应打破原次序,重新编制总体名单。l等距抽样比简单随机抽样简便易行,规模较大时多采用。第二十一页,本课件共有82页分层抽样stratified samplingl又称类型抽样。l它是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干个类型或层次l然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子
13、样本,最后将这些子样本合起来构成总体的样本。第二十二页,本课件共有82页分层抽样l特点:层内同质,层间异质 分层抽样在层内是抽样调查,层间是全面调查,所以分层时应该尽量让每层内的变异程度小,而层间的变异程度大。(因此分层要全面考虑,而分层的首要目标就是达到同质性)。l分层抽样的优点就是在不增加样本规模的前提下降低抽样误差。它的抽样误差较简单随机抽样小,样本具有很好的代表性。(参考抽样误差的公式)第二十三页,本课件共有82页考虑分层的比例问题,又分为1、比例分配法;考虑每层中的总体单位数,按比例在每层中抽出相同比例的样本,即每层的样本容量第二十四页,本课件共有82页例如:调查在校学生的阅读倾向l
14、将符合要求的学生做统计后(除去留学生,成教等)总数为2万多人,考虑要作年级和教育差异对比,可将学生分为本科、硕士、博士三个大群体,根据最大样本数估计(允许的抽样误差在3%)需要抽取1068人就足够了。经求取比例,最低比例4.3可以满足样本需求。l各层均按照4.3进行抽样,做到了各层次中抽取的样本单位数量的比例、该样本在总体中抽取的样本单位的比例、该样本在总体中所占的比例这三个比例保持一致,这就是分层比例抽样。第二十五页,本课件共有82页l非随机抽样中有一种配额抽样和分层比例抽样极为相似。l差别在于:配额抽样不要求样本结构与总体完全相等,或具有已知的确切关系,具体单位样本的选择也是由调研人员在实
15、施调研时才在给定的配额内主观地选取,其实质是一种分层的估计抽样。第二十六页,本课件共有82页2、不按比例分层抽样l当总体中有些分层的数目太少,若以比例抽样,则有的层在样本中个案太少,影响分析。为了对不同层次的子总体进行专门研究,则可不按比例分层抽样。l但需注意,若要用样本资料推断总体时,则需要对各层数据资料进行加权处理,使样本中各层的比例恢复到总体中各层实际的比例结构。第二十七页,本课件共有82页l例如:某厂600工人(男500,女100人)调查他们的平均收入。计划抽样60人。l按比例抽样:男500*(60/600)=50人,女100*(60/600)=10人l不按比例抽样,即男女各抽30人全
16、厂工人平均收入=(每个男工的收入*5/3+每个女工的收入*1/3)/60人第二十八页,本课件共有82页 是各层的标准差。是总体中各层的数量 2、奈曼最佳分配法、奈曼最佳分配法 考虑每层中总体单位的变异程度不同,在样本容量一定的条件下,变异大的层样本容量也大,变异小的层样本容量也小。每层的样本容量为第二十九页,本课件共有82页整群抽样cluster samplingl概念:首先将总体划分为群概念:首先将总体划分为群R;然后按随机;然后按随机的原则不重复抽出群的原则不重复抽出群r,在每群中进行全面,在每群中进行全面调查。该调查方法适用于单位较多的总体。调查。该调查方法适用于单位较多的总体。l与分层
17、抽样相反,整群抽样在群内是全面调与分层抽样相反,整群抽样在群内是全面调查,在群间是抽样调查。查,在群间是抽样调查。第三十页,本课件共有82页整群抽样适用于:l不同子群相互之间差别不大,而每个子群内部的异质性程度比较大。-层内异质,层间同质(与分层抽样相反)l当我们不可能或不方便编制一个完整的名单形成目标总体的时候,可以使用整群抽样。如对城市的人口进行抽样的时候,没有整个城市的人的名册,可以先选出几个街道样本,对街道中的所有户进行抽样。第三十一页,本课件共有82页整群抽样l优点:简便易行、节省费用l缺点:样本分布面不广,样本对总体的代表性相对较差第三十二页,本课件共有82页多段抽样 multis
18、tage samplingl又称分段抽样。它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。适合于总体规模特别大,或总体分布范围特别广。l方法:从总体中随机抽取若干大群,然后从大群中抽取若干小群,层层抽下去,直到抽到最基本的抽样元素为止。l重复两个基本步骤:列表名册和抽样l在上述每个阶段的抽样中,都要采用简单随机抽样或等距抽样或分层抽样的方法进行。第三十三页,本课件共有82页l多段抽样时,需要考虑类别和个体之间如何保持平衡?考虑两个因素REF 书P137表6-3l各个抽样阶段中的子总体同质性程度。同质性越高的子总体,所抽规模就小一点。反之亦然。l考虑人力和经费-“大的类别抽取的多
19、,每一子类抽取的相应较少”所花的人力经费就多,但又可适当减少抽样误差 每级抽样都会产生误差,故多段抽样的误差较大。第三十四页,本课件共有82页lQ:如何控制多段整群抽样的抽样误差?从抽样误差的公式入手 l增加样本容量l提高样本要素的同质性(然而,如果总样本数量一定的话,抽取的群数量增加每个群中被抽取的要素的数量势必减少。)整群抽样的原则就是尽可能多的选取群(群的同质性强),而减少每个群中要素的数量。但又可能违背整群抽样效率的功能第三十五页,本课件共有82页户内抽样within-household samplingl适用于以家庭作为分析单位,以入户访谈的方法收集资料l入户前的抽样可以采用多段抽样
20、的方式如市/县区/乡街/村居委会/组家庭户l确定户后,如何对户内的成年人进行选择?-生日接近法-KISH选择表第三十六页,本课件共有82页KISH选择法l将调查表编号为A,B1,B2,C,D,E1,E2,F 八种,每种表的数目分别占调查表总数的1/6,1/12,1/12,1/6,1/6,1/12,1/12,1/6l每个调查员配备一套KISH选择表(一套8种)l对每户中成年人进行排序和编号:男在前,女在后;年纪大在前,小在后.l按照调查表上的编号找出选择表,根据家庭人口数目从选择表中查出该选个体的序号.对这一序号的成员进行调查.第三十七页,本课件共有82页第三十八页,本课件共有82页概率比率抽样
21、(概率比率抽样(PPSPPS抽样)probability proportionate to sizel一种多段整群抽样(适用于大规模调查)l其中的群被选取的概率并不相等,其被选中的概率和其规模大小成比例根据群中其子样本的数量来衡量。l特点是总体中含量大的部分被抽中的概率也大,可以提高样本的代表性。第三十九页,本课件共有82页对比:EPSEM/PPSlEPSEM:equal probability of selection method 等概率抽样等概率抽样选择城市中的住户选择城市中的住户(假设假设100000户分散在户分散在1000条街道条街道,如何抽取如何抽取1000户居户居民民)l1000
22、条街道条街道挑选挑选100个街道:个街道:10%的选中机会的选中机会l假设每条街道只有假设每条街道只有100户户(即规模相同即规模相同),则抽则抽10户即可户即可,100户抽户抽10户:户:10%的选中机会的选中机会l则城市中每一户被选中的概率则城市中每一户被选中的概率=0.1*0.1=1%这样这样,每户人家被选中的概率相同,挑选出来的样本对城市中的所有住户来说具有每户人家被选中的概率相同,挑选出来的样本对城市中的所有住户来说具有代表性代表性思考:一个陷阱:如果每条街道户数不同思考:一个陷阱:如果每条街道户数不同,例如甲居委会有例如甲居委会有200户户,乙居委会乙居委会只有只有50户。思考户。
23、思考:EPSEM抽样结果会怎样?抽样结果会怎样?甲居委会居民被抽中的概率甲居委会居民被抽中的概率:100/1000*10/200=0.005乙居委会居民被抽中的概率乙居委会居民被抽中的概率:100/1000*10/50=0.02乙居委会居民被抽中的概率是甲居委会居民被抽中的概率的乙居委会居民被抽中的概率是甲居委会居民被抽中的概率的4倍倍第四十页,本课件共有82页PPS抽样l每一个元素被抽中的概率=所抽取的群数*(子群的规模/总体的规模)*(平均每个子群中所要抽取的元素/子群的规模)甲居委会居民被抽中的概率甲居委会居民被抽中的概率:100*200/100000*10/200=0.01乙居委会居民
24、被抽中的概率乙居委会居民被抽中的概率:100*50/100000*10/50=0.01第四十一页,本课件共有82页PPS抽样总结l以阶段性的不等概率换取最终的总体的等概率第四十二页,本课件共有82页抽样设计的原则l目的性原则以研究目标为依据l可测性原则能够从样本自身计算出有效的估计值或抽样变动的近似值。l可行性原则在实践中切实可行l经济性原则考虑人、财、物、时间第四十三页,本课件共有82页l抽样是问卷调查的前提l抽样方法选择的正确与否直接决定着调查数据的可靠程度,同时也就决定了调查的成败。l掌握几个重要的概念抽样分布/概率理论/抽样误差/置信度和置信区间 第四十四页,本课件共有82页抽样分布三
25、种不同性质的分布三种不同性质的分布 一一.总体分布 二二.样本分布 三三.抽样分布第四十五页,本课件共有82页一.总体分布(population distribution)统计研究对象的全体称为总体.实际问题所研究的是总体中个体的某一特征 X,X 是一个随机变量,而 X 的可能取值全体即为总体.称 X 的分布为总体分布.第四十六页,本课件共有82页二.样本分布(sample distribution)样本中各观察值的分布称为样本分布,也称经验分布.样本分布可以用样本的频数分布来表示.第四十七页,本课件共有82页三.抽样分布(sampling distribution)统计量的分布称为抽样分布.
26、讨论的统计量有样本均值、样本比例和样本方差等.第四十八页,本课件共有82页一个总体参数推断时统计量的抽样分布 一.样本均值的抽样分布 二.样本比例的抽样分布 三.样本方差的抽样分布第四十九页,本课件共有82页总体参数parameter 描述总体数量特征的指标。总体是唯一的,所以参数也是唯一的;参数值只有通过对总体中的每一个元素都进行调查或测量才能得到。样本统计量 statistic 描述样本数量特征的指标,由样本计算而得。由于样本是随机的,所以样本统计量是随机变量。抽抽样样的的目目的的就就是是尽尽可可能能通通过过统统计计值值去去估估计计参数值。参数值。第五十页,本课件共有82页总体参数样本统计
27、量样本统计量公式总体平均数样本平均数总体成数样本成数总体方差样本方差总体标准差样本标准差NEXT第五十一页,本课件共有82页 成数的概念 若总体单位的某种标志只有两种表现,总体成数是指具有某种特征和属性的单位在全部总体单位重所占比重。记为p。以 代表总体单位中具有某种特征的单位数,代表总体单位中不具有某种特征的单位数,N=N1+N0。有第五十二页,本课件共有82页一.样本均值的抽样分布(一)抽样分布的形成过程 例 设一个总体N=4,分别为X1=1,X2=2,X3=3 和 X4=4,可得总体的均值、方差 现从总体中抽取 n2 的简单随机样本,在重复抽样条件下,共有42=16个样本.所有不同的样本
28、为第五十三页,本课件共有82页表 所有可能的样本和样本均值(n=2)第五十四页,本课件共有82页表 样本均值的分布样本均值的分布呈现正态分布,随着样本容量n的增大,就越接近正态分布第五十五页,本课件共有82页从从N中中抽抽取取n个个样样本本,不不重重复复抽抽样样样样本本数数目目为为m=N!/(N-n)!n!不重复抽样参见书不重复抽样参见书P122图图6-26,第五十六页,本课件共有82页(二)样本均值的抽样分布形式 中心极限定理(central limit theorem)设从均值为,方差2 的总体中随机抽取样本容量为n 的样本,当n充分大时,样本均值 的抽样分布近似服从均值为,方差为 的正态
29、分布.(即全部样本平均数的平均数正好等于总计的平均数 ,全部样本平均数的标准差(称为标准误SE)则等于总体标准差除以 )抽样分布是根据概率的原则而成立的理性分布抽样分布是根据概率的原则而成立的理性分布,它显示出它显示出:从一个总体中不断抽取样本时从一个总体中不断抽取样本时,各种可能出现的样本各种可能出现的样本统计值的分布情况统计值的分布情况第五十七页,本课件共有82页(三)样本均值的抽样分布特征 1 样本均值的数学期望 2 样本均值的方差(1)重复抽样:(2)不重复抽样:(6.1)(6.2)(6.3)第五十八页,本课件共有82页二.样本比例的抽样分布 总体(或样本)中具有某种属性的单位数与单位
30、总数之比(1)总体比例:(2)样本比例:第五十九页,本课件共有82页样本比例的抽样分布 1 样本比例的数学期望 2 样本比例的方差 (1)重复抽样:(2)不重复抽样:(6.4)(6.5)(6.6)第六十页,本课件共有82页率的标准误率的标准误用抽样方法进行研究时,必然存在抽样误差。率的抽样误差大小可用用抽样方法进行研究时,必然存在抽样误差。率的抽样误差大小可用率的标准误来表示,计算公式如下:率的标准误来表示,计算公式如下:式中:式中:p为率的标准误,为率的标准误,为总体阳性率,为总体阳性率,n为样本含量。因为实为样本含量。因为实际工作中很难知道总体阳性率际工作中很难知道总体阳性率,故一般采用样
31、本率,故一般采用样本率p 来代替,而上式来代替,而上式就变为就变为标准误的计算第六十一页,本课件共有82页l河北省组织高碘地方性甲状腺肿流行病学调查,作者调查了饮用不同碘浓度井水居民甲状腺肿的患病情况,其中有两组资料如下表,试分别求出率的标准误。水中含碘量均数(g/L)受检人数患病人数患病率(%)458.253315591.78825.9532151805.60举例 第六十二页,本课件共有82页计算法:第一组:计算法:第一组:n1=3315,p1=1.78%=0.01781-p1=1-0.0178=0.9822第二组:第二组:n2=3215,p2=5.60%=0.0561-p2=1-0.056
32、=0.944第六十三页,本课件共有82页概率理论作用l概率理论提供抽样误差抽样误差sampling error 的计算公式,以估计这些样本统计值与真实值估计这些样本统计值与真实值的差距的差距.抽样误差抽样误差l如果我们由总体内随机抽取许多独立的样本,这些随机抽样所得到的统计结果将以一种可知的方式分布在总体参数附近.l那么抽样结果集中在总体参数多大的范围内呢?置信水平和置信区间第六十四页,本课件共有82页l概率理论明确指出:一定比例的样本估计值会落在总体参数值的某个增量内(一个标准误SE就是一个增加单位)-置信区间第六十五页,本课件共有82页置信区间与置信水平l置信水平confident lev
33、el:总体参数值落在样本统计值某一区间的概率(把握程度)。它反映抽样的可靠性程度。如置信度为95%:指对某一总体进行的同样形式的100次抽样中,总体值将有95次都落在样本值周围的某一区间内。在其他条件一定的情况下,置信度越高,推论的把握性越大,所要求的样本规模就越大。l置信区间confident interval:估测总体参数值的范围.它是指在一定的置信度下,样本值与总体值之间的误差范围。它反映的是抽样的精确程度。范围越大,精确性程度越低。在其他条件一定的情况下,置信区间越小,精确性程度要求就越高,即样本值与总体值之间的误差范围越小,则所要求的样本规模就越大。举例:我们有95%的信心说,35-
34、45%的投票者会投票给A 第六十六页,本课件共有82页l由于平均数的抽样分布是正态分布,其平均数的次数就是正态曲线下的面积.而根据概率统计论,正态分布曲线下的面积是可以用数学方法推算的.l有90%落在u1.65SE之间l有95%落在u1.96SE之间l有98%落在u2.33SE之间l有99%落在u2.58SE之间我们可以这样说:对于任何一次抽样来说,其样本统计值落在总体参数值正负2个标准误之间的概率是95%第六十七页,本课件共有82页l总体率的可信区间总体率的可信区间l由于样本率与总体率之间存在着抽样误差,所以也需根据样本率来推算总体率所在的范围,根据样本含量n和样本率P的大小不同,分别采用下
35、列2种方法:第六十八页,本课件共有82页正态近似法正态近似法当样本含量n足够大,且样本率P和(1-p)均不太小,如np或n(1-p)均5时,样本率的分布近似正态分布,样本率的分布近似正态分布,则总体率的可信区间可由下列公式估计:总体率()的95%可信区间:p1.96sp总体率()的99%可信区间:p2.58sp查表法查表法当样本含量n较小,如n50,特别是p接近0或1时,则按二项分布原理确定总体率的可信区间,二项分布原理确定总体率的可信区间,其计算较繁,读者可根据样本含量n和阳性数X参照专用统计学介绍的二项分布中95%可信限表。样本率的分布样本率的分布第六十九页,本课件共有82页Q:如何才能减
36、少标准误?P(1-p)的值(当P=0.5时,标准误最大;而当P=1/0时,标准误最小)与样本容量N 成反比:当样本的容量增加4倍时,标准误会减少一半 如何控制率的抽样误差?如何控制率的抽样误差?第七十页,本课件共有82页如何控制抽样误差?从同质总体中抽取样本比从异值总体中样本所产生的抽样误差小.l如果总体中99%的人同意某个陈述,任何概率抽样的样本结果,严重偏离此同意程度的可能是非常小的。l相对来说,如果总体中只有50%的人同意某陈述,抽样误差就大多了.抽样中的分层抽样就是基于此原理来减少抽样误差.第七十一页,本课件共有82页例子l假设某研究大学生对校规的赞成程度,总体参数值是50%的学生赞成
37、.每次抽样的学生为100名.l计算:标准误是多少?l我们有95%的信心保证样本统计值落在参数值()个标准误之间,即赞成学生的比例将介于()-()之间l如果我们希望有95%的信心让研究结果与总体参数值的差异在正负5%的范围内,那么样本容量至少要多少人?总体率(总体率()的)的95%可信区间:可信区间:p1.96sp总体率(总体率()的)的99%可信区间:可信区间:p2.58sp第七十二页,本课件共有82页答案l5%l正负2个标准误之间,40%-60%l400第七十三页,本课件共有82页概率抽样总结l概率抽样的基本原则是:当我们从总体中随机抽取样本,用样本的平均值来推论总体平均值时,我们发现,样本
38、量越大,抽样误差就越小。第七十四页,本课件共有82页概率抽样总结l样本量越大,则成本就越高。l根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。l因此,样本量的设计并不是越大越好,通常会受到经济条件的制约。l我们要思考:抽样调查要选取多少样本数才能达到调查目的,又保证成本最低?第七十五页,本课件共有82页l样本容量的概念又称为样本大小、样本规模等,指的是样本中所含单位数量的多少。第七十六页,本课件共有82页在确定样本容量时需要考虑以下因素:l用户对抽样推断的可靠程度和精确度的要求。(置信水平和置信区间)l不同的抽样组
39、织方式。l总体变量值的差异程度第七十七页,本课件共有82页最大样本数的计算l常用的简单随机抽样的最大样本数公式为:lN=Z 2 2/E 2 其中,N 为适合样本数;Z 为调查置信度;为总体标准差;E 为抽样误差范围 l在解决“比例”方面的调查问题时,公式为:N=Z 2 P(1-P)/E 2 其中,N 为适合样本数;Z 为调查置信度;P 为样本的离散程度;E 为抽样误差范围 当p=0.5时,P(1-P)取最大值,此时的N就是最大样本数。N=Z 2/4E 2Z 2 即为统计课本中的置信区间Z(a/2)的平方,E是边界条件。常用z为95(1.96),E为3时,N的取值。N=1.962/4*0.032
40、=1067第七十八页,本课件共有82页容许的抽样误差e(%)样本量n容许的抽样误差e(%)样本量n1.0100005.53201.545006.02772.025006.52372.516007.02043.011007.51783.58168.01564.06258.51384.54949.01235.04009.511010.0100下表是一些常用的样本量 第七十九页,本课件共有82页样本规模总结l统计学通常以30为界,分为大样本或小样本l而社会研究专家认为,社会研究的样本规模至少不能少于100(因为我们要保证每个子类别中都有一数量的个案)一般来说:l小型调查,样本规模在100-300之间l中型调查,样本规模在300-1000之间l大型调查,样本规模在1000-3000之间第八十页,本课件共有82页样本规模总结l探索性研究,样本量一般较小,而描述性研究,就需要较大的样本;l收集有关许多变量的数据,样本量就要大一些;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当更大;如果需要特别详细的分析,如做许多分类等,也需要大样本。针对子样本分析比只限于对总样本分析,所需样本量要大得多;l总体指标的差异化越大,需要的样本量就越高;调研的精度越高,样本量越大。第八十一页,本课件共有82页感谢大家观看第八十二页,本课件共有82页