《第二章抽样方法.pptx》由会员分享,可在线阅读,更多相关《第二章抽样方法.pptx(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第二章 抽样方法第一节 抽样设计的基本知识第二节 随机抽样技术第三节 非随机抽样技术第四节 样本容量的确定 第一节第一节 抽样设计的基本知识抽样设计的基本知识案例:1、1936年,兰登总统当选2、1948年,杜鲁们总统当选3、1996年, 美国总统大选问题:例1:某灯泡厂生产的灯泡10000只,怎样才能了解这批灯泡的使用寿命呢?例2:为了了解参加某种知识竞赛的1000名学生的成绩,应采用什么样的抽样方法恰当?例3:一个单位的职工500人,其中不到35岁的有125人,35到49岁的有280人,50岁以上的有95人。为了了解这个单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本。
2、由于职工年龄与这项指标有关,试问:应用什么方法抽取?能在500人中任意取100个吗?能将100个份额均分到这三部分中吗?一、抽样的基本术语一、抽样的基本术语抽样:是通过抽取总体中的部分单元,收集这些单元的信息,运用数理统计的原理和方法,对总体进行推断的一种手段。抽取样本总体推断总体样本1、总体与样本、总体与样本。总体是指研究对象的全体,它是由研究对象中的单元组成的。总体中单元的数目称作总体容量。样本样本是从总体中按照一定方式抽取出的一部分元素的集合。抽样比抽样比:指样本量 n 与总体的容量N的比例2、个体与抽样单位、个体与抽样单位:个体是收集信息的基本单位,即分析单位。个体可以是人,也可以是家
3、庭、组织、社区等,也可以是文化产物,例如文章、杂志、歌曲、词汇等。抽样单位是一次直接的抽样所使用的基本单位。二者比较:A:个体与抽样单位在有些研究中是相同的,有时又是不同的。(与选用的抽样方法有关)例如:从某省总数为12.8万人的大学生总体中,按一定方式抽取1000名大学生进行调查,单个的大学生既是构成某省12.8万名大学生的个体(也就是我们所要分析的对象),又是我们从总体中一次直接抽取1000名大学生的样本时所用的抽样单位。但是,当我们从这一总体中一次直接抽取出40个班级,而以这40个班级中的全部学生(假定正好1000名)作为我们的样本时,抽样单位(班级)与个体(学生)就不是一样的了。B:在
4、实际抽样中,抽样单位往往是多层次的。例如:上面的例子,要抽取1000名学生,可先抽取若干学校,然后从这些学校样本中抽取若干班级,最后从班级样本中抽取学生样本。这时抽样单位是学校、班级、学生三种,分别称为初级抽样单位、次级抽样单位和终极抽样单位。3、抽样框抽样框又称抽样范围,它是指一次直接抽样时总体中所有抽样单位的名单。在一次抽样中,抽样框的数目是与抽样单位的层次相对应的。上面的例子中有三个层次的抽样单位:学校、班级、学生,则对应的抽样框也应有三个抽样框也应有三个:全部学校的名单、抽取的学校样本中的全部班级的名单、抽取班级中的所有学生的名单。4、参数值与统计值:参数值也称总体值,它是关于总体中某
5、一变量的综合描述,或者说是总体中所有个体的某种特征的综合数量表现。在统计中最常见的总体值是某一变量的平均值例如:平均年龄、平均收入等。总体值只有通过对总体中的每一个个体都进行调查或测量才能得到。 统计值统计值也称样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有个体的某种特征的综合数量表现。样本值是从样本的所有个体中计算出来的,它是相应的总体值的估计量。抽样的目的之一,就是通过这些样本值去估计和推断各种总体值。抽样设计的目标,就是尽可能使所抽取的样本的估计量接近总体的参数值。5、抽样误差:总体的异质性和样本与总体范围的差异性,在用样本的统计值去推算总体的参数值时总会有偏差,这种偏差就
6、是抽样误差。它是样本代表性大小的一个标准。当总体相当大时,可能被抽取的样本非常多,不可能列出所有的实际抽样误差,而用平均抽样误差来表征各样本实际抽样误差的平均水平。抽样误差是指样本指标值与被推断的总体指标值之差。主要包括:样本平均数与总体平均数之差;样本成数与总体成数之差。抽样误差的来源:1、登记性误差;2、代表性误差:A、系统性误差;B、偶然性误差,抽样误差特指偶然性误差。 影响抽样误差的因素:抽样单位数的多少,总体中被研究标志的变动程度的大小。6、置信水平与置信区间:置信水平置信水平是指总体参数值落在样本统计值某一正负区间的概率。置信区间置信区间是指某一置信水平下,样本统计值与总体参数值的
7、误差范围。在样本量相同的情况下,置信水平越高,置信区间越宽。在置信区间不变的情况下,样本量越多,置信水平越高 例:美国Gallup(盖洛普)公司就消费者对美国产品质量的看法,对美国、德国和日本三国共计3,500名消费者(每个国家约1,200名)分别进行了调查,调查结果:有55%的美国人认为美国产品质量好,而只有26%的德国人和17%的日本人持同样看法。抽样误差为3,置信水平为95。则这三个国家消费者的置信区间分别为: 国别 样本均值 抽样误差 置信 区 间 美国 55% 3% 5258 德国 26% 3 2329 日本 17% 3 1420二、抽样的基本程序二、抽样的基本程序1界定总体界定总体
8、就是在具体抽样前,明确从中抽取样本的总体的范围与界限。 2决定抽样方法各种不同的抽样方法都有自身的特点和适用范围。因此,我们在具体实施抽样之前,应依据调查研究的目的、界定的总体范围、要求确定样本的规模和要求量化的精确程度来决定具体采用哪种抽样方法。3设计抽样方案 4制定抽样框制定抽样框就是依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并统一编号。 5实际抽取样本实际抽取样本就是在上述几个步骤的基础上,严格按照所选定的抽样方法,从抽样框中抽取一个个的抽样单位,构成样本。6样本评估 样本评估就是对样本的质量和代表性进行检验,其目的是防止因样本的偏差过大而导致的失误。 三、抽样的原则1、
9、目的性原则。目的性原则是指在进行抽样方案设计时,要以课题研究的总体方案和研究的目标为依据。以研究的问题为出发点,从最有利于研究资料的获取,以及最符合研究的目的等因素来考虑抽样方案和抽样方法的设计。2、可测性原则。可测性原则指的是抽样设计能够从样本自身计算出有效的估计或者抽样变动的近似值。在研究中通常用标准误来表示。通常,只有概率样本在客观上才是可测的,即概率样本可以计算出有效的估计值或抽样变动的近似值。但是,概率抽样也并不自动保证可测性。比如,从一个具有周期性变化的总体中选出一个系统样本,就不能保证这种可测性。3、可行性原则。可行性原则是指研究者所设计的抽样发难必须在时间上切实可行。它意味着研
10、究者所设计的方案能够预料实际抽样过程中所可能出现的各种问题,并设计了处理这些问题的方法。4、经济性原则。经济性原则主要指的是抽样方案的设计要与研究的可得资源相适应。这种资源主要包括研究的经费、时间、人力等。目标性原则和可行性原则是首要的。抽样设计要服务于研究的目标,这是设计的出发点和基本目的。而可行性原则是设计方案得意实现的前提和保证。而可测性原则和经济性原则在一定程度上是相矛盾的。当为了减少误差增加样本的容量时,又同时意味着要增加抽样所需的资源。四、抽样的类型四、抽样的类型 简单随机抽样 分层抽样 随机抽样 系统抽样 (等概率抽样) 整群抽样 多段抽样抽样方法 偶遇抽样 立意抽样 非随机抽样
11、 配额抽样 (不等概率抽样) 雪球抽样 第二节 随机抽样技术一、简单随机抽样一、简单随机抽样定义:简单随机抽样又称纯随机抽样,是指在特定总体的所有单位N中,不加条件随机抽取n个单元为样本,每个单元都有同样的概率被抽中的抽样方法。总体总量和总体均值NiiYY1NiiyNNYY11简单随机抽样分为重复抽样和不重复抽样两类。常用的简单随机抽样方法:直接抽样法、抽签法和随机数表法。直接抽样法、抽签法适用于总体规模稍小的抽样;随机数表法是用随机数表来抽样的方法,适用于总体规模稍大的抽样。 具体步骤: (1)先取得一份总体所有元素的名单(即抽样框);(2)将总体中所有元素一一按顺序编号;(3)根据总体规模
12、是几位数来确定从随机数表中选几位数码;(4)以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;(5)根据样本规模的要求选出足够的数码个数;(6)依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。例如:N=528,即总体中有528个个体,我们从中选10个样本。解:首先在表中随机抽取三列,然后按照一定的顺序选出10个从001到528之间不同的数。例2:要考察某公司生产的500克袋装牛奶的质量知否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本,如果从随机数表第8行第7列的数开始向右读,请你依次写出最先检验的5袋牛奶的的编号为? 解:先将800袋牛奶按000,0
13、01,799进行编号。下面摘取随机数表的第7行至第9行: 第7行:84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76第8行:63 01 63 78 59 16 95 56 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79第9行:33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54第8行第7列为“7”,因为是用三位数编号(XXX),所以取3个数,既第一个
14、被取出的编号为“785”,第二个取出“916”,因为916大于799,所以舍去,再往后取,955,也舍去;667,199,810(舍去),507,175 所以最先检验的5袋牛乃编号为:785,667,199,507,175 简单随机抽样的特点 :优点:没有人为因素的干扰,简单易行,是概率抽样的理想类型。局限性:1、在总体同质性较高时,用来比较准确有效,但在总体异质性较高时,则不一定效果好。这是因为当构成总体的个体差异较大时,用简单随机抽样方法抽出的样本由于在总体中的分布不一定均匀,所以很可能误差较大,不能很好地说明总体的性质和特征。2、当总体所含个体数目太多时,采用这种抽样方式不仅费时、费力、
15、费钱,而且很难操作。二、分层抽样二、分层抽样定义:在抽样之前将总体分为同质的、互不重叠的若干子总体,也称为层。然后在每一个层独立地随机抽取样本。分层抽样示意图按照确定分层样本数量的不同方式,分层抽样分为比例分层抽样和非比例分层抽样两种。1、比例分类抽样是指分类样本在总体样本中所占比例与该类所有单位在总体中所占比例相同;2、非比例分配法。当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。但这样做会增加推论的复杂性。优点:1、分类抽样能够克服简单随机抽样的缺点,适用于总体内个体数目较多,结构较复杂,内部差异较大的情况。
16、2、精确度较高。3、便于对不同层面的问题进行探索。4、便于分工,使工作效率提高。缺点:如何分类通常由人们主观判定,因此要求调查者具备较高的素质与能力,并且必须事先对总体各单位的情况有较多的了解,而它们在实际工作中有时难以完全实现,这就会影响分类的科学性和精确性。 三、系统抽样三、系统抽样1、定义:又称等距抽样或机械抽样,对研究的总体按一定的顺序排列,每隔一定的间隔抽取一个单元的抽样方法。 其做法是先编制抽样框,将总体的所有单位都按一定标志排列编号;再用总体的单位数除以样本的单位数,求得抽样间距;然后,在第一个抽样间距内随机抽出第一个样本单位,作为抽样的起点;接着,按照抽样间距依次抽取样本单位,
17、直到抽足样本的单位数为止。抽选方法:设总体单元数为N,要抽n个单元为样本,先计算抽样间隔k=N/n,在1到k之间抽取一个随机起点r,则被抽中单元的顺序位置是:r,r+k,r+2k,。当N不能被n整除时,采用圆形系统抽样方法。2、系统抽样的优点(1)没有抽样框时可代替简单随机抽样方法简单;(2)不需要辅助的抽样框信息;(3)样本的分布比较好;估计值容易计算。 3、系统抽样的缺点 (1)若抽样间隔与总体的某种周期性变化一致,会得一个差的样本;(2)不使用辅助信息使抽样效率不高;(3)使用概念框时,不能预先知道样本量;(4)没有一个无偏的方差估计量;(5)当N不能被n整除时会得到样本量不同的样本。
18、我们国家的国家统计局的调查多采用系统抽样,它便于操作例:从600名大学生中抽选50名大学生进行调查,可以利用学校现有名册按顺序编号排序,从第001号编至600号。 抽选距离 N/n 600/50 12(人) 如从第一个12人中用简单随机抽样方式,抽取第一个样本单位,如抽到的是8号,依次抽出的是20号,32号,44号等。 四、整群抽样四、整群抽样定义:整群抽样又称聚类抽样或集体抽样,是将总体按照某种标准划分为一些群体,每一个群体为一个抽样单位,再用随机的方法从这些群体中抽取若干群体,并将所抽出群体中的所有个体集合为总体的样本。 整群抽样示意图:黄色为总体红色为群白点为基本单元整群抽样的优点: (
19、1)能大大减低收集数据的费用;(2)当总体单元自然形成的群时,容易取得抽样框,抽样也更容易;(3)当群内单元差异大,而不同群之间的差异小时,可以提高效率。缺点: (1)若群内个单元有趋同性,效率将会降低;( 2)通常无法预先知道总样本量,因为不知道群内有多少单元;(3)方差估计比简单随机抽样更为复杂可以综合利用分层和整群抽样技术,采取分层整群抽样,比如人体尺寸调查,采用分层提高样本代表性,采用整群抽样,便于数据的收集。五、多阶抽样五、多阶抽样定义:多阶段抽样又称多级抽样或分段抽样,就是把从总体中抽取样本的过程分成两个或多个阶段进行的抽样方法。多阶抽样示意图:总体第一阶样本最终样本多阶段抽样是在
20、总体内个体单位数量较大,而彼此间的差异不太大时,先将总体各单位按一定标志分成若干群体,作为抽样的第1阶段单位,并依照随机原则,从中抽出若干群体作为第1阶段样本;然后将第1阶段样本又分成若干小群体,作为抽样的第2阶段单位,从中抽出若干群体作为第2阶段样本,依此类推,可以有第3阶段、第4阶段直到满足需要为止。最末阶段抽出的样本单位的集合,就是最终形成的总体样本。如对某乡镇20000人要抽取500人的抽样可分为三段进行: A、某县25个乡抽取10个乡 B、从10个乡中抽取15个村 C、从15个村中抽取500人。整个过程的各段抽样,都可采取简单的或分层的抽样法。该例具体的过程中有三段,则可称为三段抽样
21、。具体分段可根据实际进行。这种方法,在大规模调查时非用它不可。但由于每段抽样都会有误差,经过多段抽样,最后抽出来的样本误差就会比较大,这是多段抽样的缺点。 优点: (1)当群具有同质性时,多阶抽样的效率高于整群抽样;(2)样本的分布比简单随机抽样集中,采用面访可以节约时间和费用;(3)不需要整个总体单元的名录框,只要群的名录框和抽中群的单元名录框。缺点: (1)效率不如简单随机抽样;(2)通常不能提前知道最终的样本量;(3)调查的组织较整群抽样复杂;(4)估计值与抽样方差的计算较为复杂。例题1:为检测某种产品的质量,抽取了一个容量为30的样本,检测结果为一级品5件,二级品8件,三级品13件,次
22、品4件。(1)样本的频率分布表;(2)画出表示样本频率分布的条形图。(3)根据上述结果,估计此产品为二级品或三级品的概率约是多少?解:(1)样品的频率分布表为:产 品频 数频 率一 级 品 5 0.17 二 级 品 8 0.27 三 级 品 13 0.43 次 品 4 0.13 (2)样品频率分布的条形图:(3)此产品为二级品或三级品的概率约为0.27+0.43=0.7。例2:为了了解参加某种知识竞赛的1000名学生的成绩,应采用什么样的抽样方法恰当?解:适宜选用系统抽样,抽样过程如下:(1)随机将这1000名学生编号为1,2,3,1000(比如可以利用准考证号)。(2)将总体按编号顺序平均分
23、成50部分,每部分包含20个个体。(3)在第一部分的个体编号1,2,20中,利用简单随机抽样抽取一个号码,比如是18。(4)以18为起始号,每间隔20抽取一个号码,这样就得到一个容量为50的样本:18,38,58,978,998。讨论:(1)问:在系统抽样中,每个个体被抽中的概率是否一样?(2)如果个体总数不能被样本容量整除时的处理方法是什么?先从总体中随机地剔除余数(可用随机数表),再按系统抽样方法往下进行。(每个被抽到的概率是否一样?)例3:为了通过50个同学的成绩了解参加某种知识竞赛的1003名学生的成绩,应采用什么样的抽样方法恰当?解:(1)随机将这1003个个体进行编号1,2,3,1
24、003。(2)利用简单随机抽样,先从总体中剔除3个个体(可以随机数表法),剩下的个体数1000通通被50整除,然后按系统抽样的方法进行。讨论:总体中的每个个体被剔除的概率是相等的( ),也就是每个个体不被剔除的概率相等 ( )采用系统抽样时每个个体被抽取的概率都是( ),所以在整个抽样过程中每个个体被抽取的概率仍相等,都是:310031000100350100010005050100310001003例4 :某单位有老年人28 人,中年人54人,青年人81人,为了调查他们的身体状况的某项指标,需从他们中间抽取一个容量为36样本,适合的抽取样本的方法是 ( ) A. 简单的随机抽样 B. 系统抽
25、样 C. 先从老年中排除一人,再用分层抽样 D.分层抽样练习:1、某学校现有职工140人,其中教师91人,教辅行政人员28人,总务后勤人员21人。为了了解职工的某种情况,要从中抽取一个容量为20的样本,试用简单随机抽样、系统抽样、分层抽样分别叙述抽取的方法。2、一个工厂有若干个车间,今采用分层抽样的方法从全厂某天的2048件新产品中抽取一个容量为128的样本进行质量检查。若一车间这一天生产256产品,则从该车间抽取的产品数是多少?3、某商业银行准备开展储户投资意向调查,然而其客户总数多达20万,无法一一进行访问, 试设计一份抽样方案,以便抽出合适的样本群体,进行调查。 第三节 非随机抽样技术
26、非随机抽样又称为不等概率抽样或主观抽样,就是调查者根据自己的方便或主观判断抽取样本的方法。它不是严格按随机抽样原则来抽取样本,所以失去了大数定律的存在基础,也就无法确定抽样误差,无法正确地说明样本的统计值在多大程度上适合于总体。虽然根据样本调查的结果也可在一定程度上说明总体的性质、特征,但不能从数量上推断总体。 一、偶遇抽样一、偶遇抽样 偶遇抽样又叫自然抽样、方便抽样或便利抽样,是调查者将在一定时间、一定环境里所能遇见到或接触到的人作为样本的方法。具体说就是调查者根据自己的方便,任意抽取偶然遇到的人或者选择那些离自己最近的、最容易找到的人作为样本。二、目标抽样二、目标抽样目标抽样又叫判断抽样或
27、立意抽样,是调查者根据研究的目标和自己主观的分析,来选择和确定样本的方法。它又可分为印象判断抽样和经验判断抽样两种。三、配额抽样三、配额抽样配额抽样又叫定额抽样,是先根据总体各个组成部分所包含的抽样单位的比例分配样本数额,然后由调查者在各个组成部分内根据配额的多少采用主观的抽样方法抽取样本。定额抽样与概率抽样中的分类抽样、整群抽样都是依据某些特征对总体进行分类,但配额抽样注重的是样本与总体在结构比例上的表面一致性而不是本质特征上的内部一致性。所以往往照顾不到总体单位之间的差异性。对于那些单位众多、错综复杂、情况不断更新的调查总体而言,配额抽样的样本很可能出现较大的误差,因此,根据定额抽样样本调
28、查的结果是不能推论较大总体的,即使在较小的调查研究中,要用定额抽样调查的结果推论总体,也应谨慎从事。它一般不是用于说明总体状况,而是用于检验理论、说明关系、比较不同等。四、滚雪球抽样四、滚雪球抽样滚雪球是一种形象比喻的说法,它是指先找少量的、甚至个别的调查对象进行访问,然后通过他们再去寻找新的调查对象,依次类推,就像滚雪球一样越来越大,直至达到调查目的为止。滚雪球抽样适用于总体的个体信息不充分或难以获得,不能使用其它抽样方法抽取样本的调查研究。滚雪球抽样用于某一特殊群体的调查往往可以收到奇效。但是,当总体规模较大时,有许多个体就无法找到;有时调查对象会出于某种考虑故意漏掉一些重要个体,这都可能
29、导致抽样样本产生误差,无法正确反映总体状况。非概率抽样不是按照概率均等的原则,而是根据人们的主观经验和便利条件来抽取样本,每个个体进入样本的概率是未知的,无法说明样本是否重现了总体的结构,所以,其样本的代表性往往较小,误差有时相当大并且无法估计,用这样的样本推论总体是不可靠的。优势:1、在很多情况下,严格的随机抽样无法进行或没有必要,例如,在人流涌动的车站、商店、广场、街道等许多场合,不允许调查者从容地随机抽样;对诸如吸毒者之类的特殊社会群体无法确定调查总体,也就无法随机抽取样本;有时调查的目的只是要对总体作最一般的了解和接触或做某些片面的研究,没必要采用随机抽样;由于调查者的时间,人力,物力
30、不足,无力进行随机抽样,等等。在这些情况下,就只能采用非概率抽样。2、随机抽样为了保证概率原则,对抽样的操作过程要求严格,实施起来比较麻烦,费时费财费力,而非概率抽样操作便捷,省钱省时省力,统计上也远较概率抽样简单,因此如果调查的目的允许,而且调查者对调查总体有较好的了解,那么采用非概率抽样就不失为一种更好的选择。 简单随机抽样中推论总体均值的样本规模计算公式(1)是:n=(t22)/e2,其中,t为置信度所对应的临界值,为总体的标准差,e为抽样误差。推论总体成数(或百分比)的样本规模计算公式(2)为:n=t2(1)/e2其中为总体的成数或百分比,t为置信度所对应的临界值,e为抽样误差。 第四
31、节 样本容量的确定 通常选择样本容量的方法是首先规定所需要的精度,然后确定满足精度的最小的样本容量。这里,精度涉及近似置信区间的大小,较小的置信区间可以提供较高的精度。因此,近似置信区间的大小依赖于允许误差B,即选择精度水平相当于选择B的值。一、估计总体均值时,选择所必需的样本容量的方法。 均值的标准误差的估计公式,即: 例:例: 某大学有5 000名毕业生,欲对他们的年薪情况进行调查,我们想构造宽度在1000美元之内的近似95的置信区间。对这样规定的置信区间,B500。假设根据去年所做的同样研究,得知s3 000美元。我们可以用这个值来估计 。 试计算该调查应采用的样本容量。 解解根据B=5
32、00、 s3 000 及N5 000,根据式(7-12),则样本容量为 :简单随机抽样中推论总体均值的样本规模计算公式是:n=(t22)/e2,其中,t为置信度所对应的临界值,为总体的标准差,e为抽样误差。 二、推论总体成数(或百分比)的样本规模计算公式:n=t2(1)/e2其中为总体的成数或百分比,t为置信度所对应的临界值,e为抽样误差。例1、某学校准备采用抽样调查了解学生每周用于文体活动的时间。置信度为0.9,允许误差在1小时之内,求所需要的样本容量。标准差为5。 根据题意,采用公式(1)n=(t22)/e2, 1=0.9 所以t =1.65 已知=5(小时),所以1 n=t22/2=(1
33、.65)2(5)2/1=68(人)例2、电视台为了解戏曲节目的收看率,拟进行一次抽样调查。根据50户的试调查,收看率为68%。现要求抽样调查的结果,误差不超过5%,置信度为0.95,求所需要样本容量? 根据题意,本题采用成数样本容量成数样本容量公式 n=t2(1)/ 2 因1=0.9所以t =1.96 已知p=0.68(根据试调查)=0.05 n=t2(1)/ 2=(1.95) 20.68(1- 0.68)/(0.05)2334(户)在上述计算公式中,由于置信度是事先确定的,所以其临界值t可从标准正态分布表中查出,e也是研究者根据需要先确定的,但总体的标准差、成数或百分比却往往是难以得到的(它
34、们通常是研究所需要求的)。因此,在实际抽样过程中,研究者往往无法直接运用上述公式计算所需的样本规模,而只能采取某种变通的办法。比如,利用前人所作的关于同一总体的普查或抽样调查资料,来计算或估计总体方差,由此得出推论总体均值的样本规模。在计算推论总体成数(或百分比)的样本规模时,我们注意到(1-)在=0.5时达到最大值,因此,即使我们对一无所知,也可以采取比较保险的办法,取=0.5,这样(1-)=0.25=1/4,上式变为n=t2/4e2。它可以保证样本规模足够大。抽样误差就是样本统计值与总体参数值之间存在的偏差。它是由于抽样本身的随机性所引起的误差。无论采取什么样的抽样方式,这种误差都是不可避
35、免的。注意:(1)由于对于较小的样本来说,样本规模上的很小的一点增加,便会带来精确性方面很明显的增加。(2)对于较大的样本来说,同样增加相同的个案,却收效甚微。决定样本容量大小的因素有以下三点决定样本容量大小的因素有以下三点:(1) 受总体方差数值大小的影响.总体方差大,抽样误差大,则样本容量应大一些,反之,则可少抽一些.(方差反映了数据的变异或离散程度,即数据偏离平均数的程度,方差越大表示数据离散程度越大;) (2) 可靠性程度的高低.要求可靠性越高,所必需的样本容量就越大;(3) 允许误差的大小.若要求推断比较精确,允许误差应该低一些,随之抽取的样本容量也要求多一些.反之,若允许的误差可以大一些,样本容量也可以少一些.(4) 抽样的方法和组织形式