《《基本抽样问题》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《基本抽样问题》PPT课件.ppt(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 基本抽样问题基本抽样问题Sampling学习目标掌握抽样概念学习开发抽样计划的步骤明确随机样本和非随机样本的区别明确抽样误差和非抽样误差概念复习随机抽样法的类型了解非随机抽样法的类型8.1 重要术语的定义总体与全域在抽样领域,总体(population)和全域(universe)可以互相代替总体或同质总体是指能提供所需信息的人的全体Sampling Fundamentals抽样与普查普查(census)指获取同质总体中每个成员的信息,但在市场调研中并不常用事实证明:一个相对较小、但精心选择的样本能准确地反映出所抽查的总体的特征抽样调查也称为抽查,是指从调研总体中抽选出一部分要素作为样本,对样
2、本进行调查,并根据抽样所得的结果推断总体的一种专门性的调查活动。8.2 开发样本计划的步骤第1步:定义同质总体第2步:选择数据收集方式第3步:选择抽样框第4步:选择抽样方法第5步:确定样本容量第6步:制定选择样本单位的操作程序第7步:抽样计划的实施第1步:定义总体(有时也叫全域)基基础础详详述述地域因素地域因素抽查的地域经常是指顾客活动的范围,可能四一个小城镇、一个大都市、整个国家或者许多国家人口人口统计统计因素因素考虑到调研目标和产品目标市场,哪些人的观点、反应等是至关重要的?哪些才是我们感兴趣的信息来源?使用情况使用情况除上述因素外,同质总体通常还根据产品或服务的使用要求来定义。一般通过一
3、定时间内消费者是否使用和使用频率来描述认认知度知度对于那些注意到公司广告的人,我们希望探究广告所传达的产品或服务信息定义同质总体的基础例如一个新的电视智力游戏节目的观众总体被定义如下:男性或女性年龄:880岁在过去30天里,在他们家里观看过电视智力游戏节目的人。筛选样本:如果家庭成员在电视公司工作第2步:选择数据收集方式第3步:选择抽样框抽样框:总体的数据目录或单位的名单,从中可以抽出样本单位,通常这样的名单不存在,抽样框和同质总体间很少有极好的对应关系电话随机拨号:随意抽取电话号码来产生样本名单在抽样领域,形成一个适当的抽样框是调研者面临的最有挑战性的问题之一数据收集方式对抽样过程有重要影响
4、抽样框的例子电话簿随机选数字:如5783462邮寄名单第4步:选择抽样方法 概率抽样指总体中每个单位都具有同等同等可能性被抽中,样本数据不同于总体数据的差异被称为抽样误差。是对总体中每一个体都给予平等的抽取机会的抽样技术。每个样本抽中或抽不中完全凭机遇,排除了人的主观因素的选择。非概率抽样指从总体中非随机地选择特定的要素(单位),根据简便易行、减少开支的原则选择总体中的某些要素(单位),会导致非随机性。是对总体中每一个个体不具有被平等抽取的机会,而是根据一定主观标准来选取样本的抽样技术。优点缺点概率抽样可获得不同年龄不同层次的人们的信息能估算出抽样误差调研结果可以用来推断总体同样规模的概率抽样
5、费用比非概率抽样高收集数据时间长非概率抽样非概率抽样费用比概率抽样低一般来讲,耗时少如果合理运用非概率抽样,它能产生极具代表性的合理的抽样结果不能估计出抽样误差调研者不知道抽中的单位具有的代表性程度结果不能也不应该推及总体概率抽样与非概率抽样的优缺点比较第5步:确定样本容量对非概率抽样,依靠可得预算、抽选规则、子集量分析来决定样本容量对概率抽样,需要在允许误差的目标水平(抽样结果和总体指标的差异)下和置信水平(置信区间涵盖总体真值的概率,置信区间是样本结果加减允许误差)下,计算样本容量。第6步:制定选择样本单位的操作程序第7步:抽样计划的实施8.3 抽样误差和非抽样误差样本平均数;真正的总体平
6、均数;抽样误差;非抽样误差或测量误差。抽样误差指所选举样本的结果不能完全代表总体而导致的误差非抽样误差指在调研过程中,不准确计算和偏见等原因产生的不同于抽样误差的各种误差随机的抽样误差管理的抽样误差8.4 概率抽样方法简单随机抽样在总体中每个单位在抽选时有相等的被抽中机会。概率公式为:优越性:简单,满足概率抽样的一切必要条件,保证每个总体单位在抽选时都有相等的被抽中机会缺点:访谈费用过高,抽样数量多、覆盖区域大使数据收集过程费时费钱,另外,在实际市场调研中,简单随机抽样往往不是切实可行的例子二汽在调查它的销售人员对公司奖惩方法的意见的调查中,从200个销售人员中选择20个销售员作为样本以获得他
7、们的意见。首先,可以给每个销售员一个号码,如,0199。简单随机抽样乱码表抽签法等距抽样经常作为简单随机抽样的代替物使用优势:经济性,时间更少,费用也低劣势:总体单位的排列,一些总体单位数可能包含隐蔽形态,调研者可能疏忽地把它们带进样本中仍是上例 从200个销售员中选择n=20个,即每10个中抽一个:n 20 1 N 200 10随机从010中选择一个数,=分层抽样1、把总体各单位分成两个或两个以上的相互独立的完全的组2、从两个或两个以上的组中简单随机抽样优点:误差更小,统计更有效率缺点:将样本适当划分层次所需的信息常常是得不到的;即使必要的信息是可得到的,但从所得的信息价 值来看,分层所需的
8、时间和费用不划算具体程序:分层抽样的3个步骤首先,辩明突出的(重要的)人口统计特征和分类特征,这些特征与所研究的行为相关其次,确定每个层次占总体的比例o成成比例分配比例分配:即样本各组比例与总体各层比例等同注:n为样本量,N为总体单位数,I为各组(层)单位数o不成比例分配或最佳分配不成比例分配或最佳分配最后,调研者必须从每层中抽取独立简单随机样本例子研究某小镇上人们对办地方图书馆的看法。研究者估计受过不同教育程度的人的看法可能不一样。这样就根据受教育程度来把该镇上的居民分成几大块。学历数量比例样本数大学以及大学以上250中学1250小学825小学以下175总计2500根据教育程度进行分层随机抽
9、样学历数量比例样本数大学以及大学以上25010中学125050小学82533小学以下1757总计2500100学历数量比例样本数大学以及大学以上2501025中学125050125小学8253382小学以下175718总计2500100250整群抽样1、同质总体被分为相互独立的完全的较小子集2、随机抽选子集构成样本样本是一组单位一组单位地抽取,其步骤为:优点:成本效率高缺点:统计效率低例子要对武汉市的居民进行调查,但很难获得一个武汉市所有住户的名单。如果研究者要使用概率抽样的话,就有必要使用分群抽样。把武汉分成若干个区域,比如100个生活区,然后用随机抽样方法选出10个区来进行调查,选出这10
10、个区的所以居户的名单,再从中使用概率抽样决定要调查的住户的样本。举例说明例如,在某市进行一项居民消费情况调查。(一)地图块 地图块指在正式出版的行政区划地图上,将地图上的面积按一定标准划分为若干个地图块,每一地图块作为一基本的抽单位,样框总体即为地图块的总和。1分类:根据划分标准不同,主要分为网格块和街道地块。网格块 街道地块 8.5 非概率抽样便利抽样适用在缺乏经验而又急需真实数据的近似值时比如,要对某大学的学生进行调查,研究者可以在学生食堂、校园路口选择要询问的学生。适用于调研员基于选择标准抽取典型样本的情形。某大商场想要新增加一种食品,但经理首先想知道顾客对这种食品的反应。经理首先判断这
11、种查品可能最适合独生子女家庭使用。他知道这些家庭通常回结伴上街购物,一般是在星期天。这样,经理就通过这些判断来从顾客中选择要询问的对象。判断抽样 根据一定标志对总体分层或分类后,从各层或各类中主观地选取一定比例的调查单位的方法配额抽样例子要调查100个家庭的主人对城市住户规划的意见。研究者可以将研究总体在收入的基础上进行分类。设家庭收入比例样本数1500元以下28%281500300059%593000以上13%13总计100100滚雪球抽样指通过使用初始被调查者的推荐来挑选另外的被调查者的抽样程序。比如:某保险公司可能想得到在过去6个月中从健康保险转如康复组织的全国性个体样本,为了找到符合条
12、件的1000个样本,可能需要在全国范围内进行大量的调查。可先取得特征总体中200个最初样本单位,平均每个最初调查者那里得到另外4个人的名单。由此,来完成1000个样本。因特网抽样1、在线的人群仍然不能代表总体;2、不存在一 个可作为抽样框的包括所有的EMAIL地址的中心数据库,因此,目前还不能说任何一种网上的抽样都是典型的概率抽样发展存在的两个问题:抽样方法分类抽样方法概率抽样非概率抽样分层抽样等距抽样便利抽样滚雪球方法整群抽样简单随机抽样判断抽样配额抽样8.6 样本容量的确定样本容量的确定学习目标了解样本容量确定过程中的财务和统计问题寻求确定样本容量的地方理解正态分布理解总体、样本及抽样分布
13、区分点估计和区间估计认识抽样平均值和抽样比例问题8.6.1 确定概率抽样的样本容量财务、统计和管理问题财务、统计和管理问题利用抽样结果做必要推断时需要的3条信息:可支配预算可支配预算单凭经验的做法单凭经验的做法要分析的子群数要分析的子群数传统的统计方法传统的统计方法总体标准差的估计值可接受的抽样误差范围抽样结果落入总体实际值的某一特定范围(抽样结果抽样误差)内的预期置信度8.6.2 正态分布总体特征正态分布呈钟型且只有一个众数正态分布相对于平均值对称一个具体的正态分布由其平均值和标准差唯一决定正态分布曲线下方的总面积等于1正态分布曲线下方任意两个变量之间的区域的面积,等于从该分布中随机抽取一个
14、观察对象,其值在这两个变量值之间范围内的概率正态分布在其平均值给定个数的标准差之间区域的面积都相同标准正态分布平均值为0,标准差为1任意正态分布的任一变量值X通过一个简单的转换公式就能变换成相应标准正态分布中的Z值用符号表示式中 总体分布、样本分布和抽样分布总体分布总体分布:是总体中所有单位的频率分布样本分布样本分布:是单个样本中所有单位的频率分布样本平均值的抽样分布样本平均值的抽样分布:指从一个特定总体中抽取的给定容量的所有可能样本的平均值,一个概念上和理论上的概率分布,它是一个正态分布分布平均值标准差总体样本抽样平均值的抽样分布主要特征是正态分布分布的平均值等于总体平均值分布的标准差,称为
15、平均值的标准误差将该统计量称做“平均值的标准误差”而不是标准差,它适用于样本平均值的分布,而不是总体分布或样本分布的标准差,且这种计算只适合简单随即样本根据单个样本做出推断点估计点估计:是对与一总体值的某一特定估计值有关的抽样误差的推断区间估计区间估计:是对总体值落在某范围内的可能性的推断点估计和区间估计置信度或置信系数置信度或置信系数:总体平均值的实际值在区间范围内的概率,区间则被称为置信区间置信区间平均值的区间估计平均值的区间估计8.6.5 比例抽样分布主要特征近似于正态分布所有可能的样本的比例的平均值等于总体比例比例的抽样分布的标准误差可以按下面公式计算:式中8.6.6 样本容量的确定关
16、于平均值问题计算所需样本容量的公式:式子计算样本容量必需回答的3个问题可接受的或允许的抽样误差的具体范围(E)是多少?以标准误差表示的可接受的置信度(Z)是多少?所需的总体标准差()的估计值是多少?估计总体标准差的4种方法v利用以前的调查结果v进行试验性调查v利用二手资料v运用判断关于比例问题计算所需样本容量的公式:式子例子某城市一所大学有学生5000人,该大学计划从城里募集一些资金来扩建一个教学项目。理由之一是向城里人人,特别是商人有教大的经济利益。作为这个研究的一部分,要从学生中抽样调查他们在该城市的月花费。这个结果用来估计整个学生整体的花费。如果要求在95%的置信度下,学生的置信区间为所
17、有学生真实平均花费的+-2元范围,决定S的一个可行方法是进行一个小样本的调查(n=30),使用这个样本的标准方差作为S。假设S=13.5元。An ExampleSuppose a researcher is interested in estimating the proportion of families in the United States owning birds as pets.Although the researcher has learned from industry sources that one out of every five families owns a b
18、ird,the researcher believes it is necessary to sample families.As part of the sampling process,an appropriate sample size must be determined.If the researcher wants to employ a confidence coefficient of 0.90 and be certain the sample estimate will lie within 4 percent of the population proportion,gi
19、ven the study procedures to be employed,then the sample size required(assuming a simple random sample)can be approximated in the following manner.Ifapproximate sample size(since 1-=0.90,=0.10 and/2=0.05,so that t=1.65 from Statistical Appendix Table 4)(Since p=0.20 and 0.20(0.80)is an estimate of va
20、riance)(0.042)or 272then Thus,the researcher uses a sample size of 272总体容量和样本容量通常,总体容量与为在一定误差范围内和一定置信度下估计总体参数所需的样本容量之间没有直接的关系样本容量占总体5%以下时平均值的标准误差公式:样本容量占总体5%及以上时平均值的标准误差公式:其中,(N-n)/(N-1)被称为有限总体修正系数当样本较大时,调研人员可以通过有限总体修正系数来适当地减少所需的样本容量,通过运用下面公式来计算:式中8.6.7 统计功效第第I类错误类错误:不存在差异时推断差异存在而产生的错误第第II类错误类错误:当实际存在差异时认为没有差异而产生的错误统计功效统计功效:不发生第II类错误的概率计算样本容量的标准公式默认统计功效为50%FINISHED!