《第五章抽样与抽样估计.ppt》由会员分享,可在线阅读,更多相关《第五章抽样与抽样估计.ppt(34页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五章抽样与抽样估计现在学习的是第1页,共34页2023/4/715.1 抽样调查中的基本概念q总体(population)与样本(sample)1.总体与参数总体是根据一定统计目的所确定的同类事物的全体,是所要说明其数量特征的研究统计研究对象(objects)。构成总体的每个个别事物(或基本单元element)称为一个总体单位,也称个体(individual)。一个总体中包含的总体单位的个数,称为总体的容量,一般用N表示。存在有限总体和无限总体之分。现在学习的是第2页,共34页说出以下问题的总体和总体单位:(1)研究某部门职工收入的水平?(2)对某厂某月生产的电视机进行质量检查?(3)研究某
2、地区农村居民家庭的生活水平?(4)研究“十五大”以来宁波市居民家庭生活条件发生的变化?(5)测定一个物件的精确重量?检查某种新型纱线的拉力强度?现在学习的是第3页,共34页总体某一方面数量特征(称为总体的一个指标)的数值虽然是客观存在的确定的常数,但又是未知的,因此也称为总体参数(parameter)。比如:职工总体可以从不同的方面进行认识,总平均工资,工资的总标准差,不同学历层次的工资水平及其差异程度,所占的比例,工资总量等。总体的数量特征是对个体的数量特征或属性特征进行计数、加总或运算的结果。如总量、平均量、比例数、方差或标准差等是常用的总体参数。现在学习的是第4页,共34页2.样本与统计
3、量总体的一部分,或者从总体中抽取的部分单位所构成的整体,称为总体的一个样本(sample)。样本中包含的总体单位数称为样本容量,常用n表示。有大样本和小样本之说。样本是不确定的。根据样本资料确定的数量指标,称为统计量(statistic),或者说统计量是样本资料的函数(不含有未知数)。现在学习的是第5页,共34页q 概率抽样和非概率抽样概率抽样(probability sampling)也叫随机抽样(random sampling),即抽样时遵循随机原则。基本的组织方式有:简单随机抽样、分层(stratified)随机抽样、系统(systematic)随机抽样、整群(cluster)随机抽样。
4、避免系统误差,统计推断时可以计算和控制抽样误差。非概率抽样:根据经验或需要,主观选取若干总体单位构成样本。现在学习的是第6页,共34页q 抽样误差统计调查误差:调查结果与真实值间的差异。按来源有登记性误差和代表性误差之分。登记误差:观察、登记、测量、计算等引起。可存在于一切调查中。代表性误差:用样本资料对总体特征进行推断时所引起的。有系统误差(非随机因素引起)和随机误差(随机因素引起)之分。随机误差是抽样调查所特有的。抽样估计中的抽样误差就是指由于抽样的随机性而产生的估计量与被估计的总体参数之间的代表性误差。现在学习的是第7页,共34页由于总体参数的未知性,某次具体抽样结果的实际抽样误差是无法
5、计算的。但由于对确定的总体和确定的抽样方案,估计量的取值存在一定的分布规律,因此可以从所有可能的样本来考察抽样误差。抽样平均误差则是反映确定的抽样方案下所有可能抽样实际误差绝对值的一般水平的统计指标。对于无偏估计量,抽样平均误差定义为估计量的标准差。他是可以计算的。在一定的概率保证程度下,抽样实际误差的可能取值的允许范围(称为抽样极限误差)也是可以计算和控制的。抽样误差率(极限误差/估计量)与抽样精度的概念。现在学习的是第8页,共34页5.2 常用的抽样分布现在学习的是第9页,共34页1.2 分布N=7N=11概率N为自由度现在学习的是第10页,共34页2.t分布概率密度x标准正态分布t-分布
6、0现在学习的是第11页,共34页3.F分布x概率密度现在学习的是第12页,共34页4.正态分布的有关性质现在学习的是第13页,共34页现在学习的是第14页,共34页现在学习的是第15页,共34页现在学习的是第16页,共34页5.样本比例数的抽样分布总体中具有某种特征的个体数占总体单位总数的比例称作总体比例,记作P。样本中具有某种特征的单位占全部样本单位的比例称作样本比例,记作p。如:民众对某项政策的支持率为P。随机选择n个人询问他们是否支持某政策,结果有m个回答支持,则p=m/n为样本支持率。采用重复抽样时,mB(n,P),E(m)=nP,D(m)=nP(1-P)。因此E(p)=P,D(p)=
7、P(1-P)/n。如果采用不重复抽样,则mHG(n,NP,N),E(m)=nP,D(m)=nP(1-P)(N-n)/(N-1)。因此E(p)=P,D(p)=P(1-P)/n (N-n)/(N-1)。现在学习的是第17页,共34页6.影响抽样误差的主要因素抽样平均误差 重复抽样 不重复抽样 样本平均数 样本比例数主要因素:总体方差或标准差;样本容量;抽样方法或抽样组织方式。现在学习的是第18页,共34页证明:现在学习的是第19页,共34页5.3 抽样估计的基本方法 矩法最大似然法*最小二乘法*最小卡平方法总体分布未知正态总体一般总体(大样)已知方差方差未知一般总体(大样)正态总体估计数学期望单个
8、总体两个总体*估计方差(小样本下,正态总体)点估计区间估计现在学习的是第20页,共34页一、点估计定义:点估计(point estimate)也叫定值估计,直接以一个样本估计量的观察值作为参数的估计值。常用方法:矩估计法,极大似然估计法。评价标准:对总体的数量特征可以提出若干估计量。所谓估计量的评价标准指的是衡量一个统计量用以估计总体参数的优劣标准。我们构造一个统计量时,它们就应当具有这些优良性,否则就不采用他来估计总体参数。1.无偏性;2.有效性;3.一致性现在学习的是第21页,共34页 例1:某灯泡厂某天生产了一大批灯泡,从中抽取了10个进行寿命试验,获得数据如下(单位:小时),问该天生产
9、的灯泡的平均寿命是多少?现在学习的是第22页,共34页最大似然法是选择这样的估计量作为的估计值,以便使观察结果(x1,xn)出现的可能性(概率)最大。对于离散型变量,就是要选择使L(;x1,xn)=p(x1,)p(x2,)p(xn,)最大。对于连续型变量,就是要选择使L(;x1,xn)=f(x1;)f(x2;).f(xn;)最大。现在学习的是第23页,共34页已知N(,2),以一组样本观察值估计的参数现在学习的是第24页,共34页二、区间估计所谓区间估计(interval estimate)就是以一定的可靠性给出被估计参数的一个可能的取值范围。用点估计估计参数,即使是无偏有效的估计量,也会由于
10、样本的随机性,使得由样本计算出的估计值并不恰恰是真值。而且即使等于真值,由于真值未知,我们也不能肯定这种相等。那么,究竟相差多少?于是问题等价为:在给定可靠程度下,指出被估计参数所在的可能值的范围,就是参数的区间估计问题。具体作法是:找出两个统计量L(x1,xn)与U(x1,xn),使 P(L U)=1-(L,U)称为置信区间,1-称为置信度,称为显著水平(测不准的概率),一般等于5%或1%。现在学习的是第25页,共34页总体均值的区间估计1.当总体方差2已知时总体均值的区间估计 对于给定的显著性水平,可以构造均值的置信区间为:2.总体方差未知时总体均值的区间估计 对于给定的显著性水平,总体均
11、值的置信区间为:在此基础上,可以得到相应总量的区间估计。现在学习的是第26页,共34页现在学习的是第27页,共34页97页例5-4。97页例5-5。现在学习的是第28页,共34页总体比例数的区间估计样本比例分布直接来自于二项分布。根据中心极限定理,随着样本容量的增加,二项分布渐近于正态分布。所以当样本容量较大时,一般来说,当n不小于30,np和n(1-p)都不小于5时,可以用正态分布代替二项分布。置信度为1-的区间估计为:现在学习的是第29页,共34页例 某食品厂准备上市一种新产品,并配合以相应的广告宣传,企业想通过调查孩子们对其品牌的认知情况来评估广告的效用,以制定下一步的市场推广计划。他们
12、在该地区随机抽取350个小孩作访问对象,进行儿童消费者行为与消费习惯调查,其中有一个问句是“你听说过这个牌子吗?”,在350个孩子中,有112个小孩的回答是“听说过”。根据这个问句,可以分析这一消费群体对该品牌的认知情况。所以,食品厂市场部经理要求,根据这些样本,给定95的置信度,估计该地区孩子认知该品牌的比例。现在学习的是第30页,共34页样本容量的确定重复抽样,样本量n的大小为:从上式可以看出,必要样本容量 n与总体方差、抽样极限误差,置信水平之间具有下述关系:在其他条件不变的情况下,总体方差越大,必要样本容量n便越大,必要样本容量与总体方差成正比;置信水平越大,必要样本容量便越大,二者成
13、正方向关系;抽样极限误差越大,样本容量就越小,二者成反方向关系。现在学习的是第31页,共34页例 某快餐店想在置信度为96%的条件下估计午餐时间每位顾客的平均支出,根据过去经验,每个顾客平均支出的标准差不超过5元,要抽取多少样本才能使其抽样极限误差不超过2元呢?现在学习的是第32页,共34页例 联想集团希望了解购买“天禧”品牌计算机的消费者满意比例,集团确信“天禧”品牌计算机满意比例不会小于70%。如果集团想使抽样极限误差在2%,置信度为99%,则需要多大的样本?现在学习的是第33页,共34页*方差的区间估计1.大样本情况下总体标准差的区间估计 在置信度为1 a 时,其置信区间可以写成:2小样本情况下正态总体方差的置信区间 设 x1,x2,xn 来自均值为 m,方差为s2的正态总体,m、s2均未知,则s2的点估计量为S2,置信度为1-a 时方差的置信区间写为:现在学习的是第34页,共34页