《第9章抽样与抽样估计课件.ppt》由会员分享,可在线阅读,更多相关《第9章抽样与抽样估计课件.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第9章抽样与抽样估计第1页,此课件共44页哦一、随机抽样与非随机抽样一、随机抽样与非随机抽样(一)随机抽样又称概率抽样(一)随机抽样又称概率抽样 随机抽样是按随机抽样是按随机原则随机原则从全部研究对象中从全部研究对象中抽取样本进行观察,并根据样本的实际数据对抽取样本进行观察,并根据样本的实际数据对总体的总体的数量特征数量特征作出具有一定作出具有一定可靠程度可靠程度的估的估计和推算计和推算。只抽取部分单位进行调查只抽取部分单位进行调查。1 1 抽样调查中常用的基本概念抽样调查中常用的基本概念第2页,此课件共44页哦随机抽样最基本的组织方式有:随机抽样最基本的组织方式有:1.1.简单随机抽样简单随
2、机抽样 2.2.分层随机抽样分层随机抽样 3.3.整群抽样整群抽样 4.4.系统抽样系统抽样(二)非随机抽样又称非概率抽样(二)非随机抽样又称非概率抽样 是从研究目的出发,根据调查者的经验是从研究目的出发,根据调查者的经验、判判断或基于方便的原则,从总体中有意识地抽断或基于方便的原则,从总体中有意识地抽取样本。取样本。第3页,此课件共44页哦二二、重复抽样与不重复抽样、重复抽样与不重复抽样(一)(一)重复抽样:也叫放回抽样。重复抽样:也叫放回抽样。(二)(二)不重复抽样:也叫无放回抽样。不重复抽样:也叫无放回抽样。一个单位可能中选多次一个单位可能中选多次每次抽单位,概率固定,都为每次抽单位,概
3、率固定,都为1/N1/N。一个单位最多中选一次一个单位最多中选一次每次抽单位,概率不同,逐渐增加每次抽单位,概率不同,逐渐增加第4页,此课件共44页哦三三、总体分布、总体分布 样本分布和抽样分布样本分布和抽样分布(一)总体分布(指总体标志值的分布)总体:总体:也称全及总体。指所要认识的研究对象全体。总体单也称全及总体。指所要认识的研究对象全体。总体单位总数用位总数用“N”“N”表示。表示。针对总体分布的指标称全及指标,也叫总体参数。针对总体分布的指标称全及指标,也叫总体参数。常用的参数有:总体平均数、总体成数常用的参数有:总体平均数、总体成数P P、总体标、总体标准差准差第5页,此课件共44页
4、哦未分组数据:未分组数据:分组数据:分组数据:未分组数据:未分组数据:未分组数据:未分组数据:分组数据:分组数据:总体方差公式总体方差公式总体标准差公式总体标准差公式总体指标的计算公式总体指标的计算公式第6页,此课件共44页哦样本:样本:也称抽样总体,是抽出的单位组成的整也称抽样总体,是抽出的单位组成的整体。样本单位总数用体。样本单位总数用“n”“n”表示。表示。(二)样本分布 针针对对样样本本计计算算的的指指标标为为抽抽样样指指标标,也也叫叫统统计计量量(估估计计量量)。其其值值随随样样本本的的不不同同而而不不同同,是是个个随随机机变变量。量。抽样估计就是通过统计量的值去估计参数的值。抽样估
5、计就是通过统计量的值去估计参数的值。常用的统计量有:样本平均数、样本成数常用的统计量有:样本平均数、样本成数p p、样本标、样本标准差准差S S第7页,此课件共44页哦样本指标的计算公式样本指标的计算公式样本均值样本均值第8页,此课件共44页哦样本方差和标准差的计算公式样本方差和标准差的计算公式第9页,此课件共44页哦 若总体单位的某种标志只有两种表现(称为是非标若总体单位的某种标志只有两种表现(称为是非标志),总体成数是指具有某种特征和属性的单位在全志),总体成数是指具有某种特征和属性的单位在全部总体单位中所占比重,记为部总体单位中所占比重,记为p p。以以 代表代表N N个总体单位中具有某
6、种特征的单位数,个总体单位中具有某种特征的单位数,代表代表N N个总体单位中不具有某种特征的单位数,个总体单位中不具有某种特征的单位数,N=NN=N1 1+N+N0 0。则有成数。则有成数属性总体的全及指标属性总体的全及指标第10页,此课件共44页哦 从从总总体体中中随随机机抽抽出出容容量量为为 的的样样本本,具具有有某某种种特特征征的单位数为的单位数为 ,则样本的成数为,则样本的成数为 。例例如如,某某工工厂厂生生产产某某种种电电子子元元件件,某某批批产产品品共共1000010000件件,其其中中不不合合格格品品100100件件,则则不不合合格格品品所所占占的的成成数数 。若若从从中中按按随
7、随机机的的原原则则抽抽100100件件,其其中中有有3 3件不合格品,则样本的成数为件不合格品,则样本的成数为 。NEXT属性总体的样本指标属性总体的样本指标第11页,此课件共44页哦推断统计:推断统计:利用样本统计量对总体某些性质利用样本统计量对总体某些性质或数量特征进行推断。或数量特征进行推断。随机原则随机原则总体参数总体参数统计量统计量推断估计推断估计参数估计参数估计检验检验假设检验假设检验抽样分布抽样分布抽样估计和推断的过程抽样估计和推断的过程第12页,此课件共44页哦(一)抽样误差(一)抽样误差 抽样抽样误差,是指抽样调查中所产生的误差,是误差,是指抽样调查中所产生的误差,是调查得结
8、果与总体真实值之间的差异。按误差来调查得结果与总体真实值之间的差异。按误差来源不同分登记性误差和代表性误差两类。源不同分登记性误差和代表性误差两类。四四、抽样误差、抽样误差第13页,此课件共44页哦 1.1.登记性误差,指在调查和汇总过程中由于测量、登记性误差,指在调查和汇总过程中由于测量、登记、计算等方面的差错或被调查者提供虚假资料登记、计算等方面的差错或被调查者提供虚假资料而造成的误差。它在任何调查中均存在。而且调查而造成的误差。它在任何调查中均存在。而且调查范围越大,调查单位越多,产生登记性误差的可能范围越大,调查单位越多,产生登记性误差的可能性也越大。性也越大。2.2.代表性误差,指样
9、本推断总体时,由于样本代表性误差,指样本推断总体时,由于样本结构与总体结构不一致而产生的误差。又分系统结构与总体结构不一致而产生的误差。又分系统误差与随机误差两种。误差与随机误差两种。(一)抽样误差(一)抽样误差第14页,此课件共44页哦 (2 2)随机误差也叫偶然误差。它是由偶然随机误差也叫偶然误差。它是由偶然性因素引起的代表性误差。它不可避免,但性因素引起的代表性误差。它不可避免,但可计算与控制。抽样估计中的抽样误差,就可计算与控制。抽样估计中的抽样误差,就是指这种随机误差。是指这种随机误差。在计算抽样误差时,常常假设不存在登记在计算抽样误差时,常常假设不存在登记性误差和系统误差。性误差和
10、系统误差。(1 1)系统误差是非随机因素引起的误差,它)系统误差是非随机因素引起的误差,它系统性偏高或偏低,也称偏差。系统性偏高或偏低,也称偏差。(一)抽样误差(一)抽样误差第15页,此课件共44页哦(二)(二)抽样平均误差抽样平均误差 1.1.抽样误差是指由于抽样的随机性而产生的那一抽样误差是指由于抽样的随机性而产生的那一部分代表性误差(随机性误差),不包括部分代表性误差(随机性误差),不包括 登记性误登记性误差,也不包括可能发生的偏差。差,也不包括可能发生的偏差。主要有两种主要有两种:实际抽样误差实际抽样误差,抽样平均误差。抽样平均误差。(1 1)实际抽样误差:指某一样本指标与总体参)实际
11、抽样误差:指某一样本指标与总体参数之间的离差数之间的离差例例8-2-18-2-1:从从1 1、2 2、3 3中抽中抽2 2个(重复),参数个(重复),参数取总体平均数取总体平均数 (等于(等于2 2),则实际抽样误差),则实际抽样误差如下:如下:第16页,此课件共44页哦例例8-2-1样本样本 样本统计量样本统计量实际抽样误差实际抽样误差(-)(1 1、1 1)1 1-1-1(1(1、2 2)1.51.5-0.5-0.5(1 1、3 3)2 20 0(2 2、1 1)1.51.5-0.5-0.5(2 2、2 2)2 20 0(2 2、3 3)2.52.50.50.5(3 3、1 1)2 20
12、0(3 3、2 2)2.52.50.50.5(3 3、3 3)3 31 1第17页,此课件共44页哦 (2)(2)抽样平均误差抽样平均误差 是指所有可能的样本指标与总体指标间的平均是指所有可能的样本指标与总体指标间的平均差异程度,即样本统计量的标准差,也称抽样分差异程度,即样本统计量的标准差,也称抽样分布的标准差。布的标准差。在实际工作中,在实际工作中,抽样实际误差是无法知道的,抽样实际误差是无法知道的,而抽样平均误差则可以计算。所以,我们在讨论而抽样平均误差则可以计算。所以,我们在讨论抽样误差时,抽样误差时,通常指的是通常指的是抽样平均误差。抽样平均误差。计算抽样平均误差,得从抽样分布谈起计
13、算抽样平均误差,得从抽样分布谈起(二)(二)抽样平均误差抽样平均误差第18页,此课件共44页哦 抽样分布抽样分布:是指样本指标的概率分布是指样本指标的概率分布,由样本指标,由样本指标的可能取值与之相应的频数或频率组成的可能取值与之相应的频数或频率组成。(二)(二)抽样平均误差抽样平均误差 对于抽样分布,可计算其均值和方差等来反映该分对于抽样分布,可计算其均值和方差等来反映该分布的中心和离散趋势。布的中心和离散趋势。均值的抽样平均误差公式:均值的抽样平均误差公式:成数的抽样平均误差公式:成数的抽样平均误差公式:M M表示所有可能的样本个数。表示所有可能的样本个数。第19页,此课件共44页哦影响抽
14、样平均误差的因素影响抽样平均误差的因素 1.1.总体方差或标准差。总体各单位在被研究变量总体方差或标准差。总体各单位在被研究变量上的差异程度差异越大,误差越大。上的差异程度差异越大,误差越大。2.2.样本容量样本容量n n的大小。抽取的单位数越多,误差的大小。抽取的单位数越多,误差越小。越小。3.3.抽样方法。重复抽样的误差大于不重复抽样抽样方法。重复抽样的误差大于不重复抽样的误差。的误差。4.4.抽样组织的方式。抽样组织的方式。当一个总体给定后,总体各单当一个总体给定后,总体各单位在被研究变量上的差异程度也随之确定。所以在选位在被研究变量上的差异程度也随之确定。所以在选定抽样方式和方法后,要
15、缩小抽样平均误差,必须保定抽样方式和方法后,要缩小抽样平均误差,必须保证足够多的样本容量证足够多的样本容量n n。第20页,此课件共44页哦 又叫又叫抽样绝对误差或最大允许误差。抽样绝对误差或最大允许误差。(三)(三)抽样极限误差抽样极限误差 均值的抽样绝对误差公式:均值的抽样绝对误差公式:成数的抽样绝对误差公式:成数的抽样绝对误差公式:第21页,此课件共44页哦 1.1.抽样误差系数抽样误差系数 是以抽样极限误差除以总体均值或成数来定义的,是以抽样极限误差除以总体均值或成数来定义的,分别用分别用 和和r rp p表示。即表示。即(四)(四)抽样误差系数和抽样估计精度抽样误差系数和抽样估计精度
16、 2.2.抽样估计精度抽样估计精度 简称精度。分别用简称精度。分别用 和和 表示抽样平均数和表示抽样平均数和成数的精度,则成数的精度,则第22页,此课件共44页哦 2.2.样本平均数的平均数样本平均数的平均数 等于总体平均数。等于总体平均数。2 2 抽样估计原理抽样估计原理-大数定律及中心极限定理大数定律及中心极限定理一、大数定律及中心极限定理的基本内容一、大数定律及中心极限定理的基本内容 1.1.从正态总体中抽取的样本,无论样本容量从正态总体中抽取的样本,无论样本容量n n的大的大小,样本平均数的分布一定是正态的。小,样本平均数的分布一定是正态的。3.3.样本平均数的方差样本平均数的方差 等
17、于总体方差除以等于总体方差除以n n。4.4.如果总体分布未知或是非正态分布,随着样本如果总体分布未知或是非正态分布,随着样本容量容量n n的增大(一般认为的增大(一般认为n30n30就是大样本了),样就是大样本了),样本平均数的分布趋近于正态分布。本平均数的分布趋近于正态分布。第23页,此课件共44页哦(二)总体均值的区间估计(二)总体均值的区间估计 1.1.总体方差已知时,总体均值在总体方差已知时,总体均值在1-1-的置信度下的置信区的置信度下的置信区间为:间为:3 3 总体平均数和总体成数的估计总体平均数和总体成数的估计一、总体均值的估计一、总体均值的估计(一)总体均值的点估计(一)总体
18、均值的点估计 式中,式中,点估计没有给出估计值与未知总体参数的误差范围,也不能点估计没有给出估计值与未知总体参数的误差范围,也不能点估计没有给出估计值与未知总体参数的误差范围,也不能点估计没有给出估计值与未知总体参数的误差范围,也不能指出估计的把握程度。点估计的方法常用的有矩估计法、最大指出估计的把握程度。点估计的方法常用的有矩估计法、最大指出估计的把握程度。点估计的方法常用的有矩估计法、最大指出估计的把握程度。点估计的方法常用的有矩估计法、最大似然法等。似然法等。似然法等。似然法等。第24页,此课件共44页哦 t t叫概率度。叫概率度。一个概率度对应一个概率保证程一个概率度对应一个概率保证程
19、度度F(t)F(t),同时可通过查正态分布表得到对应的,同时可通过查正态分布表得到对应的t t与与F(t)F(t)。常用常用t t 值及其对应概率值及其对应概率 99.73%99.73%3 3 95.45%95.45%2 2 68.27%68.27%95%95%1 1 1.96 1.96概率概率F F(t t)概率度(概率度(t t)第25页,此课件共44页哦 当当n n趋近于无穷大时,趋近于无穷大时,t t分布趋近于正态分布,因分布趋近于正态分布,因此,在实际运用中,当此,在实际运用中,当n30n30时,仍然用正态分布近时,仍然用正态分布近似。似。2.2.总体方差未知时,总体均值的区间估计总
20、体方差未知时,总体均值的区间估计(二)总体均值的区间估计(二)总体均值的区间估计 总体方差未知时,用样本方差代替总体方差,总体均值总体方差未知时,用样本方差代替总体方差,总体均值在在1-1-的置信度下的置信区间为:的置信度下的置信区间为:第26页,此课件共44页哦 例例8-3-28-3-2:某农场进行小麦产量抽样调查,小麦播种总面:某农场进行小麦产量抽样调查,小麦播种总面积为积为1 1万亩,采用不重复简单随机抽样,从中抽选了万亩,采用不重复简单随机抽样,从中抽选了100100亩作亩作为样本进行实割实测,测得样本平均亩产为样本进行实割实测,测得样本平均亩产400400斤,方差斤,方差144144
21、斤。斤。以以95.45%95.45%的可靠性推断小麦平均亩产的区间。的可靠性推断小麦平均亩产的区间。解:解:N=10000 n=100(1 1)计算抽样平均误差)计算抽样平均误差实例实例第27页,此课件共44页哦(2 2)计算抽样极限误差)计算抽样极限误差(3 3)计算总体平均数的置信区间)计算总体平均数的置信区间上限:上限:下限:下限:即:以即:以95.45%95.45%的可靠性估计该农场小麦平均亩产量的可靠性估计该农场小麦平均亩产量在在397.62397.62斤至斤至402.38402.38斤之间斤之间.实例实例第28页,此课件共44页哦 例例8-3-4:8-3-4:对一批电子元件进行耐用
22、性能的检查,随机重置抽对一批电子元件进行耐用性能的检查,随机重置抽样方法选取样方法选取100100件作耐用测试,所得结果的分组资料如下:件作耐用测试,所得结果的分组资料如下:100100合计合计 18185500550050005000以上以上 5050450045004000500040005000 3030 350035003000400030004000 2 2 2500250030003000以下以下件数(件数(f f)组中值(组中值(x x)耐用时数(小时)耐用时数(小时)试以试以95.45%95.45%的把握程度估计这批产品的平均耐用时数的把握程度估计这批产品的平均耐用时数.实例实
23、例第29页,此课件共44页哦解解:(1)(1)计算样本平均数和样本标准差计算样本平均数和样本标准差实例实例第30页,此课件共44页哦(2)(2)计算极限误差计算极限误差(3)(3)估计区间的下限:估计区间的下限:43404340146.2=4193.8146.2=4193.8小时小时;估计区间估计区间的上限:的上限:43404340146.2=4486.2146.2=4486.2小时。所以,这批电子元件小时。所以,这批电子元件的平均耐用时数在的平均耐用时数在4193.84193.8小时至小时至4486.24486.2小时之间,可靠程小时之间,可靠程度为度为95.45%95.45%。区间估计区间
24、估计实例实例第31页,此课件共44页哦 1.1.重复抽样下重复抽样下p208p208(一)总体成数与样本成数(一)总体成数与样本成数二、总体成数的估计二、总体成数的估计 总体成数:总体成数:样本成数:样本成数:总体成数的标准差:总体成数的标准差:样本成数的标准差:样本成数的标准差:(二)样本成数(二)样本成数p p的分布特征的分布特征 2.2.不不重复抽样下重复抽样下p208p208第32页,此课件共44页哦 1.1.重复抽样下重复抽样下(三)总体成数的估计(三)总体成数的估计 2.2.不不重复抽样下重复抽样下第33页,此课件共44页哦 例例8-3-3 8-3-3:某纱厂某时期内生产了:某纱厂
25、某时期内生产了1010万个单位的纱,按纯随机抽样方式万个单位的纱,按纯随机抽样方式抽取抽取20002000个单位检验,结果合格率为个单位检验,结果合格率为95%95%,试以,试以95%95%的把握程度估计全部纱合的把握程度估计全部纱合格品率的区间。格品率的区间。区间下限:区间下限:区间上限:区间上限:解:解:实例实例第34页,此课件共44页哦 例例8-3-18-3-1:设成人身高的达标值为:设成人身高的达标值为165165厘米。从厘米。从一批成年人中随机抽一批成年人中随机抽7 7人,得身高分别为人,得身高分别为155155、160160、165165、170170、175175、180180、
26、185185(厘米)。(厘米)。要求:要求:以以95.45%95.45%的概率保证度求平均身高的概率保证度求平均身高的置信区间;的置信区间;以以99.73%99.73%的概率保证度求身高达标的概率保证度求身高达标率的置信区间。率的置信区间。实例实例第35页,此课件共44页哦 解:解:=170=170F F(t t)=95.45%=95.45%,则则t=2t=2所以,所以,(厘米)(厘米)(厘米)(厘米)厘米厘米实例实例置信区间:置信区间:即平均身高即平均身高95.45%95.45%的置信区间为的置信区间为(162.44,177.56)(162.44,177.56)第36页,此课件共44页哦=1
27、7.07%所以,所以,F F(t t)=99.73%=99.73%,则则t=3t=3实例实例置信区间:置信区间:即身高达标率即身高达标率99.73%99.73%的置信区间为的置信区间为(20.22%,100%)(20.22%,100%)第37页,此课件共44页哦4 4 必要的样本容量必要的样本容量一、平均数的样本容量一、平均数的样本容量(一)重复抽样下的样本容量(一)重复抽样下的样本容量(二)不重复抽样下的样本容量(二)不重复抽样下的样本容量第38页,此课件共44页哦不重复抽样:不重复抽样:n=n=二、二、成数的样本容量成数的样本容量重复抽样下:重复抽样下:n=n=第39页,此课件共44页哦解
28、:解:=625=625(户)(户)例例8-3-68-3-6:根据历史资料,某市职工家庭年收入的根据历史资料,某市职工家庭年收入的标准差为标准差为250250元现再次调查收入状况,要求在元现再次调查收入状况,要求在95.45%95.45%的把握度下平均年收入的允许误差不超过的把握度下平均年收入的允许误差不超过2020元,问元,问应抽多少户家庭调查?应抽多少户家庭调查?实例实例第40页,此课件共44页哦 例例8-3-78-3-7:调查一批零件的合格率,根据过去的资:调查一批零件的合格率,根据过去的资料,合格率为料,合格率为97%97%。如果要求误差不超过。如果要求误差不超过1%1%,把握程度,把握
29、程度为为95%95%,问需抽多少个零件检查?,问需抽多少个零件检查?解:解:=1118=1118(件)(件)实例实例第41页,此课件共44页哦影响必要样本容量的因素影响必要样本容量的因素1.1.概率保证程度概率保证程度2.2.总体各单位在被研究标志上的差异程度总体各单位在被研究标志上的差异程度4.4.不同的抽样方法不同的抽样方法5.5.不同的抽样组织方式不同的抽样组织方式 最后,要考虑调查的人力、物力、财力最后,要考虑调查的人力、物力、财力的许可情况的许可情况3.3.允许误差范围允许误差范围第42页,此课件共44页哦样本容量和样本个数的区别样本容量和样本个数的区别1.1.样本容量:样本容量:一
30、个样本包含的单位数。用一个样本包含的单位数。用 “n”“n”表示。一般要求表示。一般要求 n n 30302.2.样本个数:样本个数:从一个全及总体中可能抽取的从一个全及总体中可能抽取的样本数目。样本数目。第43页,此课件共44页哦一、判一、判 断断 对对 错错1.1.样本统计量是一个随机变量。(样本统计量是一个随机变量。()2.2.抽样极限误差总是大于抽样平均误差。抽样极限误差总是大于抽样平均误差。()3.3.在抽样推断中,作为推断的总体和和为观察对象的样本都是在抽样推断中,作为推断的总体和和为观察对象的样本都是 确定的、唯一的。确定的、唯一的。()4.4.在其它条件不变的情况下,提高抽样估计的可靠程度,可以提高抽样估计在其它条件不变的情况下,提高抽样估计的可靠程度,可以提高抽样估计的精确度。的精确度。()5.5.在其它条件固定时,重复抽样的抽样误差比不重复抽样的在其它条件固定时,重复抽样的抽样误差比不重复抽样的 抽样误差小。抽样误差小。()6.6.从全部总体单位中按照随机原则抽取部分单位组成样本,只可能从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本组成一个样本 。()第44页,此课件共44页哦