抽样调查抽样误差与抽样估计.pptx

上传人:修**** 文档编号:12424381 上传时间:2022-04-24 格式:PPTX 页数:81 大小:498.87KB
返回 下载 相关 举报
抽样调查抽样误差与抽样估计.pptx_第1页
第1页 / 共81页
抽样调查抽样误差与抽样估计.pptx_第2页
第2页 / 共81页
点击查看更多>>
资源描述

《抽样调查抽样误差与抽样估计.pptx》由会员分享,可在线阅读,更多相关《抽样调查抽样误差与抽样估计.pptx(81页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、统计学统计学盐城师范学院商学院盐城师范学院商学院第五章第五章 抽样调查抽样调查4/24/20221本章内容 第一节 抽样调查概述 第二节 抽样调查的数理基础 第三节 抽样误差与抽样估计 第四节 抽样调查的组织方式4/24/20222第一节第一节 抽样调查概述 一、抽样调查的概念、特点及作用一、抽样调查的概念、特点及作用 二、抽样调查中的基本概念二、抽样调查中的基本概念 三、抽样方法三、抽样方法 四、抽样调查的设计四、抽样调查的设计4/24/20223一、抽样调查的概念、特点及作用一、抽样调查的概念、特点及作用(一)抽样调查的概念(一)抽样调查的概念抽样调查是按照随机原则从总体中抽取样本进行调抽

2、样调查是按照随机原则从总体中抽取样本进行调查,得到样本资料,并根据样本资料对总体数量查,得到样本资料,并根据样本资料对总体数量特征作出具有一定可靠程度的估计和推断,以达特征作出具有一定可靠程度的估计和推断,以达到认识总体的一种统计方法。到认识总体的一种统计方法。也称为也称为 抽样推断、抽样估计或统计推断。抽样推断、抽样估计或统计推断。 例:某地进行水质监测,考察河水中某种污染物例:某地进行水质监测,考察河水中某种污染物质是否超标。从河水中按照一定地点定时取样质是否超标。从河水中按照一定地点定时取样检验,根据检验结果推断河水中污染物是否超检验,根据检验结果推断河水中污染物是否超标。标。 4/24

3、/20224推断推断总体指标(参数)总体指标(参数)样本指标(统计量)样本指标(统计量)(红色表示样本)(红色表示样本)4/24/20225(二二) 抽样调查的特点抽样调查的特点1、与其它调查方法相比,省时、省力、快捷;2、根据样本资料对总体的数量特征作出具有一定可靠性的估计和推断;3、 按照随机性(同等可能性)原则从总体中抽取样本单位;4、 可以根据资料在调查之前计算和控制抽样误差。4/24/20226(三三)抽样调查的作用抽样调查的作用1、某些现象不可能进行全面调查,但又需要了解全面资料时,就采用抽样调查方法。2、某些理论上可以进行全面调查,但实际上难以达到的现象,可以采用抽样调查。3、可

4、以对全面调查的结果进行评价和修正。4、抽样调查可用于工业生产过程中的质量控制。5、可以对某些总体的假设进行检验,来判断假设的真伪,为决策提供依据。4/24/20227(四)抽样调查的两种类型一类是参数估计:它是根据对样本进行观测取得的数据,然后对研究对象整体的数量特征取值给出估计方法。另一类是假设检验:它是根据对样本进行观测取得的数据,然后对研究对象的数量规律性是否具有某种指定特征进行检验。 4/24/20228例:2005年中国消费者协会的主题是“健康维权”。假定我们是消费者协会的检查人员,治理缺斤少两的不法行为。对可口可乐公司的产品进行检查,他们生产的一种瓶装雪碧,包装上标明其净含量是50

5、0ml,在市场上随机抽取了50瓶,测得到其平均含量为499.5ml,标准差为2.63ml。取得这些数据我们可以:一是做一个估计:该种包装的雪碧平均含量在498.77-500.23ml之间,然后向消协写份报告;(参数估计)二是一个裁决:说“可口可乐公司有欺骗消费者的行为”的证据不足。(假设检验)4/24/20229(一)全及总体和个体 1、全及总体(总体,母体):它是由具有同一性质的许多单位组成的集合体,是指所要认识的对象。 2、个体(总体单位),组成总体的各个单位称为个体。(二)抽样总体(样本,子体) 从总体中按照一定的原则和方法抽取出来的部分个体组成的结合体。 样本容量:一个样本中包含的个体

6、(总体单位)数。 n 30 大样本 n 30 小样本二、抽样调查中几个基本概念4/24/202210(三)总体指标和样本指标1、总体指标(全及指标、参数):它是根据总体所有单位的标志值或标志特征计算的、反映总体某种属性的综合指标。 总体指标是一个确定的值。2、样本指标(抽样指标、统计量):它由样本各个单位标志值或标志特征计算的综合指标。 样本指标是一个随机变量。3、抽样调查中常用的指标 平均数(均值)、方差或标准差、比例(是非标志比重)4/24/202211总体和样本指标及符号对照表指标名称总体样本单位数Nn平均数 或 标准差 s方 差是非标志比例(成数) 或P、Q p、qx2s2X4/24/

7、202212是非标志(交替标志)的比重(成数):是非标志(交替标志)的比重(成数):是非标志的标志表现只有是非标志的标志表现只有“是是”与与“非非”两种两种结果,将其数量化,通常以结果,将其数量化,通常以1 1代表具有所研究代表具有所研究特征的变量值,以特征的变量值,以0 0代表不具有所研究特征的代表不具有所研究特征的变量值。当总体单位数为变量值。当总体单位数为N N时,假定具有所研时,假定具有所研究特征变量值的单位数为究特征变量值的单位数为 ,不具有所研究,不具有所研究特征变量值的单位数为特征变量值的单位数为 ,且,且 01NNN1N0NNN1NN01总体总体 样本样本pnnnnnqnnP1

8、,1014/24/202213是非标志的平均数与标准差计算是非标志的平均数与标准差计算是非标志X10PQP01P0PQ2PP2Q合 计1PQ2P+ P2QffffXXXffXX2)(是非标志的算术平均数为:是非标志的算术平均数为:ffXX= p是非标志的标准差为:是非标志的标准差为: ffXX2QPPQ22=P)P(14/24/202214三、抽样方法1、重复抽样(重置抽样,有放回的抽样):是指从全及总体N个单位中随机抽取一个容量为n的样本,每次抽中的单位经登录其有关标志表现后又放回总体中重新参加下一次的抽选。 2、不重复抽样(不重置抽样,无放回的抽样):是指从全及总体N个单位中随机抽取一个容

9、量为n的样本,每次抽中的单位登录其有关标志表现后不再放回总体中参加下一次的抽选。 111 500050005000L L,例例111 500049994998L L,例例4/24/2022153 3、抽样框与样本的可能数目、抽样框与样本的可能数目抽样框:是指对可以选择作为样本的总体单位列抽样框:是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和出名册或排序编号,以确定总体的抽样范围和结构。它是进行概率抽样的必要条件。结构。它是进行概率抽样的必要条件。样本的可能数目:它是指从总体样本的可能数目:它是指从总体N N个单位中随机个单位中随机抽选抽选n n个单位构成样本,结果有

10、排列组合,一个单位构成样本,结果有排列组合,一种排列组合便构成一个可能的样本,排列组合种排列组合便构成一个可能的样本,排列组合的总数称为样本的可能数目。如下表:的总数称为样本的可能数目。如下表:4/24/202216nNA)!(!nNNPAnN)!( !nNnNCAnN抽样方法抽样方法重置抽样重置抽样不重置抽样不重置抽样考虑顺序考虑顺序不考虑顺序不考虑顺序-(- )!(- )! !nNnN nCNn1114/24/202217四、抽样调查的设计 1、界定调查总体 2、选择收集资料的方式 3、选择抽样框 4、设计抽样技术 5、设计样本和抽取样本 6、评估样本4/24/202218第二节 抽样调查

11、的数理基础 一、随机变量的概率分布一、随机变量的概率分布 二、随机变量的数字特征二、随机变量的数字特征 三、常用的随机变量的分布三、常用的随机变量的分布 四、大数定律与中心极限定理四、大数定律与中心极限定理 五、抽样分布五、抽样分布 (本节内容见教材,只需了解结论本节内容见教材,只需了解结论)4/24/202219第三节 抽样误差与抽样估计 一、抽样误差的概念一、抽样误差的概念 二、影响抽样误差的因素二、影响抽样误差的因素 三、抽样平均误差三、抽样平均误差 四、抽样极限误差四、抽样极限误差 五、抽样估计的可靠程度五、抽样估计的可靠程度 六、抽样估计方法六、抽样估计方法 七、样本容量的确定七、样

12、本容量的确定4/24/202220一、抽样误差的概念一、抽样误差的概念 1 1、统计误差:调查得到数据资料与实际情况的、统计误差:调查得到数据资料与实际情况的差别称为统计误差。差别称为统计误差。 统计误差统计误差= =样本指标样本指标- -总体指标总体指标 2 2、统计误差的种类:、统计误差的种类: 登登记记误误差差系系统统性性误误差差统统计计误误差差代代表表性性误误差差实实际际误误差差随随机机误误差差抽抽样样平平均均误误差差4/24/2022213 3、抽样误差:它是指在抽样调查过程中,在遵、抽样误差:它是指在抽样调查过程中,在遵守随机原则抽样的条件下,仍然会产生的样本守随机原则抽样的条件下

13、,仍然会产生的样本指标与总体指标之间的差别。指标与总体指标之间的差别。抽样误差既是一种随机性误差,也是一种代表性抽样误差既是一种随机性误差,也是一种代表性误差,它是无法避免的,但它是可以利用大数误差,它是无法避免的,但它是可以利用大数定律计算出来的并能够通过设计抽样程序控制定律计算出来的并能够通过设计抽样程序控制其大小。其大小。 px或,4/24/202222二、影响抽样误差的因素二、影响抽样误差的因素 1、样本容量的大小;、样本容量的大小; 2、总体被研究标志的变异程度、总体被研究标志的变异程度 ; 3、抽样方法的选择;、抽样方法的选择; 4、抽样的组织形式。、抽样的组织形式。4/24/20

14、2223三、抽样平均误差三、抽样平均误差(一)抽样平均误差的概念抽样平均误差是抽样平均数或成数的标准差。抽样平均误差就是说明各个抽样平均数或抽样成数与总体平均数或总体成数之间的平均误差。抽样平均误差是我们用样本指标来估计或推断总体指标时,计算误差范围的基础。4/24/202224抽样平均误差的理论计算公式:MxUMix12)(MpUMip12)(式中以 分别代表抽样平均数或抽样成数的平均差,M表示样本的可能数目。 举例上述平均误差公式只能用来解释平均误差的概念,在实际问题中无法应用。因为:首先,总体的平均数或成数通常未知;其次,也很难给出全部样本的平均数或成数。 pxUU 和4/24/2022

15、25抽样平均误差的实际计算公式1 1、抽样平均数的抽样平均误差、抽样平均数的抽样平均误差当抽样方式为重复抽样时,样本标志值当抽样方式为重复抽样时,样本标志值x1x1,x2x2,xnxn是相互独立的,样本变量是相互独立的,样本变量x x与总体变与总体变量量X X同分布。用数理统计知识证明,得:同分布。用数理统计知识证明,得:nnux2重复抽样重复抽样抽样平抽样平均误差均误差公式公式4/24/202226当抽样方式为重复抽样时,样本标志值当抽样方式为重复抽样时,样本标志值x x1 1,x x2 2,xxn n是不相互独立的。用数理统计知是不相互独立的。用数理统计知识证明,得:识证明,得:不重复抽样

16、不重复抽样抽样平均抽样平均误差公式误差公式12NnNnux4/24/202227不重复抽样误差的近似公式与重复抽样误差公式的不重复抽样误差的近似公式与重复抽样误差公式的区别是公式中多了一个区别是公式中多了一个 。这是一个修正。这是一个修正系数,也称为校正因子。系数,也称为校正因子。当当N N很大时,分母上可以不减去很大时,分母上可以不减去1 1。可以近似的表示。可以近似的表示为:为:Nn1Nnnux124/24/202228解:在重复抽样条件下为:解:在重复抽样条件下为:在不重复抽样条件下为:在不重复抽样条件下为: 公斤5 . 040010222nsnux公斤49. 0800040014001

17、0122Nnnux【例】【例】 从某校从某校80008000名学生中随机抽取名学生中随机抽取400400人,称人,称得其平均体重为得其平均体重为5858公斤,标准差为公斤,标准差为1010公斤,计公斤,计算抽样平均误差。算抽样平均误差。4/24/2022292 2、抽样成数的抽样平均误差、抽样成数的抽样平均误差抽样成数的抽样平均误差表明各样本成数的绝对抽样成数的抽样平均误差表明各样本成数的绝对离差的平均水平。离差的平均水平。用于将属性总体变化为变量总体。用于将属性总体变化为变量总体。 (1 1)重复抽样抽样平均误差公式为:)重复抽样抽样平均误差公式为:nup1nppp)1 ( 或或总体资料总体

18、资料样本资料样本资料4/24/202230(2 2)不重复抽样抽样平均误差公式为:)不重复抽样抽样平均误差公式为:11NnNnup总体资料总体资料样本资料样本资料Nnnup11)1)1 (NnN(nppp)1)1 (Nn(nppp或或或或一般总体的成数是未知的,通常是用样本的成数一般总体的成数是未知的,通常是用样本的成数p p来来代替公式中的总体成数。代替公式中的总体成数。4/24/202231【例】有一批食品罐头共【例】有一批食品罐头共60 00060 000瓶,从中随机抽瓶,从中随机抽取取300300瓶,发现有瓶,发现有6 6瓶不合格,求合格率的抽样瓶不合格,求合格率的抽样平均误差。平均误

19、差。解:合格率:解:合格率: 在重复抽样条件下为:在重复抽样条件下为: %9898. 03006300p%81. 000808. 030098. 0198. 01nppup%81. 000806. 060000300130098. 0198. 011Nnnppup在不重复抽样条件下为:在不重复抽样条件下为:4/24/202232四、抽样极限误差四、抽样极限误差 抽样平均误差只是衡量误差可能范围的一种尺度。它并不等同于抽样指标与总体指标之间的真实误差。由于总体参数是一个确定的常数,而样本估计量会随抽取的样本不同而围绕总体参数上下随机取值。因此,样本统计量与总体参数之间存在一个误差范围。 所谓抽样

20、误差范围就是指变动的样本统计量与确所谓抽样误差范围就是指变动的样本统计量与确定的总体参数之间离差的可能范围,它用样本估定的总体参数之间离差的可能范围,它用样本估计值与总体参数的最大绝对误差范围来表达。计值与总体参数的最大绝对误差范围来表达。 统计上称这一误差范围抽样极限误差或抽样允许统计上称这一误差范围抽样极限误差或抽样允许误差。误差。4/24/202233设设 和和 分别表示样本平均数分别表示样本平均数 和样本和样本成数成数 的抽样极限误差,则有:的抽样极限误差,则有:xpxppxpx,上式表明,抽样平均数或抽样成数在上式表明,抽样平均数或抽样成数在 或或 之间变动。将上面绝对值不等式展开可

21、得:之间变动。将上面绝对值不等式展开可得:xpppxxpx不等式表明,样本平均数不等式表明,样本平均数 是以总体平均数是以总体平均数为中心,为中心,在在 之间变动的;之间变动的;样本成数样本成数 是以总体成数为中心,在是以总体成数为中心,在 之间之间变动的。变动的。 xxpp4/24/202234抽样误差范围是以抽样误差范围是以 或或 为中心的两个为中心的两个 的的距离。这是抽样极限误差的原意。距离。这是抽样极限误差的原意。但由于总体参数是未知的常数,而样本估计值是但由于总体参数是未知的常数,而样本估计值是可以通过调查求得的,因此,可以把上面的两可以通过调查求得的,因此,可以把上面的两个不等式

22、改写成等价的另一种形式,即:个不等式改写成等价的另一种形式,即:ppxxppxx可见,抽样极限误差的实际意义就是希望总体平均可见,抽样极限误差的实际意义就是希望总体平均数落在抽样平均数数落在抽样平均数 的范围之内;总体的范围之内;总体成数落在抽样成数成数落在抽样成数 的范围之内,这个的范围之内,这个范围也称为置信区间。范围也称为置信区间。xxpp4/24/202235对于一个总体来说,当抽样方式以及样本的单位数对于一个总体来说,当抽样方式以及样本的单位数确定后,抽样误差就是个确定的值,而抽样极限确定后,抽样误差就是个确定的值,而抽样极限误差则是根据不同情况和精确程度,由人们来确误差则是根据不同

23、情况和精确程度,由人们来确定其大小的。因此,抽样极限误差常常以抽样平定其大小的。因此,抽样极限误差常常以抽样平均误差均误差 (或(或 )为单位来衡量,并且把抽)为单位来衡量,并且把抽样极限误差样极限误差 (或(或 )除以抽样平均误差)除以抽样平均误差 (或(或 )所得的数值叫做概率度。若以)所得的数值叫做概率度。若以z表示概表示概率度,则有:率度,则有:xpxpxpppxxzz,若事先确定概率度若事先确定概率度z的大小,则可以得到抽样极的大小,则可以得到抽样极限误差为:限误差为:ppxxzz,4/24/202236五、抽样估计的可靠程度(置信度)五、抽样估计的可靠程度(置信度) 由于抽样平均数

24、是一个随机变量,由中心极限由于抽样平均数是一个随机变量,由中心极限定理可知:定理可知:n当充分大当充分大 时,时, 就服从正态就服从正态分布,从而分布,从而 服从标准正态分布。服从标准正态分布。 这样我们就可以在确定的误差范围下,求出相这样我们就可以在确定的误差范围下,求出相应的概率大小,而抽样极限误差的大小又可确应的概率大小,而抽样极限误差的大小又可确定相应概率度的大小,这样如先确定概率度为定相应概率度的大小,这样如先确定概率度为z,则可求得相应的概率(置信度)为:则可求得相应的概率(置信度)为:30nxxxdzezxPzxPzzxx022214/24/202237上式就是抽样平均数上式就是

25、抽样平均数 落在落在 之间的概率,之间的概率,如总体平均数如总体平均数 未知,则上式也可以看作是未知,则上式也可以看作是 落在落在 之间的概率。之间的概率。xxzxz上述的积分值要查正态分布概率表求得。上述的积分值要查正态分布概率表求得。现将常用的概率度现将常用的概率度z与相应的概率与相应的概率 的几个数值的几个数值对应列表如下:对应列表如下:)(zF概率度概率度z11.651.9622.583概率概率F(z) 0.68270.90000.95000.95450.990.9973可以看出:当确定的抽样极限误差愈大,则概率可以看出:当确定的抽样极限误差愈大,则概率度度z也就愈大,相应的概率也愈大

26、,即样本指标也就愈大,相应的概率也愈大,即样本指标落在指定范围的可能性也愈大;反之,则相应落在指定范围的可能性也愈大;反之,则相应的概率就减少。的概率就减少。 4/24/202238说明:对总体指标估计的范围(置信区间)的测定说明:对总体指标估计的范围(置信区间)的测定总是在一定的概率保证程度下进行的,因为既然总是在一定的概率保证程度下进行的,因为既然抽样误差是一个随机变量,就不能指望抽样指标抽样误差是一个随机变量,就不能指望抽样指标落在置信区间内成为必然事件,只能视为一个可落在置信区间内成为必然事件,只能视为一个可能事件,就要用一定的概率来给予保证。能事件,就要用一定的概率来给予保证。抽样误

27、差的可能范围是估计的准确性问题,所以抽抽样误差的可能范围是估计的准确性问题,所以抽样估计可靠程度又称置信度(概率)。样估计可靠程度又称置信度(概率)。置信度是总体指标落在某个区间的概率把握程度。置信度是总体指标落在某个区间的概率把握程度。4/24/202239六、抽样估计方法(总体参数估计)六、抽样估计方法(总体参数估计)(一)点估计(一)点估计 1 1、点估计,也称定值估计,就是以样本估计量、点估计,也称定值估计,就是以样本估计量直接代替总体参数的一种推断方法。直接代替总体参数的一种推断方法。 当已知一个样本的观察值时,便可得到总体参数当已知一个样本的观察值时,便可得到总体参数的一个估计值。

28、的一个估计值。 如在某校学生体重的调查中,获知抽取的如在某校学生体重的调查中,获知抽取的400400名名学生的平均体重为学生的平均体重为5858公斤,则我们说该校公斤,则我们说该校80008000名名学生的平均体重也是学生的平均体重也是5858公斤。公斤。 这种推断就是对总体平均数作了点估计。这种推断就是对总体平均数作了点估计。4/24/202240点估计的优点:能够提供总体参数的具体估计点估计的优点:能够提供总体参数的具体估计值,可以作为行动决策的数量依据。值,可以作为行动决策的数量依据。2、点估计常用的方法有两种:、点估计常用的方法有两种:矩估计法和极大似然估计法。矩估计法和极大似然估计法

29、。矩估计法是英国统计学家矩估计法是英国统计学家KPearson提出的。提出的。其基本思想是:由于样本来源于总体,样本其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数矩在一定程度上反映了总体矩,而且由大数定律可知,样本矩依概率收敛于总体矩。定律可知,样本矩依概率收敛于总体矩。矩估计法简单、直观,而且不必知道总体的分矩估计法简单、直观,而且不必知道总体的分布类型,所以矩估计法得到了广泛应用。布类型,所以矩估计法得到了广泛应用。 4/24/202241极大似然估计法是由极大似然估计法是由Fisher,提出参数估计方法。,提出参数估计方法。其基本思想是:设总体分布的函数形式

30、已知,但有其基本思想是:设总体分布的函数形式已知,但有未知参数未知参数 , 可以取很多值,在可以取很多值,在 的一切可的一切可能取值中选一个使样本观察值出现的概率为最大能取值中选一个使样本观察值出现的概率为最大的的 值作为的值作为的 估计值,记作估计值,记作 , 称为称为 的极大似然估计值,这种求估计量方法称的极大似然估计值,这种求估计量方法称为极大似然估计法。为极大似然估计法。3、点估计量的优良标准、点估计量的优良标准(1)无偏性)无偏性如果样本统计量的数学期望等于所估计的总体参数如果样本统计量的数学期望等于所估计的总体参数的值,该样本统计量称作总体参数的无偏估计量。的值,该样本统计量称作总

31、体参数的无偏估计量。也就是说也就是说:的无偏估计量。为则若,)(E4/24/202242(2)一致性:)一致性:一致性要求用样本估计量估计和推断总体参数一致性要求用样本估计量估计和推断总体参数时要达到:样本容量时要达到:样本容量n充分大时,样本估计量充分大时,样本估计量充分靠近总体参数,即随着充分靠近总体参数,即随着n的无限增大,样的无限增大,样本估计量与未知的总体参数之间的绝对离差小本估计量与未知的总体参数之间的绝对离差小于任意给定的正数的可能性趋近于于任意给定的正数的可能性趋近于1的概率,的概率,即几乎是一定发生的。即几乎是一定发生的。根据概率论中的大数定律可知:对于任意给定根据概率论中的

32、大数定律可知:对于任意给定的正数有:的正数有: 1; 1limlimpPxPnn4/24/202243(3) 有效性有效性有效性要求样本估计量估计和推断总体参数时,有效性要求样本估计量估计和推断总体参数时,作为估计量的标准差比其它估计量的标准差小。作为估计量的标准差比其它估计量的标准差小。即:即: 设 是参数 的两个无偏估计量,若 的方差比 的方差小,则称 比 有效。1212214/24/2022444. 几种总体参数的点估计量几种总体参数的点估计量(1)总体平均数的点估计量)总体平均数的点估计量 (2)总体标准差的点估计量)总体标准差的点估计量(3)总体成数和点估计量)总体成数和点估计量nx

33、x1)(2nxxsnnp14/24/202245(二)区间估计(二)区间估计总体参数的区间估计就是依照一定的概率保证程度,总体参数的区间估计就是依照一定的概率保证程度,用样本估计值估计总体参数取值范围的方法。用样本估计值估计总体参数取值范围的方法。设总体参数为设总体参数为 , 、 是由样本确定的两个统计量,是由样本确定的两个统计量,对于给定的对于给定的 ( ),有:),有: = 1- = 1- 则称(则称( 、 )为参数)为参数 的置信度为的置信度为1- 1- 的置信区间。的置信区间。该区间的两个端点该区间的两个端点 、 分别称为置信下限和置信分别称为置信下限和置信上限。上限。置信区间的直观意

34、义:若作为多次同样的抽样,将置信区间的直观意义:若作为多次同样的抽样,将得到多个置信区间,其中有的区间包含了总体参得到多个置信区间,其中有的区间包含了总体参数的真值,有的区间没有包含总体参数的真值。数的真值,有的区间没有包含总体参数的真值。LU10)(ULpLULU4/24/2022461- 1- 为置信度,亦称为置信水平或置信概率,为置信度,亦称为置信水平或置信概率,置信度表达了参数区间估计的可靠性。置信度表达了参数区间估计的可靠性。置信区间越小,说明估计的精确性越高;置信度置信区间越小,说明估计的精确性越高;置信度越大,估计可靠性就越大。越大,估计可靠性就越大。一般说来,在样本容量一定的前

35、提下,精确度与一般说来,在样本容量一定的前提下,精确度与置信度往往是相互矛盾的:若置信度增加,则置信度往往是相互矛盾的:若置信度增加,则区间必然增大,降低了精确度;若精确度提高,区间必然增大,降低了精确度;若精确度提高,则区间缩小,置信度必然减小。要同时提高估则区间缩小,置信度必然减小。要同时提高估计的置信度和精确度,就要增加样本容量。计的置信度和精确度,就要增加样本容量。区间估计必须同时具备三个要素,即具备估计值、区间估计必须同时具备三个要素,即具备估计值、抽样极限误差和概率保证程度三个基本要素。抽样极限误差和概率保证程度三个基本要素。4/24/202247【例】某公司有职工【例】某公司有职

36、工30003000人,从中随机抽取人,从中随机抽取6060人人调查其工资收入情况。调查结果表明,职工的调查其工资收入情况。调查结果表明,职工的月平均工资为月平均工资为23502350元,标准差为元,标准差为193193元,月收入元,月收入在在20002000元及以上职工元及以上职工4040人。试以人。试以95.45%95.45%的置信的置信水平推断水平推断:(1 1)该公司职工月平均工资所在的范围;该公司职工月平均工资所在的范围;(2 2)月收入在)月收入在20002000元及以上职工在全部职工中所元及以上职工在全部职工中所占的比重。占的比重。4/24/202248解解(1 1)依题意计算如下

37、:依题意计算如下:67.24300060160193122Nnnsx F(z)=95.45%F(z)=95.45%,查表得查表得 z=2 z=2 34.4967.242xxz?34.239966.230034.49235034.492350 xxxx计算结果表明,有计算结果表明,有95.45%95.45%的把握说该公司职工的把握说该公司职工月平均工资在月平均工资在2300.662300.66到到2399.342399.34元之间。元之间。4/24/202249(2 2)月收入在)月收入在20002000元及以上职工在全部职工元及以上职工在全部职工中所占的比重为:中所占的比重为: %02. 63

38、000601606667. 016667. 011%67.666040Nnnpppp%04.12%02. 62ppz%71.78%63.54%04.12%67.66%04.12%67.66pppp计算结果表明,有计算结果表明,有95.45%95.45%的把握说该公司月收入在的把握说该公司月收入在20002000元及以上职工占全部职工的比重在元及以上职工占全部职工的比重在54.63%54.63%到到78.71%78.71%之间。之间。4/24/202250区间估计的基本步骤:区间估计的基本步骤:第一步第一步: :根据样本资料,计算出样本平均根据样本资料,计算出样本平均数或样本成数、标准差等;数或

39、样本成数、标准差等;第二步第二步: :计算抽样平均误差;计算抽样平均误差;第三步第三步: :根据给定的概率(置信度)要求,根据给定的概率(置信度)要求,查正态分布概率表得到相应的临界值;查正态分布概率表得到相应的临界值;第四步第四步: :计算抽样限误差;计算抽样限误差;第五步第五步: :给出估计区间(置信区间)。给出估计区间(置信区间)。 4/24/202251七、样本容量的确定七、样本容量的确定(一)影响必要样本容量的因素1. 总体各单位标志变异程度的大小。总体标志变异程度越大,要求样本容量要大些;反之则相反。2. 抽样极限误差的大小。抽样极限误差越大,要求样本容量越小;反之则相反。3. 抽

40、样方法。在其他条件相同时,重复抽样比不重复抽样要求样本容量大些。4. 抽样的组织方式。5. 抽样推断的概率保证程度的大小。概率越大,要求样本容量越大;反之则相反。4/24/202252(二)平均数的必要样本容量 1. 重复抽样nzzxx2由公式可得: 222xzn 2. 不重复抽样Nnnzzxx12由公式可得: 22222zNNznx4/24/202253【例】某批发站欲估算零售商贩的平均每次进货额,根据【例】某批发站欲估算零售商贩的平均每次进货额,根据历史资料进货额的标准差为历史资料进货额的标准差为1000元,假定到批发站进元,假定到批发站进货的商贩有货的商贩有2000人,若要求置信水平为人

41、,若要求置信水平为99.73%,抽,抽样极限误差不超过样极限误差不超过250元,应该抽取多大的样本?元,应该抽取多大的样本?解:这里没有说明采用的抽样方法,可按上述两个公式分别计算其必要样本容量,F(z)=99.73.%, z=3 重复抽样条件下的必要样本容量:?14425010003222222xzn不重复抽样条件下的必要样本容量:?13533.1341000325020001000320002222222222zNNznx4/24/202254(三)成数的必要样本容量1. 重复抽样nppzzpp1由公式可得: 221pppzn2. 不重复抽样 Nnnppzzpp11由公式可得: ppzNp

42、pNznp112224/24/202255【例】某社区想通过抽样调查了解居民参加体【例】某社区想通过抽样调查了解居民参加体育活动的比率,如果把误差范围设定在育活动的比率,如果把误差范围设定在5%,问如果以问如果以95%的置信度进行参数估计,需要的置信度进行参数估计,需要多大的样本?多大的样本?解:解: F(z)=95%, z=1.96 根据公式得:根据公式得:2222%55 . 05 . 096. 11pppzn=384.16385(人)(人) 注意:题目中为什么用注意:题目中为什么用0.50.5来替代来替代p p?p(1-p)p(1-p)在在p=0.5p=0.5时取得极大值,证明很容易,当时

43、取得极大值,证明很容易,当p p未知时,就可以用未知时,就可以用0.50.5来替代。来替代。4/24/202256第四节 抽样调查的组织方式 一、简单随机抽样一、简单随机抽样 二、分层抽样二、分层抽样 三、等距抽样三、等距抽样 四、整群抽样四、整群抽样 五、多阶段抽样五、多阶段抽样 六、非概率抽样六、非概率抽样4/24/202257一、简单随机抽样一、简单随机抽样 简单随机抽样又叫纯随机抽样,是最简单、最简单随机抽样又叫纯随机抽样,是最简单、最普遍的抽样组织方法。普遍的抽样组织方法。 它是按照随机性原则直接从总体的全部单位中,它是按照随机性原则直接从总体的全部单位中,抽取若干个单位作为样本单位

44、,保证总体中每抽取若干个单位作为样本单位,保证总体中每个单位在抽选中都有同等被抽中的机会。个单位在抽选中都有同等被抽中的机会。 简单随机抽样在理论上是最符合随机抽样原则简单随机抽样在理论上是最符合随机抽样原则的。的。 前面我们所讨论的有关抽样误差的计算公式都前面我们所讨论的有关抽样误差的计算公式都是在简单随机抽样条件下得到的。是在简单随机抽样条件下得到的。 随机抽选样本单位的具体做法有如下三种:随机抽选样本单位的具体做法有如下三种:4/24/2022581. 抽签法抽签法2. 随机数字表法随机数字表法随机数字表,是由随机数字表,是由0到到9这十个数码随机排列组这十个数码随机排列组成的多位数字表

45、。成的多位数字表。在使用前,先将总体的全部单位编号,并根据在使用前,先将总体的全部单位编号,并根据编号的位数确定使用表中数字的列数;然后,编号的位数确定使用表中数字的列数;然后,从任意一行、任意一列、任意方向开始数,从任意一行、任意一列、任意方向开始数,遇到编号范围内的数字就作为样本单位,超遇到编号范围内的数字就作为样本单位,超过编号范围内的数字就跳过去,直到抽够样过编号范围内的数字就跳过去,直到抽够样本单位数目为止。本单位数目为止。3. 计算机软件中的随机函数产生随机数的功能计算机软件中的随机函数产生随机数的功能4/24/202259二、分层抽样1、概念:分层抽样也称为分层随机抽样,或类型抽

46、样。它是把调查总体按其属性不同分为若干层次(或类型),然后在各层(或类型)中随机抽取样本。2、样本单位的抽取 先分层(分类),确定每一层中抽取的单位数; 然后在每一层中按随机原则抽取样本单位。例:4/24/202260例某在有居民20,000户, 从中抽选200户家庭进行购买力调查。其中高收入户居民家庭为4000户,中收入户家庭为12000户,低收入户家庭4000户。试用分层比例抽样法确定各层的样本数目。各层应抽取的样本数目是:4/24/202261确定了高、中、低收入户各层样本数目后, 再按单纯随机抽样从各层中分别抽取40户、120户、40户家庭进行购买力调查,最后汇总推断出总体的购买力的数

47、值。3、抽样平均误差的计算 重复抽样误差公式为:不重复抽样误差公式为: nsx2Nnnsx12其中:kiiisnns1221(各层方差的平均数)4/24/202262【例】某地有【例】某地有10000名劳动力,其中:从事农业劳动的名劳动力,其中:从事农业劳动的有有7000人,从事工业劳动的有人,从事工业劳动的有3000人,现按两类人人,现按两类人数的比例抽取数的比例抽取100人,计算各相关指标如表人,计算各相关指标如表6.2,请以,请以95%的置信水平推断该地人均收入的区间。的置信水平推断该地人均收入的区间。 各组平均收入与标准差各组平均收入与标准差iNinixis全部人数抽样人数样本平均数样

48、本标准差类型从事农业 7000 70 750 25从事工业 3000 30 1000 30解:由于该例题中抽样总体仅占全及总体的解:由于该例题中抽样总体仅占全及总体的1%,故,故可采用重复抽样公式来计算。具体计算如下:可采用重复抽样公式来计算。具体计算如下:元82510003075070100111kiiixnnx5 .707303025701001122122kiiisnns4/24/202263元65.21005.7072nsx F(z)=95%, z=1.96 ?19. 565. 296. 1xxz?19.83081.81919.582519.5825xxxx故有故有95%的把握说,该地

49、人均收入在的把握说,该地人均收入在819.81元到元到830.19元之间元之间。4/24/202264三、等距抽样 等距抽样也称为等距离随机抽样或系统抽样,它是先将总体中各单位按一定标志顺序排列, 并根据总体单位数和样本单位数计算出抽样距离,然后按相同的距离或间隔抽选样本单位。 排列顺序可用与调查项目有关的标志为依据,如在购买力调查中,按收入多少由低至高排列, 也可用与调查项目无关的标志为依据, 如按户口册、姓名笔划等排列。4/24/202265l抽样间隔计算公式为:例:某市有零售商店420户,现要从中抽取10户商店调查今年洗衣粉需求量。用等距离抽样法产生样本单位数。其具体步骤如下:将调查总体

50、420户零售商店进行编号,从1号编到420号。计算抽样间隔。4/24/202266在第一个抽样间隔内,随机产生第一个样本的号码,即在142间,随机选一个数字,假如20,它就是第一个样本单位的号码。按抽样间隔,抽取所有的样本单位,即每隔42产生一个样本单位,它们依次为:20,62,104,146,188,230,272,314,356,398。上述编号的零售商店,就是抽样调查的样本单位。采取等距离抽样法抽出的样本,能够使样本均衡地分散在总体的各单位中,不会过分集中于某些单位,从而有利于增强样本的代表性,并且抽样的方法简例易行。 4/24/202267四、整群抽样四、整群抽样 整群抽样也称为整群随

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 其他资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁