第七章抽样推断精选PPT.ppt

上传人:石*** 文档编号:88352402 上传时间:2023-04-25 格式:PPT 页数:66 大小:4.66MB
返回 下载 相关 举报
第七章抽样推断精选PPT.ppt_第1页
第1页 / 共66页
第七章抽样推断精选PPT.ppt_第2页
第2页 / 共66页
点击查看更多>>
资源描述

《第七章抽样推断精选PPT.ppt》由会员分享,可在线阅读,更多相关《第七章抽样推断精选PPT.ppt(66页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第七章 抽样推断第1页,本讲稿共66页一、抽样估计的概念与特点一、抽样估计的概念与特点1.1.抽样估计的概念抽样估计的概念v 抽样估计也叫抽样调查、抽样推断,实抽样估计也叫抽样调查、抽样推断,实际上包括两部分,即抽样调查和抽样推断。际上包括两部分,即抽样调查和抽样推断。即从所研究的对象总体中,按照随机原则抽即从所研究的对象总体中,按照随机原则抽选一部分单位构成一个样本,通过对样本中选一部分单位构成一个样本,通过对样本中所有单位的调查,取得样本资料,根据样本所有单位的调查,取得样本资料,根据样本资料推断总体特征的方法。在该定义中要注资料推断总体特征的方法。在该定义中要注意以下几点:意以下几点:第

2、2页,本讲稿共66页部分与全部。统计抽样调查是以抽选总体里的部分单部分与全部。统计抽样调查是以抽选总体里的部分单位为调查对象的特征,其部分是来自于总体的并按照位为调查对象的特征,其部分是来自于总体的并按照一定原则抽取单位。一定原则抽取单位。随机原则。是指抽样调查在总体中抽取部分单位时应遵随机原则。是指抽样调查在总体中抽取部分单位时应遵循的原则,该原则要求在抽取代表单位时,必须随机循的原则,该原则要求在抽取代表单位时,必须随机(非主观)的对待每一单位,使总体中的每一单位被抽(非主观)的对待每一单位,使总体中的每一单位被抽取的可能性都相等,即保证各单位等可能被抽取的原则取的可能性都相等,即保证各单

3、位等可能被抽取的原则就是随机原则。就是随机原则。第3页,本讲稿共66页部分特征与全部特征的关系。来自总体的部分特征与全部特征的关系。来自总体的部分单位,自然包含了有关总体分布的信部分单位,自然包含了有关总体分布的信息,适当而又有效地利用这些信息,即根息,适当而又有效地利用这些信息,即根据随机得到的部分单位的特征与总体的相据随机得到的部分单位的特征与总体的相应特征的相互关系,才能作出尽可能好的应特征的相互关系,才能作出尽可能好的对总体相应特征的推断。对总体相应特征的推断。对对总总体体的的认认识识。抽抽样样推推断断的的目目的的是是了了解解和和认认识识总总体体全全部部单单位位的的特特征征,而而非非部

4、部分分单单位位的的特特征征。所所以以对对部部分分单单位位的的研研究究只只是是一一种种手手段段,因因为为它它带带有有总总体体相相应应特特征征的的信信息息,通过它可以达到认识总体的目的。通过它可以达到认识总体的目的。第4页,本讲稿共66页v2.2.抽样估计的特点与作用抽样估计的特点与作用v(1)(1)部分单位的选择,是依据随机原则抽选的部分单位的选择,是依据随机原则抽选的-随机性随机性。v(2)(2)它是由部分推及全体的方法,即通过对部分现象它是由部分推及全体的方法,即通过对部分现象的了解,推断估计全体现象(总体)的各种特征的了解,推断估计全体现象(总体)的各种特征-推断性推断性。v(3)(3)推

5、断是在一定把握程度下进行的,即推断的可能推断是在一定把握程度下进行的,即推断的可能误差是受到有效控制的误差是受到有效控制的-误差可控性误差可控性。v(4)(4)抽样推断是现代统计学的中心内容,抽样调查也抽样推断是现代统计学的中心内容,抽样调查也是现代社会调查的主要的调查方法之一。是现代社会调查的主要的调查方法之一。v(5)(5)抽样推断的作用不仅是解决了无法进行的全面调抽样推断的作用不仅是解决了无法进行的全面调查问题,还可以节省调查成本。还具有省时,省力、查问题,还可以节省调查成本。还具有省时,省力、登记误差较小等优点。登记误差较小等优点。第5页,本讲稿共66页总体样本 抽样 随机性样本指标总

6、体指标推断误差可控性抽样推断过程抽样推断过程第6页,本讲稿共66页v二、总体和样本v(一)总体v 总体也称为全及总体或母体。是指所要认识的对象全体,它由具有某种共同性质的许多单位所组成。总体的单位数通常都是很大的,甚至是无限的。一般用大写字母N表示总体单位数。v 总体按其中包含的单位数可以分为有限总体和无限总体。第7页,本讲稿共66页v(二)样本v 样本也称为样本总体或子样。它是作为全及总体的一个代表而存在的。样本中也有许多个体,组成样本的单位也称为样本单位。样本中所包含的单位数称为样本容量,通常用n表示。v 样本可分为大样本和小样本。若n30,则称为小样本。否则称为大样本。一般,社会经济现象

7、都是大样本。自然实验多是小样本。v 研究对象一经确定,则总体也就唯一确定了。但作为观察对象的样本就不是这样的。从一个总体中可以抽取很多个样本,每次可能抽到哪个样本不是确定的,也不是唯一的。第8页,本讲稿共66页v三、随机原则和随机性v 随机原则是指在抽样前或抽样过程中,应保证总体中的每个单位都处在平等地位上,即都有相同的被抽中的可能性(概率)。根据这一原则,抽样者要在不带任何主观意愿,并排除一切外来因素干扰的条件下随意地抽取单位组成样本。随机性原则是抽样时必须遵循的原则。v 依据随机原则抽选的样本,我们称其具有随机性。第9页,本讲稿共66页v四、总体指标和样本指标v 样本是总体的代表,所以总体

8、指标和样本指标是一一对应的。总体指标也称为总体参数,是不变的、未知的,也是客观存在的。样本指标也称为样本统计量,通过调查,是可以知道的,但每个样本的样本指标是不完全相同的,也就是说样本指标是一个随机变量。v 假定总体由X1,X2,XN组成。v 样本由x1,x2,xn 组成。第10页,本讲稿共66页总体指标与样本指标总体指标样本指标单位数(容量)Nn平均数标准差比例(成数)比例标准差N1表示总体中具有某种性质的单位数n1表示样本中具有某种性质的单位数第11页,本讲稿共66页第二节 抽样调查的组织形式v一、简单随机抽样(纯随机抽样)v 这种抽样方式是对随机原则不加任何限制,直接从总体中抽取样本。我

9、们平时所见的抽签,抓阉,以及各种奖券的摇奖都是这种方式。简单随机抽样有直接抽选法、抽 签 法、随 机 数 表 法 等 三 种 方 法。v 简单随机抽样又分为重复(重置)抽样和不重复(不重置)抽样两种形式。第12页,本讲稿共66页v 重复抽样是指每抽取一个单位后还将其放回到总体中去,再抽取下一个单位。这样保证每次抽取时总体构成不变,而每个个体可能被抽中多次。每次每个个体中选概率为1/N。v 不重复抽样是每次抽中的单位不再放回总体中去,这样每个个体最多只可能被抽中一次。虽然不重复抽样每次抽取之后总体容量和构成都在发生变化,但它仍能保证每个个体中选概率相等。v 简单随机抽样主要适合总体容量不是很大,

10、所观察的特征分布比较均匀的情况。第13页,本讲稿共66页v二、等距抽样(机械抽样、系统抽样)v 将总体单位编号排序(可按时间顺序、空间顺序或其它顺序编号),然后由样本容量和总体容量的比值确定出抽取间距,每隔一(固定的)间距,抽取一个单位。v 例:从已有某种顺序(如学号顺序)的 1000人中要抽取50人为样本进行调查,则比值为5%,也就是每20人中抽1人。首先从120号中以简单随机方式抽取一个号码,比如抽中12号,当第一个号码确定后,以后要抽的单位就都确定了,32,52,992。这50个号码所代表的人构成的样本就是等距抽样的一个样本。第14页,本讲稿共66页v 等距抽样是按间距把总体分为若干距离

11、相等的组,当第一组选择的位置确定后,后面各组中所抽的样本单位也就随之确定了,因此,这种抽样方式的随机性远不如简单随机抽样。特别是当总体单位的排列呈现出某种周期性时,采用这种方式会导致样本出现倾向性偏差。所以等距抽样适用于总体容量较大,各单位已有现成编号,且样本单位在总体中分布均匀的情况。第15页,本讲稿共66页v三、类型抽样(分层抽样)v 当总体内部各单位之间性质差异较大时,我们可以将总体按与有关的主要标志划分为若干类,使每一类内性质相近,然后在每一类别中分别抽取单位构成样本。v 例如,要对某行业的100个工厂的劳动生产率作抽样调查(已知劳动生产率与工厂规模有关)。则首先需将总体分为大、中、小

12、厂三种类型。如果已知100个工厂中有6个大厂、20个中厂、74个小厂,现确定样本容量为20,那么各类中样本容量按 比例分配应为:大型厂 6X20/100=1.21(个)中型厂 20X20/100=4(个)小型厂 74X20/100=14.815(个)这就是说应随机地从大厂中抽取1个单位,从中、小型厂中分别抽4个和15个单位。这20个厂组成一个样本。第16页,本讲稿共66页v 类型抽样的前提是对总体有比较充分的了解,且总体内部有比较明显的差异。这时采用类型抽样可得到对总体更具代表性的样本。v四、整群抽样v 整群抽样是将总体分为若干群,并尽量使这些群之间没有明显的类别差异,然后,以群为单位,在这些

13、群中随机地抽取一个或几个群作为样本,样本包括被抽中群中的全部单位。v 假定将总体分为m群,从中抽取k群,则每个个体中选的概率为k/m。v 整群抽样适用于总体容量很大的情况,一般多用于居民家计调查,农产量调查和大量产品的质量检验等等。第17页,本讲稿共66页v五、多阶段抽样v 当总体规模很大时,采用整群抽样的样本容量仍然很大时,可采用多阶段抽样,这时可对所抽中群再进行抽样,从被抽中群中再抽取部分组成样本。这种方法叫两阶段抽样。依此类推,在多次分组的基础上,还可进行多阶段抽样。v 如农产量抽样调查,可以首先抽县,再从选中县中抽选乡,然后再从选中乡中抽选地块实割实测,取得样本产量资料。第18页,本讲

14、稿共66页第三节 抽样原理v一、可能样本与抽样分布v1.可能样本v 可能样本是指总体容量N和样本容量n都确定后,总体中每一个可能被抽中的样本。v 一次抽样的全部可能样本数目,由总体容量N,样本容量n和抽样方式决定。对于一个无限总体,则可能样本数也是无限的。第19页,本讲稿共66页v考虑顺序的可能样本v重复抽样:v不重复抽样:v不考虑顺序的可能样本v重复抽样:v不重复抽样:第20页,本讲稿共66页v2.样本分布v 样本分布是指由全部可能样本依某一样本指标的变动而形成的次数或比率分布。例如样本平均数的抽样分布(简称样本平均数分布),就是全部样本依各个样本的平均数值归类整理得到的。其他如样本比例分布

15、、样本标准差分布都是如此得到的。第21页,本讲稿共66页第22页,本讲稿共66页第23页,本讲稿共66页第24页,本讲稿共66页第25页,本讲稿共66页第26页,本讲稿共66页不重复抽样样本平均数的抽样分布v1.样本平均数的平均数(数学期望)等于总体平均数。v2.样本平均数的方差等于总体方差的1/n乘以修正因子。第27页,本讲稿共66页v二、抽样推断的理论依据v1.大数定律(大数法则)v 大数法则证明:如果随机变量总体存在着有限的平均数和方差,则对于充分大的样本单位数n,可以用几乎趋近于的概率,来期望样本平均数与总体平均数的绝对离差为任意小,即对于任意的正数有:v2.中心极限定理第28页,本讲

16、稿共66页第29页,本讲稿共66页第30页,本讲稿共66页正态分布的性质:(1)以平均数为中心的轴对称分布(2)在平均数的两侧,以分布标准差为单位计算的一定距离内,次数分布的比率是确定的,如在平均数一个标准差距离内,次数分布比率为68.27%。第31页,本讲稿共66页v 实际抽样是从全部可能样本中随机抽取的一个,虽然我们不能肯定这个被抽中的样本的平均值落在哪里,偏离总体平均数有多远?但是我们可以说,它落在 范围内的可能性为68.27%。落在这一范围以外的可能性为31.73%。落在 范围内的可能性为95.45%。落在这一范围以外的可能性为4.55%。第32页,本讲稿共66页第四节 抽样误差v一、

17、抽样误差一、抽样误差v在抽样调查和抽样推断过程中,可能会产生各种误在抽样调查和抽样推断过程中,可能会产生各种误差造成最后结论与实际情况不一致。这些误差可分差造成最后结论与实际情况不一致。这些误差可分为两类:为两类:v登记性误差:是由于工作责任、计算错误、及数据登记性误差:是由于工作责任、计算错误、及数据传输等工作质量原因造成的,叫登记性误差或责任传输等工作质量原因造成的,叫登记性误差或责任性误差。性误差。v 随机误差:指抽样推断系统产生的代表性误差,叫随机误差:指抽样推断系统产生的代表性误差,叫抽样误差。抽样误差是抽样推断中可以控制的,我抽样误差。抽样误差是抽样推断中可以控制的,我们可以从如下

18、几个角度来分析抽样误差。们可以从如下几个角度来分析抽样误差。第33页,本讲稿共66页v 在抽样推断统计中,确定的样本统计量在抽样推断统计中,确定的样本统计量与总体被估计的真实指标之间的误差是客与总体被估计的真实指标之间的误差是客观存在的,我们把这种推断中客观存在的观存在的,我们把这种推断中客观存在的代表性误差,叫做实际抽样误差。代表性误差,叫做实际抽样误差。v 实际抽样误差随样本的随机性也表现为实际抽样误差随样本的随机性也表现为随机变量,有多少种可能的样本就有多少随机变量,有多少种可能的样本就有多少种可能的实际抽样误差。因此,在抽样推种可能的实际抽样误差。因此,在抽样推断中要结合所有可能的样本

19、来研究所有可断中要结合所有可能的样本来研究所有可能的实际抽样误差。能的实际抽样误差。第34页,本讲稿共66页v 抽样平均误差是指一个抽样方案的所有抽样平均误差是指一个抽样方案的所有可能样本的某统计量与总体相应指标的离可能样本的某统计量与总体相应指标的离差的平均值。差的平均值。v 因在现实的抽样中,我们只能取得一个因在现实的抽样中,我们只能取得一个样本,不可能也没必要获得全部所有可能样本,不可能也没必要获得全部所有可能样本,所以抽样平均误差也不可能通过所样本,所以抽样平均误差也不可能通过所有样本来直接计算。但从统计量的分布律有样本来直接计算。但从统计量的分布律中我们已经知道:统计量是以总体相应指

20、中我们已经知道:统计量是以总体相应指标为期望值。标为期望值。抽样平均误差实质上就是该抽样平均误差实质上就是该统计量在其概率分布中的标准差。统计量在其概率分布中的标准差。第35页,本讲稿共66页v二、抽样平均误二、抽样平均误差的计算差的计算v1.重复抽样的抽重复抽样的抽样平均误差:样平均误差:v样本平均数的样本平均数的抽样平均误差抽样平均误差:v样本成数的抽样样本成数的抽样平均误差:平均误差:第36页,本讲稿共66页v2.不重复抽样的不重复抽样的抽样平均误差抽样平均误差v样本平均数的抽样本平均数的抽样平均误差样平均误差:v样本成数的抽样样本成数的抽样平均误差平均误差:第37页,本讲稿共66页v公

21、式中为总体标准差,P为总体比例。若和P未知,在大样本情况下,可用样本标准差s和样本比例p代替。所以常用公式为:第38页,本讲稿共66页例:从某学校的学生中采用重复抽样方法抽出了200人,测得这200人的平均身高为163cm,身高标准差为5cm,200人中近视者有156人,求平均身高的抽样平均误差以及 近 视 率 的 抽 样 平 均 误 差?解:平均身高的抽样平均误差:近视率的抽样平均误差:p=n1/n=156/200=78%第39页,本讲稿共66页v若上例是从1000人中采用不重复抽样方式抽取的200人,则其抽样平均误差为:v平均身高的抽样平均误差:近视率的抽样平均误差:第40页,本讲稿共66

22、页v三、抽样极限误差v 以样本指标估计总体指标,要达到完全准确毫无误差,这几乎是不可能的。所以在估计总体指标时就必须考虑误差的大小。我们把可允许的误差范围称为抽样极限误差,也称为最大允许误差。由于抽样实际误差可正可负,所以定义抽样极限误差是以绝对值表示的抽样误差的最大允许范围,通常用符号“”表示。第41页,本讲稿共66页v设 、分别表示样本平均数、样本成数的最大允许误差。则有:v上述不等式可以变形为:第42页,本讲稿共66页v由于总体平均数和总体成数是未知的,它要靠实测的样本平均数和样本成数进行估计,因此抽样极限误差的实际意义是希望被估计的总体指标即总体平均数和总体成数包含在样本指标的一定范围

23、内。这样上述不等式可以变换为:第43页,本讲稿共66页v四、抽样平均误差与抽样极限误差的关系:其中:t为概率度为概率度。实际就是最大允许误差是样本指标标准差的倍数度量。它与概率保证有关,可从正态分布概率表上查出t与概率保证之间的数值对应关系。如:v t 1 1.645 1.96 2 2.58v1-(%)68.27 90 95 95.45 99第44页,本讲稿共66页 第五节 抽样推断v一、估计量和估计值v 用来推断估计一个总体指标的样本指标,叫做这个总体指标的估计量。如样本平均数是总体平均数的一个估计量。v 根据被抽中的一个样本,计算得到估计量的一个具体数值,叫做总体指标的估计值。v 抽样推断

24、过程就是取得适当的总体估计值的过程。获得估计值的方法有两种:点估计和区间估计。第45页,本讲稿共66页第46页,本讲稿共66页第47页,本讲稿共66页第48页,本讲稿共66页例:从某学校的1000个学生中抽出200个,测得这200个学生的平均身高为163cm,用点估计1000个学生的平均身高就为163cm。第49页,本讲稿共66页第50页,本讲稿共66页区间估计的两种模式一、根据已知的(给定的)概率保证(置信度)的要求,求出置信区间范围。步骤:v(1)组织抽样,计算样本指标(样本平均数、样本标准差、样本比率等);v(2)计算抽样平均误差;v(3)根据已知的概率保证(置信度)查正态分布概率表得概

25、率度t,计算最大允许误差;v(4)计算估计区间。第51页,本讲稿共66页例:某灯泡厂从其生产的一批灯泡中随即抽取了100只进行寿命实验,测得这100只灯泡的平均寿命为1124小时,标准差为93小时,这100只灯泡中有88只合格,现要求以95%的把握估计这批灯泡的平均寿命和合格率的区间。解:按步骤,(1)计算样本指标第52页,本讲稿共66页v(2)计算抽样平均误差v(3)计算最大允许误差 因为概率保证为95%,所以t=1.96第53页,本讲稿共66页v(4)计算估计区间 估计区间为:落在上述区间的概率有95%。第54页,本讲稿共66页二、根据已知的(给定的)最大允许误差的要求,求出置信区间范围。

26、步骤:v(1)组织抽样,计算样本指标(样本平均数、样本标准差、样本比率等);v(2)计算抽样平均误差;v(3)根据已知的最大允许误差求概率度概率度t,查正态分布概率表得概率保证(置信度);v(4)计算估计区间。第55页,本讲稿共66页例:某轮胎生产厂从其生产的轮胎中采用不重复抽样,抽取了例:某轮胎生产厂从其生产的轮胎中采用不重复抽样,抽取了120只进行只进行寿命检验,测得了寿命检验,测得了120个数据,对这个数据,对这120个数据进行整理,得分组数列个数据进行整理,得分组数列如下:如下:按轮胎寿命分组(万公里)轮胎数9以下69-101010-116411-122812以上12现要求最大误差不超

27、过现要求最大误差不超过 1700 公里,对该轮胎厂生产的全部公里,对该轮胎厂生产的全部轮胎进行平均寿命的区间估计。轮胎进行平均寿命的区间估计。第56页,本讲稿共66页v根据步骤:v(1)计算样本指标v(2)计算抽样平均误差v(3)计算概率度,求出置信度v查正态分布概率表得置信度1-=95.45%第57页,本讲稿共66页v(4)计算估计区间v该厂生产的全部轮胎平均寿命落在上述区间的概率为95.45%,即有95.45%的把握说该厂生产的全部轮胎的平均寿命在10.58万公里至10.92万公里之间。第58页,本讲稿共66页三、样本容量的确定v我们已经知道,样本容量越大,抽样误差就越小。但样本容量大,抽

28、样调查所花费的人力、物力、财力也越大。那么什么样的样本容量是合理的呢?v样本容量是指能同时满足调查组织者所提出的置信度置信度和最大允许误差最大允许误差要求的样本单位的最小数量。第59页,本讲稿共66页(一)估计总体平均数时的样本容量重复抽样:不重复抽样:式中:可由同一总体的历史资料得知,或者在正式抽样之前进行一次实验性抽样,以取得的一个估计值。第60页,本讲稿共66页(二)估计总体比率时的样本容量重复抽样:不重复抽样:式中:P可由同一总体的历史资料得知,或者在正式抽样之前进行一次实验性抽样,以取得P的一个估计值。第61页,本讲稿共66页v例:某农场对其种植的10000亩水稻平均亩产量进行抽样估

29、计,要求最大误差不超过15公斤,概率保证要达到95%以上,根据去年资料,该品种水稻亩产量的标准差为64公斤,问采用不重复抽样方法,至少应抽多少亩才能满足上述要求?v解:v至少应抽查70亩才能满足上述两项要求。第62页,本讲稿共66页v例:某灯管厂对其生产的灯管进行抽样检验,根据历史资例:某灯管厂对其生产的灯管进行抽样检验,根据历史资料,该灯管厂的灯管寿命标准差为料,该灯管厂的灯管寿命标准差为86小时,合格率为小时,合格率为92%,现要求概率保证要达到,现要求概率保证要达到95%,平均寿命最大误差不超过,平均寿命最大误差不超过20小时,合格率最大误差不超过小时,合格率最大误差不超过4%,估计这批

30、灯管的平,估计这批灯管的平均寿命以及合格率,问至少应抽多少只灯管?均寿命以及合格率,问至少应抽多少只灯管?解:根据已知条件:解:根据已知条件:估计平均寿命时的样本容量:估计平均寿命时的样本容量:估计合格率时的样本容量:估计合格率时的样本容量:为了满足以上要求,应抽为了满足以上要求,应抽177只灯管。只灯管。第63页,本讲稿共66页本章重点v1.总体平均数和总体比率的区间估计方法;v(1)抽样平均误差的计算;v(2)最大允许误差的计算。v2.样本容量的计算。第64页,本讲稿共66页作业1.某外贸进出口公司对其出口的一批货物进行抽检,共检查了400件,测得这400件货物平均净含量为1002克,净含量标准差为18克,这400件货物中优良品有364件,试以95%的把握估计这批货物的平均净含量区间以及优良率的估计区间。2.某企业对其生产的1000件产品进行不重复抽样,根据历史资料,该产品的净重标准差为12克,现要求最大误差不超过2克,把握程度要达到90%以上,问至少要抽多少件产品?第65页,本讲稿共66页参考答案v1.平均净含量区间:(1000.24,1003.76)v 优良率区间:(88.2%,93.8%)v2.89件第66页,本讲稿共66页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 资格考试

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁