《抽样推断 (2).ppt》由会员分享,可在线阅读,更多相关《抽样推断 (2).ppt(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于抽样推断(2)现在学习的是第1页,共48页第一节 抽样推断概述n一、抽样基本知识一、抽样基本知识n (一)全及总体和样本总体(一)全及总体和样本总体n1、全及总体和总体指标全及总体和总体指标n全及总体全及总体。简称总体(Population),是指所要研究的对象的全体,它是由所研究范围内具有某种共同性质的全部单位所组成的集合体。总体单位总数用N表示。(举例)n总体指标总体指标(参数)。在抽样估计中,用来反映总体数量特征的指标称为总体指标,也叫总体参数。研究目的一经确定,总体也唯一地确定了,所以总体指标的数值是客观存在的、确定的,但又是未知的,需要用样本资料去估计。现在学习的是第2页,共48
2、页n通常所要估计的总体指标有:通常所要估计的总体指标有:n 变量总体:变量总体:属性总体:属性总体:n总体平均数总体平均数 (或记为或记为)总体比例(成数)总体比例(成数)P Pn总体标准差总体标准差或方差或方差 总体比例标准差总体比例标准差P P或方差或方差P P n总体标志总量总体标志总量 (N )(N )总体中具有某一属性的单位总数总体中具有某一属性的单位总数 (NP)(NP)等。等。XX现在学习的是第3页,共48页n2 2、样本总体和样本指标、样本总体和样本指标n 样本总体样本总体。简称样本(。简称样本(SampleSample),它是从总体中抽取的),它是从总体中抽取的部部分总体单位
3、的集合体分总体单位的集合体 。n 样本容量样本容量:样本中所包含的个体的数量,一般用:样本中所包含的个体的数量,一般用n n表示。表示。在实际工作中,人们通常把在实际工作中,人们通常把n30n30的样本称为大样本的样本称为大样本,而把,而把n30n30的样本称为小样本的样本称为小样本。n 对于某一既定的总体,由于抽样的方式方法不同,样对于某一既定的总体,由于抽样的方式方法不同,样本容量也可大可小,因而,本容量也可大可小,因而,样本是不确定的、而是可变的样本是不确定的、而是可变的。n 样本指标(统计量)样本指标(统计量)。在抽样估计中,用来反映。在抽样估计中,用来反映样本总体数样本总体数量特征的
4、指标量特征的指标称为样本指标,也称为样本统计量或估计量,称为样本指标,也称为样本统计量或估计量,是根据样本资料计算的、用以估计或推断相应总体指标的是根据样本资料计算的、用以估计或推断相应总体指标的综合指标。综合指标。n 现在学习的是第4页,共48页n常见的样本统计量有:常见的样本统计量有:n 变量总体:变量总体:属性总体:属性总体:n样本平均数样本平均数 样本比例(也称样本成数)样本比例(也称样本成数)p pn样本标准差样本标准差S S 或样本方差或样本方差S S 样本比例标准差样本比例标准差p p或方差或方差p p n n样本统计量样本统计量不含未知参数不含未知参数,它是随样本不同而不同的随
5、机变量。,它是随样本不同而不同的随机变量。x现在学习的是第5页,共48页n(二)关于抽样方法(二)关于抽样方法 n 在实际应用中,抽样方法主要有两种,即概率抽样和非概率抽样。在实际应用中,抽样方法主要有两种,即概率抽样和非概率抽样。n 1 1、概率抽样也叫随机抽样概率抽样也叫随机抽样,是指按随机原则抽取样本。所谓随机原则,是指按随机原则抽取样本。所谓随机原则,就是排除主观意识的干扰,使总体的每一个单位都有一定的概率被抽选为样就是排除主观意识的干扰,使总体的每一个单位都有一定的概率被抽选为样本单位,每个单位能否入选是随机的。本单位,每个单位能否入选是随机的。概率抽样最基本的组织形式有概率抽样最基
6、本的组织形式有:简单随:简单随机抽样、分层抽样、等距抽样和整群抽样。机抽样、分层抽样、等距抽样和整群抽样。n 特点特点:概率抽样能有效地避免主观选样带来的倾向性误差(系统偏差),使得抽样估:概率抽样能有效地避免主观选样带来的倾向性误差(系统偏差),使得抽样估计和推断得以建立在概率论和数理统计的科学理论之上。从而使样本资料一方面能够用计和推断得以建立在概率论和数理统计的科学理论之上。从而使样本资料一方面能够用于估计和推断总体的数量特征;于估计和推断总体的数量特征;另一方面可以计算和控制抽样误差,说明估计的可靠程另一方面可以计算和控制抽样误差,说明估计的可靠程度。度。n 作用作用:n(1 1)在不
7、可能或不必要进行全面调查时,常常利用概率抽样来推断总体;)在不可能或不必要进行全面调查时,常常利用概率抽样来推断总体;n(2 2)利用概率抽样修正或补充全面调查的不足。)利用概率抽样修正或补充全面调查的不足。n 统计上所指的抽样一般都是指概率抽样统计上所指的抽样一般都是指概率抽样。现在学习的是第6页,共48页n 2 2、非概率抽样也叫非随机抽样、非概率抽样也叫非随机抽样,是指从研究目的出发,根据是指从研究目的出发,根据调查者的经验或判断,从总体中调查者的经验或判断,从总体中有意识地有意识地抽取若干单位构成抽取若干单位构成样本。样本。n 重点调查、典型调查、配额抽样(是按照一定标准或一定条重点调
8、查、典型调查、配额抽样(是按照一定标准或一定条件分配样本单位数量,然后由调查者在规定的数额内主观地抽取件分配样本单位数量,然后由调查者在规定的数额内主观地抽取样本)、方便抽样(指调查者按其方便任意选取样本。如商场柜样本)、方便抽样(指调查者按其方便任意选取样本。如商场柜台售货员拿着厂家的调查表对顾客的调查)等就属于非随机抽样。台售货员拿着厂家的调查表对顾客的调查)等就属于非随机抽样。n 非随机抽样容易产生倾向性误差,并且误差不能计算和控非随机抽样容易产生倾向性误差,并且误差不能计算和控制制 ,也就无法说明调查结果的可靠程度。,也就无法说明调查结果的可靠程度。现在学习的是第7页,共48页n3 3
9、、重复抽样和不重复抽样、重复抽样和不重复抽样n 在概率抽样的条件下,样本单位的抽选方法有重复和不重复两种。在概率抽样的条件下,样本单位的抽选方法有重复和不重复两种。n 重复抽样重复抽样,又称回置抽样,是指从总体的,又称回置抽样,是指从总体的N N个单位中,每次抽取一个单个单位中,每次抽取一个单位后,再将其放回总体中参加下一次抽选,这样连续抽位后,再将其放回总体中参加下一次抽选,这样连续抽n n次,即得到一个次,即得到一个样本。其特点是:样本是由样本。其特点是:样本是由n n次次相互独立相互独立的连续试验构成的,每次试验是在的连续试验构成的,每次试验是在完全相完全相同同的条件下进行,每个单位中选
10、的机会在各次都完全相等。的条件下进行,每个单位中选的机会在各次都完全相等。“重抽重抽”(考虑顺(考虑顺序)可能的样本数目(从总体中可能抽取的样本个数,用序)可能的样本数目(从总体中可能抽取的样本个数,用M M表示)为:表示)为:N Nn n个。个。n 不重复抽样不重复抽样,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。其特点是:样本由本单位只能从余下的总体单位中抽取。其特点是:样本由n n次连续抽取次连续抽取的结果构的结果构成,实际上等于一次同时从总体中抽取成,实际上等于一次同时从总体中抽取n n
11、个样本单位。个样本单位。n 可能的样本数目(考虑顺序):可能的样本数目(考虑顺序):N(N-1)(N-2)N(N-1)(N-2)(N-n+1)(N-n+1)个。个。现在学习的是第8页,共48页n 举例:设有举例:设有4 4名学生的月消费支出分别为:名学生的月消费支出分别为:240240,280280,360360,400400元。我们分元。我们分别用别用A A、B B、C C、D D替代。若从中抽取两个单位构成样本,则全部可能的样本数目为:替代。若从中抽取两个单位构成样本,则全部可能的样本数目为:n重复:重复:4 42 2=16=16个。它们是个。它们是 n AA AB AC AD;BA BB
12、 BC BD AA AB AC AD;BA BB BC BD n CA CB CC CD;DA DB DC DD CA CB CC CD;DA DB DC DDn不重复:不重复:4 43=123=12。它们是。它们是 n AB AC AD;BA BC BDAB AC AD;BA BC BDn CA CB CD;DA DB DC CA CB CD;DA DB DC n 现在学习的是第9页,共48页n(三)抽样框(略)三)抽样框(略)n n调查目的确定之后,抽样总体(调查目的确定之后,抽样总体(目标总体目标总体)也就随之确定了。)也就随之确定了。但实际进行抽样的总体范围与目标总体有时是不一致的。所
13、以,但实际进行抽样的总体范围与目标总体有时是不一致的。所以,有了目标总体,还必须明确实际进行抽样的总体范围和抽样单位,有了目标总体,还必须明确实际进行抽样的总体范围和抽样单位,这就需要编制一个抽样框。抽样框是包括全部抽样单位的名单框这就需要编制一个抽样框。抽样框是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接影架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接影响到抽样调查的随机性和调查效果。响到抽样调查的随机性和调查效果。现在学习的是第10页,共48页 (四)抽样误差(四)抽样误差n n 统计调查误差统计调查误差,是指调查,是指调查所得结果与总体真实数值之
14、间所得结果与总体真实数值之间的差异的差异。在抽样调查中,误差的来源有两大类:登记性误差和代表。在抽样调查中,误差的来源有两大类:登记性误差和代表性误差。性误差。n 登记性误差登记性误差。是任何一种统计调查都可能产生。是任何一种统计调查都可能产生。n 代表性误差代表性误差(1)(1)系统性误差系统性误差:是由于非随机因素引起的:是由于非随机因素引起的 样本代表样本代表性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称偏差;也称偏差;n (2)(2)随机误差随机误差:又称偶然性误差,是指:又称偶然性误差,是指遵循随机遵循随机
15、原则抽样,但由于样本各单位的结构不足以代表总体各单位的原则抽样,但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体参数之间的误差结构而引起的样本估计量与总体参数之间的误差。这就是抽样。这就是抽样估计中所谓的抽样误差估计中所谓的抽样误差 。现在学习的是第11页,共48页n实际应用中,三个有密切联系而又相互区别的抽样误差的概念实际应用中,三个有密切联系而又相互区别的抽样误差的概念n 实际抽样误差实际抽样误差n 抽样平均误差抽样平均误差n 抽样极限误差。抽样极限误差。n1 1、实际抽样误差、实际抽样误差 n2 2、抽样平均误差(抽样标准误抽样平均误差(抽样标准误)n 抽样平均误
16、差是反映抽样误差一般水平的指标(因为抽样误差是抽样平均误差是反映抽样误差一般水平的指标(因为抽样误差是一个随机变量,它的数值随着可能抽取的样本不同而或大或小,为了总一个随机变量,它的数值随着可能抽取的样本不同而或大或小,为了总的衡量样本代表性的高低,就需要计算抽样误差的一般水平)。通常用的衡量样本代表性的高低,就需要计算抽样误差的一般水平)。通常用样本估计量的标准差样本估计量的标准差来反映来反映所有可能样本估计值与其中心值的平均所有可能样本估计值与其中心值的平均离散程度。离散程度。n 现在学习的是第12页,共48页n抽样平均误差可衡量样本对总体的代表性大小抽样平均误差可衡量样本对总体的代表性大
17、小。即。即抽样平均误越小,则样本估计量的分布抽样平均误越小,则样本估计量的分布就越集中在总体参数的附近,平均来说,样就越集中在总体参数的附近,平均来说,样本估计值与总体参数之间的抽样误差越小,本估计值与总体参数之间的抽样误差越小,样本对总体的代表性越大样本对总体的代表性越大。22()()()x E xxxMM现在学习的是第13页,共48页n 实际中,抽样平均误差不可能按定义式来计算,只能实际中,抽样平均误差不可能按定义式来计算,只能n根据概率论和数理统计的有关理论来推导其计算公式。根据概率论和数理统计的有关理论来推导其计算公式。n 在总体方差在总体方差 已知,总体单位总数为已知,总体单位总数为
18、N N,样本容量为,样本容量为n n,简单,简单随机抽样条件下,抽样平均误的计算公式为:随机抽样条件下,抽样平均误的计算公式为:n 重复抽样重复抽样 不重复抽样不重复抽样n估计均值估计均值n估计成数估计成数22()xnn2()1nxnN(1)()pppn(1)()1ppnpnN现在学习的是第14页,共48页n3 3、抽样极限误差抽样极限误差n 抽样极限误差是指抽样极限误差是指一定概率下一定概率下抽样误差的可能范围抽样误差的可能范围,也称为允许误差。用也称为允许误差。用表示,由定义知其表达式:表示,由定义知其表达式:n 在一定概率下,在一定概率下,n 上式表示,在一定概率下可认为样本估计量与相应
19、的总体上式表示,在一定概率下可认为样本估计量与相应的总体参数的误差的绝对值不超过参数的误差的绝对值不超过 。用。用 、n分别表示平均数和比例(成数)的抽样极限误差,则在一分别表示平均数和比例(成数)的抽样极限误差,则在一定概率下有:定概率下有:n ;|p-P|p-P|xxppxX现在学习的是第15页,共48页xxxXx pppP p n估计均值的置信区间:估计均值的置信区间:n估计成数(比例)的置信区间:估计成数(比例)的置信区间:现在学习的是第16页,共48页n 抽样极限误差是抽样误差的抽样极限误差是抽样误差的可能范围可能范围,而不是完全肯,而不是完全肯定的范围。所以,这一可能范围的大小是与
20、其估计的可靠定的范围。所以,这一可能范围的大小是与其估计的可靠程度的大小(即概率)紧密联系的。在抽样估计中,这个程度的大小(即概率)紧密联系的。在抽样估计中,这个概率叫置信度,习惯上也称为可靠程度、把握程度或概率概率叫置信度,习惯上也称为可靠程度、把握程度或概率保证程度等,用保证程度等,用1-1-表示。表示。显然在其他条件不变的情况下,抽显然在其他条件不变的情况下,抽样极限误差越大,相应的置信度也就越大。样极限误差越大,相应的置信度也就越大。n 与抽样极限误差相关的两个概念是与抽样极限误差相关的两个概念是:抽样误差率和抽抽样误差率和抽样估计精度。样估计精度。n抽样误差率抽样误差率=(抽样极限误
21、差(抽样极限误差/估计量)估计量)100%100%n抽样估计精度抽样估计精度=100%-=100%-抽样误差率抽样误差率n 现在学习的是第17页,共48页n 估计精度与估计的可靠程度是矛盾的。也就是说,如果精度很高,估计精度与估计的可靠程度是矛盾的。也就是说,如果精度很高,则会由于估计区间太窄而使错误估计的可能性大增,从而大大降低则会由于估计区间太窄而使错误估计的可能性大增,从而大大降低估计的可靠程度,使估计结果没有多大的作用;如果置信度很高,估计的可靠程度,使估计结果没有多大的作用;如果置信度很高,则意味着允许误差范围较大,而使估计精度太低则意味着允许误差范围较大,而使估计精度太低 ,这时尽
22、管估计的,这时尽管估计的可靠程度接近或等于可靠程度接近或等于100%100%,但抽样估计本身也会失去意义。,但抽样估计本身也会失去意义。n 实际中,只能依据具体情况,先满足一方面,然后确定实际中,只能依据具体情况,先满足一方面,然后确定另一方面另一方面 。现在学习的是第18页,共48页二、抽样分布二、抽样分布 n(一)(一)抽样分布的概念抽样分布的概念n 样本指标是一种随机变量,它有若干可能取值,每个样本指标是一种随机变量,它有若干可能取值,每个可能取值都有一定的可能性(即概率),从而形成它的概率可能取值都有一定的可能性(即概率),从而形成它的概率分布,即统计上所谓的抽样分布。简言之,分布,即
23、统计上所谓的抽样分布。简言之,n 抽样分布就是指样本统计量的概率分布抽样分布就是指样本统计量的概率分布。n 样本统计量是由样本统计量是由n n个随机变量构成的函数,故抽样分布属个随机变量构成的函数,故抽样分布属于随机变量函数的分布。于随机变量函数的分布。n 抽样分布反映了样本指标的分布特征,是抽样推断的重要依据抽样分布反映了样本指标的分布特征,是抽样推断的重要依据。根据样本分布的规律,可揭示样本指标与总体指标之间的关系,根据样本分布的规律,可揭示样本指标与总体指标之间的关系,估计抽样误差,并说明抽样推断的可靠程度。估计抽样误差,并说明抽样推断的可靠程度。n 现在学习的是第19页,共48页n举例
24、:如前例,四名学生的月消费支出(240,280,360,400 元)。现按重复取样的方法,随机抽取两位构成一个样本,则全部可能的样本及其各样本的均值如下表所示:现在学习的是第20页,共48页n序号序号 样本变量样本变量 样本平均数样本平均数 平均数离差平均数离差 离差平方离差平方 n x x x-x x x-E(E(x)x)x-x-E(E(x)x)n 1 240 1 240,280 260 -60 3600280 260 -60 3600n 2 240 2 240,360 300 -20 400360 300 -20 400n 3 240 3 240,400 320 0 0400 320 0
25、0n 4 280 4 280,240 260 -60 3600240 260 -60 3600n 5 280 5 280,360 320 0 0360 320 0 0n 6 280 6 280,400 340 20 400400 340 20 400n 7 360 7 360,240 300 -20 400240 300 -20 400n 8 360 8 360,280 320 0 0280 320 0 0n 9 360 9 360,400 380 60 3600400 380 60 3600n10 40010 400,240 320 0 0240 320 0 0 11 400 11 400,
26、280 340 20 400280 340 20 400 12 400 12 400,360 380 60 3600360 380 60 3600 合计合计 2640 0 16000 2640 0 16000现在学习的是第21页,共48页n(二)样本平均数的抽样分布(二)样本平均数的抽样分布n1、总体方差已知已知时,样本平均数的抽样分布n定理定理4.14.1 设总体设总体X NX N(,),(),(x x1 1,x,x2 2,,x xn n)是其是其中一个简单随机样本,则样本平均数中一个简单随机样本,则样本平均数 N N(,/n/n)。)。n将样本平均数标准化,即有:将样本平均数标准化,即有:
27、n n Z=NZ=N(0 0,1 1)xxn()xx现在学习的是第22页,共48页n2 2、总体方差未知,大样本、总体方差未知,大样本。n定理定理4.24.2 若总体平均数若总体平均数和方差和方差有限有限,当样本容量,当样本容量n充分大充分大时,时,无论总体分布形式如何,样本平均数近似服从正态分布无论总体分布形式如何,样本平均数近似服从正态分布 N N(,/n/n)。)。n Z=NZ=N(0 0,1 1)n 其中:其中:n 大样本时,n-1 nx()xxxsn2()x xsn现在学习的是第23页,共48页 3 3、总体方差未知,小样本。、总体方差未知,小样本。n定理定理4.34.3 设总体设总
28、体XNXN(,),(),(x x1 1,x,x2 2,xn,xn)是其中一)是其中一个简单随机样本,样本均值为个简单随机样本,样本均值为 ,样本标准差为,样本标准差为S S,则统计量,则统计量n n t=t(n-1)t=t(n-1)(4.64.6)n 其中:其中:n xxsn2()1x xsn现在学习的是第24页,共48页n(三)样本比例的抽样分布(三)样本比例的抽样分布n n 当从总体中抽取一个样本容量为当从总体中抽取一个样本容量为n n的样本时,样本中具有某种特征的的样本时,样本中具有某种特征的单位数单位数x x服从二项分布,即有服从二项分布,即有x Bx B(n n,P P)。)。n 根
29、据中心极限定理,当根据中心极限定理,当nn时,二项分布趋近于正态分布时,二项分布趋近于正态分布。所以,。所以,在大样本下,在大样本下,nPnP若和若和n n(1-P1-P)皆大于)皆大于5 5,样本比例近似服从正态分布:,样本比例近似服从正态分布:n p NP,P(1-P)/n (4.10)p NP,P(1-P)/n (4.10)n统计量统计量 Z=NZ=N(0 0,1 1)(1)p PPPn现在学习的是第25页,共48页 抽样估计就是抽样估计就是根据样本提供的信息对总体的某些特征进行估计或推断根据样本提供的信息对总体的某些特征进行估计或推断。抽样估计又称作参数估计,抽样估计又称作参数估计,参
30、数估计可分为点估计和区间估计两参数估计可分为点估计和区间估计两种种。一、一、点估计点估计 点估计又叫定值估计点估计又叫定值估计,就是,就是用样本的统计量用样本的统计量 直接估计总体参数直接估计总体参数 。点估计常用的方法有两种:矩估计法点估计常用的方法有两种:矩估计法 极大似然估计法。极大似然估计法。第二节第二节 抽样估计的基本方法抽样估计的基本方法现在学习的是第26页,共48页n(一)(一)矩估计法矩估计法n 矩估计法是英国统计学家矩估计法是英国统计学家K.PearsonK.Pearson提出的。其提出的。其基本思想基本思想是:由于样是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而
31、且由大数定律可知,本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律可知,样本矩以概率收敛与总体矩。因此,只要总体样本矩以概率收敛与总体矩。因此,只要总体X X的的k k阶原点矩存在,就可以阶原点矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。估计量。n 在统计学中,矩是指以期望值为基础而定义的数字特征,例如数学期在统计学中,矩是指以期望值为基础而定义的数字特征,例如数学期望、方差、协方差等。矩可以分为原点矩和中心矩两种。望、方差、协方差等。矩可以分为原点矩和中心矩两种。n(二)极大
32、似然估计法(略)(二)极大似然估计法(略)n 极大似然估计法(极大似然估计法(Maximum Likelihood EstimateMaximum Likelihood Estimate,简记为,简记为MLEMLE)是)是由由FisherFisher提出的一种参数估计方法。其提出的一种参数估计方法。其基本思想基本思想是:设总体分布的函数形是:设总体分布的函数形式已知,但有未知参数式已知,但有未知参数 ,可以取很多值,在可以取很多值,在 的一切可能取值中选一个使的一切可能取值中选一个使样本观察值出现的概率为最大的样本观察值出现的概率为最大的 值作为估计值,记作值作为估计值,记作 ,并称为并称为
33、的极大似然的极大似然估计值。这种求估计量的方法称为极大似然估计法。估计值。这种求估计量的方法称为极大似然估计法。现在学习的是第27页,共48页n(三)估计量的优良标准(三)估计量的优良标准n 一个好的估计量通常要求满足以下三个标准:一个好的估计量通常要求满足以下三个标准:n 1 1、无偏性、无偏性n 所谓所谓无偏性无偏性是指是指样本估计量的均值应等于被估计总体参数的真值样本估计量的均值应等于被估计总体参数的真值。n 2 2、有效性有效性n 所谓所谓有效性有效性是指作为优良的估计量,除了满足无偏性外,其方差应比较小。是指作为优良的估计量,除了满足无偏性外,其方差应比较小。这样才能保证估计量的取值
34、能集中在被估计的总体参数的附近,对总体参数的这样才能保证估计量的取值能集中在被估计的总体参数的附近,对总体参数的估计和推断更可靠。估计和推断更可靠。n 3 3、一致性、一致性n 一致性一致性又称相合性又称相合性 ,即随着样本容量,即随着样本容量n n的增大,一个好的估计量将在的增大,一个好的估计量将在概率意义下愈来愈接近于总体的真值。概率意义下愈来愈接近于总体的真值。n 样本平均数作为总体平均数的估计量、样本比例作为总体比例的估计量,都样本平均数作为总体平均数的估计量、样本比例作为总体比例的估计量,都具有上述优良性质,所以,通常用样本平均数去估计总体平均数,用样本比例具有上述优良性质,所以,通
35、常用样本平均数去估计总体平均数,用样本比例去估计总体比例。去估计总体比例。现在学习的是第28页,共48页n 优缺点:优缺点:n 其优点是简单、具体明确。但点估计总有一定的抽样其优点是简单、具体明确。但点估计总有一定的抽样误差,而点估计本身又无法说明抽样误差的大小,也无法误差,而点估计本身又无法说明抽样误差的大小,也无法说明估计结果有多大的把握程度。而区间估计能够比较好说明估计结果有多大的把握程度。而区间估计能够比较好地解决参数估计的精确度与可靠程度的问题。地解决参数估计的精确度与可靠程度的问题。现在学习的是第29页,共48页二、区间估计二、区间估计n区间估计区间估计就是根据就是根据样本估计量、
36、以一定的可靠程度推断总体样本估计量、以一定的可靠程度推断总体参数所在的区间范围参数所在的区间范围。n这种估计不仅以样本估计量为依据,而且考虑了估计量的分布,所这种估计不仅以样本估计量为依据,而且考虑了估计量的分布,所以它能给出估计量的精度,也能说明估计结果的把握程度。以它能给出估计量的精度,也能说明估计结果的把握程度。(一一)总体均值的区间估计总体均值的区间估计(二)总体比例的区间估计(二)总体比例的区间估计现在学习的是第30页,共48页n均值的置信区间:均值的置信区间:n其中:极限误差 应依据所给的条件,利用抽样分布定理进行推算。n =或 =n 或 =xxxXx xx/2/2()xn /2s
37、n/2stn现在学习的是第31页,共48页n总体比例的置信区间:总体比例的置信区间:n n其中其中:pppP p /2/2(1)()pPPpn 现在学习的是第32页,共48页第三节第三节 抽样调查的组织方式及其抽样估计抽样调查的组织方式及其抽样估计n 常用的抽样组织方式有:常用的抽样组织方式有:纯随机抽样、分层抽样、等距抽样和整群纯随机抽样、分层抽样、等距抽样和整群抽样抽样四种。四种。n 一、一、纯随机抽样纯随机抽样n 又称又称简单随机抽样简单随机抽样,它是对总体单位不进行任何划分或排队,它是对总体单位不进行任何划分或排队,完完全随机地直接全随机地直接从总体中抽取样本单位,使每个总体单位都有完
38、全均等从总体中抽取样本单位,使每个总体单位都有完全均等的机会被抽中。的机会被抽中。n 纯随机抽样常采用的纯随机抽样常采用的抽选方法抽选方法有抽签法、利用随机数表取数法和电有抽签法、利用随机数表取数法和电子计算机取数法。它只需对总体单位进行编号,而不需要事先掌握更多子计算机取数法。它只需对总体单位进行编号,而不需要事先掌握更多的总体信息的总体信息。n 二、二、分层抽样及其抽样估计分层抽样及其抽样估计n 分层抽样分层抽样又称类型抽样或分类抽样。这种抽样方式是先对总体各单又称类型抽样或分类抽样。这种抽样方式是先对总体各单位按位按主要标志主要标志加以分组,然后再从各组中按随机原则抽选一定单位构成加以分
39、组,然后再从各组中按随机原则抽选一定单位构成样本。如城市职工收入调查,可按行业将全部职工分类,再从各行业中样本。如城市职工收入调查,可按行业将全部职工分类,再从各行业中分别抽取若干职工进行调查。分别抽取若干职工进行调查。现在学习的是第33页,共48页n各组的样本单位数为各组的样本单位数为:n抽样总体平均数的计算:抽样总体平均数的计算:n类型抽样的抽样平均误差的计算:类型抽样的抽样平均误差的计算:n 类型抽样总的抽样误差取决于各类型抽样总的抽样误差取决于各组内组内的抽样误差,而各组的抽样误差又取决的抽样误差,而各组的抽样误差又取决于各组内的方差水平。于各组内的方差水平。n 类型抽样的抽样平均误差
40、与类型抽样的抽样平均误差与组间方差无关组间方差无关,其大小仅取决于,其大小仅取决于组内方差组内方差的平的平均水平。由于均水平。由于总体方差总体方差=组间方差组间方差+组内方差组内方差,所以,类型抽样误差一般小,所以,类型抽样误差一般小于纯随机抽样误差。那么,要想提高抽样效果,应采取何种措施呢?于纯随机抽样误差。那么,要想提高抽样效果,应采取何种措施呢?(应该尽可能扩大组间方差,缩小组内方差,这样就可以减少抽样误差。应该尽可能扩大组间方差,缩小组内方差,这样就可以减少抽样误差。)n 对于类型抽样,若对于类型抽样,若总体各组为正态分布总体各组为正态分布(或非正态分布但(或非正态分布但n ni i充
41、分大),则充分大),则各子样本平均数各子样本平均数 和样本平均数也都服从(或近似服从)正态分布。对于给定的和样本平均数也都服从(或近似服从)正态分布。对于给定的置信度置信度1-1-,则,则总体均值的置信区间为总体均值的置信区间为:现在学习的是第34页,共48页n 三、等距抽样三、等距抽样n 等距抽样也称机械抽样。它是等距抽样也称机械抽样。它是先先将总体所有单位按将总体所有单位按某一标志顺序某一标志顺序排列,排列,然然后后按按相等相等的距离抽取样本单位。的距离抽取样本单位。n 排列的标志可以是排列的标志可以是无关标志无关标志也可以是也可以是有关标志有关标志。n(1 1)无关标志无关标志,指和单位
42、标志值的大小无关或不起主要的影响作用。指和单位标志值的大小无关或不起主要的影响作用。n(2 2)有关标志有关标志,指作为排队顺序的标志和单位标志值的大小有密切的关指作为排队顺序的标志和单位标志值的大小有密切的关系。系。n 其中,按有关标志顺序排队,并将样本单位加以其中,按有关标志顺序排队,并将样本单位加以n n等份后,对每一部分等份后,对每一部分抽取一个样本单位有两种方法抽取一个样本单位有两种方法 半距中点取样半距中点取样n 对称等距取样对称等距取样n 应该指出的是,等距取样间隔的确定,要避免与想象中的应该指出的是,等距取样间隔的确定,要避免与想象中的周期性节奏重合周期性节奏重合,引起系统误差
43、的影响。引起系统误差的影响。现在学习的是第35页,共48页n 优点优点:由于这等距抽样是在各单位按大小顺序排队基础:由于这等距抽样是在各单位按大小顺序排队基础上,再按某种规则以一定间隔取样,从而可保证所取得的上,再按某种规则以一定间隔取样,从而可保证所取得的样本单位比较均匀地分布在总体的各个部分,因此,有较样本单位比较均匀地分布在总体的各个部分,因此,有较高的代表性。高的代表性。n 等距抽样的参数估计可参照简单随机抽样的估计方法。等距抽样的参数估计可参照简单随机抽样的估计方法。n 四、四、整群抽样整群抽样n 整群抽样整群抽样又称又称群体抽样群体抽样。它是将总体各单位划分成许它是将总体各单位划分
44、成许多群,然后从中随机抽取部分群,并对多群,然后从中随机抽取部分群,并对中选群的所有单中选群的所有单位进行全面调查位进行全面调查。n 整群抽样整群抽样实质上实质上是是以以“群群”代替单位代替单位之后的纯随机抽样。之后的纯随机抽样。因此,整群抽样的抽样平均误差可以根据群间方差来推算。因此,整群抽样的抽样平均误差可以根据群间方差来推算。现在学习的是第36页,共48页 五、五、样本容量的确定样本容量的确定n 抽样设计中的一个重要内容就是要确定必要的样本单位数。抽样设计中的一个重要内容就是要确定必要的样本单位数。n 所谓所谓必要的样本单位数必要的样本单位数,就是为了使抽样误差就是为了使抽样误差不超过不
45、超过给给定的允许范围至少应抽取的样本单位数目定的允许范围至少应抽取的样本单位数目。n 确定必要样本单位数的确定必要样本单位数的原则原则是:在保证抽样推断能达到预期的是:在保证抽样推断能达到预期的可靠程度和精确性的要求下,使费用达到最小,即用尽可能少的样可靠程度和精确性的要求下,使费用达到最小,即用尽可能少的样本容量而能达到误差在允许范围之内。本容量而能达到误差在允许范围之内。现在学习的是第37页,共48页22/22()()xn2/22()(1)()pPPn2/222/2()(1)()()(1)pNPPnNPP 22/2222/2()()()xNnN 在总体方差在总体方差 已知,总体单位总数为已
46、知,总体单位总数为N N,样本容量为,样本容量为n n,简,简单随机抽样条件下,必要样本单位数的计算公式为:单随机抽样条件下,必要样本单位数的计算公式为:重复抽样 不重复抽样2估计均值估计成数估计成数现在学习的是第38页,共48页n n必要的样本单位数必要的样本单位数n n受允许的极限误差的制约,极限误差要受允许的极限误差的制约,极限误差要求越小,则样本单位就要求越多求越小,则样本单位就要求越多。以重复抽样来说,在其他。以重复抽样来说,在其他条件不变下,当误差范围缩小一半则样本单位数必须增加到条件不变下,当误差范围缩小一半则样本单位数必须增加到四倍;而误差范围允许扩大一倍,则样本单位数只需要原
47、来四倍;而误差范围允许扩大一倍,则样本单位数只需要原来的的1/41/4。所以,在抽样组织中,对抽样误差可能允许的范围要。所以,在抽样组织中,对抽样误差可能允许的范围要十分慎重地考虑。十分慎重地考虑。n 在多主题抽样中,往往一个样本要调查多项指标。(在多主题抽样中,往往一个样本要调查多项指标。(此此时又如何确定样本容量呢?时又如何确定样本容量呢?)现在学习的是第39页,共48页 n问题的提出:问题的提出:n1、某生产线的感冒冲剂规定每包重量为12克,超重或过轻都是严重质量问题。从过去的资料得知 是0.6克,质检员每两个小时抽取25包冲剂称重检验,并作出是否停工的决策。假定产品重量服从正态分布。n
48、(1)建立适当的原假设和备择假设;n(2)在 时,该检验的决策准则是什么?n(3)如果 12.25克,你将采取什么行动?n(4)如果 11.95克,你又将采取什么行动?n 第四节第四节 假设检验假设检验0.05x x 现在学习的是第40页,共48页第四节第四节 假设检验假设检验n2、电视机显像管批量生产的质量标准为平均使用寿命1200小时,标准差300小时。某电视机厂宣称其生产的显像管质量大大超过质量标准。为了进行检验,随机抽取100件为样本,测得平均使用寿命1245小时。能否认为该厂所生产的显像管质量显著的高于规定的标准?n3、一本杂志公开声称,现在大学生的消费越来越趋向“高端化”,有一半以
49、上的学生人均月消费在1000元以上。为了验证这一说法,我们在某校园内随机抽取了在校学生100名,了解到其中月支出额在1000元以上的有45人。试以95%的置信水平来验证该杂志社的说法是否正确。0.05现在学习的是第41页,共48页现在学习的是第42页,共48页n假设检验(假设检验(Hypothesis testingHypothesis testing)是推断统计中的一项重要内容,)是推断统计中的一项重要内容,它是它是先先对研究总体的参数作出某种假设,对研究总体的参数作出某种假设,然后然后通过样本的观察来判断假设是通过样本的观察来判断假设是否成立否成立。它是进行经济管理和决策的有利工具。它是进
50、行经济管理和决策的有利工具。n 一、假设检验的步骤一、假设检验的步骤n 一个完整的假设过程,通常包括以下五个步骤:一个完整的假设过程,通常包括以下五个步骤:n(一)(一)提出原假设提出原假设和替换假设和替换假设n 对每个假设检验问题,一般要同时提出两个相反的假设:对每个假设检验问题,一般要同时提出两个相反的假设:n 原假设原假设又称零假设又称零假设 ,是正待检验的假设,记为,是正待检验的假设,记为 H H0 0;n 备择假设备择假设,是拒绝原假设后可供选择的假设,记为,是拒绝原假设后可供选择的假设,记为H H1 1。n 原假设和备择假设是相互对立的,检验结果二者必取其一。原假设和备择假设是相互