《抽样与抽样分布.pptx》由会员分享,可在线阅读,更多相关《抽样与抽样分布.pptx(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十章第十章 抽样与抽样分布抽样与抽样分布w第一节 抽样与抽样分布 w第二节 参数估计的基本方法w第三节 总体参数的区间估计第一节 抽样与抽样分布w一、抽样判断一、抽样判断 w二、抽样方法二、抽样方法 w三、抽样分布三、抽样分布一、一、抽样判断抽样判断 什么叫抽样判断 从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征叫样本推断。 二、抽样方法w根据抽取样本的原则不同,抽样方法有概率概率抽样和非概率抽样。抽样和非概率抽样。w概率抽样的常用方法有: 1、 简单随机抽样 2、 分层抽样 3、 整群抽样1、简单随机抽样、简单随机抽样w从总体
2、N个单位中随机地抽取n个单位作为样本,使得每一个容量为n的样本都有相同的相同的机会机会(概率)被抽中 w抽取元素的具体方法有重复抽样和不重复抽样w特点:简单、直观,在抽样框完整时,可直接从中抽取样本w局限性 当N很大时,不易构造抽样框,抽出的单位很分散,给实施调查增加了困难,没有利用其他辅助信息以提高估计的效率2、分层抽样、分层抽样w将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本w优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计3、整群抽样整群抽样w将总体中若干个单位合并为组(群
3、),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查w特点抽样时只需群群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差 三种不同性质的分布三种不同性质的分布w 1、总体分布总体分布w 2、样本分布样本分布w 3、抽样分布抽样分布三者之间有什么关系?1、总体分布总体分布w1)总体中各元素的观察值所形成的相对频数(频率)分布 w2)分布通常是未知的(因为几乎得不到总图所有观察值)w3)可以(根据理论分析)假定它服从某种分布 2、样本分布样本分布w1)一个样本中各观察值的形成的相对频数(频率)分布 w2)也称经验分布 w3)当样本容量n逐渐增大时,样
4、本分布逐渐接近总体的分布 3、抽样分布抽样分布w1)样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 w2)样本统计量是样本的函数,依据不同的样本计算出来的值是不同的所以统计量是随机变量 样本均值, 样本比例,样本方差等w3)结果来自容量相同的所有可能样本w4)提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 (1)总体分布、样本均值的抽样分布总体分布、样本均值的抽样分布5 . 21NxNii25. 1)(122NxNii现从总体中抽取现从总体中抽取n2的简单随机样本,在重复抽样条件的简单随机样本,在
5、重复抽样条件下,共有下,共有42=16个样本。所有样本的结果为个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n = 2 的样本(共的样本(共16个)个)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均值( )nxx样本均值的分布与总体分布的比较样本均值的分布与总体分布的比较x5 . 2x625. 02
6、xw当总体服从正态分布N(, )时,样本均值的抽样分布仍然是服从正态分布的,其均值仍为 ,方差为 ,即样本均值的方差比原总体的方差要小,而且样本容量n越大,方差越小。 2n2nw上述结论是对正态总体而言的,不过实际上,即使对于非正态总体而言,随着样本容量的增加,的抽样分布也会近似地变成正态的。事实上,只要样本足够大(通常要求样本容量不小于45),即使是从非正态分布的总体中抽样,根据统计学中的中心极限定理,样本均值的抽样分布与从正态分布总体中的抽样所得到的结果也近似相同。总结:样本均值的抽样分布w样本均值的数学期望仍为 w样本均值的方差(方差的概率意义在于刻画了随机变量取值的分散程度。方差越小,
7、随随机变量的取值越集中在期望值附近。) 重复抽样不重复抽样nx22122NnNnx(2)样本比例的抽样分布w总体中具有某种属性的单位数与总体全部单位数之比称为总体比例,也称总体的成数,记作 P。而样本中具有某种属性的单位数与样本总数之比称为样本比例,或称样本成数,记作 p 。w若从总体中随机抽取出容量为n的样本,发现其中具有某种属性的单位数为m,则样本中具有某种属性的单位的比例就为 p=m/nw样本比例是一个随机变量,当样本容量很大时,近似地服从正态分布。其分布的数学期望为总体的成数 ,方差等于 ,即:PP n1PnPPPNp1,第二节 参数估计的基本方法w参数估计也就是用样本统计量去估计总体
8、的参数。比如,用样本均值估计总体均值估计总体均值,用样本方差估计总体方差,用样本比例估计总体比例等。w用来估计总体参数的统计量的名称,称为估计量,用符号 表示w用来估计总体参数时计算出来的估计量的具体数值,称为估计值点估计与区间估计点估计与区间估计 参数估计的方法有点估计和区间估计(一)点估计 点估计又称定值估计。它是用实际样本指标数值代替总体指标数值,即总体平均数的点估计值就是样本平均数,总体成数的点估计值就是样本成数。这种估计不考虑是否有抽样误差。 w 例如,对一批某种型号的电子元件10000只进行耐用时间检查,随机抽取100只,测试的平均耐用时间为1055小时,合格率为91%,我们推断说
9、10000只电子元件的平均耐用时间为1055小时,全部电子元件的合格率也是91%。评价估计量的标准评价估计量的标准w用于估计的估计量很多,究竟用样本的哪种估计量作为总体参数的估计呢? 统计学家给出了一些标准: w(一)无偏性。即以抽样指标估计全及指标要求抽样指标值的平均数等于被估计的全及指标本身。w(二)一致性。即当样本容量n充分大的时,若样本指标充分地靠近被估计的全体指标,则该样本指标是被估计的全体指标的一致估计量。w(三)有效性。即如果一个样本估计量的方差比其他估计量的方差小,则称该样本估计量是被估计的全及指标的有效估计量。 (二)区间估计w区间估计所表明的是一个可能范围,不是一个绝对可靠
10、的范围。是用样本指标和它的抽样极限误差构成的区间来估计总体指标,并以一定的概率保证总体指标将在所估计的区间内。第三节 总体参数的区间估计w一、 总体均值的区间估计w二、总体比例的区间估计一、总体均值的区间估计一、总体均值的区间估计 1、区间估计的基本原理根据样本平均数的分布特征可知: p( x-x-Xx+x ) = F(t) 在概率保证程度为F(t),概率度为t的情况下,总体平均数的数值将在x-x和x+x的范围内。其中,x-x称为估计下限,x+x称为估计上限。区间x-x,x+x称为置信区间 。 估计可靠性程度称为置信度。 如果我们将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所
11、占的比率称为置信水平。w当总体服从正态分布且方差已知时,或者总体不是正态分布且方差未知但大样本,在这种情况下,样本均值的抽样分布均为正态分布,其数学期望是方差是 w根据正态分布的性质可以得出总体均值所在的区间为:n/2nzx2/w如果总体方差未知,大样本条件下,则可以用样本方差 代替总体方差 ,这时总体均值在1- 置信水平下的置信区间可以写为nszx2/2s2w如果是采取不重复抽样,而且抽样比很大时,则样本分布的方差应乘以修正系数 ,这时 总体均值在1- 置信水平下的置信区间可以写为:1NnN )1(2/NnNnzxw 当总体方差 未知时,总体均值在1- 置信水平的置信区间可以写为:2)1(2
12、/NnNnSzx (二二)总体成数的估计区间总体成数的估计区间w总体成数的区间估计原理与总体平均数相同,即:在概率保证程度为F(t),概率度为t的情况下,总体成数的数值将在p-p和p+p的范围内。其中p-p称为估计下限,p+p称为估计上限。区间p-p,p+p称为置信区间,估计可靠性程度1称为置信度。w当样本容量很大时,样本比例p的抽样分布可用正态分布近似。p的数学期望等于总体的比例P,而p的方差在重复抽样条件下为w与总体均值的区间估计类似,样本比例p的基础上加减边际误差即得总体比例P的置信区间:nppp)1 (2nppzp)1(2/w若在大样本不重复抽样条件下,p的方差为 =( ) 因此总体比例在1置信水平下的置信区间为: nPP)1 ( 1NnN1)1 (2/NnNnppzp2p