《统计学参数估计.pptx》由会员分享,可在线阅读,更多相关《统计学参数估计.pptx(65页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1本本 章章 内内 容容第一节第一节 统计推断的基本问题和概念统计推断的基本问题和概念第二节第二节 总体参数的点估计总体参数的点估计第三节第三节 正态总体均值的区间估计正态总体均值的区间估计第四节第四节 一般总体均值的大样本区间估计一般总体均值的大样本区间估计第五节第五节 样本容量的确定样本容量的确定第1页/共65页2第一节第一节 统计推断的基本问题和概念统计推断的基本问题和概念一、一、统计推断的基本问题统计推断的基本问题二、二、简单随机抽样简单随机抽样和和抽样误差抽样误差 三、三、统计量统计量及其及其抽样分布抽样分布四、四、参数估计的主要内容参数估计的主要内容第2页/共65页3第二节第二节
2、总体参数的总体参数的点估计点估计 一、一、矩估计矩估计二、二、极大似然估计极大似然估计二、二、点估计量的优良标准点估计量的优良标准第3页/共65页4第三节第三节 正态总体均值的正态总体均值的区间估计区间估计一、一、单正态总体均值的区间估计单正态总体均值的区间估计二、二、两正态总体均值之差的区间估计两正态总体均值之差的区间估计第4页/共65页5第四节第四节 一般总体均值的大样本区间估计一般总体均值的大样本区间估计 一、一、非正态总体均值的大样本区间估计非正态总体均值的大样本区间估计二、二、总体成数的大样本区间估计总体成数的大样本区间估计第5页/共65页6第五节第五节 必要样本容量的确定必要样本容
3、量的确定一、一、总体均值估计的必要样本容量总体均值估计的必要样本容量二、二、总体成数估计的必要样本容量总体成数估计的必要样本容量三、三、影响必要样本容量的因素影响必要样本容量的因素第6页/共65页7把所研究的问题或现象视为随机变量,有概率分布,它全面描述了我们要研究的现象的统计规律性。如果知道了要研究的随机变量的概率分布,就可以在其基础上比较清楚地了解要研究的现象。但在现实中,绝大多数情况下,并不知道要研究的随机现象的分布,有时即使知道其服从什么类型的分布,但不知道分布中所含的参数。由于总体包含个体的大量性,研究者很难得到全部个体的信息和资料,即使有时可以得到,但不经济。统计推断的基本问题统计
4、推断的基本问题第7页/共65页8统计推断的基本问题统计推断的基本问题n统计推断通常是从所要研究的对象全体中抽取一部分进行观测或试验以获取信息,对总体作出推断。n由于抽取部分个体观测和试验是随机进行的,依据有限个体的数据对总体作出的推断不可能绝对准确,总是包含误差,总是含有一定程度的不确定性,而不确定性用概率表示比较恰当,概率大,所做的推断就比较可靠,概率小,推断的准确性就低。n如何根据观测或试验所得到的有限信息对总体作出推断,并同时指出所作的这种推断有多大的可靠性(用概率表示),是统计推断的基本问题。第8页/共65页9简单随机抽样简单随机抽样为什么要进行随机抽样?为什么要进行随机抽样?l由于种
5、种原因,现实中很多现象不可能进行全面调查。对具有破坏性或消耗性的产品进行质量检验 对无限总体或总体容量过大的现象进行研究 l某些现象即使理论上可以进行全面调查,但为了节省大量的人力、物力、财力和时间,在不影响精度和可靠度的前提下,采用抽样推断可以达到事半功倍的效果。第9页/共65页10简单随机抽样简单随机抽样抽取的样本应能很好地代表总体;从总体中抽取样本有多种不同的方法,最简单的、应用很普遍的抽样方法是简单随机抽样,它满足以下两个条件:(1)总体的每一个体都有同等机会被选入样本;(2)样本的分量 是相互独立的随机变量,即样本中任一个体的取值不影响其它个体的取值。满足这两个条件的抽样方法称为简单
6、随机抽样,由此得到的样本称为简单随机样本。易见,简单随机样本 独立同分布(有时用表示 )。第10页/共65页11简单随机抽样简单随机抽样u从总体中抽样有多种方法和技术,除简单随机抽样外,分层抽样、系统抽样和整群抽样也是常用的抽样方法,不同的抽样方法得到不同的样本,进而所用的统计推断方法也不尽相同。u以后如无特别说明,所提到的样本都是指简单随机样本。u研究对象可以视为随机变量,有自己的分布;总体和随机变量联系起来。u在一次抽样以后,观测到 的一组确定的值或数据 称为该样本的观测值或样本数据,也称作该样本的一个实现。样本所有可能观测值的全体就构成了样本空间。第11页/共65页12l由于样本中每一个
7、个体 都来自总体 ,所以样本中的任一个体 的分布函数和总体相同,即 的分布函数为 简单随机样本,相互独立,则样本 的联合分布函数为l如果总体的密度函数为 ,则样本 的联合分布密度函数为l如无特别说明,一般用大写英文字母或希腊字母表示随机变量,而用小写英文字母表示随机变量的观测值或数据。简单随机抽样简单随机抽样第12页/共65页13样本只是总体的部分个体,不能完全包含总体的全部信息。无论抽样方法多么先进、抽样过程多么仔细,总体的信息在样本中总会有损失。不管采用什么推断方法,由样本推断总体时,必定存在差异,这种总体未知参数和相应的基于样本的统计量之间的差异称为抽样误差(sampling error
8、)。抽样误差是抽样推断方法所固有的,我们只能采用一些措施(如提高样本的代表性、增加样本容量等)减少抽样误差,但无法完全消除;只要利用抽样推断方法,抽样误差就一定存在,在参数的点估计、区间估计和假设检验等统计推断过程中都伴有抽样误差。抽样误差抽样误差第13页/共65页14抽样误差抽样误差第14页/共65页15第15页/共65页16第16页/共65页17抽样误差抽样误差第17页/共65页18抽样误差抽样误差第18页/共65页19统计量统计量统计量统计量是不依赖于任何未知参数的样本的可测函数,它是一个随机变量。是不依赖于任何未知参数的样本的可测函数,它是一个随机变量。在由样本推断总体时,往往是通过统
9、计量把样本信息加工浓缩起来,进在由样本推断总体时,往往是通过统计量把样本信息加工浓缩起来,进而解决要研究的问题。而解决要研究的问题。统计量的观测值:统计量的观测值:把样本的观测值代入统计量公式计算出的数值;把样本的观测值代入统计量公式计算出的数值;第四章讲的算术平均数、标准差、方差、原点矩、中心矩以及偏度、峰度等都是统计量的观测值公式。第19页/共65页20统计量是随机变量,它也有自己的分布密度和分布函数;统计量的分布称为抽样分布。由样本推断总体的特征时正是依据统计量的抽样分布。由于正态分布在统计学中的应用十分普遍,子样均值和子样方差在统计学中也起着非常重要的作用,接下来我们给出总体为正态分布
10、的样本均值和样本方差的抽样分布,它们是统计推断的理论依据和基础。抽样分布抽样分布第20页/共65页21一个正态总体(时的抽样分布)一个正态总体(时的抽样分布)第21页/共65页22两个正态总体(时的抽样分布)两个正态总体(时的抽样分布)第22页/共65页23非正态总体样本均值的抽样分布非正态总体样本均值的抽样分布 总体成数和样本成数为总体均值和样本均值的特例总体成数和样本成数为总体均值和样本均值的特例 第23页/共65页24图图5.1 5.1 样本均值的抽样分布随样本均值的抽样分布随n n变化趋于正态分布的过程变化趋于正态分布的过程 第24页/共65页25参数估计的主要内容参数估计的主要内容
11、非参数估计 参数估计 点估计 矩估计 极大似然估计 区间估计(置信区间)双侧置信区间(区间估计)第25页/共65页26点估计的一般原理点估计的一般原理第26页/共65页27在研究未知参数的估计值时,并不是根据一组样本的具体观测值来确定一个估计值,而是从总体出发,先根据某原理确定估计量。然后在研究参数一个估计量与参数的真值之间的偏差在统计意义下是大还是小,在统计意义下偏差小的估计量通常被认为是好的。点估计的优点在于它能够提供总体参数的具体估计值,可以作为行动决策的数量依据。点估计的不足之处,它不能提供误差情况如何、误差程度有多大的这类重要信息。在构造统计量时,利用不同的原理和思想就可以得到不同的
12、统计量,常用的有矩(法)估计和极(或最)大似然估计。另外,在统计模型中最小二乘估计也很常见,我们将在第九章中介绍。第27页/共65页28矩估计法是英国统计学家K.Pearson提出的。其基本思想:总体分布的参数一般都是总体矩的函数;样本来源于总体,样本矩在一定程度上反映了总体矩,又由大数定律知道样本矩依概率收敛到总体矩,因此就用样本矩来估计相应的总体矩,从而得到总体分布的参数的估计,这种估计方法称为矩估计。矩法估计优点:(1)只要总体的k阶矩存在,就可以用矩估计来估计总体参数;(2)简单、直观,且不必知道总体的分布类型。矩估计法的局限性:(1)如它要求总体的k阶原点矩存在,否则无法应用;(2)
13、它不考虑总体分布类型,如果研究者并不清楚所研究现象的分布,应用矩估计可以得到比较可靠的结果,但如果总体的分布类型已知,由于它没有充分利用总体分布函数提供的信息,所以得到的结果并不比极大似然估计来的准确。矩估计矩估计 第28页/共65页29矩估计矩估计 第29页/共65页30第30页/共65页31极大似然估计极大似然估计第31页/共65页32第32页/共65页33第33页/共65页34这里这里 为为 任意一个无偏估任意一个无偏估计量计量 1.1.无偏性无偏性2.2.一致性一致性 3.3.有效性有效性 点估计量的优良标准点估计量的优良标准但样本方差不是总体方差的无偏估计!第34页/共65页35区间
14、估计的概念和基本思想区间估计的概念和基本思想 置信区间的端点常常是位置参数的估计量的函数。置信区间是一个随机区间,它的两个端点都是不依赖未知参数的随机变量,该随机区间可能包含未知参数,也可能不包含未知参数。第35页/共65页36置信区间越小,说明估计的精度越高,即我们对未知参数的了解越多、越具体;置信水平越大,估计可靠性就越大。一般说来,在样本容量一定的前提下,精度与置信度往往是相互矛盾的;若置信水平增加,则置信区间必然增大,降低了精度;若精度提高,则区间缩小,置信水平必然减小。要同时提高估计的置信水平和精度,就要增加样本容量。置信区间的构造或区间估计和第六章的假设检验关系密切,两者有着对偶的
15、关系,只要有一种假设检验就可以根据该假设检验构造相应的置信区间,反之亦然;置信区间的构建往往要借助于未知参数点估计或其函数的抽样分布来进行。第36页/共65页37第37页/共65页38构造位置参数的置信区间的一般步骤:构造位置参数的置信区间的一般步骤:第38页/共65页39单正态总体均值的区间估计单正态总体均值的区间估计(方差已知时方差已知时)第39页/共65页40第40页/共65页41单正态总体均值的区间估计单正态总体均值的区间估计(方差未知时方差未知时)第41页/共65页42第42页/共65页43第43页/共65页44t t分布与标准正态分布的比较分布与标准正态分布的比较 第44页/共65
16、页45第45页/共65页46两正态总体均值之差的区间估计两正态总体均值之差的区间估计 第46页/共65页47第47页/共65页482.2.两个正态总体的方差两个正态总体的方差 和和 未知,但未知,但第48页/共65页49第49页/共65页50如果样本量n和m较小,则利用(5.16)式计算置信区间是不合适的;如果两个样本不是独立的,而是配对样本,在这些情况下应该如何来构造置信区间?我们在这里不再介绍,感兴趣的同学可以查阅Hogg and Tanis(2001)。第50页/共65页51非正态总体均值的大样本区间估计非正态总体均值的大样本区间估计(一一)单个非正态总体的均值的大样本置信区间单个非正态
17、总体的均值的大样本置信区间 第51页/共65页52(二二)两个非正态总体的均值之差的置信区间两个非正态总体的均值之差的置信区间 当总体分布为对称、单峰的连续分布时,不需要太大的样本容量,上述枢轴当总体分布为对称、单峰的连续分布时,不需要太大的样本容量,上述枢轴量量Z Z和和WW的精确分布用正态分布近似就会有很好的效果,当总体分布不对称或的精确分布用正态分布近似就会有很好的效果,当总体分布不对称或是多峰或离散分布时,则需要较大的样本容量,才能得到比较好的近似效果,是多峰或离散分布时,则需要较大的样本容量,才能得到比较好的近似效果,此时,样本容量往往需要此时,样本容量往往需要5050甚至更大。甚至
18、更大。第52页/共65页53总体成数的大样本区间估计总体成数的大样本区间估计 单总体单总体第53页/共65页54【例5.9】某公司有职工3000人,从中随机抽取100人调查其工资收入情况。调查结果表明,职工的月平均工资为3350元,标准差为403元,月收入在5000元及以上职工8人。试以95.45%的置信水平推断该公司职工月平均工资所在的范围和月收入在5000元及以上职工在全部职工中所占的比重。第54页/共65页55第55页/共65页56两总体成数之差的近似区间估计两总体成数之差的近似区间估计第56页/共65页57【例5.10】分别从两个同行公司中随机抽取100人和120人调查其工资收入情况。
19、调查结果表明,A公司月收入在5000元及以上有职工9人,B公司月收入在5000元及以上的职工有6人。试以95%的置信水平推断这两个公司职工月工资在5000元及以上职工所占的比重之差的置信区间;该结果能说明A公司5000元及以上职工所占的比重比B公司高吗?第57页/共65页58作参数估计时为什么要确定合适作参数估计时为什么要确定合适(必要必要)的样本容量?的样本容量?我们既希望参数的估计的可靠度或置信度要高,又希望估计的精度要高,但样本容量过多,必然会增加人力、财力、物力的支出,造成不必要的浪费;样本容量过少,又会导致抽样误差增大,达不到抽样所要求的准确程度。因此,必要样本容量就是在保证误差不超
20、过规定范围的条件下尽可能节省人、财、物的支出。第58页/共65页59本节只考虑了单个总体、双侧区间估计时的样本容量。这里确定出来的样本容量,很多时候是一个近似值,在实际工作中是一个非常重要的参考,但不是死板地采用这个样本容量。第59页/共65页60总体均值的必要样本容量总体均值的必要样本容量重复抽样:不重复抽样:例题6 遵循随大原则第60页/共65页61第61页/共65页62重复抽样:不重复抽样:总体成数的必要样本容量总体成数的必要样本容量例题7当总体成数 未知时,用其估计量样本成数 代替。第62页/共65页63遵循随大原则:p(1-p)在p=0.5时取得极大值 第63页/共65页64影响必要
21、样本容量的因素影响必要样本容量的因素1.1.总体的变异程度,即方差的大小。总体方差越大,要求样总体的变异程度,即方差的大小。总体方差越大,要求样本容量要大些;反之则相反。本容量要大些;反之则相反。2.2.容许误差的大小。容许误差越大,要求样本容量越小。容许误差的大小。容许误差越大,要求样本容量越小。3.3.抽样方法。在其他条件相同时,重复抽样比不重复抽样要抽样方法。在其他条件相同时,重复抽样比不重复抽样要求样本容量大些。求样本容量大些。4.4.抽样方式。采用类型抽样的样本容量要小于简单随机抽样抽样方式。采用类型抽样的样本容量要小于简单随机抽样的样本容量。的样本容量。5.5.抽样推断的置信度的大小。置信度越大,要求样本容量越抽样推断的置信度的大小。置信度越大,要求样本容量越大大.可从样本容量计算公式的推导结果加以验证可从样本容量计算公式的推导结果加以验证第64页/共65页65感谢您的观看!第65页/共65页