《统计学第五章参数估计.ppt》由会员分享,可在线阅读,更多相关《统计学第五章参数估计.ppt(110页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、参数估计第五章 参 数 估 计南京财经大学统计系1本本 章章 内内 容容第一节第一节 统计推断的基本问题和概念统计推断的基本问题和概念第二节第二节 总体参数的点估计总体参数的点估计第三节第三节 正态总体均值的区间估计正态总体均值的区间估计第四节第四节 一般总体均值的大样本区间估计一般总体均值的大样本区间估计第六节第六节 样本容量的确定样本容量的确定2第一节第一节 统计推断的基本问题和概念统计推断的基本问题和概念、统计推断的基本问题统计推断的基本问题一、一、简单随机抽样简单随机抽样和和抽样误差抽样误差 二、二、统计量统计量及其及其抽样分布抽样分布三、三、参数估计的主要内容参数估计的主要内容3统计
2、推断的基本问题统计推断的基本问题n如何根据观测或试验所得到的有限信息对总体作出推断,如何根据观测或试验所得到的有限信息对总体作出推断,并同时指出所作的这种推断有多大的可靠性(用概率表示),并同时指出所作的这种推断有多大的可靠性(用概率表示),是统计推断的基本问题。是统计推断的基本问题。n统计推断通常是从所要研究的对象全体中抽取一部分进行统计推断通常是从所要研究的对象全体中抽取一部分进行观测或试验以获取信息,对总体作出推断。观测或试验以获取信息,对总体作出推断。n由于抽取部分个体观测和试验是随机进行的,依据有限个由于抽取部分个体观测和试验是随机进行的,依据有限个体的数据对总体作出的推断不可能绝对
3、准确,总是包含误差,体的数据对总体作出的推断不可能绝对准确,总是包含误差,总是含有一定程度的不确定性总是含有一定程度的不确定性4抽样抽样u从总体中抽样有多种方法和技术,常用方法有从总体中抽样有多种方法和技术,常用方法有简单随机简单随机抽样抽样,分层抽样、系统抽样分层抽样、系统抽样和和整群抽样整群抽样,不同的抽样方法,不同的抽样方法得到不同的样本,进而所用的统计推断方法也不尽相同;得到不同的样本,进而所用的统计推断方法也不尽相同;简单随机抽样是最常用的方法。简单随机抽样是最常用的方法。5简单随机抽样简单随机抽样为什么要进行随机抽样?为什么要进行随机抽样?l由于种种原因,现实中很多现象不可能进行全
4、面调查。由于种种原因,现实中很多现象不可能进行全面调查。对具有破坏性或消耗性的产品进行质量检验对具有破坏性或消耗性的产品进行质量检验:灯泡,灯泡,食品质量食品质量 对无限总体或总体容量过大的现象进行研究对无限总体或总体容量过大的现象进行研究:海洋海洋中的鱼中的鱼 l某些现象即使理论上可以进行全面调查,但为了节省大某些现象即使理论上可以进行全面调查,但为了节省大量的人力、物力、财力和时间,在不影响精度和可靠度的量的人力、物力、财力和时间,在不影响精度和可靠度的前提下,采用抽样推断可以达到事半功倍的效果。前提下,采用抽样推断可以达到事半功倍的效果。在进行随机抽样时,根据有无放回分为:重复抽样和不重
5、复抽样在进行随机抽样时,根据有无放回分为:重复抽样和不重复抽样6 重复抽样又叫有放还抽样或重置抽样。它是重复抽样又叫有放还抽样或重置抽样。它是每抽出一个样本单位后,把结果记录下来,随即将该每抽出一个样本单位后,把结果记录下来,随即将该单位放回到总体中去,使它和其余的单位在下一次抽单位放回到总体中去,使它和其余的单位在下一次抽选中具有同等被抽中的机会。在重复抽样过程中,总选中具有同等被抽中的机会。在重复抽样过程中,总体单位数始终保持不变,并且同一个单位有多次被抽体单位数始终保持不变,并且同一个单位有多次被抽中的可能性。中的可能性。重复抽样7 不重复抽样又叫无放还抽样或不重置抽样。不重复抽样又叫无
6、放还抽样或不重置抽样。它是每抽出一个样本单位后,把结果记录下来,该单它是每抽出一个样本单位后,把结果记录下来,该单位就不再放回到总体中去参加以后的抽选。在不重复位就不再放回到总体中去参加以后的抽选。在不重复抽样过程中,总体单位数逐渐减少,并且每个单位至抽样过程中,总体单位数逐渐减少,并且每个单位至多只有一次被抽中的可能性。多只有一次被抽中的可能性。不重复抽样8样本只是总体的部分个体,不能完全包含总体的全部信息。样本只是总体的部分个体,不能完全包含总体的全部信息。不管采用什么推断方法,由样本推断总体时,必定存在差异,不管采用什么推断方法,由样本推断总体时,必定存在差异,这种总体未知参数和相应的基
7、于样本的统计量之间的差异称这种总体未知参数和相应的基于样本的统计量之间的差异称为为抽样误差抽样误差(sampling error)。)。抽样误差是抽样推断方法所固有的,只要利用抽样推断方抽样误差是抽样推断方法所固有的,只要利用抽样推断方法,抽样误差就一定存在,在参数估计和假设检验等统计推法,抽样误差就一定存在,在参数估计和假设检验等统计推断过程中都伴有抽样误差。断过程中都伴有抽样误差。抽样误差抽样误差相同的条件下,哪种方式的抽样误差较小?相同的条件下,哪种方式的抽样误差较小?不重复抽样不重复抽样910到底是那个误差才可以作为参考呢,事实上哪个也不行,到底是那个误差才可以作为参考呢,事实上哪个也
8、不行,最好能得到一个平均误差最好能得到一个平均误差11抽样平均误差的理论公式 所谓总体成数(或比例)指总体中具有某种特征的个体的所谓总体成数(或比例)指总体中具有某种特征的个体的数量在总体中所占的比重,用数量在总体中所占的比重,用表示;样本成数用表示;样本成数用p p表示。表示。M M是指在固定样本容量下从总体中抽取不同样本的可能数目。是指在固定样本容量下从总体中抽取不同样本的可能数目。12抽样误差抽样误差理理论论研究中,在研究中,在的条件下,常用的条件下,常用标标准差准差来来测测度抽度抽样样平均平均误误差差M通常难以获取,以上平均误差公式在实际中难以使用通常难以获取,以上平均误差公式在实际中
9、难以使用就抽样平均数或成数而言,就抽样平均数或成数而言,抽样平均误差就是抽样平均数或成抽样平均误差就是抽样平均数或成数的标准差。数的标准差。13抽样平均数的抽样平均误差重复抽样:不重复抽样:理论研究表明在一定条件下样本均值的抽样平均误差公式为理论研究表明在一定条件下样本均值的抽样平均误差公式为当总体标准差未知时用样本值N表示总体单位数,n表示样本容量比较两种情形下的抽样平均误差的大小(公式,直观)比较两种情形下的抽样平均误差的大小(公式,直观)样本均值(成数)的抽样平均误差即为样本均值样本均值(成数)的抽样平均误差即为样本均值(成数)成数)的标准差的标准差特别注意特别注意显然显然14例题例题1
10、总体标准差未知,用样本标准差代替总体标准差未知,用样本标准差代替15几个基本概念几个基本概念u样本,样本观测值:在一次抽样以后,观测到的一组确定的值或数样本,样本观测值:在一次抽样以后,观测到的一组确定的值或数据据 称为该称为该样本的观测值样本的观测值或或样本数据样本数据,也称作该样本,也称作该样本的一个的一个实现;实现;显然,每次抽样的结果一般是不同的;如果我们记抽样结果为显然,每次抽样的结果一般是不同的;如果我们记抽样结果为 ,显然这是一个多维随机变量;我们称之为随机样本,简称样本,显然这是一个多维随机变量;我们称之为随机样本,简称样本 样本,样本观测值样本,样本观测值16统计量统计量统计
11、量:统计量:不依赖于任何未知参数的样本的函数不依赖于任何未知参数的样本的函数或者说统计量仅或者说统计量仅仅是样本的函数仅是样本的函数统计量的观测值:统计量的观测值:把样本的观测值代入统计量公式计算出的数把样本的观测值代入统计量公式计算出的数值;值;17抽样分布抽样分布统计量是随机变量,它也有自己的分布密度和分布函数统计量是随机变量,它也有自己的分布密度和分布函数抽样分布;抽样分布;由样本推断总体的有关特征时依据统计量的抽样分布。由样本推断总体的有关特征时依据统计量的抽样分布。-如如区间估计,假设检验区间估计,假设检验由于正态分布在统计学中的应用十分普遍,其由于正态分布在统计学中的应用十分普遍,
12、其样本均值样本均值和和样本方差样本方差在统计学中也起着非常重要的作用,接下来我们给在统计学中也起着非常重要的作用,接下来我们给出总体为出总体为正态分布正态分布的样本均值和样本方差的抽样分布,它们的样本均值和样本方差的抽样分布,它们是统计推断的是统计推断的理论依据和基础理论依据和基础。18一个正态总体(时的抽样分布)一个正态总体(时的抽样分布)19两个正态总体(时的抽样分布)两个正态总体(时的抽样分布)20非正态总体样本均值的抽样分布非正态总体样本均值的抽样分布中心极限定理中心极限定理 方差未知用样本方差未知用样本21总体成数和样本成数 所谓总体成数(或比例)指总体中具有某种特所谓总体成数(或比
13、例)指总体中具有某种特征的个体的数量在总体中所占的比重,用征的个体的数量在总体中所占的比重,用表示。如果表示。如果总体容量为总体容量为N N,总体中的个体具有某特质(如合格)赋值,总体中的个体具有某特质(如合格)赋值为为“1”“1”,不具有此特质则赋值为,不具有此特质则赋值为“0”“0”,假设总体均值,假设总体均值u u为具有该特质的个体数为具有该特质的个体数可见,对这种可见,对这种0-1总体而言,其均值等于成数总体而言,其均值等于成数如果所有取值仅有如果所有取值仅有0,1两个结果,这样的总体一般称之为两个结果,这样的总体一般称之为0-1总体总体22总体成数和样本成数 易知样本成数 p 就是样
14、本均值;所以总体(样本)成数就是一类特殊总体的总体(样本)均值;易得成数的抽样误差:总体标准差为总体标准差为:23抽样成数的抽样平均误差重复抽样:不重复抽样:总体成数未知,用样本成数代替总体成数未知,用样本成数代替24例题225有关样本成数的渐近分布的结论可以作为样本均值的特殊情况得到26第二节第二节 总体参数的总体参数的点估计点估计 一、一、矩估计矩估计二、二、极大似然估计极大似然估计二、二、点估计量的优良标准点估计量的优良标准27参数估计的主要内容参数估计的主要内容 非参数估计非参数估计 参数估计参数估计 点估计点估计 矩估计矩估计 极大似然估计极大似然估计 区间估计(置信区间)区间估计(
15、置信区间)双侧置信区间(两个端点)双侧置信区间(两个端点)单侧置信区间(一个端点)单侧置信区间(一个端点)估计量估计量和和估计值估计值28参数估计的主要内容参数估计的主要内容 l瓶装饮料上所标注的容量:看一下饮料供应商有没有瓶装饮料上所标注的容量:看一下饮料供应商有没有欺骗消费者欺骗消费者对瓶装饮料的含量估计一个区间,只要厂家的声称(或瓶上对瓶装饮料的含量估计一个区间,只要厂家的声称(或瓶上的标注)未超出我们所估计区间的上限,我们就认为没有欺的标注)未超出我们所估计区间的上限,我们就认为没有欺骗行为骗行为-有上限即可有上限即可单侧置信区间举例:单侧置信区间举例:29在研究未知参数的估计值时,并
16、不是根据一组样本的具体观测值来确在研究未知参数的估计值时,并不是根据一组样本的具体观测值来确定一个估计值,而是从总体出发,先根据某原理确定估计量定一个估计值,而是从总体出发,先根据某原理确定估计量(根据某种特根据某种特定目的确定的统计量定目的确定的统计量)。)。点估计的特点点估计的特点点估计的优点在于它能够提供总体参数的具体估计值,可以作为行动点估计的优点在于它能够提供总体参数的具体估计值,可以作为行动决策的数量依据。决策的数量依据。点估计的不足之处,它不能提供误差情况如何、误差程度有多大的这点估计的不足之处,它不能提供误差情况如何、误差程度有多大的这类重要信息。类重要信息。然后在研究参数一个
17、估计量与参数的真值之间的偏差在统计意义下是然后在研究参数一个估计量与参数的真值之间的偏差在统计意义下是大还是小,在统计意义下偏差小的估计量通常被认为是好的。大还是小,在统计意义下偏差小的估计量通常被认为是好的。30矩估计矩估计 l矩估计法是英国统计学家矩估计法是英国统计学家K.Pearson提出的。提出的。l其基本思想:用样本矩来估计相应的总体矩,从而得到总其基本思想:用样本矩来估计相应的总体矩,从而得到总体分布的参数的估计,这种估计方法称为矩估计体分布的参数的估计,这种估计方法称为矩估计 31一阶原点矩一阶样本原点矩矩估计矩估计 二阶中心矩二阶样本中心矩实际中,更多使用实际中,更多使用32矩
18、估计矩估计 l矩法估计优点矩法估计优点:(1)只要总体的只要总体的k阶矩存在,就可以用矩估计来估计总体参数阶矩存在,就可以用矩估计来估计总体参数;(2)简单、直观,且不必知道总体的分布类型简单、直观,且不必知道总体的分布类型 l局限性局限性:(1)如它要求总体的如它要求总体的k阶原点矩不存在,否则无法应用阶原点矩不存在,否则无法应用;(2)它不考虑总体分布类型,如果总体的分布类型已它不考虑总体分布类型,如果总体的分布类型已知,由于它没有充分利用总体分布函数提供的信息,所以得到知,由于它没有充分利用总体分布函数提供的信息,所以得到的结果并不比极大似然估计来的准确。的结果并不比极大似然估计来的准确
19、。331.1.无偏性无偏性2.2.一致性一致性 (相合性)(相合性)(以投币过程中正面出现的比重为例)(以投币过程中正面出现的比重为例)3.3.有效性有效性这里这里 都是都是 的无偏估计的无偏估计点估计优良性的测定点估计优良性的测定34第三节第三节 正态总体均值的正态总体均值的区间估计区间估计一、一、单正态总体均值的区间估计单正态总体均值的区间估计二、二、两正态总体均值之差的区间估计两正态总体均值之差的区间估计三、三、正态总体均值的单侧区间估计正态总体均值的单侧区间估计35区间估计区间估计一 点估计是通过相应的估计量计算出一个数值去估计未知参数,而实际中常常用到参数的另一种估计形式:区间估计。
20、区间估计考虑了估计中可能出现的误差,并将误差以醒目的形式标出来,给以以更大的可信感。如估计某人身高以很大的可能性在米之间,估计某月消费金额在1000-1400元之间,估计某个人的年龄范围等等。36区间估计的概念和基本思想区间估计的概念和基本思想 37置信区间越小,说明估计的精度越高,即我们对未知参数的了解越多、置信区间越小,说明估计的精度越高,即我们对未知参数的了解越多、越具体;置信水平越大,估计可靠性就越大。越具体;置信水平越大,估计可靠性就越大。一般说来,在样本容量一定的前提下,精度一般说来,在样本容量一定的前提下,精度(区间长度)(区间长度)与置信度往往与置信度往往是相互矛盾的;若置信水
21、平增加,则置信区间必然增大,降低了精度;是相互矛盾的;若置信水平增加,则置信区间必然增大,降低了精度;若精度提高,则区间缩小,置信水平必然减小。要同时提高估计的置信若精度提高,则区间缩小,置信水平必然减小。要同时提高估计的置信水平和精度,就要增加样本容量。水平和精度,就要增加样本容量。置信区间的构建往往要借助于置信区间的构建往往要借助于未知参数点估计或其函数的未知参数点估计或其函数的抽样分布抽样分布来进行。来进行。38单正态总体均值的区间估计单正态总体均值的区间估计(方差已知时方差已知时)即要找到两个端点 使得平均寿命 满足(一般置信区间构造和相应点估计的分布有关)回忆其样本均值的有关性质:给
22、给定置信水平定置信水平我我们们可以可以对对任何概率任何概率值值找到找到对应对应的区的区间间的定的定义义39单正态总体均值的区间估计单正态总体均值的区间估计(方差已知时方差已知时)即即 所以所以总体均值总体均值 的置信水平为的置信水平为 的(双侧)置信区间的(双侧)置信区间函数函数normsinv(1-/2)=-normsinv(/2)返回的即返回的即为为我我们们所需的所需的重复抽样时平均重复抽样时平均数的抽样误差数的抽样误差40总总体方差体方差,样样本容量本容量为为,样样本均本均值值置信水平置信水平为为 对应对应函数函数normsinv(1-0.025)=-因此该厂因此该厂60W灯泡的平均寿命
23、的置信水平为灯泡的平均寿命的置信水平为95%的置信区间为的置信区间为 假如该厂声称其灯泡使用寿命平均为假如该厂声称其灯泡使用寿命平均为1490我们认为还是可我们认为还是可信的,如果声称为信的,如果声称为1500,则认为不可信,则认为不可信41注意:l在构造区间估计时,事实上我们是通过寻找一个随机变量 完成的,在此例中,就是找到了 这个量,我们把它称为是枢轴量,这也是构造区间估计的常用方法,在这个枢轴量中,只含有待估的未知参数而不含其他任何未知参数.在很多情况下 可以从未知参数 的点估计经过变换获得 l对给定的置信水平对给定的置信水平 ,利用枢轴量的抽样分布(一般都是常见分布)通过不等式变形即可
24、得到未知参数的区间估计构造位置参数的置信区间的一般步骤:构造位置参数的置信区间的一般步骤:42单正态总体均值的区间估计单正态总体均值的区间估计(方差未知时方差未知时)当正态总体的方差未知时,如果要构造总体均值的区间估计,此时的 枢轴量就不能选择 ,因为其中含有未知参数 ,可考虑用样本标准差代替总体标准差,得到枢轴量枢轴量,服从自由度,服从自由度为为n-1的的t分布分布可得可得,即,即 正正态总态总体方差体方差未知未知时时,总总体均体均值值 的置信水平的置信水平为为的(双的(双侧侧)置信区)置信区间为间为 m重复抽样时抽重复抽样时抽样平均数的抽样平均数的抽样误差样误差43 t分布函数说明1;单尾
25、 2:双尾 Tdist(x,deg-greedom,tail)=p(|T|x)Tdist(x,deg-greedom,tail)=p(|T|x)或或p(Tx)p(Tx)p=Tdist(1.75,8,2)=0.118233 p=Tdist(1.75,8,2)=0.118233;非负44 t分布函数说明,概率概率-分位点分位点如果求p(T?)=-运用t分布的对称性Tinv(probability,deg-freedom):Tinv(probability,deg-freedom):返回返回p(|T|x)=probabilityp(|T|x)=probability所对应所对应x x(注:只是双侧情
26、形)注:只是双侧情形)即即Tinv(,m):返回的即为双侧置信区间估计中的所需的分位点返回的即为双侧置信区间估计中的所需的分位点计算计算4546对应函数类似题目见活页ex-3,47类似题目见活页类似题目见活页ex-2,由于样本量较大,所以采用了正态分位数由于样本量较大,所以采用了正态分位数48t t分布与标准正态分布的比较分布与标准正态分布的比较 49教材数据中的教材数据中的ch5ch5例演示例演示50ExelExel演示演示Tinv(0.05,31)-Normsinv(0.025)51正态总体均值的单侧区间估计正态总体均值的单侧区间估计 根据研究者掌握的关于总体均值的信息,有时只需要或只想要
27、寻求有关根据研究者掌握的关于总体均值的信息,有时只需要或只想要寻求有关总体均值的置信下限总体均值的置信下限(或置信上限或置信上限),这就涉及到单侧置信区间问题,这就涉及到单侧置信区间问题 l饮料的容量饮料的容量-消协想根据瓶上的容量标注看一下商家有没有欺骗消费者消协想根据瓶上的容量标注看一下商家有没有欺骗消费者估计出饮料容量可能的区间,其实只要瓶上的标注容量没有超出区间的上估计出饮料容量可能的区间,其实只要瓶上的标注容量没有超出区间的上限,我们就认为商家没有欺骗行为限,我们就认为商家没有欺骗行为-所以,主要是一个上限的问题所以,主要是一个上限的问题52的定的定义义53的定的定义义Tinv(2,
28、n-1)5455两正态总体均值之差的区间估计两正态总体均值之差的区间估计 56类似题目见活页ex-5572.2.两个正态总体的方差两个正态总体的方差 和和 未知,但未知,但582.2.两个正态总体的方差两个正态总体的方差 和和 未知,但未知,但59EXCELEXCEL演示演示类似题目见活页ex-4对应函数60如果样本量如果样本量n和和m应比较大应比较大61两正态总体的均值之差的单侧置信区间两正态总体的均值之差的单侧置信区间 62两正态总体的均值之差的单侧置信区间两正态总体的均值之差的单侧置信区间 63小结:正态总体均值和均值之差的大样本双侧置信区间64第四节第四节 一般总体均值的大样本区间估计
29、一般总体均值的大样本区间估计 一、一、非正态总体均值的大样本区间估计非正态总体均值的大样本区间估计二、二、总体成数的大样本区间估计总体成数的大样本区间估计三、三、总体成数的大样本单侧区间估计总体成数的大样本单侧区间估计65非正态总体均值的大样本区间估计非正态总体均值的大样本区间估计(一一)单个非正态总体的均值的大样本置信区间单个非正态总体的均值的大样本置信区间 类似题目见活页11题66(二二)两个非正态总体的均值之差的置信区间两个非正态总体的均值之差的置信区间 类似题目见活页类似题目见活页11题题67小结:非正态总体均值和均值之差的区间估计小结:非正态总体均值和均值之差的区间估计68总体成数和
30、样本成数 所谓总体成数(或比例)指总体中具有某种特征的个体的数量在总体中所占的比重,用表示。总体成数的大样本区间估计总体成数的大样本区间估计 一般,总体中的个体具有某特质(如合格)赋值为“1”,不具有此特质则赋值为“0”即认为总体中的个体要么取值为1,要么取值为0,显然这就是我们所熟悉的0-1总体。令X表示相应的总体,简化为合格问题 易知,在此问题中,合格的概率(比重)就是 成数,可表示为69总体成数和样本成数总体成数的大样本区间估计总体成数的大样本区间估计 回忆0-1总体的均值,方差由此可知总体成数即为总体成数即为0-10-1总体的均值。显而易见,样本成数(记总体的均值。显而易见,样本成数(
31、记为为p)p)为为0-10-1总体的样本均值。所以,有关总体成数的估计总体的样本均值。所以,有关总体成数的估计问题即为问题即为0-10-1总体(非正态总体)均值的估计问题总体(非正态总体)均值的估计问题70 回忆单个非正态总体均值的置信区间估计,给定置信水平1-,对应的双侧置信区间为总体成数的大样本区间估计总体成数的大样本区间估计 故成数的双侧置信区间为 这里p表示样本成数(对应0-1总体的样本均值),p(1-p)表示样本方差注意:大样本的情形71【例【例5.95.9】某公司有职工】某公司有职工30003000人,从中随机抽取人,从中随机抽取100100人调查人调查其工资收入情况。调查结果表明
32、,职工的月平均工资为其工资收入情况。调查结果表明,职工的月平均工资为33503350元,标准差为元,标准差为403403元,月收入在元,月收入在50005000元及以上职工元及以上职工8 8人。人。试以试以95.45%95.45%的置信水平推断的置信水平推断l该公司职工月平均工资所在的范围该公司职工月平均工资所在的范围l月收入在月收入在50005000元及以上职工在全部职工中所占的比重所在元及以上职工在全部职工中所占的比重所在的范围的范围总体成数的大样本区间估计总体成数的大样本区间估计 72。73类似题目:课后三(类似题目:课后三(2)或活页)或活页274 回忆两个个非正态总体均值之差的置信区
33、间估计,所采用的枢轴量为 故两总体成数之差1-2的双侧置信区间为 这里p1,p2表示样本成数注意:大样本的情形两总体成数之差的近似区间估计两总体成数之差的近似区间估计给定置信水平1-,对应的双侧置信区间为近似分布为标准正态分布 75【例【例5.105.10】分别从两个同行公司中随机抽取】分别从两个同行公司中随机抽取100100人和人和120120人调查其工资收人调查其工资收入情况。入情况。调查结果表明,调查结果表明,A A公司月收入在公司月收入在50005000元及以上有职工元及以上有职工9 9人,人,B B公司月收入公司月收入在在50005000元及以上的职工有元及以上的职工有6 6人。人。
34、l试以试以95%95%的置信水平推断这两个公司职工月工资在的置信水平推断这两个公司职工月工资在50005000元及以上职工元及以上职工所占的比重之差的置信区间;所占的比重之差的置信区间;l该结果能说明该结果能说明A A公司公司50005000元及以上职工所占的比重比元及以上职工所占的比重比B B公司高吗?公司高吗?总体成数的大样本区间估计总体成数的大样本区间估计 7677总体成数或成数之差的区间估计(同非正态(总体成数或成数之差的区间估计(同非正态(0-10-1分布)情形)分布)情形)78小结:非正态总体均值和均值之差的大样本双侧置信区间小结:非正态总体均值和均值之差的大样本双侧置信区间 79
35、非正态总体均值和均值之差的大样本单侧置信区间非正态总体均值和均值之差的大样本单侧置信区间 80 在单个总体均值或成数的置信区间估计问题中,置信区间的形式为在单个总体均值或成数的置信区间估计问题中,置信区间的形式为 给定置信水平给定置信水平1-1-,样本均值置信区间为,样本均值置信区间为样本成数置信区间为样本成数置信区间为特别注意特别注意当采用不重复抽样,特别给出总体单位个数当采用不重复抽样,特别给出总体单位个数N时,应考虑新的置信区间形式时,应考虑新的置信区间形式相关题目:活页相关题目:活页1010或课后操作题四或课后操作题四样本均值在重复抽样样本均值在重复抽样下的抽样平均误差下的抽样平均误差
36、样本成数在重复抽样样本成数在重复抽样下的抽样平均误差下的抽样平均误差81第六节第六节 样本容量的确定样本容量的确定一、一、总体均值估计的必要样本容量总体均值估计的必要样本容量二、二、总体成数估计的必要样本容量总体成数估计的必要样本容量三、三、影响必要样本容量的因素影响必要样本容量的因素82作参数估计时为什么要确定合适作参数估计时为什么要确定合适(必要必要)的样本容量?的样本容量?我们既希望参数的估计的可靠度或置信度要高,又希望估我们既希望参数的估计的可靠度或置信度要高,又希望估计的精度要高,但样本容量过多,必然会增加人力、财力、计的精度要高,但样本容量过多,必然会增加人力、财力、物力的支出,造
37、成不必要的浪费物力的支出,造成不必要的浪费;样本容量过少,又会导致抽样误差增大,达不到抽样所要样本容量过少,又会导致抽样误差增大,达不到抽样所要求的准确程度。因此,必要样本容量就是在保证误差不超求的准确程度。因此,必要样本容量就是在保证误差不超过规定范围的条件下尽可能节省人、财、物的支出。过规定范围的条件下尽可能节省人、财、物的支出。必要样本容量必要样本容量83本节只考虑了单个总体双侧区间估计时的样本容量。这里确定出来的样本容量,很多时候本节只考虑了单个总体双侧区间估计时的样本容量。这里确定出来的样本容量,很多时候是一个近似值,在实际工作中是一个非常重要的参考是一个近似值,在实际工作中是一个非
38、常重要的参考以上也可表示为,在1-的置信水平下,可理解为在1-的置信度下,抽样误差不会超过预先设定的误差,在此条件下的样本容量称为必要样本容量。根据抽样方式不同,必要样本容量的表达式也不同。给定置信水平给定置信水平1-1-,均值置信区间为,均值置信区间为84总体均值的必要样本容量总体均值的必要样本容量重复抽样:不重复抽样:当总体方差未知时,采用样本方差进行,当有多个样本方差可供选择时,采用最大的样本方差遵循随大原则。务必注意务必注意8586以重复抽样为例说明此时计算的样本容量为达到要求所需的最小容量此例中所计算的n=144,如果我们采用了140,看看抽样的平均误差是否达到了既定标准,即p(|x
39、-u|)是否到达了99.73%根据有关性质p(|x-u|)是否到达了99.73%P=1-2*normsdist(-2.958)=99.69%87重复抽样:不重复抽样:总体成数的必要样本容量总体成数的必要样本容量例题7当总体成数当总体成数 未知时,用其估计量未知时,用其估计量样本成数样本成数 代替。代替。同样采用最大的样本方差遵循随大原则。88遵循随大原则:p(1-p)在时取得极大值 相关题目:活页 7,889影响必要样本容量的因素影响必要样本容量的因素1.1.总体的变异程度,即方差的大小。总体方差越大,要求样总体的变异程度,即方差的大小。总体方差越大,要求样本容量要大些;反之则相反。本容量要大
40、些;反之则相反。2.2.容许误差的大小。容许误差越大,要求样本容量越小。容许误差的大小。容许误差越大,要求样本容量越小。3.3.抽样方法。在其他条件相同时,重复抽样比不重复抽样要抽样方法。在其他条件相同时,重复抽样比不重复抽样要求样本容量大些。求样本容量大些。4.4.抽样方式。采用类型抽样的样本容量要小于简单随机抽样抽样方式。采用类型抽样的样本容量要小于简单随机抽样的样本容量。的样本容量。5.5.抽样推断的置信度的大小。置信度越大,要求样本容量越抽样推断的置信度的大小。置信度越大,要求样本容量越大大.可从样本容量计算公式的推导结果加以验证可从样本容量计算公式的推导结果加以验证提醒:活页习题2虽
41、为方差未知的正态总体,由于是大样本,简单起见可采用标准正态分布的枢轴量。90END91把所研究的问题或现象视为随机变量,有概率分布,它全把所研究的问题或现象视为随机变量,有概率分布,它全面描述了我们要研究的现象的统计规律性。如果知道了要研面描述了我们要研究的现象的统计规律性。如果知道了要研究的随机变量的概率分布,就可以在其基础上比较清楚地了究的随机变量的概率分布,就可以在其基础上比较清楚地了解要研究的现象。解要研究的现象。但在现实中,但在现实中,绝大多数情况下,并不知道要研究的随机现绝大多数情况下,并不知道要研究的随机现象的分布,有时即使知道其服从什么类型的分布,但不知道象的分布,有时即使知道
42、其服从什么类型的分布,但不知道分布中所含的参数。分布中所含的参数。由于总体包含个体的大量性,研究者很难得到全部个体的由于总体包含个体的大量性,研究者很难得到全部个体的信息和资料,即使有时可以得到,但不经济。信息和资料,即使有时可以得到,但不经济。统计推断的基本问题统计推断的基本问题92统计推断的基本问题统计推断的基本问题n统计推断通常是从所要研究的对象全体中抽取一部分进行统计推断通常是从所要研究的对象全体中抽取一部分进行观测或试验以获取信息,对总体作出推断。观测或试验以获取信息,对总体作出推断。n由于抽取部分个体观测和试验是随机进行的,依据有限个由于抽取部分个体观测和试验是随机进行的,依据有限
43、个体的数据对总体作出的推断不可能绝对准确,总是包含误差,体的数据对总体作出的推断不可能绝对准确,总是包含误差,总是含有一定程度的不确定性,而不确定性用概率表示比较总是含有一定程度的不确定性,而不确定性用概率表示比较恰当,概率大,所做的推断就比较可靠,概率小,推断的准恰当,概率大,所做的推断就比较可靠,概率小,推断的准确性就低。确性就低。n如何根据观测或试验所得到的有限信息对总体作出推断,如何根据观测或试验所得到的有限信息对总体作出推断,并同时指出所作的这种推断有多大的可靠性(用概率表示),并同时指出所作的这种推断有多大的可靠性(用概率表示),是统计推断的基本问题。是统计推断的基本问题。93简单
44、随机抽样简单随机抽样为什么要进行随机抽样?为什么要进行随机抽样?l由于种种原因,现实中很多现象不可能进行全面调查。由于种种原因,现实中很多现象不可能进行全面调查。对具有破坏性或消耗性的产品进行质量检验对具有破坏性或消耗性的产品进行质量检验 对无限总体或总体容量过大的现象进行研究对无限总体或总体容量过大的现象进行研究 l某些现象即使理论上可以进行全面调查,但为了节省大某些现象即使理论上可以进行全面调查,但为了节省大量的人力、物力、财力和时间,在不影响精度和可靠度的量的人力、物力、财力和时间,在不影响精度和可靠度的前提下,采用抽样推断可以达到事半功倍的效果。前提下,采用抽样推断可以达到事半功倍的效
45、果。94简单随机抽样简单随机抽样抽取的样本应能很好地代表总体;抽取的样本应能很好地代表总体;从总体中抽取样本有多种不同的方法,最简单的、应用很从总体中抽取样本有多种不同的方法,最简单的、应用很普遍的抽样方法是简单随机抽样,它满足以下两个条件:普遍的抽样方法是简单随机抽样,它满足以下两个条件:(1)总体的每一个体都有同等机会被选入样本;)总体的每一个体都有同等机会被选入样本;(2)样本的分量)样本的分量 是相互独立的随机变量,即样是相互独立的随机变量,即样本中任一个体的取值不影响其它个体的取值。本中任一个体的取值不影响其它个体的取值。满足这两个条件的抽样方法称为满足这两个条件的抽样方法称为简单随
46、机抽样简单随机抽样,由此得到,由此得到的样本称为简单随机样本。易见,简单随机样本的样本称为简单随机样本。易见,简单随机样本 独立同分布(有时用表示独立同分布(有时用表示 )。)。95简单随机抽样简单随机抽样u从总体中抽样有多种方法和技术,除从总体中抽样有多种方法和技术,除简单随机抽样简单随机抽样外,外,分层抽样、系统抽样分层抽样、系统抽样和和整群抽样整群抽样也是常用的抽样方法,不也是常用的抽样方法,不同的抽样方法得到不同的样本,进而所用的统计推断方法同的抽样方法得到不同的样本,进而所用的统计推断方法也不尽相同。也不尽相同。u以后如无特别说明,所提到的样本都是指简单随机样本。以后如无特别说明,所
47、提到的样本都是指简单随机样本。u研究对象可以视为随机变量,有自己的分布;总体和随研究对象可以视为随机变量,有自己的分布;总体和随机变量联系起来。机变量联系起来。u在一次抽样以后,观测到在一次抽样以后,观测到 的一组确定的值或的一组确定的值或数据数据 称为该称为该样本的观测值样本的观测值或或样本数据样本数据,也称作,也称作该样本的一个该样本的一个实现实现。样本所有可能观测值的全体就构成了。样本所有可能观测值的全体就构成了样本空间。样本空间。96l由于样本中每一个个体由于样本中每一个个体 都来自总体都来自总体 ,所以样本中的,所以样本中的任一个体任一个体 的分布函数和总体相同,即的分布函数和总体相
48、同,即 的分布函数为的分布函数为 简单随机样本,简单随机样本,相互独立,则样本相互独立,则样本 的的联合分布函数为联合分布函数为l如果总体的密度函数为如果总体的密度函数为 ,则样本,则样本 的联合分的联合分布密度函数为布密度函数为如无特别说明,一般用大写英文字母或希腊字母表示随机变量,而用小写英如无特别说明,一般用大写英文字母或希腊字母表示随机变量,而用小写英文字母表示随机变量的观测值或数据。文字母表示随机变量的观测值或数据。简单随机抽样简单随机抽样97不同的样本容量对抽样误差的影响但是,后面我们可以看到98抽样误差抽样误差99点估计的一般原理点估计的一般原理100原点矩k阶原点矩一阶原点矩二
49、阶原点矩k阶样本原点矩一阶样本原点矩二阶样本原点矩矩估计矩估计 以正态分布为例101矩估计矩估计 说明说明:设总体的概率函数设总体的概率函数 已知,其中已知,其中 是是2个未知参个未知参数数,是取自总体的一个样本,假设的一,二阶矩是取自总体的一个样本,假设的一,二阶矩 存在,存在,且是且是 的函数。样本的的函数。样本的i阶矩为阶矩为 ,令令解这解这2个方程所组成的方程组就可以得到的一组解,这就是的矩估计。个方程所组成的方程组就可以得到的一组解,这就是的矩估计。102103矩估计矩估计 推广,当含义推广,当含义s个未知参数时,只需令个未知参数时,只需令 解这解这s个方程所组成的方程组即可得个方程
50、所组成的方程组即可得s个未知参数的矩估计个未知参数的矩估计 l原因:总体分布的参数一般都是总体矩的函数;样本来源于总体,样本矩在原因:总体分布的参数一般都是总体矩的函数;样本来源于总体,样本矩在一定程度上反映了总体矩,而大数定律表明样本矩依概率收敛到总体矩一定程度上反映了总体矩,而大数定律表明样本矩依概率收敛到总体矩.l矩法估计优点矩法估计优点:(1)只要总体的只要总体的k阶矩存在,就可以用矩估计来估计总体参数阶矩存在,就可以用矩估计来估计总体参数;(2)简单、直观,且不必知道总体的分布类型简单、直观,且不必知道总体的分布类型 l局限性局限性:(1)如它要求总体的如它要求总体的k阶原点矩存在,