《[数学]6第六章-统计量及其分布.ppt》由会员分享,可在线阅读,更多相关《[数学]6第六章-统计量及其分布.ppt(86页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数学数学6第六章第六章-统计量及其分布量及其分布 从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作.但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断.到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.6.1 数理统计学简介一 什么是数理统计学 研究随机现象规律性的一门学科,以概率论问题作出推断、预测和决策.资料,对数据进行分析(统计分析)从而对所研究的为基础,研究如何用有效的方法收集和利用数据 具体地说,就是研究从一定总体中随机抽出一部分(样本),对样
2、本的性质进行研究,以对总体的性质作出推测性判断的科学(例如,产品质量,人均收入).为什么要用样本去推测和判断总体的性质,主要有以下几个原因:破坏性 数量巨大因为是用部分去推断总体的性质,所以得出的结论就不一定完全正确,分析方法的关键是使可能产生的错误越小越好,以对所提问题作出尽可能正确的结论.数理统计和概率论有着密切的联系,概率论是数理统计的基础,数理统计是概率论的应用.概率论是将事件出现的频率抽象为概率的概念进行研究,并由此建立了随机变量的概率分布的基本理论.数理统计则是直接从随机现象的观测值去研究其客观规律性.二 数理统计学的基本内容 统计推断根据实际问题的不同要求,产生了数理统计学的众多
3、研究分支.本课程侧重于概括起来分为两大类:试验的设计和研究例1 某钢筋厂日产钢筋10000根,质量检查员每天抽查其中50根的强度.(1)如何从这50根钢筋的强度数据去估计整批10000根的强度平均值,如何估计整批钢筋强度偏离平均值的离散程度?(2)如果规定了这种钢筋的标准强度,如何由抽查的50个强度数据判断整批钢筋的平均强度与标准强度有无差异?(于是可提出很多问题)此问题为参数估计.此问题为假设检验.(3)抽查的50个强度数据有大有小,如果当天生产的钢筋是采取不同工艺生产的,那么强度呈现的差异是由于工艺不同造成的,还是仅仅由随机因素造成的?(4)如果钢筋强度与某种原料的成分含量有关,那么从抽查
4、的50个强度与该原料含量的50组对应数据,如何去表达整批钢筋强度与该原料含量的关系?此问题为方差分析,即分析造成强度差异的原因.此问题为回归分析.以上四个问题都是数理统计学研究的基本内容,此外还有正交试验设计,多元统计分析,时间序列分析,抽样理论,质量控制,可靠性理论和统计决策理论等.总体中所含个体的数目可以是有限的,也可以是6.2 总体和样本一 总体 个体 样本总体总体:就是研究对象的全体.个体个体:是组成总体的每个元素.无限的,分别称为有限总体有限总体和无限总体无限总体.从总体中随机抽取n 个个体,称为容量为n的样本(子样).任何一个总体,都可以用一个随机变量X 来表示.例如,从一批日光灯
5、中随机抽取一个,其寿命X 显然是为相同值的日光灯在这批日光灯中所占的比例.因此,一个随机变量,它取各种可能值的概率恰好就是寿命如果知道X的分布,则这批日光灯的寿命情况就完全清楚了.即可以用X 及其分布来描述这批日光灯这一总体.再例如,从某大学全体学生中随机抽取一个,其学习成绩X 显然是一个随机变量,它取各种可能值的概率恰好就是成绩为相同值的学生在全校所占的比例.因此,可以用X 及其分布来描述该校全体学生这一总体.在统计研究中,人们关心的仅仅是代表总体的一项(或几项)数量指标以及数量指标的分布情况.总体就是指某个随机变量X可能取值的全体。X的分布称为总体的分布.常用“总体 X 服从.分布”这一说
6、法.从总体X中随机抽取容量为n的样本,用表示.不难理解,X 及都是随机变量.是n维随机变量.简单随机样本简单随机样本 简单随机样本是应用中最常见的情形,今后若取自总体X的样本X1,X2,Xn 相互独立且与X 有相同的分布,则称X1,X2,Xn为取自总体X 的简单随机样本简单随机样本.简称为样本样本.当说到“X1,X2,Xn 是取自某总体的样本”时,若不特别说明,均指简单随机样本.(x1,x2,xn),称为样本的一组观测值,简称样本值样本值.一旦取定一组样本,得到的是n个具体的数一般来说,不同次的抽取(每次取n个),将得到不同的样本观测值.样本所有可能取值的全体称为样本空间,它是n维空间或其中的
7、一个子集.一组样本观测值(x1,x2,xn)就是样本空间中的一个点.定理1 若(X1,X2,Xn)是取自总体X的样本,而X的概率密度为f(x)(或分布函数为F(x),则(X1,X2,Xn)的联合密度函数为(或联合分布函数为)总体X的一个样本,求样本的联合密度.例1设总体解:因为XU1,2,其密度为Xi的密度样本的联合密度为二 理论分布和经验分布 作出经验分布用以观察理论分布的概况.若总体是随机变量X,则X 的分布就是总体的分布(称为理论分布).样本是总体的代表和反映,简单随机样本能很好地反映总体的情况.通常的方法是若x1,x2,xn 为总体X 的n个独立观测值,称Fn*(x)为总体X作n次独立
8、观察的经验分布函数.并作函数定义将这些值按从小到大的顺序排列为x1*x2*.xn*从图中可以看到,Fn*(x)是F(x)的一个近似.关于Fn*(x)与理论分布F(x)的关系,有如下定理:对于样本的不同取值,将得到不同的经验分布函数Fn*(x),所以对于x的每一个数值,Fn*(x)是一个随机变量.当n时,Fn*(x)以概率1关于x一致收敛于F(x),这个定理是用样本推断总体的基本理论依据.定理2(格列汶科)即Fn*(x)的图形是一条阶梯形曲线,若样本观测值不重复,则每一跃度为;若有重复,则按的倍数为跃度.显然经验分布函数Fn*(x)具有以下性质:0Fn*(x)1Fn*(x)单调上升Fn*(x)右
9、连续三 分布密度的近似求法(略)如果X是一个连续型随机变量,可以用样本观测值作出的频率直方图来近似代替分布密度曲线.由样本去推断总体情况,需要对样本进行“加工”和“提炼”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.一 统计量6.3 统计量和抽样分布定义设(X1,X2,.,Xn)为取自总体X的一个样本,T=T(X1,X2,.,Xn)为样本(X1,X2,.,Xn)一个实值连续函数,且T中不含任何未知参数,则称T(X1,X2,.,Xn)为一个统计量统计量.注:1.统计量是不含任何未知参数的样本的函数,2.统计量T=T(X1,X2,.,Xn)是随机变量,它应该有确定它是完全
10、由样本决定的量.的概率分布.统计量的分布称为抽样分布抽样分布.例1而都不是统计量.都是统计量,是取自总体X 的一个样本,则设总体XN(,2),其中,2未知 几个常见的统计量:样本均值样本均值:样本方差样本方差:设X1,X2,.,Xn 是取自总体X的一个样本,因为样本k 阶原点矩:样本k阶中心矩:k=1,2,样本标准差:k=1,2,显然 样本(X1,X2,.,Xn)的观察值为(x1,x2,xn)的观察值分别记为 通常,大写字母表示统计量,如 小写字母表示观察值,如顺序统计量定义设(X1,X2,.,Xn)为取自总体X的一个样本,现由样本建立n个函数:(X1,X2,.,Xn)k=1,2,.,nx1*
11、x2*.xn*后的第k个数值.则称X1*,X2*,.Xn*为顺序统计量.显然X1*X2*.Xn*其中Xk*为这样的统计量,它的观察值为xk*.xk*为样本X1,X2,.,Xn的观察值x1,x2,.,xn中按大小排列X1*=minX1,X2,.,XnXn*=maxX1,X2,.,Xn称X1*为最小项统计量,Xn*为最大项统计量称Dn*=Xn*X1*为样本的极差若n是奇数,则称为样本的中值若n是偶数,则称为样本的中值设(X1,X2,.,X5)为总体X的样本,今对这个样本进行了三次观察,其值如下表:例2X1X2X3X4X5第一次311056第二次26728第三次839105求,S2及Dn*的观察值解
12、78.57109853第三次68587622第二次911.55106531第一次Dn*S2X5*X4*X3*X2*X1*X二 抽样分布(常用统计量的分布)1 2 2分布分布2分布是由正态分布派生出来的一种分布.定义 设随机变量X1,X2,.,Xn相互独立且均服从N(0,1),则称随机变量2 所服从的分布为自由度是n的 2 2分布.2(n)2记为定理3 随机变量2的分布密度函数为n取不同值时的2分布的图形2021/5/2237*例3相互独立,都服从若正态分布则证:令i=1,2,.,n则又因为Xi 所以 Yi N(0,1)且Y1,Y2,.,Yn相互独立所以2分布具有下列性质:性质1性质2(2分布的
13、可加性)若且X,Y 相互独立则2 t 分布(student分布)定义设X N(0,1),Y 且X与Y相互独立,则称随机变量所服从的分布为自由度是n的t分布,记为T t(n)定理4 t分布的密度函数为(t 分布的密度函数fT(x)的图像参见教材)(1)fT(x)是偶函数,图像关于y轴对称.注注:(2)t分布曲线很接近标准正态分布曲线.且当n充分大时,t分布的极限分布是标准正态分布.所以(3)对于较小的n,t 分布与N(0,1)分布相差很大.当n30时,它们的差别已很小.可以证明,t 分布的期望和方差分别为3 F分布分布若随机变量X与Y相互独立,且则称随机变量所服从的分布为F分布,记为其中m称为第
14、一自由度,n称为第二自由度.定理5 F分布的密度函数为推论推论:若FF(m,n),则证证:因为令(F分布的密度fF(x)图像参见教材)可以证明,F分布的期望和方差分别为4.概率分布的分位数分位数设连续型随机变量X 的分布函数为F(x),0p1若实数满足PX=F()=p则称实数为X的概率分布的p分位数.例如,标准正态分布N(0,1)的p分位数即是满足的实数也就是说,N(0,1)的密度曲线下,的左边的面积恰好等于p.上侧分位数上侧分位数:PX=满足的实数称为随机变量X 的上侧分位数.N(0,1),t分布,2分布,F分布的上侧分位数通常记为u,t,2,F,这些数值可以查表.上侧分位数与分位数的关系上
15、侧分位数与分位数的关系:即也是X 的1 分位数.则有若X的上侧 分位数为,PX=PX=1PX=1双侧双侧分位数分位数1,2,是指满足PX1=和 PX2=的实数1,2显然,1是X 的2是X 的上侧分位数,分位数注意注意:(1)若XN(a,2),要求X的下侧分位数,可化为求N(0,1)的分位数此时,所以即(2)若Tt(n),t(n)表示下侧分位数,根据t分布的对称性PTt(n)=1PTt(n)=1所以t(n)=t1(n)(3)若F(m,n)表示上侧分位数,则有F(m,n)证明:若F F(m,n),则有所以例4当n=25,=0.1时,查表求上侧分位数例5若随机变量=34.4求1,2的值使之满足:=6
16、.572=23.7解:解:三 正态总体场合定理6 设总体X 分别为样本均值和样本方差,则有X1,X2,Xn为其样本相互独立(1)(1)或(2)(2)(3)(3)证证:(1)(1)因为且相互独立=所以(2)(2)作一个n阶正交矩阵A=(aij),使其最后一行的即元素均为A=且 AAT=ATA=In In是n阶单位矩阵作正交变换则有Yi=(i=1,2,.,n-1)Yn=即因为A是正交阵,所以于是Yi N(0,2)i=1,2,.,n1 且Cov(Yi,Yj)=E(YiEYi)(YjEYj)iji,j=1,2,.,n1 同理有Cov(Yi,Yn)=i=1,2,.,n1 因此Y1,Y2,.,Yn 相互独
17、立(正态分布的独立从而与两两不相关是等价的)Y1,Y2,.,Yn1与Yn相互独立,由此得与独立(3)(3)Yi N(0,2)i=1,2,.,n1 由(2)(2)可知可知定理7 设X1,X2,Xn是取自正态总体的样本,分别为样本均值和样本方差,则有证:(定理7是定理6的推论)由定理6可知且,独立,所以定理8 设总体总体X 和Y 的样本,且两个样本相互独立X1,X2,.Xn,和Y1,Y2,.Ym分别是取自记则有(1)(2)当12=22=2时,或证:(1)由定理6可知因为两个样本相互独立,独立所以再由F分布的定义可知由假设可知因为两个样本相互独立,所以独立所以服从正态分布所以(2)当12=22=2时
18、,即再根据定理6再根据2分布的可加性,可知于是按t分布的定义,有四 非正态总体场合(大样本)定理9若X1,X2,.,Xn独立同分布,且E(Xi)=aD(Xi)=2记则此处即只要n足够大(通常n30),随机变量例6求1,2使之满足解:例7.设总体XN(72,102),为使样本均值大于70的概率不小于0.9,则样本容量n 至少应取多少?解:设样本容量为n,则查表可得解出n41.6,即n=42例8.设总体XN(1,0.32),为使样本均值满足则样本容量n 至少应取多少?解:因为XN(1,0.09),查表得且有故由得故应取n=25.例9.解:设总体XN(40,52)(1)抽取容量为36的样本,求(2)
19、抽取容量为64的样本,求(3)样本容量n为多大时,才能使总体XN(40,52),所以统计量 (1)n=36,故即(查表)0.99984(10.9918)0.9916(2)n=64,则统计量(查表)0.9452(10.9452)0.8904(3)查表,得解出n 96例10.设在总体XN(,2)中抽取容量为16的样本,其中,2均未知,(1)求(2)求D(S2)解:(1)因为总体XN(,2),根据定理6,有,S2为样本均值和方差即(查表)例11.设X1,X2,.,X9是来自总体XN(0,22)的样本.解:Y=a(X1+X2)2+b(X3+X4+X5)2+c(X6+X7+X8+X9)2服从2分布,求系
20、数a,b,c.因X1,X2,.,X9独立同分布且XiN(0,22)(i=1,2,.9).故X1+X2N(0,22+22)=N(0,8).X3+X4+X5N(0,12)X6+X7+X8+X9N(0,16)从而即故得自由度为3例12.解:设随机变量T服从t(n)分布,求T 2的分布.或证明T2F(1,n).由t(n)分布的定义有,由F分布的定义知,T2服从F(1,n)分布.其中XN(0,1),Y2(n).故例13.解:设X1,X2,.,Xn是来自总体XN(0,1)的样本.问下列统计量各服从什么分布?(1)(2)(3)(4)(1)因为Xi N(0,1),i=1,2,.,n所以X1 N(0,1),且X1 与独立因为X1 N(0,1),所以t(n1)(2)所以X1X2 N(0,2),X2 N(0,1),t(2)且X1 X2与 独立(3)因为X1 X2 N(0,2),所以因为X3+X4 N(0,2),所以 F(1,1),(4)所以因为且与独立 F(3,n3),解:例14.设X1,X2,.,X10是来自总体XN(1,2)的样本.记已知求PS.依题意知与S2相互独立故而因此即谢谢大家!结结 语语