统计量与抽样分布.pptx

上传人:修**** 文档编号:12418607 上传时间:2022-04-24 格式:PPTX 页数:76 大小:765.35KB
返回 下载 相关 举报
统计量与抽样分布.pptx_第1页
第1页 / 共76页
统计量与抽样分布.pptx_第2页
第2页 / 共76页
点击查看更多>>
资源描述

《统计量与抽样分布.pptx》由会员分享,可在线阅读,更多相关《统计量与抽样分布.pptx(76页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第二章 统计量与抽样分布1 基本概念总体与个体抽样、简单随机抽样样本、简单随机样本与样本空间分布族、参数空间统计量与样本矩2总体与个体在数理统计中,把研究对象的全体称为总体(Population) ,把组成总体的每一个单元称为个体在实际中,总体通常是某个随机变量取值的全体,其中每一个个体都是一个实数以后我们把总体和数量指标X 可能取值的全体组成的集合等同起来。随机变量X 的分布就是总体的分布3抽样与简单随机抽样从一总体 X 中随机抽取n个个体 x1,x2,xn,n其中每个 xi 是一次抽样观察结果,我们称x1,x2,xn 为总体 X 的 一组样本(观察)值。这里的 xi 具有二重性:1.对每一

2、次抽样结果,它是完全确定的一组数;2.由于抽样的随机性,每一个 xi 都可以看作某一个随机变量 Xi (i=1,2,n)所取的观察值。我们称 X1,X2,Xn 是容量为n的样本( Sample )。4抽样与简单随机抽样 定义:设 X1,X2,Xn 为来自总体 X 的容量为n的样本,如果随机变量 X1,X2,Xn 相互独立且与总体有相同的分布,则称这样的样本为总体 X 的简单随机样本,简称样本。这样获得简单随机样本的方法称为简单随机抽样。抽样方式:随机抽样,分层抽样,等距抽样,整群抽样,多阶段抽样以后如不特别声明,所提到的样本都是简单随机样本以后如不特别声明,所提到的样本都是简单随机样本。5综上

3、所述,所谓总体就是一个随机变量 X ,所谓样本(指简单随机样本)就是 n 个相互独立且与总体 X 有相同的分布的随机变量 X1,X2,Xn,并称 X1,X2,Xn 为来自于总体X的样本. 显然,若总体具有分布函数F(x),则 X1,X2,Xn的联合分布函数(样本联合分布)为:1( )niiF x6抽样与简单随机抽样以后对样本 X1,X2,Xn 作两种理解:在理论推导中把其作为随机向量在用理论推导所得出的结论进行具体推断时,作为实数向量,代入具体的观察值进行计算。7样本空间 定义:样本 X1,X2,Xn 所有可能取值的全体称为样样本空间(本空间( Sample Space ),或称为子样空间子样

4、空间。 样本空间为n维欧氏空间或它的一个子集。 一个样本观察值(x1,x2,xn)是样本空间中的一个点。8分布族与参数空间n在概率论中,总假定所用随机变量的分布函数已知,而在数理统计中,认为其是未知的,但总假定其是某一个分布族的成员。n一般可凭经验,直方图或经验分布函数来对总体给出假定。9分布族与参数空间n如果对总体了解甚少,那么总体所在的分布族可设为F(x):F(x)为分布函数,其它条件n如果知道总体的分布形式,只是不知道具体参数,那么总体所在的分布族可设为 ,这里 为总体的分布函数中的未知参数(可以是向量),未知参数的全部可容许值组成的集合称为参数空间参数空间,记为 n 称为统计模型( S

5、tatistical Model )。 ():Fx; ():Fx;10分布族与参数空间 定义定义:若一个分布族中只含有有限个未知参数,或参数空间为欧氏空间的一部分,则称此分布族为参数分布族。凡不是参数分布族的分布族称为非参数分布族。由参数分布族出发所得到的统计方法称为参数统计方法;由非参数分布族出发所得到的统计方法称为非参数统计方法。这两类分布族在研究方法上有很大差异。11统计量与样本矩n我们对某一个问题归纳出所在的分布族,并从总体中抽出了一个样本后,就要进行统计推断,即判断这个样本是来自总体分布族中哪一个基本的分布.n虽然样本含有总体的信息,但仍比较分散。为了使统计推断成为可能,首先必须把分

6、散在样本中的信息集中起来,用样本的某种函数表示,这种函数称为统计量统计量(Statistic) 。 12统计量与样本矩定义:设X1,X2,Xn为总体 X 的一个样本,若样本的实值连续(可扩大为可测)函数TT(X1,X2,Xn) 不依赖于可能含于总体中的未知参数,则称T 为此分布族的一个统计量统计量(Statistic) 。往往从直观或某些一般性原则考虑提出统计量,再考虑它是否在某种意义下较好地集中了样本中与所讨论问题有关的信息量。13 例如,XN(,2), 其中 已知, 2未知。而(X1,X2)是从 X 中抽取的一个样本,则 X1X2, 是统计量,但(X1)/ 就不是统计量了。2211()2i

7、iX14样本矩(Sample Moment)设 X1,X2,Xn 是来自于总体 X 的一个样本.11niiXnX样本均值(Sample Mean):样本方差(Sample Variance):):22221111() .()1nnniiiiSXXSXXnn或15样本标准差(Sample Standard Deviation):):221111() .() .1nnniiiiSXXSXXnn或.2 , 1,11kXnAnikik.2 , 1,)(11kXXnBnikik阶原点矩 :k阶中心矩:k样本矩(Sample Moment)1611()()nXYiiiSXX YYn再设 Y1,Y2,Yn

8、是来自总体 Y 的样本。两个样本之间的协方差协方差:12211()()() )() )niiiXYnniiiiXX YYXXYY两个样本之间的相关系数相关系数:17 记 E(X)=, D(X)=2, E(Xk)=ak 定理1 若X的二阶矩存在,则有2(),()E XD Xn22()E S22(),()kkkkkaaE AaD An定理2 若X 的2k 阶矩存在,则有18经验分布函数 定义 设 X1,X2,Xn 为总体 X 的一个样本,x1,x2,xn 是样本的观察值,把其从小到大重新排列得到 ,定义函数如下 (1)(2)( )nxxx(1)*( )(1)( )0,( ),(1,2,1)1,nk

9、knxxkFxxxxknnxx称其为总体 X 的经验分布函数。19 经验分布函数 在点x的函数值其实就是观测值中小于或等于x的频率,它是一个右连续的非减函数,且 ,因而它具有分布函数的性质,可以将它看成是以等概率取 的离散随机变量的分布函数。经验分布函数的图象是一个非减右连续的阶梯函数。( )nFx0( )1nFx12,.,nx xx20 对于的每一数值而言,经验分布函数 为样本 的函数,它是一统计量,即为一随机变量,其可能取值为 。 事件 发生的概率,由于 相互独立且有相同的分布函数,因而它等价于次独立重复试验的贝努里概型中事件 发生k次而其余次不发生的概率,即有: 其中 ,它是总体的分布函

10、数。( )( )nFx12,nXXX0,1/ ,.,1 / ,1nnn( )nkFxn12,nXXXXx ( )( )1( )kn kknnkP FxCF xF xn( )F xP Xx21定理 (格列汶科定理) 设总体的分布函数为F(x),经验分布函数为Fn*(x),则对任何实数 x 有*limsup( )( )01nnxPFxF x 22n从上面定理知道,经验分布函数Fn*(x)依概率1收敛于(理论)分布函数F(x)。n可以利用经验分布函数构造出非参数统计推断中许多常用的统计量。 23 抽样分布n统计量的分布称为抽样分布,求出统计量的分布函数是数理统计的基本问题之一。n精确分布与小样本问题

11、n极限分布与大样本问题24正态总体的抽样分布正态总体样本的线性函数的分布 分布t分布F分布225正态总体样本线性函数的分布 定理1 设总体 XN(,2), X1,X2,Xn 是总体X的容量为 n 的样本,令 U=a1X1+a2X2+anXn, 其中 a1,a2,an 是已知常数,则U也是正态随机变量,其均值、方差分别为E(U)= , D(U)= 21niia21niia26 定理定理2 设总体 XN(,2),(X1,X2,Xn)是总体的容量为 n 的样本, A=(aij)是pn阶矩阵。记Y=(Y1 ,Y2 ,Yp)=A(X1 ,X2 ,Xn), 则Y1 ,Y2 ,Yp也是正态随机变量,其均值、

12、方差、协方差分别为 E(Yi)= , D(Yi)= 2 Cov(Yi, Yj)= 2 当 =0,且A是nn 阶正交矩阵时, Y1 ,Y2 ,Yp也相互独立,且服从于N(0,2 ) 正态变换下的不变性1nijia21nijia1nikjkka a27 分布 定义 设随机变量X1,X2,Xn相互独立且服从N(0,1)分布,则称随机变量 服从自由度为n的 分布,记为 22( )n2221niiX228 定理1 设随机变量 ,则 的密度函数为:122/21,0( )2( )20,0nynyeynf yy22( )n229定理2 设 ,则 E(X)=n, D(X)=2n定理3 设 ,且X1与X2相互独立

13、,则 定理4 (Cochra) 设随机变量X1,X2,Xn相互独立且服从N(0,1)分布,又设 Q1+Q2+Qk= 其中 Qj 是秩为 nj 的 X1,X2,Xn 的非负定二次型。则 Qj 相互独立,且分别服从于自由度为nj的 分布的充要条件是:n1+n2+nk=n21niiX2( )Xn221122(),()XnXn21212()XXnn230引理 设 ,则 X 的特征函数为(t)=(1-2it)-n/2.n定理3的证明:11-211-222( )(1-2 ),( )(1-2 ).nnXtitXtit由引理知,的特征函数为的特征函数为1212-()/212( )( )( )(1-2 ),nn

14、XXtttit由特征函数的性质,的特征函数为:21212XXnn由一一对应性,知服从自由度为的分布。n根据引理及特征函数性质,我们有得E(X)=n,E(X2)=n2+2n,D(X)=2n2( )Xn31 定理 5 (抽样分布基本定理) 设 X1,X2,Xn 是来自总体N(,2)的一个样本,则注:1. 的独立性仅当总体分布为正态时才成立。当总体分布的三阶中心矩为零时,可以推出两者是不相关的。 2. 服从精确的正态分布也只有在总体为正态分布时才成立。2SX与X(1)(2)X与 相互独立;2S222(1)(1),nSn32证 令 ,则 且, 选取正交矩阵A:作为正交变换 ,1,2,.,kkYXkn.

15、 .21,(0,)i i dnYYNXY2221111()()11nnkkkkSXXYYnn111111,(1)(1)(1)112,02 32 32 311,0,01 21 2n nnnnnnnnnnn A11nnZYZYA33 则 ,且 1. 2. ,且 ,则 而 仅是Z1的线性函数,与 无关,故 与 相互独立。. .212,(0,)i i dnZ ZZN111()nkkZYnYn Xn2211nnkkkkZY2221111()nnkkkkYYYYnn 22222222221211()(1)nnkiniknSZnSYn YZZn11XZn2,nZZX221nS34t分布分布n定义 设 XN(

16、0,1), ,且 X 和 Y 相互独立,则称随机变量所服从的分布是自由度为n的t 分布,记为 Tt(n)./XTY n1221()2( )(1)( )2nntf tnnnn定理1 设Tt(n),则T的概率密度为2( )Yn35n此定理的证明也同前面类似。先写出X, Y的密度函数,然后利用随机变量的函数的分布的知识写出根号下 Y/n 的密度函数,再利用独立性写出(X , 根号下 Y/n )的联合密度函数,最后利用两个随机变量商的密度函数给出结果。36定理 2 设 X1,X2,Xn 是来自总体 的一个样本,则有 。定理 3 设 X1,X2,Xm 和 Y1,Y2,Yn 是分别来自总体 和 的样本,且

17、假定两总体相互独立,则有 () (1)Xnt nS 122212(-)-(-)(2)(2)(-1)( -1)X Ymn mnTt mnmnmSnS 2( ,)XN 21(,)N 22(,)N 372/21lim( ),2(0,1). tntStirlingf tettN当时,利用 函数的公式,可得故当 很大时, 分布近似于实际上有下面的结果。定理 4 设Tnt(n),n=1,2,.,则 Tn依分布收敛于N(0,1).38定理 5 设T t(n), n1,则对正整数 r (r2,则 E(T)=0, D(T)=n/(n-2).注:t 分布只存在阶数小于n的矩.39F分布分布 定义 设随机变量 X和

18、 Y是自由度分别为n1和n2的相互独立的 分布随机变量,则称随机变量 所服从的分布为自由度是(n1,n2)的F分布,记为FF(n1,n2). 其中n1称为第一自由度, n2称为第二自由度。12/X nFY n240定理1 设 FF(n1,n2), 则 F 的概率密度为 1121211122212122222()1,0( )( ) ( )0,0nnnnnnnnnnnnnyyyf yy 41定理2 若 X/ 2 , Y/ 2 ,且相互独立,则定理3 若 X F(n1,n2), 则 1/XF(n2,n1).定理4 若X t(n), 则 X2F(1,n).定理5 设 X1,X2,Xm 和 Y1,Y2,

19、Yn是分别来自总体 和 的样本,且假定两总体相互独立,则有1122/( ,)./X nFF n nY n2212122221.(1,1).SFF nnS21()n22()n211(,)N 222(,)N 42定理7 设随机变量 X1,X2,Xn相互独立且服从 ,又设 Q1+Q2+Qk=其中Qj是秩为nj的 X1,X2,Xn 的非负定二次型。 若n1+n2+nk=n,则Qj相互独立, 且定理6 设Xn F(m,n), 则当n 时,21.nmmLX 21niiX/( ,)./iiijijjjQnFF n nQn2(0,)N43分位数(分位点) 定义1 设随机变量 X 的分布函数为F(x), 0 x

20、=F(x)= ,则称x为此概率分布的(上侧)分位点(或分位数)。44分位数(分位点)v当XN(0,1), 将其上侧分位数记为u v当X ,将其上侧分位数记为v当X t(n), 将其上侧分位数记为t(n).v当X F(m,n),将其上侧分位数记为F (m,n).上面几类分位数的性质1.-u= u1- , -t (n) = t1- (n) 2.F(m,n)=1/ F1- (n,m)2()n2()n45有时也需要上侧分位数和双侧分位数定义2 设 X 为一随机变量, 01,若使 PX =,则称为此概率分布的下侧分位数。易证为原分布的1-上侧分位数,即x1- 定义3 设 X 为一随机变量, 0 2=/2

21、,则称1,2为此概率分布的双侧分位数。易证1= x1-/2 , 2= x/2 46非正态总体的抽样分布例 1 设总体 , X1,X2,Xn为来自总体X的样本,求样本均值的分布。例 2 设总体 , X1,X2,Xn为来自总体 X 的样本,求样本均值的分布。( )X ( )XE47 当样本容量n趋于无穷时,若统计量的分布趋于一定的分布,则称后者为该统计量的极限分布。它提供了统计推断的一种近似解法。所谓大样本指样本容量n30,最好大于50或100.统计量的渐近分布非正态总体大样本的抽样分布48定义1 对于统计量Tn,若存在常数序列,n2(0)nn使得(0,1)()LnnnTnNn 则称Tn的渐近分布

22、为22();nnnnNnn,分别称为渐近均值和渐近方差。49 定理1 设总体X的分布函数为F(x),22(),(),0,FFFE XD X X1,X2,Xn为来自总体X的样本,则样本的均值的渐近分布为2().FFNn,定理2 设总体X的分布函数为F(x),22(),(),0,FFFE XD X X1,X2,Xn为来自总体 X 的样本,则(0,1)()nLFnXnNnS 50定理3 设 X1,X2,Xm与 Y1,Y2,Yn是来自 与 的两独立样本,则当n趋于无穷 m趋于无穷时有122212()()(0,1)LXYTNSSmn 21(,)XN 22(,)YN 51定义2 设统计量Tn为某个待估函数

23、 的估计量,( )(0,1)()( )LnTgnNnv 则称Tn是 的渐近正态估计。2,( )v 存在使得若对于每个 :( , )0Ax f x注:若与 无关,则相应参数g( )的估计量都具有渐近正态性,可直接用这个结论。( )g( )g52充分统计量与完备统计量 统计量既然是对样本的加工或压缩,在这个过程中可能有损失有关参数的一部分信息,现在问题是在这个过程中是否存在某些统计量,既起到压缩作用,又不损失参数的信息,这样的统计量称为充分统计量。53例的函数.),(121niinXXXXT(1), (0)1,01,P XP X 相同的T值,这样实际上是对样本起到了加工或压缩的作用。)分布,即正品

24、和次品服从两点设总体(X是来自总体的样本,考虑样本,实际上表T数,对不同观察值可能对应示样本中所含的次品个12,nXXX5412,nx xx设样本的观察值为则样本的联合分布函数为1122(,)(1),sn snnP Xx XxXx101.niiixsx其中或 ,Xs给定的条件下,样本的条件分布为11221(,|),nnP Xx XxXxXsns 55定义,( )PTX设统计模型为,是统计12( ),( )nTtXXXTXX量。如果在给定的条件下,的条件分布与参数 无关,则称统计量是参数 的充分统计量充分统计量(Sufficient Statistics) 一般情况下,利用条件分布证明统计量的充

25、分性是比较困难的。但存在证明充分性的一个充分必要准则,就是下面的因子分解定理(Factorization theorem)。56定理,( )PTX设统计模型为,统计量I 是充分的,当且仅当存在一个定义在( , )( )ng tRhx上的函数及定义在上函数使得( , )( ( ), ) ( )Lg Thxxx( )nRITxx对所有的都成立,其中 是的值域,( , )Lx是样本的联合概率密度函数或分布率。57 例例 设 XB(1,p), 试证样本均值是参数 p 的充分统计量。 例例 设XN(,1), 未知,试证样本均值是参数的充分统计量。58n注注:在因子分解定理中,如果未知参数 是向量,T是随

26、机向量,且定理条件成立,则称T关于 是联合充分的。但这时一般不能由T关于 的充分性而推出T的第j个分量关于 的第j个分量是充分的。n定理 设T是 的一个充分统计量,u=g(t)是单值可逆函数,则U=g(T)也是 的充分统计量。59例12,nXXX设是来自正态总体的样本22( ,)( ,)N ,令参数,试证明211(1)( ),nniiiiTXXX及21111(2)( ),()nniiiiTXXXnnX都是 的充分统计量。60定义( )( )g tT X设是定义在统计量的值域上的任一实值函数,( ( )0Eg T,立成立时,必几乎处处成0)(Tg( )T X统计量是完备的完备的(Complete

27、) 。如果对所有的,则称61例 12,(1, )nXXXB设是来自两点分布的X证明 是完备统计量。证明( , )nXB n因为服从,所以0( ()(1)nkn kknkEg Xgkn 样本 ,)10( (1- ) knnk=0nk=gkn1-( ()0Eg X令,有62 knk=0nkg=0.kn1-1因为上式的左边是的多项式,因此对(0,1), 所有的欲使上式恒成立,只有左边多项式的系数为零,0,0,1, .kgknn即(1, )BX故对分布族而言, 是完备统计量。63定理12(,),nXXXPX设是来自总体一个样本,其密度函数(分布率)可表示为1( , )( ) ( )exp( ) ( )

28、,kiiiLchdTx xx其中 ,如果 包含一个k 维矩形,且 的值域包含一个k 维开集,则 是 充分完备统计量。 12( , ,)kkR 1( ( ),( )kTTXX1( ),( )kdd12( ,)k 64例2( ,),XLn 设总体 服从对数正态分布212,( ,)nXXX 是简单样本,求的完备统计量。解对数分布密度函数为221(ln)( ; )exp22xf xx222222111expln(ln )22exxx2( ,)(0,) (0,),0.x 其中65因此样本的联合密度为222111expln(ln)2nniiiixx22221111( ,; ,)2nnnniiL xxex

29、这样21211( ( ),( )ln,(ln),nniiiiTTxxxx12221( ),( ),(0,) (,0),2dd 12( ( ),( )TTXX由于二维区域 有包含开集,所以211ln,(ln)nniiiiXX是完备充分统计量。66次序统计量及其分布 定义 设 是取自总体X的一个样本, 被称为该样本的第i个次序统计量,它是样本 的满足如下条件的函数:每当样本得到一组观测值 时,将它们从小到大排列为 ,第i个值 是 的观测值,称 为该样本的次序统计量;称 为最小次序统计量,称 为最大次序统计量。12,nXXX( ) iX12,nXXX12,.,nx xx(1)(2)( ).nxxx(

30、 ) ix( ) iX(1)(2)( ),nXXX(1)X( )nX67(1)( )11min,max inii ni nXXXX说明说明( )12(1)(2)( )(,),knnXXXXXXX由于每个都是样本的函数 所以也都是随机变量 并且它们一般不相互独立。即68 定义 样本最大次序统计量与样本最小次序统计量之差称为样本极差,常用 表示。若样本容量为n,则样本极差为 。它表示样本取值范围的大小,也反映了总体取值分散与集中的程度,而且计算方便。 定义定义 样本按大小次序排列后处于中间位置上的称为样本样本中位数中位数,常用 表示。 设 是来自某总体的一个样本,其次序统计量为 ,则nR( )(1

31、)nnRXXdm12,nXXX(1)(2)( ),nXXX12 12212ndnnXnmXXn 奇偶69 定义 设 是来自某总体的一个样本,其次序统计量为 ,样本的p分位数分位数 是指由下式决定的统计量: 式中的 是不超过 的最大整数。 (若总体X的分布函数为F(x),我们称满足 (0p1)的ap为的分位数。)12,nXXX(1)(2)( ),nXXXpm()( 1()(1)()()1pnpnpnpnpmXnpXXnnpnp ()papF af x dxp70(1)(2)( )12(,)(,)nnXXXXXXX为总体 的样本的次序统计量。则有定理( )( ),Xf xF x设总体 的分布密度为

32、或分布函数为(1)(1)1(1)( )1( )( )nXXfxnF xf x最小次序统计量的分布密度为( )( )1(2)( ) ( )( )nnnXXfxn F xf x最大次序统计量的分布密度为(3)第i个次序统计量 具有密度:1!( ) ( ) 1( )( )(1)!()!in iing yF yF yf yini( ) iX711, 0( )0,Xxf x解 总体 的分布密度为其他0,0( ), 01,XxxF xxx的分布函数为12(1)( )0, ,.nnXXXXXXX设总体 服从区间上的均匀分布为总体 的样本 试求和的分布例72(1)(1)1(1), 0( )0,nXXnxxfx

33、由定理得的分布密度为其他( )( )1, 0( )0,nnnnXXnxxfx而的分布密度为其他73n任意两个次序统计量 ,其联合密度为: ( )( )ijXX11! ( ) ( )( ),(1)!(1)!()!( , )1( )( ) ( )0,ij injijnF yF zF yayzbijinjgy zF zf y f z 其它74 若i=1,j=n,则得到最小次序统计量 与最大次序统计量 的联合密度函数: 由与 的 联合密度函数,可求出极差统计量 的分布。(1)X( )nX21111,1(1)()()() ()(,)0nnnnnnn nF yF yf yf yyygyy其它(1)X( )nXnR2(1)( )() ( )0( )00nnv yvRnnf x dxf vy f v dvyfyy75n次序统计量 的联合密度函数:12,nXXX()()( )12112!()(,)0nininnf yyyyg y yy其它76

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 其他资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁