《北邮概率论与数理统计统计量及其分布.docx》由会员分享,可在线阅读,更多相关《北邮概率论与数理统计统计量及其分布.docx(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、北邮概率论与数理统计统计量及其分布 §6.3 统计量及抽样分布 6.3.1 统计量 为探讨一个问题而收集数据,数据就是样本,样本中含有总体的信息。要实施统计推断,则要依据样本所供应的信息。样本本身是一堆杂乱无章的数字,须要对这些数字进行加工、整理把样本中所含的信息集中起来以反映总体的各种特征,也就是要由样本计算出一些量以用于统计推断。这些量是样本的函数而且完全由样本所确定,在统计学中,把凡是由样本算出的量称为统计量。因此有下面定义。定 义 6.3.1 设nx x x ,., ,2 1为 取 自 某 总 体 的 样 本 , 若 样 本 的 函 数) ,., , (2 1 nx x x
2、T T = 中不含任何未知参数,则称 T 为统计量。在此要强调一点:统计量只依靠于样本,而不能与任何未知的量有关,特殊地不能依靠于未名参数。换言之,统计量是能由样本完全确定的量.在详细的统计问题中选用什么统计量,当然要看问题的性质.一个好的统计量应当能很好地集中与问题有关的信息.例如: 样本均值.设nX X X ,., ,2 1为来自某总体的样本,则样本均值定义为 =niiXnX11 若要对总体均值作推断(估计、检验),那么我们很自然地会想到样本均值.例如: 样本方差.设nX X X ,., ,2 1为来自某总体的样本,则样本方差定义为 212) (11X XnSnii-= 若要对总体方差作推
3、断(估计、检验),那么我们很自然地会想到样本方差.在这里我们常说2S 的自由度为 1 - n ,自由度这个名词有如下两种说明: (1) 2S 是 n 个数 X X -1,„, X X n - 的平方和,而这 n 个数受到一个(也只有一个)约束: = -niiX X10 ) ( ,故只有 1 - n 个自由度. (2) 若=niiXnX11代入21) ( X Xnii-=中,并将其整理为二次型 AXX,则 A 的秩为 1 - n .自由度就定义为这个秩。下面列举一些常用的统计量:样本均值: =niiXnX11, 样本方差: 2111) X - X (- nSnii2= , 样本标准差
4、:2S S = 样本 k 阶原点矩:=niki kXnA11 样本 k 阶中心矩:=niki k) X - (XnB11 样本偏度 2 / 323 ˆBBs= b样本峰度 3ˆ224- = bBBk 次序统计量:设有样本nX , , X L1,按如下方式定义随机变量) i (X ,当有了样本值nx , , x L1后,将样本值从小到大排序为) n ( (2) )x x x L1 (,那么) i (X 的取值为) i (x ,称i)X(为第 i 个次序统计量,称 ) X X X (n) ) ( ) 2 ( 1, , , L(为样本nX , , X L1的次序统计量, ) x
5、x x (n) ) ( ) 2 ( 1, , , L(是 ) X X X (n) ) ( ) 2 ( 1, , , L(的一次实现.) (X1和) n (X 分别称为微小和极大次序统计量. = R) n (X) (X1- 称为样本极差. 样本分位数:样本 ) p p( 1 0 分位数定义为+=+是整数不是整数, ,)p , X21np) 1 ( (np1) np (n XXmnpp 样本中位数为 +=+是偶数是奇数, ,n XXmn, X21n) 12( )2n()21 n(5 . 0 注:样本分位数的定义在不同的教材上可能会有所差异。样本阅历分布函数:对于随意的实数 x , 2 1 # n
6、, , , i , x X ) x ( Vi nL = = ,即 ) x ( V x 表示样本nX , , X L1中小于或等于 x 的频数. 阅历分布函数定义为 + - = x ,n) x ( V) x ( Fnn. 对应于样本的二重性,统计量也有二重性.若样本nX , , X L1是 n 个随机变量,则统计量 ) X , , X ( T TnL1= 是随机变量. 而对于详细的样本值nx , , x L1, ) , , (1 nx x T L 是一个详细的取值,称此详细取值为统计量的视察值.在统计分析和统计推断中,统计量起着重要作用,对统计量的统计性质的了解就很重要. 比如计算统计量的特征数
7、(比如,期望、方差等),推导统计量的概率分布. 例如, 对于随意给定的实数 x ,阅历分布函数值 ) (x F n 是一个随机变量,并且 ) (x nF n 听从二项分布 ) ( , ( x F n B ,其中 ) (x F 为总体分布函数.对于详细的样本视察值nx x , ,1 L,那么阅历分布函数 ) (x F n 的视察值 (阅历分布函数 ) (x F n 的视察值仍记为 ) (x F n )是一个阶梯形的函数,例如,若样本值nx x , ,1 L两两不相等,其次序统计量为) ( ) 2 ( ) 1 (, , ,nx x x L ,则- = q q 的简洁随机样本,) n (X 为极大次
8、序统计量,求(1)) n (X 的概率密度函数;(2)) X ( E) n (, ) X ( Var) n (.解: ) X , , X ( Max Xn ) n (L1= 的分布函数为 = =qqqx , x ,x, x ,) x ( F x) FnnnM100 0(这里 ) x ( F 是分布 ) , ( U q 0 的分布函数,从而可得) n (X 的概率密度函数为 m - X P 。再比例, 若nX X X ,., ,2 1为取自总体 ) (l P 的简洁随机样本,那么统计量=niiX T1的抽样分布为 ) ( l n P 。如用样本均值=niiXnX11估计总体均值 l ,那么样本均
9、值=niiXnX11的抽样分布确定了这个估计量的性能。从原则上讲,统计量的抽样分布可由样本分布定出,但在许多状况下,统计量的精确分布特别困难. 在统计量的精确分布难以确定或特别困难时,我们经常求助于统计量的近似分布. 例如, 假如nX X X ,., ,2 1为取自某总体的简洁随机样本,总体的均值为 m ,方差为2s 。由中心极限定理知 s m - / ) (X n 依分布收敛于 ) 1 , 0 ( N ,从而样本均值=niiXnX11在 n 很大时的近似分布为 ) , (2nNsm . 6.3.3 三大分布许多统计推断是基于正态模型(即基于总体为正态分布的假设),而对于来自正态总体的简洁随机
10、样本,一些常用统计量(样本均值、样本方差)的精确分布是可以推导出来的.这些分布涉及下面介绍的三大分布.(一)2c 分布 在第三章中,我们介绍过形态参数为2n,尺度参数为21的 Gamma分布 )21,2( n Ga 为自由度为 n 的2c 分布.若随机变量nX X X ,., ,2 1独立同分布于 ) 1 , 0 ( N ,那么2iX )21,21( Ga ,再由Gamma分布的可加性知 =niiX12 )21,2( n Ga ,从而 =niiX12听从自由度为 n的2c 分布.因此也可以如下方式给出2c 分布的定义. 定义 5.4.1 设nX X X ,., ,2 1为取自总体 ) 1 ,
11、0 ( N 的简洁随机样本,则称统计量= cniiX12 2的分布为自由度为 n 的2c 分布,记为2c ) (2n c . 由 Gamma 分布的概率密度的表达式,易知自由度为 n 的2c 分布) (2n c 的密度函数为 0 , e)2() 2 / 1 () ; (2122G=- -x xnn x fx nn. 自由度为 n 的2c 分布 ) (2n c 的 a 分位数记为 ) (2nac ,即 ) (2nac 满意 a c a = ) ( 2n X P , 其中 X ) (2n c ,分位数 ) (2nac 可从附表 3 中查到.比如 31 . 18 ) 10 (205 . 0= c .
12、 由此定义,易得2c 分布的两条性质: (1) 若随机变量 X ) (2n c ,则 n X Var n X E 2 ) ( , ) ( = = . (2) 若随机变量 X ) (2n c , Y ) (2m c ,且 X 与 Y 相互独立,则Y X + ) (2m n+ c .例 6.3.5设nX X X ,., ,2 1为取自总体 ) , (2s m N 的简洁随机样本,则 sm -iX ) , (2s m N ( n i , , 2 , 1 L = ),从而=m -sniiX122) (1 ) (2n c .若 m 已知,则可得统计量=m - =niiX T12) ( 的密度函数为 0
13、, e)2() 2 / 1 () (221222G=- -t tnt ft nnss. (二) t 分布 定义 设随机变量1X ) 1 , 0 ( N ,2X ) (2n c ,且1X 与2X 相互独立,则称n XXT/21= 的分布为自由度为 n 的 t 分布,记为 t ) (n t . 自由度为 n 的 t 分布 ) (n t 的密度函数为, ) (1)2()21() ; (212+-+G+G=nnxnnnn x fp+ a) ( ( n t t P , 其中 t ) (n t a ,分位数 ) (n t a 可从附表4中查到.比如 812 . 1 ) 10 (05 . 0= t .由于
14、t分布的密度函数是偶函数,故分位数有如下关系 ) (n t a 0 ) (1= +a -n t , 当自由度较大(如 30 n )时, t 分布可用标准正态分布 ) 1 , 0 ( N 近似, t分布的分位数可用标准正态分布 ) 1 , 0 ( N 的分位数近似. t 分布的性质: (1) 1 n 时, 分布 ) (n t 的数学期望存在,且期望为 0. (2) 2 n 时, 分布 ) (n t 的方差存在,且方差为2 - nn. (3) 若 t ) (n t ,则2t ) , 1 ( n F .例 6.3.6 设nX X X ,., ,2 1为取自总体 ) , 0 (2s N 的简洁随机样本
15、,则1221niin XX=- ) 1 ( - n t . (三) F 分布 定义 设随机变量1X ) (2m c ,2X ) (2n c ,且1X 与2X 相互独立, 称n Xm XF/21= 的分布为自由度为 m 和 n 的 F 分布,记为 F ) , ( n m F . 自由度为 m 和 n 的 F 分布 ) , ( n m F 的密度函数为0 , )nm(1)2( )2() / )(2() , ; (2122 +G G+G=+- -x x xn mn mn mm n x fn m mm 自由度为 m 和 n 的 F 分布 ) , ( n m F 的 a 分位数记为 ) , ( n m
16、F a ,即 ) , ( n m F a满意 a = a) , ( ( n m F F P , 其 中 F ) , ( n m F a , 分 位 数 ) , ( n m F a 可 从 附 表 5 中 查 到 . 比 如74 . 4 ) 5 , 10 (05 . 0= F . 由此定义,易得 F 分布的性质: (1) 若随机变量 F ) , ( n m F ,则F1 ) , ( m n F . (2) ) , (1) , (1m n Fn m Faa -= . 例 6.3.7 设nX X X ,., ,2 1为取自总体 ) , (2s m N 的简洁随机样本,则) ) ( /( ) ( )
17、(1212 + = =m - m - -nk iikiiX k X k n ) , ( k n k F - . 例 6.3.8 设mX X X ,., ,2 1为取自总体 ) , (21 1s m N 的简洁随机样本, 设nY Y Y ,., ,2 1为取自总体 ) , (22 2s m N 的简洁随机样本,且两样本独立,则=s m -s m -niimiiY mX n1222212121/ ) (/ ) ( ) , ( n m F . 6.3.4 正态总体的抽样分布 在正态总体下,样本均值和样本方差等常用统计量的精确分布是可以导出的.下面给出其结果.定理 6.3.1 设nX , , X L1
18、为来自总体 ) , N(2s m 的简洁随机样本,2S , X为样本均值和样本方差,则(1)X /n) , N(2s m ,(2)221sS ) - n (212s=nii) X - X ( ) - n ( 12c ,(3)2S , X 相互独立. 对于结论(1),利用正态分布的性质易得,下面给出结论(2),(3)的证明. 证明:记 = X ) , , (1nX X L ,则 X ) , 1 (2nI N s m ,其中 ) 1 ,., 1 , 1 ( 1 = ,nI 为 n阶单位矩阵。取一个 n 阶正交矩阵 A , A 的第一行的每个元素均为n1。令 AX Y Y Y Yn= = ) ,.,
19、 , (2 1, 由多维正态分布的性质知 Y ) , 1 (2A A A N s m由于 A 为正交矩阵,且 A 的第一行的每个元素均为n1,故 ) 0 ,., 0 , ( 1 = n A ,nI A A = , X X Y Y = 所以 X n Y =1 ) , (2s m n N ,iY n i N ,., 3 , 2 ), , 0 (2= s , 并且nY Y Y ,., ,2 1相互独立。 从而有=sniiY2221 ) 1 (2- c n ,且1Y 与=sniiY2221独立。又21) ( X Xnii - = - = =212X n Xnii= -=2112Y Ynii =niiY
20、22, 所以11YnX = 与=-=niiYnS22 211独立,并且 221sS ) - n (212s=nii) X - X (=s=niiY2221 ) - n ( 12c 。推论:设nX , , X L1为来自总体 ) , N(2s m 的简洁随机样本,2S , X 分别为样本均值和样本方差,则 n SX/m - ) - n ( t 1 . 证明:由定理知 X /n) , N(2s m ,221sS ) - n (212s=nii) X - X ( ) - n ( 12c , 并且两者独立,从而 ) 1 () 1 (/22- s-sm -nS nnX ) 1 - (n t即n S/-
21、X m ) - n ( t 1在数理统计中,常常会遇到两独立样本的比较问题.在正态模型下常需对两正态总体的均值、方差作比较,此时一般可通过对样本均值的比较、样本方差的比较得出结论.这就须要知道样本均值之差、样本方差之比的抽样分布.下面给出在正态总体下,样本均值之差、样本方差之比的抽样分布. 定理 6.3.2 设mX , , X L1为来自总体 ) , N(21 1 sm 的简洁随机样本,2xS , X分别为该样本的样本均值和样本方差,nY , , Y L1为来自总体 ) , N(22 2s m 的简洁随机样本,2yS , Y 分别为此样本的样本均值和样本方差.又设两样本相互独立,则 (1) 2
22、22122ss/SSyx ) - n , - m F( 1 1(2)在2 1s s =条件下,有n mS) - ( - Y - XW1 12 1+m m ) - n m ( t 2 +其中21 12 22- n mS ) - n ( S ) - m (Sy xw+= . 证明:(1)由定理知 212) 1 (s-xS m ) 1 - (2m c , 222) 1 (s-yS n ) 1 - (2n c , 又由于2xS 与2YS 相互独立,故 222122ss/SSyx ) - n , - m F( 1 1(2)若2 1s s = s = ,则 Y X - ), )1 1( , (22 1s
23、+ m - mn mN 22) 1 (s-xS m2222) 2 () 1 (s- +=s-+wyS n mS n ) 2 (2- + c n m 。又 Y X - 与2wS 独立,从而 ) 2 () 2 (1 1/) (222 1- + s- + sm - m - -n mS n mn mY Xw ) 1 - (m n t +即n mS) - ( - Y - XW1 12 1+m m ) - n m ( t 2 + . 例 6.3.9 设nX X X , , ,2 1 为 来 自 总 体 ) 4 , ( m N 的 样 本 , 为 使95 . 0 5 . 0 | | - m X P ,样本容量 n 至少为多大? 解: X )4, (nN m ,从而 1 )4( 2 5 . 0 | | - F = -nX P m , 依题意,有 95 . 0 1 )4( 2 - Fn,即 975 . 0 )4( Fn, 故 96 . 14n,即4656 . 61 n, 所以样本容量 n 至少为 62.