概率论与数理统计—样本及抽样分布.pdf-淘文阁

资源描述

《概率论与数理统计—样本及抽样分布.pdf》由会员分享，可在线阅读，更多相关《概率论与数理统计—样本及抽样分布.pdf（6页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、授课章节第六章样本及抽样分布目的要求理解总体，样本，样本值，统计量；了解2分布，t 分布和 F 分布，分位数；掌握正态总体的抽样分布等内容重点难点重点：正态总体的某些常用统计量的分布。前五章，主要介绍了概率论的基本概念，掌握了描述随机变量取值规律的方法离散型用分布律、连续型用密度函数。一旦知道了随机变量的取值规律，我们就可以计算这个随机变量满足各个条件的概率。而从第六章开始到第九章进入数理统计部分。它的思想方法是通过“样本”的数据对“总体”的分布或总体的某些未知参数做出“可靠”的推断。当然，在这个过程中，总体的全部或部分是未知的。第一节随机样本下面，通过一个例子，了解总体、样本

2、、样本值、样本容量等数理统计中的基本概念。例某灯泡厂，一个季度内生产了一大批灯泡，出厂前要对这批灯泡的质量，比如它的寿命，做比较全面的分析。用 X 表示灯泡的寿命，显然，随取哪只灯泡的不同，它的寿命也不一样。因此，X 是个随机变量。如果，我们知道它的分布，我们就知道这批灯泡的质量。称 X 为总体我们所关心的某个数量指标的全体。想全面地了解总体，最好的方法就是“普查”，但普查对有些场合是不现实的。比如，本例中的灯泡的寿命就是如此。即便在某些场合，普查是允许的，但投入过多的人力、物力，而使成本加大不划算。注意，这并不是说，普查都不做，全国的人口普查已做了数次。因此，我们想到了“抽样”，在这批灯

3、泡中随机地抽取 n 只灯泡，每只灯泡都有自己的寿命值，测试前它们都是随机变量，分别记做 X1、X2、Xn。称 X1、X2、Xn为样本总体中的个体。测试后它们各自取到一批值：x1、x2、xn。称 x1、x2、xn为样本值样本取到的值。称 n 为样本容量样本的个数。数理统计就是通过样本对总体做出推断，这就要求样本能够真实地反映总体，样本又是总体中为数不多的个体，那么什么样的样本可以做到这一点呢？就是随机样本。定义：设 X 为总体，X1、X2、Xn为样本，如果每个样本 Xi（i=1、2、n）与总体 X的分布相同，即同分布；X1、X2、Xn之间相互独立；则称 X1、X2、Xn为简单随机样本。数理统计

4、中所使用的样本就是这种样本。如果记总体 X 的分布函数为 F(x)=P X x，则（X1，X2，Xn）的联合分布函数为 F(x1,x2,xn)=P X1 x1,X2 x2,Xn xn =F(xi)当总体 X 是连续型随机变量时，f(x)是它的概率密度，则（X1，X2，Xn）的联合概率密度2/6 为 f(x1,x2,xn)=f(xi)。第二节抽样分布样本是统计推断的依据，但在使用时，要对不同的推断目标构造不同的样本函数。例如，要推断总体的均值 E(X)时，需构造样本的均值11niiXn,要推断总体的方差 D(X)时，需构造样本的方差211()niiXXn等等。由样本构成的函数称为统计量，定义

5、如下。定义设 X1、X2、Xn是来自总体 X 的一个样本，如果由样本构成的函数 g(X1，X2，Xn)不含有未知的参数，则称为它为一个统计量。因为样本 X1、X2、Xn是随机变量，所以 g(X1，X2，Xn)也是随机变量。当各个样本取到样本值 x1、x2、xn时，对应的统计量 g(X1，X2，Xn)取到 g(x1，x2，xn)，称 g(x1，x2，xn)为统计量 g(X1，X2，Xn)的一个观测值。常见的统计量有：样本均值12111()nniiXXXXXnn，样本方差 2211()1niiSXXn，2211()nniiSXXn,样本标准差 211()1niiSXXn，样本 k 阶原点矩 11

6、nkkiiAXn，样本 k 阶中心矩 11()nkkiiBXXn 样本值 x1、x2、xn是样本 X1、X2、Xn的一个随机结果，自然，观测值 g(x1，x2，xn)是统计量 g(X1，X2，Xn)的偶然值。事实上，我们最后就是用偶然值 g(x1，x2，xn)去推断总体的。那么，这个偶然值 g(x1，x2，xn)有多大的价值？数理统计的主要工作就是分析这个“偶然值”。表面看，统计量 g(X1，X2，Xn)取到观测值 g(x1，x2，xn)是偶然的，但它也存在“必然”的成分。下面说明其中的道理。假设两个随机变量21(,2)XN、22(,4)YN，其中 1和 2未知。它们的密度函数和图形如下：3/

7、6 212()2 21()2 2xXfxe 222()2 41()2 4xYfxe 如果用 X 的测试值 x 估计 1，用 Y 的测试值 y 估计 2，从上面的图形可以看出，当可靠性（概率）取相同值（如 90%）时，y 比 x 更“接近”它的待估计量。当要求两个“接近”相同时，y 比 x 的可靠性更高。能够得到这些有价值的结论，应归功于我们知道了 X 和 Y 的分布。综上所述，我们需要知道统计量 g(X1，X2，Xn)的分布。那么，g(X1，X2，Xn)服从什么分布呢？不同的 g 会有不同的结果。下面给出几种常见的分布，这些分布在统计推断中起着重要的作用。（一）2分布(2distributio

8、n)设nXXX,21为相互独立的随机变量，它们都服从标准正态)1,0(N分布，则随机变量 221niiX 服从自由度为n的2分布，记作22()n)(2n分布的密度函数为 122/210()2(/2)00nynyeyf yny 其中)(称为伽马函数，定义为10(),0 xxe dx。下图描绘了)(2n分布密度函数在 n=1，4，10，20 时的图形。1 0.16 2 0.08 4/6 2分布具有可加性：如果2211()n、2222()n，则 2221212()nn 2分布期望和方差：设22()n,则2()En，2()2Dn。2分布分位点对于给定的（0 1），称满足条件 222()()()()n

9、nnf y dyP 的数2()n为2()n分布的上分位点。教材后附表的2分布表给出分位点2()n，可通过查表得到。如20.99(17)6.408，20.90(17)10.085，20.05(17)27.587等等。（二）t分布(t distribution)设)1,0(NX，)(2nY，X与Y独立，则随机变量 nYXT 服从自由度为n的t分布(t distribution),记成()t nt。利用独立随机变量商的密度公式，不难由已知的)1,0(N，)(2n的密度公式得到)(nt分布的密度：1221()2()(1),()2nnth ttnnn 显然它是x的偶函数，下图描绘了 n=2、5 时的)(

10、nt分布概率密度曲线，作为比较,还描绘了)1,0(N的密度曲线。5/6 利用伽马函数的斯特林)(Stirling公式可以证明 221(),2th ten 从图形我们也可看出,随着n的增大,)(nt的密度曲线与)1,0(N的密度曲线越来越接近，一般若30n,就可认为它基本与)1,0(N相差无几了。)(nt 分布分位点对于给定的（0 1），称满足条件()()()()tnt nt nh t dtP 的数()tn为()t n分布的上分位点。教材后附表的)(nt分布表给出分位点()tn，可通过查表得到。如0.05(17)1.7396t，0.1(17)1.3334t 等等。（三）F分布(Fdistrib

11、ution)设21()Un，22()Vn，U 与 V 独立，则随机变量 12U nFV n 服从自由度为（1n,2n）的F分布，记成),(21nnFF 类似可得，),(21nnF的密度函数为112121212221212212()20()()()()2200nnnnnnnxnnxnnxn xnx 下图描绘了几种F分布的密度曲线。6/6 由F分布的定义容易看出，若),(21nnFF，则),(112nnFF。12(,)F n n分布分位点对于给定的（0 1），称满足条件 121212(,)(,)(,)()Fn nF n nF n nx dxP 的数12(,)F n n为12(,)F n n分布的上分位点。（四）正态总体的样本均值和样本方差的分布在概率统计问题中，正态分布占据着十分重要的位置，这是基于一则在应用中，许多量的概率分布或者是正态分布，或者接近于正态分布；再则，正态分布有许多优良性质，便于进行较深入的理论研究。因此，我们着重来讨论一下正态总体下的抽样分布，其中最重要的统计量自然是样本均值X和样本方差2S 设总体),(2NX，nXXX,21为总体的样本，则 1）样本均值),(2nNX，或(0,1)/XNn。2）222(1)nSn，其中2S为样本方差。3）X与2S相互独立。4）(1)/Xt nSn，其中 S 为样本标准差。

展开阅读全文