《概率论与数理统计教程-朱庆峰》第7章假设检验.ppt-淘文阁

资源描述

《《概率论与数理统计教程-朱庆峰》第7章假设检验.ppt》由会员分享，可在线阅读，更多相关《《概率论与数理统计教程-朱庆峰》第7章假设检验.ppt（45页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、7.3 其他分布参数的假设检验7.3.1 指数分布参数的假设检验设 x1,x2,xn 是来自指数分布的样本，关于的如下检验问题：(7.3.1)由于在=0时，所以拒绝域为例设我们要检验某种元件的平均寿命不小于6000小时，假定元件寿命为指数分布，现取 5个元件投入试验，观测到如下5个失效时间:395,4094,119,11572,6133。解：由于待检验的假设为若取=0.05，则检验拒绝域为:故接受原假设，可以认为平均寿命不低于6000小时.经计算得7.3.2 大样本检验在二点分布参数 p 的检验问题中，临界值的确定比较繁琐，使用不太方便。如果样本量较大，我们可用近似的检验方法大样

2、本检验。大样本检验一般思路如下：设是来自某总体的样本，又设该总体均值为，方差为的函数，记为，譬如，对二点分布b(1,)，其方差(1-)是均值的函数，则在样本容量n 充分大时，故可采用如下检验:由此近似地确定拒绝域。统计量例某厂产品的不合格品率为 10%，在一次例行检查中，随机抽取80件，发现有 11件不合格品，在 =0.05=0.05下能否认为不合格品率仍为10%？解：这是关于不合格品率的检验，假设为:若取 =0.05=0.05，则u0.975=1.96,故拒绝域为故不能拒绝原假设。因为n=80 比较大，可采用大样本检验方法。检验统计量为例某建筑公司宣称其麾下建筑工地平均每

3、天发生事故数不超过 0.6 起，现记录了该公司麾下建筑工地 200天的安全生产情况，事故数记录如下：天数102 59 30 8 010 200一天发生的事故数01 2 3 45合计6试检验该建筑公司的宣称是否成立(取 =0.05=0.05)。解：以X 记建筑工地一天发生的事故数，可认为，要检验的假设是：由于n=200很大，可以采用大样本检验，泊松分布的均值和方差都是，这里，检验统计量为若取 =0.05=0.05，则 u0.95=1.645，拒绝域为如今 u=2.556 已落入拒绝域，故拒绝原假设，认为该建筑公司的宣称明显不成立。大样本检验是近似的:近似的含义是指检验的实际显著性水平与

4、原先设定的显著性水平有差距，这是由于诸如(7.3.12)中 u 的分布与N(0,1)有距离。如果n 很大，则这种差异就很小。实用中我们一般并不清楚对一定的n,u 的分布与N(0,1)的差异有多大，因而也就不能确定检验的实际水平与设定水平究竟差多少。在区间估计中也有类似问题。因此，大样本方法是一个“不得已而为之”的方法。只要有基于精确分布的方法一般总是首先要加以考虑的。7.4 分布拟合检验7.4.1 总体分布只取有限个值的情况设总体X 可以分成k 类，记为，现对该总体作了n 次观测，k 个类出现的频数分别为:检验如下假设:n1,nk,且其中诸且一、诸 pi 均已知如果H0 成立，

5、则对每一类Ai，其频率ni/n与概率pi 应较接近。即观测频数ni 与理论频数npi 应相差不大。据此，英国统计学家K.Pearson提出如下检验统计量:()并证明在H0 成立时对充分大的n,(7.4.2)给出的检验统计量近似服从自由度为k-1的分布。拒绝域为:例为募集社会福利基金，某地方政府发行福利彩票，中彩者用摇大转盘的方法确定最后中奖金额。大转盘均分为20份，其中金额为5万、10万、20万、30万、50万、100万的分别占2份、4份、6份、4份、2份、2份。假定大转盘是均匀的，则每一点朝下是等可能的，于是摇出各个奖项的概率如下：概率0.10.20.30.20.10.1额度5

6、万10万20万 30万 50万 100万现20人参加摇奖，摇得5万、10万、20万、30万、50万和100万的人数分别为2、6、6、3、3、0，由于没有一个人摇到100万，于是有人怀疑大转盘是不均匀的，那么该怀疑是否成立呢？这就需要对转盘的均匀性作检验。解：这是一个典型的分布拟合优度检验，总体共有6类，其发生概率分别为0.1、0.2、0.3、0.2、0.1和0.1，这里k=6，检验拒绝域为:由本例数据可以算出若取 =0.05，则查附表3知=由于未落入拒绝域，故接受原假设，没有理由认为转盘不均匀。在分布拟合检验中使用p 值也是方便的。本例中，以T 记服从 (5)的随机变量，则使用统计软件可以

7、算出这个p 值就反映了数据与假设的分布拟合程度的高低，p 值越大，拟合越好。二、诸 pi 不完全已知若诸由r(rk)个未知参数确定，即首先给出的极大似然估计然后给出诸的极大似然估计 Fisher证明了在H0成立时近似服从自由度为k-r-1的分布，于是检验拒绝域为例卢瑟福在2608个等时间间隔内观测一枚放射性物质放射的粒子数X，表是观测结果的汇总，其中ni表示2608次观测中放射粒子数为i的次数。ni 57 203 383 525 532 408 273 139 45 27 10 6i 0 1 2 3 4 5 6 7 8 9 10 11试利用该组数据检验该放射物质在单位

8、时间内放射出的粒子数是否服从泊松分布。解：本例中，要检验总体是否服从泊松分布。观测到 0,1,11 共 12 个不同取值，这相当于把总体分成12类。这里有一个未知参数，采用极大似然估计，=将代入可以估计出诸。于是可计算出列表如下。012345678910115720338352553240827313945271060.02090.08070.15620.20150.19500.15090.09730.05380.02600.01120.00430.002254.5210.5407.4525.5508.6393.5253.8140.367.829.211.25.70.11470.26721

9、.46140.00051.07660.53431.45250.01207.66730.16580.12580.0158合计26081.00002068 =12.8967i本例中 =12.896718.307，故接受原假设。使用统计软件可以计算出此处检验的p 值是0.2295。若取 =0.05，则列联表是将观测数据按两个或更多属性(定性变量)分类时所列出的频数表。例如，对随机抽取的1000人按性别（男或女）及色觉(正常或色盲)两个属性分类,得到如下二维列联表，又称22表或四格表。列联表的独立性检验男53565女38218性别视觉正常色盲一般,若总体中的个体可按两个属性A与B分类，A 有r 个类

10、，B 有c个类从总体中抽取大小为n的样本，设其中有个个体既属于类又属于类，称为频数，将rc个排列为一个r行c列的二维列联表，简称rc表(表7.4.3)。表7.4.3 rc列联表列联表分析的基本问题是:考察各属性之间有无关联，即判别两属性是否独立。如在前例中，问题是：一个人是否色盲与其性别是否有关？在rc表中，若以和分别表示总体中的个体仅属于，仅属于和同时属于与的概率,可得一个二维离散分布表（表7.4.4），则“A、B两属性独立”的假设可以表述为表二维离散分布表这就变为上一小节中诸不完全已知时的分布拟合检验。这里诸共有rc个参数，在原假设H0成立时，这rc个参数由r+

11、c个参数和决定。在这r+c后个参数中存在两个约束条件：所以，此时实际上由r+c-2个独立参数所确定。据此，检验统计量为在H0成立时，上式服从自由度为rc-(r+c-2)-1的分布。其中诸是在H0成立下得到的的极大似然估计，其表达式为对给定的显著性水平，检验的拒绝域为:例为研究儿童智力发展与营养的关系，某研究机构调查了1436名儿童，得到如表的数据，试在显著性水平0.05下判断智力发展与营养有无关系。表7.4.5 儿童智力与营养的调查数据营养良好营养不良合计智商合计342367266329130456402013216423382286345143680 8090

12、9099 100解：用A表示营养状况，它有两个水平：表示营养良好，表示营养不良；B表示儿童智商,它有四个水平，分别表示表中四种情况。沿用前面的记号，首先建立假设 H0：营养状况与智商无关联，即A与B独立的。统计表示如下：在原假设H0成立下，我们可以计算诸参数的极大似然估计值:进而可给出诸，如其它结果见表7.4.6 表7.4.6 诸的计算结果营养良好 384.1677 346.8724 259.7631 313.3588 0.90810.29460.26600.19920.2403营养不良 38.877935.103626.288131.71200.09197.815，故拒绝原假设，认

13、为营养状况对智商有影响。本例中检验的p 值为0.0002。7.5 正态性检验正态分布是最常用的分布，用来判断总体分布是否为正态分布的检验方法称为正态性检验，它在实际问题中大量使用。正态概率纸正态概率纸可用来作正态性检验，方法如下：利用样本数据在概率纸上描点，用目测方法看这些点是否在一条直线附近，若是的话，可以认为该数据来自正态总体，若明显不在一条直线附近，则认为该数据来自非正态总体。例随机选取10个零件，测得其直径与标准尺寸的偏差如下：（单位：丝）9.4 8.8 9.6 10.2 10.1 7.2 11.1 8.2 8.6 9.6 在正态概率纸上作图步骤如下：(1)首先将数据排序：7.2

14、8.2 8.6 8.8 9.4 9.6 9.8 10.1 10.2 11.1;(2)对每一个i，计算修正频率 (i-0.375)/(n+0.25),i=1,2,n,(3)将点逐一点在正态概率纸上,(4)观察上述n个点的分布:若诸点在一条直线附近,则认为该批数据来自正态总体；若诸点明显不在一条直线附近，则认为该批数据的总体不是正态分布。从图可以看到，10个点基本在一条直线附近，故可认为直径与标准尺寸的偏差服从正态分布。如果从正态概率纸上确认总体是非正态分布时，可对原始数据进行变换后再在正态概率纸上描点，若变换后的点在正态概率纸上近似在一条直线附近，则可以认为变换后的数据来自正态分布，这样的

15、变换称为正态性变换。常用的正态性变换有如下三个：对数变换、倒数变换和根号变换。图7.4.3 给出这10个点在正态概率纸上的图形，这10个点明显不在一条直线附近，所以可以认为该电子元件的寿命的分布不是正态分布。例随机抽取某种电子元件10个,测得其寿命数据如下:110.47,99.16,97.04,77.60,4269.82,539.35,179.49,782.93,561.10,286.80.图7.4.3 例7.4.5 的正态概率纸对该10个寿命数据作对数变换,结果见表7.4.8 表7.4.8 对数变换后的数据 1 32.623.4849 0.061 6286.80 5.6588 0.5492 97.04 4.5752 0.159 7539.35 6.2904 0.6463 99.16 4.5967 0.256 8561.10 6.3299 0.7434 110.47 4.7048 0.354 9 782.936.6630 0.8415 179.49 5.1901 0.451 10 2269.82 7.7275 0.939ii利用表7.4.8 中最后两列上的数据在正态概率纸上描点，结果见图，从图上可以看到10个点近似在一条直线附近，说明对数变换后的数据可以看成来自正态分布。这也意味着，原始数据服从对数正态分布图7.4.4 变换后数据的正态概率纸

展开阅读全文