《假设检验的基本思想与有关概念.doc》由会员分享,可在线阅读,更多相关《假设检验的基本思想与有关概念.doc(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第四章假设检验统计推断研究的另一类基本问题是本章所讨论的统计假设检验问题。在数理统计中,通常称对有关总体分布所提出的某种推断为统计假设;称根据所获得的样本,采用合理的方法来判断这个假设是否成立为统计假设检验。统计假设检验的基本任务是根据来自总体的样本所提供的信息,对未知总体分布的某些概率特征(如总体数学期望,总体方差,总体分布,两个总体相互独立等)的统计假设作出合理的判断。为行文简便,以下将统计检验假设简写成假设检验。假设检验与参数估计一样,在数理统计的理论研究与实际应用中都占有极其重要的地位。本章主要介绍假设检验的基本思想和有关概念,正态总体数学期望和方差的显著性检验方法以与包括总体分布的
2、拟合检验和两个总体独立性的检验在的非参数的假设检验方法。4.1 假设检验的基本思想和有关概念1.假设检验的问题本节我们通过实例来阐明假设检验的基本思想和有关概念。例1 设某粮食加工厂用打包机包装大米,规定每袋净质量的标准为50 kg。可以认为打包机所装大米的净质量服从正态分布,由已往的经验知其标准差kg,且打包机工作的稳定性能较好,即保持不变。某日完工后,为了检验打包机工作是否正常,随机抽取该机所装的16袋大米,测得其净质量(单位:kg)如下:50.5 48.8 49.4 50.3 51.5 49.5 51.2 49.648.4 50.2 50.8 48.6 49.0 50.4 48.5 50
3、.1问该天打包机的工作是否正常?分析设为该粮食加工厂某日打包机所包装大米的净质量,由题意知服从,其中已知。问题可以归结为根据来自总体的样本观测值,判断总体数学期望是否等于规定的标准:若,这就意味着打包机工作正常;否则,就要对打包机进行调整。例2某灯泡厂甲,乙两条流水线生产同一种灯泡,已知灯泡的使用寿命均服从正态分布。由于生产设备,技术,管理基本一样,可以认为它们的方差一样。现从甲,乙两条流水线生产的产品中分别随机抽取40知样品,50知样品,测得样品的使用寿命数据,并算得样品均值与样本方差的观测值为甲流水线:, h , h ,乙流水线:, h , h ,问该厂这两条流水线生产的灯泡寿命是否一样?
4、分析设,分别表示该厂甲,乙两条流水线生产这种灯泡的使用寿命,由题意知服从,服从,其中未知。问题可以归结为根据来自两个总体的样本观测值,判断总体的数学期望是否等于总体的数学期望:若,这意味着甲,乙两条流水线生产的灯泡寿命一样;否则,就认为这两条流水线生产的灯泡寿命不同。例3据对市气象台自1875年至1955年间其中63年的夏天(指5到9月,每年夏季共有31+30+31+31+30=153天)气象资料统计,市夏季共有180天出现过暴雨。现将这63年中一年有天发生过暴雨年数的数据列表于下(满足,): 0 1 2 3 4 5 6 7 8 : 4 8 14 19 10 4 2 1 1 0试探索一年夏季出
5、现暴雨天数所服从的分布。分析设为一年夏季出现暴雨的天数,运用概率论中关于二项分布的泊松逼近定理,可以定性地判断总体服从泊松分布。因此问题可以归结为根据来自总体的样本观测值,判断总体的分布与泊松分布是否吻合。以上三个实验都是要根据来自总体的样本观测值判断关于一个总体或者两个总体,的某些论断是否成立。由上面的分析可以看出,解决这类问题的办法是:首先,对未知的或不完全知道的总体作出一些假设,通常称之为原假设。例如在例1中为,在例2中为,在例3中为服从;然后,根据来自总体的样本观测值,运用抽样分布理论,按照一定的规则来看是否会有不合理的现象发生,从而判断原假设的真伪,决定是否拒绝这个假设。一般地,在统
6、计假设检验问题中,其出发点是对总体作一个假设,称之为原假设或零假设(null hypothesis),记为;而与之对立的假设称为备择假设(alternative hypothesis),记为。原假设和备择假设称为统计假设。而用来判断统计假设真伪的规则为检验法。必须强调指出,原假设通常是不轻易否定的一个被检验的假设,只有在样本提供足够不利于它的证据时才能拒绝它;如果样本提供的信息没有充分的理由否定原假设,则不能拒绝它。 假设检验问题按照总体的状况通常分为参数假设检验与非参数假设检验两类:1. 若总体的分布函数或者总体在离散情形的概率质量函数或在连续情形的概率密度函数的数学表达式为已知,只是分布中
7、的参数有些是未知的,这时统计假设是针对未知参数而提出并需要检验的,这样的问题称为参数假设检验问题。 例1中的备择假设为“”,它表示当备择设成立时,可能大于50,也可能小于50,通常称这种备择假设为双侧被择假设(two-sided alter- native hypothesis),与之相应的检验为双侧检验(two-sided test)。在实际问题中还会出现备择假设为“”或“”的情形。例如,某厂生产的固体燃料推进器的燃烧率服从正态分布,现采用新方法研究一批推进器,其目的是提高推进器的燃烧率。显然,越大效果越好。如果能判断新方法研制出推进器燃烧率的较以往正常生产的大,就考虑采用新方法生产。因此这
8、时我们应提出如下的统计假设:,又如,在分析居民收入状况时,从共同富裕着眼,在普遍提高居民收入的同时,要不断缩小居民收入的差异,促进社会和谐。显然,居民收入的方差 越小越好。因此这时我们应提出如下的统计假设:,通常称形如“” 的备择假设为右侧假设(right-sided hypothesis),与之相应的检验为右侧检验(right-sided test),称形如”的备择假设为左侧假设(left-sided hypothesis),与之相应的检验为左侧检验(left-sided test)。右侧假设和左侧假设统称为单侧假设(one-sided hypothesis ),右侧检验和左侧称为单侧检验(
9、one-sided test)。一般地,当备择假设 具有一侧倾向性时,就采用单侧检验。 下面表4.1.1与表4.1.2分别是对一个总体单一的参数进行检验与对两个总体相应参数进行比较的原假设与备择假设。 表4.1.1 一个总体单参数检验的统计假设原假设备设假设表4.1.2 两个总体相应参数比较的统计假设原假设备设假设2. 若总体的分布函数或者总体在离散型情形的概率质量函数或在连续型情形的概率密度函数未知,这时统计假设 是针对总体的分布(包括分布中待定的参数)而提出并需要检验的,这类问题称为非参数假设检验问题。 对于上述介绍参数单侧检验的两个实例而言,所谓统计假设检验问题是两个关于总体真值的相互对
10、立判断“,”的鉴定问题,其中是参数空间的一个真子集,为的余集。通常用表示原假设对备择假设的假设检验问题,且问题一般是以“原假设是否成立”的方式提出。 若为单点集,则称为简单假设(simple hypothesis)();否则称为复合假设(composite hypothesis)。约定上述记号“” 对其他参数假设检验问题以与非参数假设检验问题也适用。引入上述这种形式记号之后,就有上述右侧检验问题中的统计假设为;上述左侧检验问题中的统计假设为;例1双侧检验问题中的统计假设为 ;例2双侧检验问题中的统计假设为;例3分布检验问题中的统计假设为 不服从。二、 假设检验的基本思想下面我们结合例1来进一步
11、说明构造检验法的基本思想。首先作统计假设。若()为取自总体 的样本,由3.5知是的优效估计。由于随即因素的影响,样本均值的观测值与有一定的差异是不可避免的。因此,如果原假设为真,则应该比较集中在的附近,即与的差异不显著。反映在样本()上,“比较大”应该是一个小概率事件。衡量这个差异“比较大”的数值是一个临界值c,即是一个小概率事件,其中c是待定的正数。这个临界值由所服从的分布以与将多大的概率作为“小概率”这两个因素所决定。事实上,如果取作为小概率事件的标准,当为真时,是小概率事件,此时有=。当为真时,总体 ,所以 于是统计量因此有由标准正态分布的分位数定义,上式呈现为即从而得现在由例1的实测数
12、据易算得此时由于是小概率事件,据概率论中的实际推断原理,若将抽得的一个样本观测值看成一次试验的结果,它可以认为基本上不会发生;现在这一现象既然发生了,这是不合理的。追根求源,发现问题在于原假设不能被接受,因此拒绝,即认为该天打包机的工作不正常,需要停机进行调整。下面对例1的解法作进一步的分析和引申。 1.关于拒绝或接受原假设的判断由本例的解答过程可以看出:当时,拒绝;当时,接受。这就是检验例1中统计假设的检验法则。这种规定拒绝或接受的原则实际上是将样本空间样本观测值的集合划分为两部分:显然于是在获得样本观测值后:当时,拒绝;当时,接受。容易看出,上述检验法则等价于如下的描述:构造统计量此时有规
13、定拒绝或接受的原则实际上是将由样本观测值所算得的统计量的实测值的集合划分成 与两部分,这里叫做该检验法的临界值,于是当时,拒绝;当时,接受。如此,就将样本观测值 (n维) 集合的划分问题转化为统计量U的实测值(一维)集合的划分问题来处理。一般地,对原假设进行检验,就是要选取一个用作检验的统计量,以此统计量构造一个检测法则,其实质是对将样本观测值所算得的统计量T的实测值t的集合划分成两部分与,使得对于给定的小概率,满足于是当时,拒绝;当时,接受。在假设检验中,称上述的统计量为检测统计量(test statistics),或为拒绝域或否定域(rejection region),或为接受域(acce
14、ptance region);而称拒绝域与接受域的边界点位临界点(critical point),其数值为临界值(critical value)。2.关于例1解法中的统计量与其所服从分布的进一步说明由知优良的检验法(检验方案),供人们在产品是否通过验收的检验工作中使用(参阅11第九章)。必须强调指出,就检验的结果来说,拒绝原假设的理由是充分的,而接受原假设的理由是不充分的。我们之所以断言“拒绝原假设的理由是充分的”,乃是因为上述显著性检验对于犯第一类错误的概率作了控制(显著性水平一般很小),这就使得在原假设时就有很大的把握;而且越小,说服力越强。另一方面,我们我们之所以断言“拒绝原假设的理由是
15、不充分的”,乃是因为“接受”只表明未发现样本观测值数据与相矛盾,况且上述显著性检验没有控制犯第二类错误的概率,这就使得在备择假设为真时,错误地接受原假设,的可能性也许不小,因此严格地讲,应该说不拒绝原假设,而不说接受原假设;通常教材中说接受原假设,只是沿用了习惯上的说法而已。从以上的讨论可以看出,在假设检验中问题中,原假设与备择假设所处的地位病不对等。还应该明确,在上述显著性检验中,对犯第一类错误的最大概率加以控制,体现了“保护原假设”的原则。由于在原假设为真时错误地拒绝的概率受到了控制,所以如果没有充足的理由,原假设不能轻易被拒绝。根据“保护原假设”的原则,在进行显著性检验时,应该有把握的、
16、不能轻易否定的命题作为原假设,而将没有把握的、不能轻易肯定的命题作为备择假设。读者可以通过联系实际问题举例分析,来加深对保护原假设这一原则的领会,确切地提出原假设与备择假设。在假设检验中,又称拒假(否定不真实的)概率为检验的功效(power),它显示检验法拒绝不真实的原假设的能力。 上述、与的概念见表4.1.3. 表4.1.3 显著性检验中的、与 假设 决策 总体情况原假设备择假设犯第一类(拒真)错误(概率为)正确,其概率称为功效正确犯第二类(受伪)错误(概率为)下面举例说明计算、与的方法。例4 设总体,为起简单随机样本,。作统计假设 。设已求得临界值,按如下原则判断假设的真伪:当时,拒绝,接
17、受;当时,接受,拒绝。试用函数表示该检验法的拒真概率与受伪概率,并证明 。 解 首先有 。(1)该检验法的拒真概率为注意到当“”成立时,于是得进而有(注意到条件)(2)该检验法的受伪概率为注意到当时,于是得进而知,故得 结果表明,为使得犯两类错误的概率同时小,要求样本的容量很大。 例5 设总体,从中抽取样本。为检验取统计量若原假设成立,则,于是有P(x)u=u0uu0uu0a/2a/2O 图4.1.1 U检验法确定分位数 的示意图 若原假设“”不成立,则,此时U的分布相对于N(0,1),其峰值会有一个向左或向右的偏移(如图4.1.1).设u为据样本观测值算得的统计量U的观测值:若u落在两边,绝
18、对值偏大,则H0不真的可能可性较大,为真的的可能性较小,此时应拒绝H0;若u落在中间,绝对值偏小,显然H0为真的可能性较大,不真的的可能性较小,此时应接受H0;通常用分位数来区分上述分析中的两边和中间,它将U的取值围分成拒绝域 与 接受域如此便有简记为注意到一般较小,因而据实际推断原理知拒绝上述分析推理运用了反证法的思想,但与纯数学上的反证法有所不同,这里的“不合理”不是形式逻辑上的绝对矛盾,而是基于“小概率事件在一次观测中可以认为基本上不会发生”,因此假设检验的基本思想可以概括成为是“概率性质的反证法”.三 可能出现的两类错误和检验法的功效 用抽取的样本来判断总体,实际上是用部分来推断整体,
19、这本身就决定了不能保证绝对不犯错误.在假设检验中,可能犯的错误不外是下面的两类:(1) 原假设H0本来为正确,但我们却拒绝H0,这就犯了错误.这类错误称为拒真(弃真)错误,也称为第一类错误(type I error),其发生的概率称为拒真概率或犯第一类错误的概率。通常记为,即; (2)原假设H0本来不正确,但我们却接受了H0,这类错误称为受伪错误,也称为第二类错误(type II error),其发生的概率称为受伪概率或犯第二类错误的概率。通常记为,即在实际应用中,显然太大,供方损失就大(生产者危险率);太大,用方损失就大(消费者危险率)。当然希望与越小越好。但是理论推导和实际检验表明,当样本
20、容量n固定时,要使与都很小是不可能的。实际情况表明,减小其中一个,另一个就会增大,要使与都很小,只有通过将样本容量n增到很大时才能实现,但这在实际用用中是不现实的。面对这种两难境地,这能采取折中方案,著名统计学家莱曼(J.Neyman,1894-1981)和小皮尔逊(E.S.Pearson,1895-1980)对解决这个问题提出了一中原则:限定犯第一类错误的最大概率,在这限制之下选取犯第二类错误的概率尽可能小的拒绝域。不过实行这一原则还会有很多理论上和实际上的困难,有鉴于此,有时把这原则简化成只对犯第一类错误的最大概率加以控制,这种统计假设检验方法称为显著性检验(significance tests).并将犯第一类错误的最大概率称为假设检验的显著性水平(significance level)。事实上,假设检验问题按照总体的性质通常分为显著性检验和决策性检验两类。在实施检验时,对于显著性检验,如前所述,要明确给出犯犯第一类错误的最大概率的具体数值,而要求犯第二类错误的概率尽可能小,至于小到什么程度并无具体要求;对于决策性检验(在产品质量管理领域经常用到),则必须对犯两类错误的最大概率,分别提出具体的数值要求(例如),而且从优良检验法的角度考虑,还得要求样本容量尽可能小(或检验时间尽可能短)。许多国际,国的质量标准都是针对的一些给定值列出14 / 14