概率论与数理统计第19讲 .doc

上传人:飞****2 文档编号:56551021 上传时间:2022-11-02 格式:DOC 页数:7 大小:266.50KB
返回 下载 相关 举报
概率论与数理统计第19讲 .doc_第1页
第1页 / 共7页
概率论与数理统计第19讲 .doc_第2页
第2页 / 共7页
点击查看更多>>
资源描述

《概率论与数理统计第19讲 .doc》由会员分享,可在线阅读,更多相关《概率论与数理统计第19讲 .doc(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、概率论与数理统计第19讲(夜大)第六章 假设检验 统计推断的另一类重要问题是假设检验问题。在总体分布函数完全未知或只知道其形式,但不知道其参数的情况,为了推断总体的某些未知特性,提出某些关于总体的假设,然后根据样本对所提出的假设作出是接受,还是拒绝的决定。 例1 生男生女问题。按照现代生物学观点,生男生女机会应该相同。但是历史上统计数据却与之相矛盾,即生男的机会略大于生女。最早提到这一现象的是英国的统计学家格朗特(他是一名服装店主的儿子,子承父业,后来自学成才),他在其著名的著作关于死亡公报的自然和政治观察(该书是第一部系统论述统计数据处理方面的著作,有人认为它标志着统计学的开端)一书中,根据

2、多年的统计资料,计算出当时伦敦生男生女的比率为14:13。后来,印度的著名统计学家劳在所著统计与真理一书中再次提到了这一现象(他让研究生去加尔各答印度统计所附近的一家医院,记录出生婴儿的情况)。到1710年,有一位名叫阿布兹诺特的学者,在英国皇家学会宣读了一篇题为从两性出生数观察的规律性所得关于神的旨意存在的一个论据的论文,从数学的观点对此问题进行了分析。他研究了82年伦敦出生的男女婴数目,发现在这连续82年总都是男多于女。他于是这样推理:有两种可能性:(1)生男生女纯属偶然(即机会均等);(2)由于“神的旨意”,生男的机会大于生女。如果(1)成立,则在一年内出生的男婴多于女婴的概率,不超过1

3、/2,因而连续82年出现这种情况的概率,不应超过。这个问题可以这样理解,好比从一个有1亿亿亿个球,其中只有一个白球,要在一次随机抽样中恰好抽到这个白球这样小的一个概率事件居然发生了。这是不和情理的。因此,我们有理由否定(1)而接受(2)。 阿布兹诺特的工作在统计史上有重要的意义,因为他首先提出了利用统计数据去验证一种说法(理论、学说、假说等)是否成立的问题,并在该特定的问题中提出了具体的处理方法。经过20世纪前期一些重要的统计学家的发扬光大,发展成统计推断中最重要的分支之一假设检验。 例2 “女士品茶”。我们曾多次提到的费舍,是这些大学者之一。他曾用一个“女士品茶”的例子来说明他的“显著性检验

4、”思想。一种饮料由牛奶和茶混合而成,调制时可以先倒茶后倒牛奶,也可以先倒牛奶后倒茶。有一位女士说她能分辨此二者。费舍设计了一个试验来检验该女士的说法是否正确。试验的布置是:准备8杯看上去一样的饮料,其中TM和MT各4杯,把这一点告诉该女士(当然不指出哪4杯是MT),然后让她品尝这8杯饮料,指出哪4杯是TM。根据她的回答来估量她是否确有分辨TM和MT的能力。 现设结果是该女士4杯全说对了,该如何评估这个结果?费舍的推理与阿布兹诺特相似:假设该女士毫无分辨能力,则这8杯饮料对她来说毫无差别,她从中挑出4杯,纯粹是一种随机举动,即挑出任意4杯都有同等可能。从8杯中挑出4杯的不同挑法,有种,其中只有一

5、种是全部挑对,其概率是1/70。因此,在“该女士4杯全部挑对”这个试验结果出现时,只有两种可能的解释: (1)该女士对TM和MT并无鉴别能力,所得结果纯属偶然; (2)该女士对TM和MT有一定的鉴别能力。 按上面的计算,若坚持第一种解释,则我们就必须承认:发生了一件其概率只有1/70的事情。由于概率相当小,这看上去不太可信,因而我们摒弃这一解释而接受第二种解释。费舍由此得到结论:该女士对TM和MT具有一定的鉴别能力。 费舍的推理中包含了以下几个要点:(1)问题是要辩明试验结果是否支持某种效应(如分辨能力);(2)把“效应不存在”作为一个假设(如本例中无鉴别能力);(3)找一个显示结果与假设之间

6、的偏差的量,在“假设正确”的前提下,计算出现这么大偏差的概率P;(4)如果概率小到某个程度,以至于认为发生概率这么小的事件不可信,则认为数据没有给假设以足够的支持,或反过来说,数据支持“效应存在”的说法。反之,若概率并非足够小,则数据没有给予“否定假设”以足够的支持,换句话说,对“效应存在”的说法,从数据中并未得到充分的支持。 为使大家对这个过程有更清楚的了解,我们再对上面的例子进行分析。用X表示该女士挑对的杯数,X可以取0,1,2,3,4。若X=0,1,2,则显然不构成怀疑假设正确的理由,因为她即使凭空瞎猜,平均也有猜中2杯的可能。若X=3,4,则表面上显示了她可能有一定的鉴别能力,但是否已

7、经超出了“瞎猜”所能解释的范围呢?这就要具体分析。X=4的情况我们已经进行了分析,如果瞎猜,概率只有1/70,这数字太小,小到我们感到,如果把它委之于碰运气不合理的程度了,因而我们倾向于否定她没有鉴别能力的假设。若X=3,则计算表明,即使纯粹凭借瞎猜,该女士得出这么好乃至更好的概率,也有,接近1/4。这个概率不算太小。好比说4人抽签分一张票,你有幸抽中了,算不上碰上大运气的事。因此,我们可以认为,X=3这个结果没有给否定“女士无鉴别能力”这个假设以充分的支持。 费舍把这种性质的推理称为“显著性检验”。显著一词,是指由数据中反映“效应存在”的显著程度如何,而这显著程度则是用概率来表示的,概率愈小

8、,显著性愈高,肯定效应存在的理由就愈充分。 例3 某车间用机器包装葡萄糖。袋装糖重是一随机变量,服从正态分布。当机器工作正常时,均值为0。5公斤,标准差为0。015公斤。某日开工后为检验机器工作是否正常,随机抽取9袋得到样本均值,问机器工作是否正常? 解:以分别表示糖重总体的均值和标准差。经验表明标准差比较稳定,我们设保持不变。于是问题变为,未知,根据样本来判断还是。为此,我们提出两个相互对立的假设:然后,我们给出一个合理的法则,根据这一法则,利用已知样本作出决策是接受假设(即拒绝),还是拒绝假设(即接受)。如果作出的决策是接受假设,则认为,即认为机器工作是正常的,否则,则认为不正常。 由于要

9、检验的假设涉及总体均值,故我们很自然想到是否可用样本均值来进行判断。由于是的无偏估计,的观察值的大小在一定程度上反映了的大小。因此,如果假设为真,则观察值与的偏差一般不应太大。若过分大,我们就怀疑假设的正确性而拒绝。考虑到当为真时,。而衡量的大小可归结为衡量的大小。基于这样的想法,我们可适当选定一正数,使当观察值满足时就拒绝假设,反之,若,就接受假设。 然而,由于作出决策的依据是一个样本,当实际上为真时仍然可能作出拒绝的决策(这种可能性是无法消除的),这是一种错误,犯这种错误的概率记为 P当为真拒绝或者拒绝或拒绝记号表示参数取时事件发生的概率,表示取规定的值时事件的概率。我们无法排除犯这类错误

10、的可能性,因此自然希望将犯这类错误的概率控制在一定限度之内,即给出一个较小的数,使犯这类错误的概率不超过,即使得P当为真拒绝为了确定常数,我们考虑统计量。由于只允许犯这类错误的概率最大为,所以我们取等号,则有: P当为真拒绝由于当为真时,由标准正态分布分位点定义得到。 因此,若Z的观察值满足,则拒绝,而若,则接受。 本例中取,则,又已知,即有 于是拒绝,认为这天机器工作不正常。 本例中所采用的检验法是符合实际推断原理的。因为通常取得比较小,因而若为真,即当时是一个小概率事件,根据实际推断原理,就可以认为,如果为真,则由一次试验得到的观察值,满足不等式几乎是不会发生的。现在在一次试验中竟然发生了

11、,则我们有理由怀疑原来的假设的正确性,因而拒绝。若出现的观察值满足,此时没有理由拒绝,因此只能接受。 通过上面的分析,我们可以看出当样本容量固定时,选定后,数就可以确定,然后按照统计量的观察值大于等于还是小于来作出决策。数是检验上述假设的一个门槛值或阈值。如果,则称与的差异是显著的,这时拒绝;反之,如果,则称与的差异不显著,这时接受。数称为显著性水平,上面关于与有无显著差异判断是在显著性水平之下作出的。 统计量称为检验统计量 检验问题通常可以叙述为:在显著性水平下,检验假设 也称为“在显著性水平下,针对检验”。称为原假设或零假设,称为备择假设(指在原假设被拒绝后可供选择的假设)。我们要进行的工

12、作的是,根据样本,按上述检验方法作出决策在与两者之间接受其一。 当检验统计量取某个区域C中的值时,我们拒绝原假设,则称区域C为拒绝域,拒绝域的边界点称为临界点。如在前面例子中。 由于检验法则是根据样本作出的,总有可能作出错误的决策。如前面所说的那样,在假设实际为真时,我们可能犯拒绝的错误,称这类“弃真”的错误为第1类错误。又当实际上不真时,我们也有可能接受。称这类“取伪”的错误为第2类错误。犯第2类错误的概率记为 P当不真时接受或者接受 为此,在确定检验法则时,我们应尽可能使犯两类错误的概率都比较小。但是,进一步讨论可知,一般来说,当样本容量固定时,若减少犯第一类错误的概率,则犯第2类错误的概

13、率就要变大。在给定样本容量的情况下,一般来说,我们总是控制犯第1类错误的概率,使它不大于。这种只对犯第1类错误的概率加以控制,而不考虑犯第2类错误的概率的检验,称为显著性检验。 备择假设表示可能大于,也可能小于,称为双边备择假设,与此对应的假设检验称为双边假设检验。 有时我们只关心总体均值是否增大,为此需考虑检验假设此时称假设检验为右边检验。类似地,称 为左边检验。右边检验和左边检验统称为单边检验。一般只讨论正态总体参数的假设检验问题。 例2某工厂生产的固体燃料推进器的燃烧率服从正态分布,。现用新方法生产了一批推进器。从中随机取只,测得燃烧率的样本均值为,设在新方法下总体标准差不变,问用新方法

14、生产的推进器的燃烧率是否较以往生产的推进器的燃烧率有明显的提高?显著性水平。 解:按题意需要检验假设 这是右边检验问题,其拒绝域如图所示,即有 而现在,的值落在拒绝域中。所以在显著性水平下拒绝,即认为用新方法生产的推进器燃烧率较以往生产的有显著提高。 最后,我们讨论关于如何选取零假设的问题。 考虑一枚硬币是均匀的这一简单假设。按照这个假设,投掷硬币时出现正面的概率是1/2。设想实验者手持硬币走到一个坐满科学家的大礼堂前面,在大家都能看到的平坦地方投掷硬币100次,每次投掷的结果都将宣布。在实验完毕后与会者将决定是接受还是拒绝硬币是均匀的这一假设。 实验开始,人群安静下来,硬币一次又一次被抛向空

15、中。在每次投掷之后,硬币都在一个小盒子中被摇动,下一次从这一盒子中将硬币抛出。这样,每次投掷就是独立的。在实验进行中,巨大的记分牌随时记录下硬币累积出现的正面数和反面数。 实验完毕后,记分牌的记录为: 正面:60 反面:40 问题提给了这些有知识的观众:“根据你所看到的结果判断,你接受还是拒绝硬币是均匀的这一假设?” 年轻的R博士从他的前排座位上站起来。“拒绝这个假设”,他说,“因为证据和假设这个硬币是均匀的相矛盾,所得到的正面数超过了它的允许界限,这表明硬币是有偏的”。突然,老教授A从后排站起来说,“正相反,应接受硬币是均匀的这一假设,我们不能非难硬币抛掷出60个正面、40个反面。一个均匀的

16、硬币也可以抛掷出这个比率。得到结果和硬币是均匀的这一假设是一致的”。R博士生气了:“什么样的结果才能使你拒绝那假设呢?”他问,“我的意思是正面数和反面数应有多大的差异才能使你认为硬币是不均匀的?” 老教授回答:“至少90个正面对10个反面或者90个反面对10个正面”。他轻轻地按了一下打火机点燃了烟斗。“记住,我比你老得多,也见得多,当进行检验时一个均匀的硬币抛掷出的正面数和反面数之间常常有很大的差异”。老教授继续说:“如果我们的决策是拒绝一个抛掷出60对40这个比率或更高一些比率的硬币,那么这个决策将使我们把许多由于偶然抛掷出上述比率的均匀硬币都宣判为不均匀的。” 老教授漫漫地选择字眼,因为他

17、是自信的,他感到激怒了R博士。“我很抱歉,你的看法使得非难一个均匀硬币太容易了。你的决策方针也将常常使我们只是由于在实验时所发生的某些偶然现象而拒绝一个假设。” 年轻的R博士几乎跳了起来,“为什么?那太荒谬了。至少需要抛掷出90对10的比率你才说硬币是有偏的,这太过分了。你过度的自信将使得几乎不可能拒绝关于硬币是均匀的假设。姑且承认按照这样做会很少拒绝一个均匀硬币。但我们将发现,即使一个硬币是有偏的,按照你的说法也很难拒绝它是均匀的这一假设。甚至一个一面偏重的硬币通常也不一定能掷出象90对10这样高差异的比率。按照你的计划,当一个硬币实际上是有偏时,我们也会接受硬币是均匀的这一假设,从而不断犯

18、错误。” 我们将如何评价他们的论据呢? 老教授与博士的论据从本身老讲都是有根据的,但是两人的着眼点是不同的。老教授的法则是,除非实验得到的比率超过90对10,否则就接受硬币是均匀的这一假设。也许,老教授厌恶犯否定均匀硬币的错误,他的方法使犯这类错误的机会非常小。由于均匀硬币几乎不会出现超过90对10的比率,他很少冒把一个均匀硬币说成不均匀这样的风险。然而,他付出的代价是大大降低了实验的检测能力。他的法则使得拒绝假设是极端困难的。大量的有偏的硬币也不会出现如90对10那样大的差异,结果这些硬币就会被当成均匀的而没有被检测出来。当老教授碰巧测试的是一个有偏的硬币时,他就冒了一个很大的风险,错误地接

19、受了硬币是均匀的这一假设。可以认为老教授对接受假设有偏好。当假设为真时,他很少犯拒绝它的错误。然而,当假设不真时,他会犯接受它的错误。老教授像一个说“你可以做你想要做的任何事情,但是我对你的清白深信不疑”的人。他抑制了非难,他有接受真假设之美德。但是他也有过失。当大量的证据与假设相矛盾时,他使得修正见解的工作很缓慢。 另一方面,R博士的法则是除非比率低于60对40,否则就不能接受硬币是均匀的这一假设。也就是说,仅仅当硬币的正反面数在一个狭窄的界限之内他才接受假设,否则就拒绝假设。他把实验看作是国家受到灾难威胁期间进行的安全检查。他认为重要的是具有高度能力检测出有偏的硬币。他的法则在接受错误的假设方面所冒的风险极小,代价是增加了把一个均匀的硬币当成不均匀的风险。 R博士可以被描述成愿意拒绝假设。当假设碰巧不真时,他很少犯接受它的错误。而当假设碰巧为真时,他常常会犯拒绝它的错误。老教授和博士评价硬币实验的脉络不同,他们在犯不同类型错误的代价上不一致。因此,他们就指定了不同的分界点,用以表明在实验时,什么时候接受假设,什么时候拒绝假设。 很显然,一个理想的假设检验应总能引导实验者作出正确的判定。然而,这种理想的检验实际永远不会存在,因为在任何实际进行的假设检验中,由于样本的随机性,不可避免地存在着犯错误的可能性。这就是我们所说的两类错误。现在,我们可以回答开始提出的问题。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁