《第八章假设检验精选文档.ppt》由会员分享,可在线阅读,更多相关《第八章假设检验精选文档.ppt(36页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章假设检验本讲稿第一页,共三十六页现实中的统计案例一:时下不少大学生在一边学习的同时也不断寻找一些机会打些零工以赚点钱弥补学习和生活之需,这已经是学生们之间人所共知的事情。这没有丝毫的让人好奇之处,让人好奇的是这些打工的学生究竟一个月平均能赚多少钱?假设有人说:这个数据是500元,你觉得信不信它呢?当然,你首先需要收集证据,没有证据是肯定说明不了任何问题的。又假设有人通过组织调查取得过如下数据(调查到一共30人,单位:元):350500900100100200240300100320450260650380290400800400250400290870540320140160300400
2、500340第八章第八章 假设检验假设检验本讲稿第二页,共三十六页 这时你该做何结论?就算是你得到以上数据的平均数等于423元,你是否就可以作出“是”或“不是”的回答?因为你要作出的回答是针对整个总体的,根据却又只是来自部分总体即样本,所以事实上不论你最终作出的是“是”还是“不是”的回答,其实都存在犯错误的可能。那么,如何以样本的数据去对总体参数下结论才最科学?才最不容易犯错误呢?这就是一个属于单个总体参数假设检验的问题了,是本章需要解决的问题。第八章第八章 假设检验假设检验本讲稿第三页,共三十六页一、基本概念 1、假设检验是统计推断的另一种方式,它与区间估、假设检验是统计推断的另一种方式,它
3、与区间估计的差别主要在于:区间估计是用给定的大概率推断出计的差别主要在于:区间估计是用给定的大概率推断出总体参数的范围,而假设检验是以小概率为标准,对总总体参数的范围,而假设检验是以小概率为标准,对总体的状况所做出的假设进行判断。假设检验与区间估计体的状况所做出的假设进行判断。假设检验与区间估计结合起来,构成完整的统计推断内容。假设检验分为两结合起来,构成完整的统计推断内容。假设检验分为两类:一类是参数假设检验,另一类是非参数假设检验。类:一类是参数假设检验,另一类是非参数假设检验。第一节第一节 假设检验的基本思想假设检验的基本思想本讲稿第四页,共三十六页对于随机变量X的分布参数,可以提出如下
4、一些假设:等等,其中 和 是已知数,而 和 是未知常数。特别地,如果已知X服从伯努利分布,参数p(0p0都是参数假设。而诸如:H:X的分布是正态的H:X服从普阿松分布H:X和Y相互独立H:X1,X2,Xn服从相同的分布等,则都是非参数假设。本讲稿第八页,共三十六页(二)简单假设和复合假设如果一个统计假设完全决定随机变量的概率分布,或者说假设只针对参数在某一单点取值而作,称之为“简单假设”,否则便是“复合假设”。比如XN(,1),则假设H:0是简单假设,而H:0则是复合假设。本讲稿第九页,共三十六页(三)零假设和备择假设假定关于X有两个统计假设H0和H1,并且已知H0和H1中要么H0真实H1不真
5、,要么H1真实H0不真,称这样的两个假设为二者必居其一的。例如,对于X(,1),H0:0和H1:0就是二者必居其一的两个假设。对于两个二者必居其一的假设,习惯上称其中一个为“零假设”(或者称为“基本假设”),而另一个为它的“备择假设”(或者“对立假设”)。以后永远以H0表示“零假设”,而H1表示H0的“备择假设”。尽管二者的划分并不是绝对的,但是在处理具体问题时,通常把那些需要着重考察且不允许或不应该轻易被否定的假设视为“零假设”。例如,往往称“H0:X服从正态分布”为“零假设”,而把“H1:X不服从正态分布”叫做“备择假设”。这是因为,随机变量服从正态分布的场合占大多数情况,所以不应该轻易被
6、否定。本讲稿第十页,共三十六页三、统计假设的检验 考虑关于某个总体的统计假设H0,并以H1表示它的“备择假设”。所谓对假设H0的检验,就是根据随机取样的结果(即来自该总体的随机样本),按照一定的规则来判断假设H0的真伪以决定它的取舍,即是“拒绝”还是“接受”假设H0。以后,把用来判断所作假设真伪性的规则叫做检验准则,简称之为“检验”。本讲稿第十一页,共三十六页检验的准则以拒绝域的形式给出。为此,按一定的规则把整个样本空间分割成不相交的两部分和。检验按如下规则进行:当样本点x(x1,x2,xn)落在区域中12时,认为所作假设H0不真实,从而拒绝它(这时,自然接受它的备择假设H1);相反,当样本点
7、x(x1,x2,xn)落在中时,认为H0真实,从而接受它(这时,自然拒绝H1)。这里叫做H0的拒绝域,而叫做H0的接受域。然而,由于“样本值落入拒绝域”和“样本值落入接受域”都是随机事件,故这里可能出现两种类型的错误:本讲稿第十二页,共三十六页接受拒绝真实判断正确弃真错误(第一类错误或错误)不真实取伪错误(第二类错误或错误)判断正确两种类型的错误两种类型的错误本讲稿第十三页,共三十六页第一类错误:拒绝了真实假设。即H0本来真实,却被拒绝了,叫做“弃真”;第二类错误:接受了不真实假设。即H0本来不真实,却被接受了,叫做“纳伪”。以上两类错误至少要出现一类。但在样本容量n固定的条件下选定检验准则时
8、,不可能追求得到使两类错误的概率都最小,因为这种要求是矛盾的。习惯上处理这个问题是选定第一类错误概率(记为“”)的一个上界,然后使第二类错误的概率尽可能小。本讲稿第十四页,共三十六页在犯第一类错误概率得到控制的条件下,犯取伪错误的概率也要尽可能地小,或者说,不取伪的概率1-应尽可能增大。1-越大,意味着当原假设不真实时,检验判断出原假设不真实的概率越大,检验的判别能力就越好;1-越小,意味着当原假设不真实时,检验结论判断出原假设不真实的概率越小,检验的判别能力就越差。可见1-是反映统计检验判别能力大小的重要标志,我们称之为检验功效或检验力。检验功效检验功效本讲稿第十五页,共三十六页“小概率事件
9、不发生”原则与显著性水平根据大数定律,在大量重复试验中事件出现的频率会越来越接近于它们的概率。倘若某事件A出现的概率甚小,则它在大量重复试验中出现的频率也应该很小。例如,若0.001,则大体上1000次试验中A才出现一次。因此,概率很小的事件在一次试验中实际上不大可能出现。在概率论的应用中,称这样的事件为“小概率事件”。本讲稿第十六页,共三十六页在应用统计的每一个具体的领域,人们总是根据所研究的具体问题,规定一个界限(01);当一事件的概率P时,就认为该事件是一小概率事件,而且概率小到可以认为它实际上不会发生的地步,这就是所谓“小概率事件不发生”原则。事实上,生活中我们也在无意识的情况下不断地
10、使用这一原则。如一般情况下人们都敢于乘火车而不担心火车颠覆、敢于搭飞机而不担心飞机坠毁、敢于坐轮船而不担心轮船沉没等等,就是因为所对应的事件很少发生,我们实际上就把它当成不发生对待的缘故。本讲稿第十七页,共三十六页然而事实上,根据“小概率事件不发生”原则所作的判断也可能是错误的,因为小概率事件毕竟不是零概率事件,还是可能发生,只不过发生的概率非常小而已。但,我们却可以控制它,这种错误发生的概率最多也就这么大,而是个“很小”的正数。这样的界限在假设检验中叫做“显著性水平”。的选择要根据实际情况而定:对于某些重要场合,事件的出现会引起严重的后果,如上述撞车、坠机、沉船等等,就应选得小一些,否则应该
11、选得大一些。在一般应用中,也象参数估计中选择置信水平一样,常选0.01,0.05和0.10等这样一些比较整的值以便于造表。统计假设显著性检验遵循“小概率事件不发生”原则,其理论依据是大数定律。本讲稿第十八页,共三十六页四、统计假设显著性检验的一般步骤:假设随机变量X的分布函数F(x,)依赖于未知参数,以x1,x2,xn表示来自总体X的简单随机样本。统计假设的显著性检验大致可分以下几步进行:第一步:提出零假设H0和备择假设H1。零假设和备择假设一般可以表示为:H0:满足某某条件;H1:不满足上述条件。第二步:规定检验的显著性水平(01)。第三步:建立零假设H0的拒绝域。是样本空间的一个特定区域,
12、满足条件:当零假设成立时,样本点落入其中的概率不大于。检验的拒绝域常借助一统计量TT(x1,x2,xn)来构造,而T的分布是完全已知的。第四步:对假设H0作出推断。如果样本点(x1,x2,xn)落入中,则认为H0不真,从而拒绝它,否则便不拒绝假设H0。本讲稿第十九页,共三十六页 上述推断的依据是“小概率事件不发生”原则:由于样本点落入拒绝域的概率“很小”,故认为实际不可能落入中。因此,一旦确实落入则说明实际观测结果与所作假设H0严重不符,所以理应拒绝假设H0。必须强调指出:当样本点未落入拒绝域中,即当(x1,x2,xn)落入时,并没有理由认定H0是真实的,只能说“未发现所作假设与观测结果有显著
13、矛盾”,确切些说只是不能拒绝假设H0而已,并不是说已经“接受”了H0。这时,事实上需要对X进行进一步的观测才能下进一步的结论。所以从这一意义看正如前面所说,假设检验有一个显著特点,即“含含糊糊地接受,信心十足地拒绝”。本讲稿第二十页,共三十六页我们开始讨论具体的假设检验问题。由于正态分布的特殊性及其应用的广泛性,讨论在没有特别说明的条件下都默认为是就正态分布总体进行的。所讨论的检验方法同时也是实践中常用的统计检验方法。对于一个正态总体,我们考虑其数学期望和方差是否为某一特定值的检验问题;对于两个正态总体,则考虑两者数学期望或方差是否相等的检验问题。假设随机变量X服从正态分布N(,2),而(x1
14、,x2,xn)是来自X的简单随机样本。检验均值时,按标准差已知和未知两种不同情况来考虑;检验标准差时,则按均值已知和未知两种不同情况来考虑。第二节第二节 单个总体的检验单个总体的检验本讲稿第二十一页,共三十六页一、单个总体均值的检验(一)总体标准差已知检验(标准正态分布检验法)法在已知标准差0时,检验假设0,使用检验:零假设H0:0(已知0);备择假设H1:0(已知0);显著性水平:(01);检验统计量:其中,X是样本均值。由概率论理论得知:在假设H0:0(已知0)下样本平均数服从正态分布N(0,02/n),从而统计量服从标准正态分布N(0,1)。拒绝零假设的条件:对于给定的,必可从标准正态分
15、布表中查出一个正数(称之为标准正态分布的水平双侧分位数),使下式成立:P0|本讲稿第二十二页,共三十六页上式的意思是:在H0确实成立的条件下|超过临界值的概率只有这么大。因此,如下不等式成立时,拒绝零假设H0:或。再用反证法的思想来检验H0:既然假设H0为真,即0,而我们已经知道:0,所以理应服从分布:N(0,02n),从而应服从标准正态分布N(0,1),从而应遵循规律:P0|本讲稿第二十三页,共三十六页例1中,按历史资料,总体的标准差是4毫升。我们通过检验总体均值是否等于250毫升,来判断饮料厂商是否欺骗了消费者。程序如下:第一步:确定原假设与备选假设。:=250;:250以上的备选假设是总
16、体均值小于250毫升,因为消费者协会希望通过样本数据推断出厂商的欺骗行为(大于250毫升一般不会发生)。因此使用左侧检验。本讲稿第二十四页,共三十六页第二步:构造出检验统计量。我们知道,如果总体的标准差已知,则正态总体(正常情况下,生产饮料的容量服从正态分布)的抽样平均数,也服从正态分布,对它进行标准化变换,可得到:可用z作为检验统计量。本讲稿第二十五页,共三十六页第三步:确定显著性水平,确定拒绝域。通常显著水平由实际问题确定,我们这里取=0.05,左侧检验,拒绝域安排在左边,查标准正态分布表得临界值:Z=-1.645,拒绝域是z-1.645。第四步:计算检验统计量的数值。样本平均数,n=50
17、,代入检验统计量得:本讲稿第二十六页,共三十六页第五步:判断。检验统计量的样本取值落入拒绝域。拒绝原假设,接受备选假设,认为有足够的证据说明该种纸包饮料的平均容量小于包装盒上注明的250毫升,厂商有欺诈之嫌。例:设总体服从标准差为50的正态分布,从该总体中随机抽出容量为25的随机样本,得出样本平均值为70,试以0.05的显著性水平检验假设H0:090。本讲稿第二十七页,共三十六页解:建立假设H0:0;H1:0因为已知,该检验的统计量为:将x70,090,50,n25代入,得:2;另一方面,通过查正态分布表得临界值Z/21.96。|Z/2,故拒绝零假设H0,即有95的把握认为,不等于90。本讲稿
18、第二十八页,共三十六页(二)总体标准差未知t检验法总体标准差未知时对总体均值检验经常用t统计量:但是,在大样本场合(样本容量n大于30时),t-统计量与标准正态分布统计量近似,通常用z检验代替t检验。零假设H0:0,0;备择假设H1:0,0。显著性水平:(01);检验统计量:第八章第八章 假设检验假设检验本讲稿第二十九页,共三十六页由于在假设H0下,尽管知道的分布是正态分布N(0,2/n),但因为未知,已不是统计量。改用无偏估计s代替,然后再进行检验。不过,替代后的新统计量不再服从正态分布而服从t分布,t分布的自由度(参数)为n-1。拒绝零假设的条件:对于给定的和n,有其中是自由度为n1的t分
19、布的水平双侧分位数,查t分布表可得该数值。因此,如下不等式成立时拒绝零假设:或,其中第八章第八章 假设检验假设检验P0|t|本讲稿第三十页,共三十六页例:某制造厂生产某装置的平均工作温度是190,今从一个由16台装置所构成的随机样本中求得的工作温度的平均数和标准差分别是194和8,能否说明平均工作温度与制造厂规定的温度不一致呢?(设0.05,并假定工作温度服从正态分布)解:建立假设H0:190;H1:190因方差未知,选取统计量。则tt/2(15),t/2(15)2.13。将194,0190,s8,n16代人计算得:因|t|1.645,落入接受域。接受原假设,认为样本数据证明该企业声明属实。本讲稿第三十六页,共三十六页