《假设检验基本原理.ppt》由会员分享,可在线阅读,更多相关《假设检验基本原理.ppt(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、假设检验基本原理如果一个人说他如果一个人说他从来从来没有说过谎。他能够没有说过谎。他能够证证明明吗?要证明他没有说过谎,他必须出示他吗?要证明他没有说过谎,他必须出示他从小到大从小到大每一时刻每一时刻的录音录像,所有书写的的录音录像,所有书写的东西等等,还要证明这些物证是完全的、真东西等等,还要证明这些物证是完全的、真实的、没有间断的。这简直是不可能的。即实的、没有间断的。这简直是不可能的。即使他找到一些证人,比如他的同学、家人和使他找到一些证人,比如他的同学、家人和同事,那也只能够证明在那些证人在场的某同事,那也只能够证明在那些证人在场的某些片刻,他没有被听到说谎。些片刻,他没有被听到说谎。
2、6它是利用它是利用小概率小概率反证法反证法思想,从问题的思想,从问题的对立面对立面(H0)出发间接判断要解决的问题出发间接判断要解决的问题(H1)是否成立。然后在是否成立。然后在H0成立的条件下成立的条件下计算检验统计量,最后获得计算检验统计量,最后获得P值来判断值来判断。假设检验假设检验基本思想基本思想7问题实质上都是希望通过样本统计量与总体参数的差别,或两个样本统计量的差别,来推断总体参数是否不同。这种识别的过程,就是本章介绍的假设检验(hypothesis test)。8假设检验在统计方法中的假设检验在统计方法中的地位地位9第一节第一节 统计假设检验的统计假设检验的基本原理基本原理 一、
3、显著性检验的意义一、显著性检验的意义如,某地进行了两个水稻品种对比试验,在如,某地进行了两个水稻品种对比试验,在相相同条件下同条件下,两个水稻品种分别种植,两个水稻品种分别种植10个小区,个小区,获得两个水稻品种的平均产量为获得两个水稻品种的平均产量为:我们能否根据我们能否根据 就判定这两个水稻就判定这两个水稻品种平均产量不同?结论是,品种平均产量不同?结论是,不一定不一定。这里,试验的表面差异这里,试验的表面差异 是由两部分组是由两部分组成:成:一部分是一部分是试验的真实差异试验的真实差异 ;另一部分是另一部分是试验误差试验误差 。虽然真实差异虽然真实差异 未知,但试验的表面差异未知,但试验
4、的表面差异 是可以计算的,借助数理统计方法可以对试验误差作出是可以计算的,借助数理统计方法可以对试验误差作出估计。所以,估计。所以,可将试验的表面差异可将试验的表面差异 与试验误差与试验误差相比较相比较间接推断间接推断真实差异真实差异 是否存在是否存在,即进行差异,即进行差异显著性检验。显著性检验。二、显著性检验的二、显著性检验的步骤步骤【例【例31】已知某品种玉米单穗重已知某品种玉米单穗重N(300,9.52),即单穗重总体平均数),即单穗重总体平均数 300g,标准差,标准差9.5g。在种植过程中喷洒。在种植过程中喷洒了某种药剂的植株中随机抽取了某种药剂的植株中随机抽取9个果穗个果穗 ,测
5、得,测得平均单穗重平均单穗重 308g,试问这种药剂对该,试问这种药剂对该品种玉米的平均单穗重品种玉米的平均单穗重有无真实影响有无真实影响?(一)提出假设(一)提出假设 首先对样本所在的首先对样本所在的总体总体作一个作一个假设假设。假设喷。假设喷洒了药剂的玉米单穗重总体平均数与原洒了药剂的玉米单穗重总体平均数与原来的玉米单穗重总体平均数之间来的玉米单穗重总体平均数之间没有没有真真实差异实差异,即或。也就是假设,即或。也就是假设表面差异表面差异 是由是由抽样误差抽样误差造成的。造成的。这种假设通常称为这种假设通常称为无效无效假设假设或或零零假设假设,记,记为为 。无效假设是待检验的假设,它有。无
6、效假设是待检验的假设,它有可能被接受,也有可能被否定。可能被接受,也有可能被否定。相应地还要有一个对应假设,相应地还要有一个对应假设,称为称为备择备择假设假设。备择假设是在无效假设被否定时备择假设是在无效假设被否定时,准备接受的,准备接受的假设,记为假设,记为 或或 。通过检验,若否定无效假设,我们就接受备通过检验,若否定无效假设,我们就接受备择假设。此外,样本频率、变异数以及多个平均择假设。此外,样本频率、变异数以及多个平均数的假设检验,也应根据试验目的提出无效假设数的假设检验,也应根据试验目的提出无效假设和备则假设。和备则假设。(二)确定显著水平(二)确定显著水平 在进行无效假设和备择假设
7、后,要确定一在进行无效假设和备择假设后,要确定一个个否定否定H0的的概率标准概率标准,这个概率标准叫显,这个概率标准叫显著水平(著水平(significance level)或概率水平或概率水平(probability level),记作,记作。是人为规定是人为规定的的小概率小概率界限界限,生物统计学中常取,生物统计学中常取0.05和和0.01两个显著水平。两个显著水平。(三)计算概率(三)计算概率 在假定无效假设成立的前提下,根据所检验在假定无效假设成立的前提下,根据所检验的统计数的的统计数的抽样分布抽样分布,计算表面差异,计算表面差异 是由是由抽样抽样误差误差造成的造成的概率概率。本例是在
8、假定无效假设本例是在假定无效假设 成立的前成立的前提下,研究在提下,研究在 N(300,9.52)这一已知)这一已知正态总体中抽样所获得的样本平均数正态总体中抽样所获得的样本平均数 的分布。的分布。18若若 ,则样本平均数,则样本平均数 ,将其标准化,得,将其标准化,得 本例,本例,得得下面估计下面估计|u|2.526的的两尾概率两尾概率,即估计,即估计P(|u|2.526)是多少?)是多少?我们知道,两尾概率为我们知道,两尾概率为0.05的临界值为的临界值为 =1.96,两尾概率为,两尾概率为0.01的临界的临界 值为值为 =2.58,即:,即:P(|1.96)=P(1.96)+P(-1.9
9、6)=0.05 u P(|2.58)=P(2.58)+P(-2.58)=0.01根据样本数据计算所得的根据样本数据计算所得的 值为值为2.526,介,介于两个临界于两个临界 值之间,即:值之间,即:2.526所以,所以,|2.526的概率的概率P介于介于0.01和和0.05之间,即之间,即 0.01 p 0.05 说明假定说明假定表面差异表面差异()是由抽样误)是由抽样误差造成的概率在差造成的概率在0.010.05之间之间(小概率取值小概率取值范围内范围内)。(四四)统计推断统计推断 根据小概率事件实际不可能性原理作根据小概率事件实际不可能性原理作出否定或接受无效假设的推断。出否定或接受无效假
10、设的推断。根据这一原理根据这一原理 ,当表面差异是抽样误差,当表面差异是抽样误差的概率在小于的概率在小于0.05()时)时,可以认为在一,可以认为在一次抽样中表面差异是抽样误差实际上是不可能次抽样中表面差异是抽样误差实际上是不可能的,因而的,因而否定否定原先所作的无效假设原先所作的无效假设H0:,接受备择假设,接受备择假设HA:,即认为存在真即认为存在真实差异。实差异。当表面差异是抽样误差的概率大于当表面差异是抽样误差的概率大于0.05()时,说明无效假设)时,说明无效假设H0:成立的可成立的可能性大,不能被否定,因而也就不能接受备择能性大,不能被否定,因而也就不能接受备择假设假设HA:。显著
11、性检验的结果表明:显著性检验的结果表明:本例的样本平均数与原总体平均数之间的本例的样本平均数与原总体平均数之间的表面差异表面差异()除包含抽样误差外,除包含抽样误差外,还还包含真实差异包含真实差异(),即喷洒了药剂即喷洒了药剂的玉米单穗重总体平均数的玉米单穗重总体平均数 与原来的玉米单与原来的玉米单穗重总体平均数穗重总体平均数 不同。不同。25 综上所述,显著性检验,从提出无效假综上所述,显著性检验,从提出无效假设与备择假设,到根据小概率事件实际不可设与备择假设,到根据小概率事件实际不可能性原理来否定或接受无效假设,这一过程能性原理来否定或接受无效假设,这一过程实际上是应用所谓实际上是应用所谓
12、“概率性质的概率性质的反证法反证法”对样对样本所属总体所作的无效假设的统计推断。本所属总体所作的无效假设的统计推断。上述显著性检验利用了上述显著性检验利用了 分布来估计出分布来估计出 u 2.526的两尾概率,所以的两尾概率,所以称为称为 检验检验.26假设检验的假设检验的步骤步骤可概括为:可概括为:(1)对样本所属总体提出无效假设)对样本所属总体提出无效假设H0和备和备择假设择假设HA;(2)确定检验的显著水平)确定检验的显著水平;(3)在)在H0正确的前提下,根据抽样分布的正确的前提下,根据抽样分布的统计数,进行假设检验的概率计算;统计数,进行假设检验的概率计算;(4)根据显著水平)根据显
13、著水平 的统计数(如的统计数(如u值)临值)临界值,进行差异是否显著的推断。界值,进行差异是否显著的推断。三、显著水平与两种类型的错误三、显著水平与两种类型的错误 (一一)显著水平显著水平 用来否定或接受无效假设的概率标准叫用来否定或接受无效假设的概率标准叫显著水平显著水平,记作。,记作。在生物学研究中常取在生物学研究中常取=0.05,称,称 为为 5%显显 著著 水水 平;平;或或=0.01,称,称 为为 1%显显 著著 水水 平平 或或 极显著极显著水平。水平。可以看到,是否否定无效可以看到,是否否定无效假设假设 ,是是用实际计算出的检验统计数的用实际计算出的检验统计数的绝对值绝对值与显著
14、与显著水平对应的水平对应的临界值临界值比较:比较:若若|,则在,则在 水平上否定水平上否定 若若|,则,则 不不 能能 在在 水水 平平 上上 否定否定 。区间区间 和和 称为水平称为水平 上的上的否定域否定域,而区间,而区间 则称为则称为 水平水平上的上的接受域接受域。因为在显著性检验中,否定或接受无因为在显著性检验中,否定或接受无效假设的依据是效假设的依据是“小概率事件实际不可能性小概率事件实际不可能性原理原理”,所以我们下的结论不可能有百分之,所以我们下的结论不可能有百分之百的把握。百的把握。(二二)两类错误两类错误 例如,经例如,经 检验获得检验获得“差异显著差异显著”的结论,的结论,
15、我们有我们有95%的把握否定无效假设的把握否定无效假设H0,同时要冒,同时要冒5%下错结论的风险;(下错结论的风险;(拒真错误拒真错误)而经检验获得而经检验获得“差异不显著差异不显著”的结论,在统计学的结论,在统计学上是指上是指“没有理由没有理由”否定无效假设否定无效假设H0,同样也要,同样也要冒下错结论的风险。(冒下错结论的风险。(存假错误存假错误)显著性检验可能出现两种类型的错误:显著性检验可能出现两种类型的错误:类错误(类错误(拒真拒真)与与类错误(类错误(存假存假)。)。类错误又称为错误,就是把真实的类错误又称为错误,就是把真实的差异错判为是非真实的差异,即实际上差异错判为是非真实的差
16、异,即实际上H0正确正确,检验结果为,检验结果为否定否定H0。犯犯类型错误的可能性类型错误的可能性一般不会超过所选用的显著水平一般不会超过所选用的显著水平;类错误又称为错误类错误又称为错误,就是把非真实,就是把非真实的差异错判为是真实的差异的差异错判为是真实的差异,即实际上,即实际上HA正确,检验结果却正确,检验结果却未能否定未能否定H0。犯犯类型类型错误的可能性记为错误的可能性记为,一般是随着的,一般是随着的减小或试验误差的增大而增大,所以减小或试验误差的增大而增大,所以越小或试验误差越大,就越容易将试验的真越小或试验误差越大,就越容易将试验的真实差异错判为试验误差。实差异错判为试验误差。显
17、著性检验的两类错误归纳如下:显著性检验的两类错误归纳如下:表表3-1 显著性检验的两类错误显著性检验的两类错误35因而,因而,不能不能仅凭统计推断就简单仅凭统计推断就简单地作出地作出绝对绝对肯定或绝对否定的结论。肯定或绝对否定的结论。“有有很大很大的可靠性,但有的可靠性,但有一定一定的错的错误率误率”这是统计推断的基本特点。这是统计推断的基本特点。为了降低犯两类错误的概率,一般从为了降低犯两类错误的概率,一般从选取选取适适当当的显著水平的显著水平和和增加增加试验重复次数试验重复次数来考虑。来考虑。因为选取数值小的显著水平值可以降低犯因为选取数值小的显著水平值可以降低犯类型错误的概率,但与此同时
18、也增大了犯类型错误的概率,但与此同时也增大了犯型型错误的概率,所以显著水平值的选用要同时错误的概率,所以显著水平值的选用要同时考虑到犯两类错误的概率的大小。考虑到犯两类错误的概率的大小。37 b b减少(增加)减少(增加)I型错误型错误,将会,将会增加(减少)增加(减少)II型错误型错误增大增大n 同时降低同时降低 与与 b b 与与 b b 间的关系间的关系38减少减少I型错误型错误的主要方法:假设检验时设定的主要方法:假设检验时设定 值值。减少减少II型错误型错误的主要方法:的主要方法:提高提高检验效能检验效能。提高提高检验效能的最有效方法:检验效能的最有效方法:增加样本量增加样本量。如何
19、如何选择合适的样本量:选择合适的样本量:实验设计实验设计。在【例在【例31】中,对应于无效假设】中,对应于无效假设 H0:的备择假设为的备择假设为HA:。:。HA实际实际上包含了或这两种情况。此时,上包含了或这两种情况。此时,在水平上否定域为和,对在水平上否定域为和,对称地分配在分布曲线的两侧尾部,每侧尾部称地分配在分布曲线的两侧尾部,每侧尾部的概率为的概率为 ,如,如图图3-1所示。这种所示。这种利用两尾利用两尾概率进行的检验叫两尾检验概率进行的检验叫两尾检验.为为 水平两水平两尾检验的临界值。尾检验的临界值。四、四、两两尾检验与尾检验与一一尾检验尾检验40图3-1 双侧检验抽样分布抽样分布
20、抽样分布抽样分布抽样分布抽样分布H HH000值值值临界值临界值临界值临界值临界值临界值 /2/2 /2/2/2 样本统计量样本统计量样本统计量拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域接受域接受域接受域接受域接受域接受域1-1-1-置信水平置信水平置信水平置信水平置信水平置信水平41 图3-2 单侧检验-1H H0 0值值临界值临界值 样本统计量样本统计量拒绝域拒绝域拒绝域拒绝域接受域接受域接受域接受域抽样分布抽样分布抽样分布抽样分布1-1-置信水平置信水平置信水平置信水平42 图3-2 单侧检验-2H HH0 00值值值临界值临界值临界值 样本统计量样本统计量
21、样本统计量拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域接受域接受域接受域接受域接受域接受域抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布1-1-1-置信水平置信水平置信水平置信水平置信水平置信水平两尾检验的两尾检验的目的目的在于判断在于判断 与与 有无差异有无差异,而不考虑而不考虑 与与 谁大谁小。谁大谁小。在有些情况下两尾检验不一定符合实际情在有些情况下两尾检验不一定符合实际情况。况。例如,目前我国大豆育种工作者认为,大例如,目前我国大豆育种工作者认为,大豆籽粒蛋白质含量豆籽粒蛋白质含量超过超过45%()的品种为高)的品种为高蛋白品种。如果进行样品含量检测蛋白品种。如果进行样品含量检测 ,我们关心
22、,我们关心的是的是 所在的总体平均数所在的总体平均数 大于大于 。此时的无效假设仍为此时的无效假设仍为H0:,但备择假,但备择假设则为设则为HA:。这时否定域位于。这时否定域位于 分布曲线分布曲线的的右尾右尾,即,即 。例如当例如当 =0.05时,否定域为时,否定域为 。一尾检验的一尾检验的 =两尾检验的两尾检验的 =2.33=2.33。这种这种利用一尾概率进行的检验叫一尾检验利用一尾概率进行的检验叫一尾检验。此时。此时 为一尾检验的临界为一尾检验的临界 值。值。一尾检验的一尾检验的 =两尾检验的两尾检验的 例如,例如,一尾检验的一尾检验的=两尾检验的两尾检验的 =1.64=1.64,实际应用
23、中,如何选用两尾检验或一尾检实际应用中,如何选用两尾检验或一尾检验,应根据专业的要求在试验设计时就确定。验,应根据专业的要求在试验设计时就确定。一般情况下,若事先不知道与谁大谁小,一般情况下,若事先不知道与谁大谁小,只是为了检验与只是为了检验与 是否存在差异,则选用两是否存在差异,则选用两尾检验;尾检验;如果凭借一定的专业知识和经验推测如果凭借一定的专业知识和经验推测 应小于(或大于)时,则选用一尾检应小于(或大于)时,则选用一尾检验。验。小结假设检验的思想基础:小概率原理;假设检验的标准化4步骤;两类错误:类错误或类错误或 错误错误(拒真拒真)vs.类错误或类错误或b b 错误错误(存假存假)双尾检验和一尾检验。4748E N D此此课件下件下载可自行可自行编辑修改,修改,仅供参考!供参考!感感谢您的支持,我您的支持,我们努力做得更好!努力做得更好!谢谢!