数理统计与随机过程ch8.ppt

上传人:s****8 文档编号:82707762 上传时间:2023-03-26 格式:PPT 页数:114 大小:2.31MB
返回 下载 相关 举报
数理统计与随机过程ch8.ppt_第1页
第1页 / 共114页
数理统计与随机过程ch8.ppt_第2页
第2页 / 共114页
点击查看更多>>
资源描述

《数理统计与随机过程ch8.ppt》由会员分享,可在线阅读,更多相关《数理统计与随机过程ch8.ppt(114页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数理统计与随机过程数理统计与随机过程第八章第八章主讲教师:陈立萍主讲教师:陈立萍北京工业大学应用数理学院北京工业大学应用数理学院第八章第八章:假设检验假设检验8.1基本概念基本概念下下面面,我我们们讨讨论论不不同同于于参参数数估估计计问问题题的的另另一一类类统统计计推推断断问问题题根根据据样样本本提提供供的的信信息,检验总体的某个假设是否成立的问题。息,检验总体的某个假设是否成立的问题。这类问题称为假设检验。这类问题称为假设检验。假设检验假设检验参数检验参数检验非参数检验非参数检验总体分布已知总体分布已知情情形下,检形下,检验未知验未知参数的某个假设参数的某个假设总体分布未知情形总体分布未知情

2、形下的假设检验问题下的假设检验问题先看一个例子。先看一个例子。例例1:某车间用一台包装机包装葡萄糖某车间用一台包装机包装葡萄糖,包得的包得的袋装糖重是一个随机变量袋装糖重是一个随机变量,它服从正态分布。它服从正态分布。当机器正常时当机器正常时,其均值为其均值为0.5kg,标准差为标准差为0.015kg。某日开工后为检验包装机是否正常。某日开工后为检验包装机是否正常,随机随机地抽取它所包装的糖地抽取它所包装的糖9袋袋,称得净重量称得净重量(kg)为:为:0.497,0.506,0.518,0.524,0.498,0.511,0.520,0.515,0.512。问。问:从样本看机器是否正常从样本看

3、机器是否正常?以以和和分分别别表示表示这这一天袋装葡萄糖重量一天袋装葡萄糖重量总总体的均体的均值值和和标标准差。由于准差。由于长长期期实实践表明践表明标标准差准差比比较稳较稳定,我定,我们们就就设设=0.015。检验检验“机器是否正常机器是否正常”等价于检验等价于检验“X是是否服从正态分布否服从正态分布N(,0.0152)”。确定总体:确定总体:记记X 为该为该车间包装机包装的袋装车间包装机包装的袋装葡萄糖的重量葡萄糖的重量,则,则X N(,0.0152);明确任务明确任务:通过样本推断通过样本推断“是否等于是否等于0.5”;建立建立假设:假设:上面的任务是要通过样本检验上面的任务是要通过样本

4、检验 “=0.5”的假设是否成立。的假设是否成立。I.如何建立检验模型如何建立检验模型 原假设的对立面原假设的对立面是是“0.5”,称为称为“对立假设对立假设”或或“备择假设备择假设”,记成记成“H1 1:0.5”。把原假设和对立假设合写在一起,。把原假设和对立假设合写在一起,就是就是:H0:=0.5;H1:0.5.在数理统计中,把在数理统计中,把“=0.5”这样一个待这样一个待检验的假设记为检验的假设记为“原假设原假设”或或“零假设零假设”,记成记成“H0:=0.5”。II.解决问题的思路解决问题的思路 因样本均值是因样本均值是 的一个很好的估计。所以,的一个很好的估计。所以,当当 =0.5

5、,即原假设,即原假设 H0成立时成立时,应比较小;应比较小;如果该值过大如果该值过大,想必想必 H0 0不成立。不成立。于是,我们就用于是,我们就用 的大小来判定的大小来判定H0 0是否是否成立。成立。合理的做法应该是:找出一个界限合理的做法应该是:找出一个界限 c,这里的问题是:如何确定常数这里的问题是:如何确定常数 c 呢?呢?细致地分析细致地分析:根据定理根据定理6.4.1,有,有于是,当原假设于是,当原假设H0 0:=0.5成立时,有成立时,有为确定常数为确定常数 c,我们考虑一个很小的正数,我们考虑一个很小的正数,如如 =0.05。当原假设当原假设 H0 0:=0.5成立时,有成立时

6、,有于是,我们就得到如下于是,我们就得到如下检验准则检验准则:为为H0 0 的拒绝域的拒绝域。用以上检验准则处理我们的问题,用以上检验准则处理我们的问题,所以,所以,拒拒绝绝H0:=0.5,认为机器异常,认为机器异常。因为,当因为,当H0:=0.5成立时,成立时,所以,当所以,当 很小时,若很小时,若 H0 0为真为真(正确正确),),则则检检验统计量落入拒绝域验统计量落入拒绝域是一小概率事件是一小概率事件(概率很概率很小小,为为)。前面曾提到过。前面曾提到过:“通常认为小概率通常认为小概率事件在一次试验中基本上不会发生事件在一次试验中基本上不会发生”。III.方方法原法原理理 那么,一旦小概

7、率事件发生,即那么,一旦小概率事件发生,即:发生发生,就认为就认为 H0 0不正确。不正确。IVIV.两类错误与显著性水平两类错误与显著性水平 当我们检验一个假设当我们检验一个假设H0时,有可能犯以时,有可能犯以下两类错误之一:下两类错误之一:H0正确,但我们认为其不正确,但我们认为其不正确,这就犯了正确,这就犯了“弃真弃真”的错误,即抛弃了的错误,即抛弃了正确的假设;正确的假设;H0不正确,但被却误认为正确,不正确,但被却误认为正确,这就犯了这就犯了“取伪取伪”的错误,即采用了伪假设。的错误,即采用了伪假设。因为检验统计量总是随机的,所以,我因为检验统计量总是随机的,所以,我们总是以一定的概

8、率犯以上两类错误。们总是以一定的概率犯以上两类错误。通常分别用通常分别用 和和 记犯第一、第二类错记犯第一、第二类错误的概率,即误的概率,即在检验问题中,犯在检验问题中,犯“弃真弃真”和和“取伪取伪”两类错误都总是不可避免的,并且减少犯第两类错误都总是不可避免的,并且减少犯第一类错误的概率,就会增大犯第二类错误的一类错误的概率,就会增大犯第二类错误的概率概率;反之亦然。反之亦然。所以,所以,犯两类错误的概率不犯两类错误的概率不能同时得到控制。能同时得到控制。在统计学中,通常控制犯第一类错误的在统计学中,通常控制犯第一类错误的概概率。一般事先选定一个数概概率。一般事先选定一个数(0 0而现在要处

9、理的对立假设为而现在要处理的对立假设为H1:0,称为称为右边右边对立假设对立假设。类似地类似地,H0:=0;H1:0中中的对立假的对立假设设H1:0在在 2 2未知情况下,未知情况下,当原当原假设假设成立时,成立时,例例2:某厂生产一种工业用绳某厂生产一种工业用绳,其质量指标是其质量指标是绳子所承受的最大拉力,假定该指标服从正绳子所承受的最大拉力,假定该指标服从正态分布,且该厂原来生产的绳子指标均值态分布,且该厂原来生产的绳子指标均值 0 0 =15公斤,采用一种新原材料后公斤,采用一种新原材料后,厂方称这种厂方称这种原材料提高了绳子的质量,也就是说绳子所原材料提高了绳子的质量,也就是说绳子所

10、承受的最大拉力承受的最大拉力 比比15公斤增大了。公斤增大了。为检验该厂的结论是否真实,从其新产为检验该厂的结论是否真实,从其新产品中随机抽取品中随机抽取5050件,测得它们所承受的最大件,测得它们所承受的最大拉力的平均值为拉力的平均值为15.8公斤,样本标准差公斤,样本标准差S=0.5公斤。取显著性水平公斤。取显著性水平 =0.01。问从这些样本问从这些样本看:能否接受厂方的结论。看:能否接受厂方的结论。解:解:问题归结为检验如下假设问题归结为检验如下假设H0:=15;H1:15(2未知未知)于是于是,从而,拒从而,拒绝原假设,即认为新的原材料确实绝原假设,即认为新的原材料确实提高了绳子所能

11、承受的最大拉力。提高了绳子所能承受的最大拉力。8.2.2两个正态总体两个正态总体N(1,12)和和N(2,22)均值的比较均值的比较在应用上,经常会遇到两个正态总体均在应用上,经常会遇到两个正态总体均值的比较问题。值的比较问题。例如:例如:比较甲、乙两厂生产的某种产品比较甲、乙两厂生产的某种产品的质量。将两厂生产的产品的质量指标分别的质量。将两厂生产的产品的质量指标分别看成正态总体看成正态总体N(1,12)和和N(2,22)。比较它。比较它们的产品质量指标的问题,就变为比较这两们的产品质量指标的问题,就变为比较这两个正态总体的均值个正态总体的均值 1 1和和 2 2的的问题。的的问题。又如:又

12、如:考察一项新技术对提高产品质量是考察一项新技术对提高产品质量是否有效。将新技术实施前后生产的产品质量指否有效。将新技术实施前后生产的产品质量指标分别看成正态总体标分别看成正态总体N(1,12)和和N(2,22)。这时,所考察的问题就归结为检验这两个正态这时,所考察的问题就归结为检验这两个正态总体的均值总体的均值 1 1和和 2 2是否相等的问题。是否相等的问题。设设X1,X2,Xm与与Y1,Y2,Yn分别为抽分别为抽自正态总体自正态总体N(1,12)和和N(2,22)的样本,的样本,记记考查如下检验假设考查如下检验假设:1.H0:1=2;H1:1 2当当 1 12 2 和和 2 22 2 已

13、知时,已知时,根据定理根据定理7.5.1,有,有当当H0:1=2为真时,为真时,故,拒绝故,拒绝域域为为 在在 12=22=2,2未知情况下,未知情况下,根据定根据定理理7.5.1,有,有当当 H0:1=2 为真时,有为真时,有拒绝拒绝域域为为 从而从而 上面,我们假定上面,我们假定 12=22。当然,这是个。当然,这是个不得已而强加上去的条件,因为如果不加此不得已而强加上去的条件,因为如果不加此条件,就无法使用简单易行的条件,就无法使用简单易行的t 检验。检验。在实用中,只要我们有理由认为在实用中,只要我们有理由认为 12和和 22相差不是太大,往往相差不是太大,往往就可使用上述方法就可使用

14、上述方法。通。通常是:如果方差比检验未被拒绝常是:如果方差比检验未被拒绝(见下节见下节),就就认为认为 12和和 22相差不是太大。相差不是太大。说明:说明:例例3:假设有假设有A和和B两种药,欲比较它们在服用两种药,欲比较它们在服用2小时后在血液中的含量是否一样。对药品小时后在血液中的含量是否一样。对药品A,随机抽取随机抽取8个病人服药,服药个病人服药,服药2小时后,测得小时后,测得8个病人血液中药物浓度个病人血液中药物浓度(用适当的单位用适当的单位)分别为分别为:1.23,1.42,1.41,1.62,1.55,1.51,1.60,1.76.对药品对药品B,随机抽取,随机抽取6个病人服药,

15、服药个病人服药,服药2小时小时后,测得血液中药的浓度分别为后,测得血液中药的浓度分别为:1.76,1.41,1.87,1.49,1.67,1.81.假定这两组观测值抽自具有共同方差的两个正假定这两组观测值抽自具有共同方差的两个正态总体,在显著性水态总体,在显著性水=0.10下,检验病人血液下,检验病人血液中这两种药的浓度是否有显著不同中这两种药的浓度是否有显著不同?故,接受原假设。即接受原假设。即,认为病人血液中这两认为病人血液中这两种药浓度无显著差异。种药浓度无显著差异。解:解:问题就是从总体问题就是从总体N(1,2)和和N(2,2)中中分别抽取样本分别抽取样本X1,X2,X8和和Y1,Y2

16、,Y6,样,样本均值和样本方差分别为本均值和样本方差分别为:与与1.1.的分析完全类似,可以得到的分析完全类似,可以得到:2.单边检验单边检验H0:1 2;H1:1 2 1 12 2和和 2 22 2已知情况下,已知情况下,H0 0的的拒绝拒绝域域为为 1 12 2与与 2 22 2未知未知,但二者相等情况下但二者相等情况下,H0 0的的拒绝拒绝域域为为与与1.1.的分析完全类似,可以得到的分析完全类似,可以得到:3.单边检验单边检验H0:1 2;H1:1 2 1 12 2和和 2 22 2已知情况下,已知情况下,H0 0的的拒绝拒绝域域为为 1 12 2与与 2 22 2未知未知,但二者相等

17、情况下但二者相等情况下,H0 0的的拒绝拒绝域域为为 两个正态总体与成对数据的区别两个正态总体与成对数据的区别u两个正态总体两个正态总体假定来自这两个正态总体假定来自这两个正态总体 的两组样本,是相互独立的。的两组样本,是相互独立的。u成对数据成对数据两组样本可以是来自对同一个两组样本可以是来自对同一个 总体上的重复测量,它们是成对出现的,可总体上的重复测量,它们是成对出现的,可 以是相关的。以是相关的。8.2.3成对数据的成对数据的t检验检验例如例如:为了考察一种降血压药的效果,测试了为了考察一种降血压药的效果,测试了n 个高血压病人服药前、后的血压分别为个高血压病人服药前、后的血压分别为X

18、1,X2,Xn和和Y1,Y2,Yn。这里。这里(Xi,Yi)是第是第i个个病人服药前和服药后的血压,它们是相关的。病人服药前和服药后的血压,它们是相关的。处理处理成对数据的思路成对数据的思路因因(Xi,Yi)是在同一人身上观测到的血压。是在同一人身上观测到的血压。所以,所以,Xi-Yi就消除了人的体质等诸方面的条就消除了人的体质等诸方面的条件差异,仅剩下降血压药的效果。件差异,仅剩下降血压药的效果。所以,所以,我们可以把我们可以把di=Xi-Yi,i=1,2,n.看成抽自正态总体看成抽自正态总体N(,2)的样本。其中的样本。其中 就就是降血压药的平均效果。是降血压药的平均效果。一般的成对数据同

19、样也是这样转变的。从一般的成对数据同样也是这样转变的。从前面所学内容可以看出:其实就是作前面所学内容可以看出:其实就是作H0:=0;H1:0;H0:0;H1:0方差方差 2 2未知情况下的检验。未知情况下的检验。上述三种检验的拒绝域分别为:上述三种检验的拒绝域分别为:例例4:为了检验为了检验A,B两种测定铁矿石含铁量的两种测定铁矿石含铁量的方法是否有明显差异方法是否有明显差异,现用这两种方法测定了现用这两种方法测定了取自取自12个不同铁矿的矿石标本的含铁量个不同铁矿的矿石标本的含铁量(%),结果列于表结果列于表8.2.1中。取中。取=0.05,问这两种测定问这两种测定方法是否有显著差异方法是否

20、有显著差异?解解:将方法将方法A和方法和方法B的测定值分别记为的测定值分别记为X1,X2,X12 和和Y1,Y2,Y12.因这因这12个标本来自不同铁矿,个标本来自不同铁矿,所以所以,X1,X2,X12不能看成来自同一个总体的样本。同理不能看成来自同一个总体的样本。同理,Y1,Y2,Y12也不能看成来自同一个总体的样也不能看成来自同一个总体的样本。故本。故,用成对用成对t 检验。记检验。记di=Xi-Yi,i=1,2,12.所以,接受原假设,即认为两种测定方法无所以,接受原假设,即认为两种测定方法无显著性差异。显著性差异。利用样本方差利用样本方差S S 2 2是是 2的一个无偏估计,的一个无偏

21、估计,且且(n-1)S2/22n-1的结论。的结论。8.3.1单个正态总体方差的单个正态总体方差的2检验检验 设设X1,X2,Xn为来自总体为来自总体N(,2)的的样本,样本,和和 2 2未知,求下列假设的显著性水平未知,求下列假设的显著性水平为为 的检验。的检验。思路分析思路分析:1.H0:2=02;H1:2 02 8.3正态总体方差的检验正态总体方差的检验 当原假设当原假设H0:2=02成立时,成立时,S2 2和和 0 02 2应应该比较接近,即比值该比较接近,即比值S S 2 2/0 02 2应接近于应接近于1 1。所以。所以,这个比值过大或过小这个比值过大或过小 时,应拒绝原假设。时,

22、应拒绝原假设。合理的做法是合理的做法是:找两个合适的界限找两个合适的界限c1和和c2,当当c1(n-1)S2/02 02 同理,当同理,当H0:2=02成立时,有,成立时,有,此检验法也称此检验法也称 2 2检验法检验法。3*.H0:2 02;H1:2 02(同同2.)例例1:某公司生产的发动机部件的直径某公司生产的发动机部件的直径(单位单位:cm)服从正态分布,并称其标准差服从正态分布,并称其标准差 0=0.048。现随机抽取现随机抽取5个部件,测得它们的直径为个部件,测得它们的直径为1.32,1.55,1.36,1.40,1.44.取取=0.05,问,问:(1).能否认为该公司生产的发动机

23、部件的直径能否认为该公司生产的发动机部件的直径的标准差确实为的标准差确实为=0?(2).能否认为能否认为 0?解解:(1).的的问题就是检验问题就是检验H0:2=02;H1:2 02.其中,其中,n=5,=0.05,0=0.048.故,拒绝原假设故,拒绝原假设H0,即认为部件直径标准,即认为部件直径标准差不是差不是0.048cm。经计算,得经计算,得S2=0.00778,故,拒绝原假设故,拒绝原假设H0,即认为部件的直径标准,即认为部件的直径标准差超过了差超过了0.048cm。(2).的的问题是检验问题是检验H0:2 02;H1:2 02.该检验主要用于上节中实施两该检验主要用于上节中实施两样

24、本样本t检检验之前,讨论验之前,讨论 1 12 2 =2 22 2的的假设是否合理。假设是否合理。8.3.2两正态总体方差比的两正态总体方差比的F 检验检验1.H0:12=22;H1:12 22.设设X1,X2,Xm和和Y1,Y2,Yn分别为抽分别为抽自正态总体自正态总体N(1,12)和和N(2,22)的样本的样本,欲欲检验检验当当H0:12=22成立时成立时,12/22=1,作为其作为其估计,估计,S12/S22也应与也应与1相差不大。相差不大。当当该值过分该值过分地大或过分地小时,都应拒绝原假设成立。地大或过分地小时,都应拒绝原假设成立。合理的思路是:找两个界限合理的思路是:找两个界限c1

25、和和c2,当当c1S12/S22 22常数k的确定:3.H0:12 22;H1:12 22 以上检验都用到了以上检验都用到了F分布分布,因此称上述检因此称上述检验验称称为为 F检验。检验。例例2:甲乙两厂生产同一种电阻,现从甲乙两甲乙两厂生产同一种电阻,现从甲乙两厂的产品中分别随机地抽取厂的产品中分别随机地抽取1212个和个和1010个样品个样品,测得它们的电阻值后,测得它们的电阻值后,计算出样本方差分别计算出样本方差分别为为S12=1.40,S22=4.38。假设两厂生产的电阻假设两厂生产的电阻的电阻的阻值分别服从正态分布的电阻的阻值分别服从正态分布N(1,12)和和N(2,22)。在显著性

26、水平在显著性水平 =0.10下下,是否可接受:是否可接受:(l).(l).1 12 2 =2 22 2;(2).(2).1 12 2 2 22 2.解:解:(1).的问题是检验的问题是检验H0:12=22;H1:12 22.其中,其中,m=12,n=10,=0.10,S12=1.40,S22=4.38,S12/S22=0.32。利用利用第六章学过的第六章学过的及及P237的附表的附表5,有,有 Fm-1,n-1(1-/2)=F11,9(0.95)=1/F9,11(0.05)=1/(2.90)=0.34.因因S12/S22=0.320.34,所以,所以,无须再考虑无须再考虑Fm-1,n-1(/2

27、)的值,就可得到拒绝的值,就可得到拒绝 12=22的的结论。结论。查查P237附表附表5,因,因查不到查不到F11,9(0.10),改,改用用F10,9(0.10)和和F12,9(0.10)的平均值近似之,得的平均值近似之,得 F11,9(0.10)=F10,9(0.10)+F12,9(0.10)/22.42+2.38/2=2.40.因因S12/S22=0.32 22.假设检验小结假设检验小结一、关于假设检验一、关于假设检验假设检验是统计推断的一个主要内容,它的基本任假设检验是统计推断的一个主要内容,它的基本任务是务是根据样本所提供的信息,对未知总体分布的某根据样本所提供的信息,对未知总体分布

28、的某些方面的假设作出合理的判断些方面的假设作出合理的判断.假设检验的程序是,先根据实际问题的要求提出一假设检验的程序是,先根据实际问题的要求提出一个论断,称为统计假设;然后根据样本的有关信息,个论断,称为统计假设;然后根据样本的有关信息,对真伪进行判断,作出拒绝或接受的决策对真伪进行判断,作出拒绝或接受的决策.假设检验的基本思想是假设检验的基本思想是概率性质的反证法概率性质的反证法.概率性质的反证法的根据是小概率事件原理,该原概率性质的反证法的根据是小概率事件原理,该原理认为理认为“小概率事件在一次试验中几乎是不可能发小概率事件在一次试验中几乎是不可能发生的生的”.二、假设检验的步骤:二、假设

29、检验的步骤:1.根据实际问题的要求提出原假设根据实际问题的要求提出原假设H0和备择假设和备择假设H1;2.根据根据H0的内容,选取适当的统计量的内容,选取适当的统计量,并能确定检验并能确定检验统计量的分布;统计量的分布;3.给出显著性水平给出显著性水平以及样本容量以及样本容量n;4.由由H1的内容确定拒绝域的形式,通常在水平的内容确定拒绝域的形式,通常在水平下,下,查相应检验统计量分布的分位数来确定拒绝域;查相应检验统计量分布的分位数来确定拒绝域;5.根据样本值计算检验统计量的具体值;根据样本值计算检验统计量的具体值;6.作出拒绝作出拒绝H0还是接受还是接受H0的统计判断。的统计判断。三、假设

30、检验的基本概念和思想三、假设检验的基本概念和思想(一一)两两类问题1.参数假参数假设检验 总体分布已知体分布已知,参参数未知数未知,由由观测值x1,xn检验假假设H0:=0;H1:02.非参数假非参数假设检验 总体分布未知体分布未知,由由观测值x1,xn检验假假设H0:F(x)=F0(x;);H1:F(x)F0(x;)以以样本本(X1,Xn)出出发制定一个法制定一个法则,一旦一旦观测值(x1,xn)确定后确定后,我我们由由这个法个法则就可作出判断就可作出判断是拒是拒绝H0还是接受是接受H1,这种法种法则称称为H0对H1的一个的一个检验法法则,简称称检验法。法。样本本观测值的全体的全体组成成样本

31、空本空间S,把把S分成两分成两个互不相交的子集个互不相交的子集W和和W*,即即S=W W*,WW*=假假设当当(x1,xn)W时,我我们就拒就拒绝H0;当当(x1,xn)W*时,我我们就接受就接受H0。子集。子集W S就称就称为检验的拒的拒绝域域(或或临界域界域)。(二二)检验法法则与拒与拒绝域域(三三)假设检验的两类错误假设检验的两类错误H0为真为真实际情况实际情况决定决定拒绝拒绝H0接受接受H0H0不真不真第一类错误第一类错误正确正确正确正确第二类错误第二类错误P拒绝拒绝H0|H0为真为真=,P接受接受H0|H0不真不真=.犯两类错误的概率犯两类错误的概率:显著性水平显著性水平为犯第一类错

32、误的概率为犯第一类错误的概率.两类错误的概率的关系两类错误的概率的关系两类错误是互相关联的,两类错误是互相关联的,当样本容当样本容量固定时,一类错误概率的减少导致另量固定时,一类错误概率的减少导致另一类错误概率的增加一类错误概率的增加.要同时降低两类错误的概率要同时降低两类错误的概率,或,或者要在者要在不变的条件下降低不变的条件下降低,需要增,需要增加样本容量加样本容量.错误和错误和 错误的关系错误的关系 你不能同时减你不能同时减少两类错误少两类错误!和和和和 的关系就像的关系就像的关系就像的关系就像翘翘板,翘翘板,翘翘板,翘翘板,小小小小 就就就就大,大,大,大,大大大大 就小就小就小就小四

33、、双边假设检验和单边假设检验四、双边假设检验和单边假设检验五、正态总体均值的假设检验五、正态总体均值的假设检验六、正态总体方差的假设检验六、正态总体方差的假设检验1.单个总体的情况单个总体的情况:2.两个总体的情况两个总体的情况:1.单个正态总体单个正态总体,已知已知 2,检验检验:2.单个正态总体单个正态总体,未知未知 2,检验检验:3.两个正态总体均值差的检验两个正态总体均值差的检验(t-检验检验):注:成对数据的检验注:成对数据的检验(成对成对t检验法检验法)正态总体参数的假设检验(显著性水平正态总体参数的假设检验(显著性水平)原假设H0备则假设H1其他参数检验统计量H0成立时检验统计量

34、的分布拒绝域单个正态总体=00000002221221200D D00D D2未未知知t(n-1)|t t|tt/2/2(n-1)(n-1)ttt(n-1)(n-1)t-t-t(n-1)(n-1)请注意对比:正态总体参数的假设检验(显著性水平正态总体参数的假设检验(显著性水平)正态总体未知参数的置信区间正态总体未知参数的置信区间(置信水平置信水平1-1-)待估参数其他参数枢轴量ZZ的分布双侧置信区间单侧置信下限单侧置信上限2已知N(0,1)2未知t(n-1)2已知2(n)未知2(n-1)一个正态总体未知参数的置信区间(置信水平为一个正态总体未知参数的置信区间(置信水平为1-)两个正态总体未知参

35、数的置信区间(置信水平为两个正态总体未知参数的置信区间(置信水平为1-)待估参数待估参数其他参数其他参数枢轴量枢轴量ZZ的分布的分布双侧置信区双侧置信区间间单侧置信单侧置信下限下限单侧置信单侧置信上限上限N(0,1)1,2未知已知未知F(n1-1,n2-1)在前面的讨论中,我们总假定总体的分在前面的讨论中,我们总假定总体的分布形式是已知的。例如,假设总体分布为正布形式是已知的。例如,假设总体分布为正态分布态分布N(,2),总体分布为区间总体分布为区间(a,b)上的上的均匀分布,等等。均匀分布,等等。然而,在实际问题中,我们所遇到的总然而,在实际问题中,我们所遇到的总体服从何种分布往往并不知道。

36、需要我们先体服从何种分布往往并不知道。需要我们先对总体的分布形式提出假设,如:总体分布对总体的分布形式提出假设,如:总体分布是正态分布是正态分布N(,2),总体分布是区间总体分布是区间(a,b)上均匀分布等,然后利用数据上均匀分布等,然后利用数据(样本样本)对这一对这一假设进行检验,看能否获得通过。假设进行检验,看能否获得通过。8.4分布拟合检验分布拟合检验 例例1.从从1500年到年到1931年的年的432年间,每年间,每年爆发战争的次数可以看作一个随机变量,椐年爆发战争的次数可以看作一个随机变量,椐统计统计,这这432年间共爆发了年间共爆发了299次战争次战争,数据如下数据如下:战争次数战

37、争次数X01234 22314248154 发生发生 X次战争的年数次战争的年数 在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年爆发战争的次数,可以用一个泊松随机变量来近似描述.也就是说,我们可以假设每年爆发战争次数分布X近似泊松分布.上面的数据能否证实X 具有泊松分布的假设是正确的?现在的问题是:例例2.某某钟钟表表厂厂对对生生产产的的钟钟进进行行精精确确性性检检查查,抽抽取取100个个钟钟作作试试验验,拨拨准准后后隔隔24小小时时以以后后进进行行检检查查,将将每每个个钟钟的的误误差差(快快或或慢慢)按按秒秒记记录下来录下来.问该厂生产的钟的误差是否服从正态分布?这是一项

38、非常重要的工作这是一项非常重要的工作,许多学者视它为近代统计学的许多学者视它为近代统计学的开端。开端。解决这类问题的方法最早由英国统计学解决这类问题的方法最早由英国统计学家家K.Pearson(皮尔逊皮尔逊)于于1900年在他发表的年在他发表的一篇文章中给出一篇文章中给出,该方法后被称为该方法后被称为Pearson 2检验法,简称检验法,简称 2检验检验。设设F(x)为一已知的分布函数,现有样本为一已知的分布函数,现有样本X1,X2,Xn,但我们并不知道样本的总体,但我们并不知道样本的总体分分布是什么。现在试图检验布是什么。现在试图检验H0:总体:总体X 的分布函数为的分布函数为F(x);(1

39、)对立假设为对立假设为H1:总体:总体X 的分布函数非的分布函数非F(x)。如果如果F(x)形式已知,但含有未知参数形式已知,但含有未知参数 或参或参数向量数向量=(1,2,r),记为,记为F(x,)。这种。这种检验通常称为分布的检验通常称为分布的拟合优度检验拟合优度检验。8.4.12检验检验不妨设总体不妨设总体 X是连续型分布。检验思想是连续型分布。检验思想与步骤如下与步骤如下:(1).将总体将总体X 的取值范围分成的取值范围分成k 个互不重叠的个互不重叠的小区间小区间I1,I2,Ik,(2).计算各子区间计算各子区间Ii 上的理论频数。上的理论频数。如果总体的分布函数为如果总体的分布函数为

40、F(x,),那么,各,那么,各点落在区间点落在区间Ii 上的概率均为上的概率均为n 个点中,理论上有个点中,理论上有n pi()个点落在个点落在Ii 上上,(称为理论频数称为理论频数)。当分布函数中含有未知。当分布函数中含有未知参数参数 时,理论频数也未知,要用时,理论频数也未知,要用来估计来估计n pi(),为为的极大似然估计。的极大似然估计。(3).计算各子区间计算各子区间Ii 上的实际频数上的实际频数fi。fi=X1,X2,Xn Ii,i=1,2,k.计数符号,取集计数符号,取集合中元素的个数合中元素的个数(4).计算理论频数与实际频数的偏差平方和。计算理论频数与实际频数的偏差平方和。可

41、以证明:在可以证明:在H0成立,且成立,且n时时,(5).H0的显著性水平为的显著性水平为的的检验检验的拒的拒绝绝域域为为注意:注意:该检验方法是在该检验方法是在n 充分大时使用充分大时使用的,因而,使用时要注意的,因而,使用时要注意n 必须足够地大必须足够地大,以及以及npi 不能太小这两个条件。不能太小这两个条件。在实用上,一般要求在实用上,一般要求n 50,以及所有,以及所有npi5。如果初始子区间划分不满足后一个。如果初始子区间划分不满足后一个条件条件,则适当地将某些子区间合并,可使则适当地将某些子区间合并,可使npi 满满足上述要求。足上述要求。例例1:在一实验中在一实验中,每隔一定

42、时间观察一次由某每隔一定时间观察一次由某种铀所放射到计数器上的种铀所放射到计数器上的粒子数粒子数X,共观察了共观察了100次次,得到结果如下表得到结果如下表8.1所示。给定所示。给定=0.05,检验假设检验假设H0:X 服从泊松分布服从泊松分布 P().其中其中fi 是观测到有是观测到有i 个个 粒子的次数。粒子的次数。注:注:XP()表示表示解解:因因H0中含有未知参数中含有未知参数,所以应先估计该参所以应先估计该参数。由极大似然估计法,得数。由极大似然估计法,得 在在H0成立前提下,成立前提下,X 可能的取值为可能的取值为0,1,2,将该集合分成将该集合分成A0=0,A1=1,,A11=1

43、1,A A1212=12,13,=12,13,,则,则PX=i=pi 的估计为的估计为将检验统计量计算用数据填入下表,得将检验统计量计算用数据填入下表,得所以,在所以,在=0.05下下,接受原假设,可以认为接受原假设,可以认为数据服从泊松分布数据服从泊松分布。例例2:自自1965年年1月月1日至日至1971年年2月月9日共日共2231天中天中,全世界记录到里氏全世界记录到里氏4级或级或4级以上地震共级以上地震共计计162次,相继两次地震间隔天数次,相继两次地震间隔天数X统计如下统计如下:给定给定=0.05,检验假设检验假设X服从指数分布。服从指数分布。解解:根据题意,检验假设:根据题意,检验假

44、设:H0:X服从指数服从指数分布,即分布,即X有概率密度函数有概率密度函数 在这里,在这里,H0中含有未知参数中含有未知参数,应先估计。应先估计。由极大似然估计法,得由极大似然估计法,得 在在H0成立前提下,成立前提下,X 可能的取值为可能的取值为0,),将将其分成其分成A1=0,4.5),A2=4.5,9.5),A9=39.5,),则则P(Ai)=pi 的估计为的估计为其中其中Ai=ai,ai+1),i=1,2,9,9。故,在故,在=0.05下下,接受原假设,即认为接受原假设,即认为数据服从指数据服从指数分布数分布。例例3:为检验棉纱的拉力强度为检验棉纱的拉力强度X(单位单位:kg)服从服从

45、正态分布,从一批棉纱中随机抽取正态分布,从一批棉纱中随机抽取300条进行条进行拉力试验,结果列在表拉力试验,结果列在表8.2中。给定中。给定=0.01,检检验假设验假设H0:拉力强度:拉力强度X N(,2).解:解:本例中,并未给出各观测值本例中,并未给出各观测值Xi 的具体值的具体值,只给出了各观测值的取值范围,这样的数据只给出了各观测值的取值范围,这样的数据称为区间数据。样本均值与样本方差可通过称为区间数据。样本均值与样本方差可通过下列式计算:下列式计算:(1).先将数据先将数据Xi 分成分成13组,每组落入一个区组,每组落入一个区间,区间的端点为:间,区间的端点为:(2).计算数据落入各

46、子区间的理论频数。计算数据落入各子区间的理论频数。因分布中含有两个未知参数,所以,理论因分布中含有两个未知参数,所以,理论频数只能近似地估计。落入第频数只能近似地估计。落入第i 个子区间个子区间Ii的理论频数的估计为的理论频数的估计为,其中其中(3).计算数据落入各子区间上的实际频数计算数据落入各子区间上的实际频数fi。fi=X1,X2,Xn Ii,i=1,2,10.(4).计算检验统计量的值计算检验统计量的值因为因为k=10,r=2,所以上述,所以上述 2分布的自分布的自由度由度为为k-r-1=7。由由(5).H0的显著性水平为的显著性水平为 的的检验检验于是,拒绝原假设,即认为棉纱拉力强于

47、是,拒绝原假设,即认为棉纱拉力强度不服从正态分布。度不服从正态分布。孟德尔在关于遗传问题的研孟德尔在关于遗传问题的研究中,用豌豆做实验。豌豆有黄究中,用豌豆做实验。豌豆有黄和绿两种颜色,在对它们进行两和绿两种颜色,在对它们进行两代杂交之后,发现一部分杂交豌代杂交之后,发现一部分杂交豌豆呈黄色,另一部分呈绿色。其豆呈黄色,另一部分呈绿色。其数目的比例大致是数目的比例大致是3:1。2检验的一个著名应用例子是孟德尔豌豆检验的一个著名应用例子是孟德尔豌豆实验。奥地利生物学家孟德尔在实验。奥地利生物学家孟德尔在1865年发表的年发表的论文,事实上提出了基因学说,奠定了现代遗论文,事实上提出了基因学说,奠

48、定了现代遗传学的基础。他的这项伟大发现的过程有力地传学的基础。他的这项伟大发现的过程有力地证明了统计方法在科学研究中的作用。因此,证明了统计方法在科学研究中的作用。因此,我们有必要在这里将这一情况介绍给大家。我们有必要在这里将这一情况介绍给大家。这只是一个表面上的统计规律。但它启这只是一个表面上的统计规律。但它启发孟德尔去发展一种理论,以解释这种现象。发孟德尔去发展一种理论,以解释这种现象。他大胆地假定存在一种实体,即现在我们称他大胆地假定存在一种实体,即现在我们称为为“基因基因”的东西,决定了豌豆的颜色。这的东西,决定了豌豆的颜色。这基因有黄绿两个状态,一共有四种组合:基因有黄绿两个状态,一

49、共有四种组合:孟德尔把他的实验重复了多次,每次都孟德尔把他的实验重复了多次,每次都得到类似结果。得到类似结果。(黄黄,黄黄),(黄黄,绿绿),(绿绿,黄黄),(绿绿,绿绿).(黄黄,黄黄),(黄黄,绿绿),(绿绿,黄黄),(绿绿,绿绿).孟德尔认为孟德尔认为,前三种配合使豆子呈黄色前三种配合使豆子呈黄色,而第四种配合使豆子呈绿色。从古典概率的而第四种配合使豆子呈绿色。从古典概率的观点看,黄色豆子出现的概率为观点看,黄色豆子出现的概率为3/4,绿色豆,绿色豆子出现的概率为子出现的概率为1/4。这就解释了黄绿颜色豆。这就解释了黄绿颜色豆子之比为什么总是接近子之比为什么总是接近3:1这个观察结果。这

50、个观察结果。孟德尔这个发现的深远意义是他开辟了孟德尔这个发现的深远意义是他开辟了遗传学研究的新纪元。下面的例子就是用遗传学研究的新纪元。下面的例子就是用 2检验来检验孟德尔提出黄绿颜色豌豆数目之检验来检验孟德尔提出黄绿颜色豌豆数目之比为比为3:1的论断。的论断。例例4:孟德尔豌豆试验中,发现黄色豌豆为孟德尔豌豆试验中,发现黄色豌豆为25粒粒,绿色豌豆绿色豌豆11粒,试在粒,试在=0.05下下,检验豌豆检验豌豆黄绿之比为黄绿之比为3:1。解:解:定义随机变量定义随机变量X(1).将将(-,)分成两个区间分成两个区间(2).计算每个区间上的理论频数,这里计算每个区间上的理论频数,这里n=25+11

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁