《非参数检验解析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《非参数检验解析优秀PPT.ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、3.4检验的实际意义及两类错误检验的实际意义及两类错误 检验方法的评价问题:按什么标准来提检验方法的评价问题:按什么标准来提出原假设出原假设?由于对于相应的问题检验方法不由于对于相应的问题检验方法不唯一唯一,最优的方法是什么最优的方法是什么?检验的优劣与显著检验的优劣与显著性水平性水平a a的关系如何的关系如何?以及结论的实际意义是以及结论的实际意义是什么什么?3.4.1 3.4.1 检验结果的实际意义检验结果的实际意义 (a)(a)检验的原理检验的原理“小概率事务在一次试验小概率事务在一次试验中不发生中不发生”。此结论只是在概率意义下成立,此结论只是在概率意义下成立,并不是严格成立的。并不是
2、严格成立的。如摸奖问题如摸奖问题(例例3.33.3,P72P72),因此当摸奖因此当摸奖人事实上的确未作弊时,商店的统计推断就人事实上的确未作弊时,商店的统计推断就犯了错误犯了错误,“,“小概率事务在一次试验中可能小概率事务在一次试验中可能发生发生”.”.1(b)原假设与备择假设的地位是不对称的原假设与备择假设的地位是不对称的,当当“小概率事务小概率事务”未发生时,就不能拒绝原假未发生时,就不能拒绝原假设设但不等于逻辑上证明白但不等于逻辑上证明白成立,只成立,只能说没有充分的证据拒绝。即能说没有充分的证据拒绝。即受爱护受爱护.l都成立。都成立。例例例例3.113.113.113.11 (P92
3、)设总体设总体XN(,1),又设又设X1,X2,.,Xn为为总体总体X 的样本的样本,样本均值样本均值=X1=0.5 ,样本容量,样本容量n n1 1,0.050.05,提出两种假设的方法,分别如下,提出两种假设的方法,分别如下:2l实际中,一般提出原假设要慎重,倾向于不实际中,一般提出原假设要慎重,倾向于不轻易否定,而受爱护的程度为轻易否定,而受爱护的程度为。其越小,小概。其越小,小概率事务就越难发生,率事务就越难发生,H0就越难被否定。就越难被否定。(c)从另一角度看,既然原假设从另一角度看,既然原假设H0受爱护,则对其受爱护,则对其的确定相对来说是缺乏劝服力的,反之对其的否定则的确定相对
4、来说是缺乏劝服力的,反之对其的否定则是有力的,且是有力的,且越小,小概率事务就越难发生,一旦越小,小概率事务就越难发生,一旦发生了,这种否定就越有力。发生了,这种否定就越有力。33.4.2检验中的两类错误所谓犯错误是指检验的结论与实际状况不符。两类错误:(1)H0成立,而检验结果表明其不成立“弃真”;(2)H0不成立,而检验结果表明其成立“取伪”。记记:=P第一类错误第一类错误=P拒绝拒绝H0|H0真真 =P其次类错误其次类错误=P接受接受H0|H0伪伪l检验的本质是构造否定域检验的本质是构造否定域V,在看样本点是否落入在看样本点是否落入V中。中。当然当然,我们希望犯两类错误的概率都尽可能的小
5、我们希望犯两类错误的概率都尽可能的小,最好最好都为零都为零.但当样本容量固定时但当样本容量固定时,是不行能的是不行能的.在实际问在实际问题中题中,通常的做法是通常的做法是:先限制犯第一类错误的概率先限制犯第一类错误的概率,即即依据实际状况依据实际状况,指定一个较小的数指定一个较小的数 (如如0.05,0.01等等),有了有了 的值的值,从而可确定拒绝域从而可确定拒绝域.4例例例例3.123.123.123.12 (P94)设总体设总体XN(,02),02已知,又设已知,又设X1,X2,.,Xn为总体为总体X 的样本的样本,x1,x2,xn为为X的一的一组样本观测值,试求组样本观测值,试求对问题
6、:对问题:的的 检验的两类错误的概率。检验的两类错误的概率。拒绝域拒绝域:单侧检验单侧检验53.4.3样本容量确定问题样本容量确定问题从例从例3.12看出,当样本容量固定时,若要限制第看出,当样本容量固定时,若要限制第一类错误的概率,就不能使其次类错误的概率随一类错误的概率,就不能使其次类错误的概率随意小。但从(意小。但从(3.10)式看出,固定)式看出,固定,使,使n增大,增大,可使可使随意小。随意小。但实际中,样本的采集是有成本的,或根本无法但实际中,样本的采集是有成本的,或根本无法获得大样本。获得大样本。引出问题:能否确定一个最小的引出问题:能否确定一个最小的n使得两类错误使得两类错误的
7、概率都在限制的范围。的概率都在限制的范围。6(一)正态总体正态总体,已知;已知;的的u检验。检验。当等式右端不是整数时当等式右端不是整数时,取不小于右端的最小的整数取不小于右端的最小的整数7(二)正态总体正态总体,未知,考虑未知,考虑的的检验。检验。隐式解隐式解,通过给定的通过给定的和和试算确定试算确定n.8例例例例3.13 3.13 3.13 3.13 一门炮需通过放射试验来进行精度验收,假设一门炮需通过放射试验来进行精度验收,假设一门炮需通过放射试验来进行精度验收,假设一门炮需通过放射试验来进行精度验收,假设命中误差是纯随机的,又横向(或纵向)误差容许的标命中误差是纯随机的,又横向(或纵向
8、)误差容许的标命中误差是纯随机的,又横向(或纵向)误差容许的标命中误差是纯随机的,又横向(或纵向)误差容许的标准差为准差为准差为准差为0000,制造方要求接受的检验方法要求保证:假如,制造方要求接受的检验方法要求保证:假如,制造方要求接受的检验方法要求保证:假如,制造方要求接受的检验方法要求保证:假如产品合格而被拒绝的概率不大于产品合格而被拒绝的概率不大于产品合格而被拒绝的概率不大于产品合格而被拒绝的概率不大于5 5 5 5;运用方要求保证,;运用方要求保证,;运用方要求保证,;运用方要求保证,若产品不合格且标准差超过若产品不合格且标准差超过若产品不合格且标准差超过若产品不合格且标准差超过20
9、202020而被接受的概率小于而被接受的概率小于而被接受的概率小于而被接受的概率小于10101010,试问至少应放射多少发炮弹进行试验,才能满足,试问至少应放射多少发炮弹进行试验,才能满足,试问至少应放射多少发炮弹进行试验,才能满足,试问至少应放射多少发炮弹进行试验,才能满足双方的要求。双方的要求。双方的要求。双方的要求。解:设炮弹落点的横向(或纵向)偏差听从正态分布,解:设炮弹落点的横向(或纵向)偏差听从正态分布,利用上式利用上式,通过给定的通过给定的=0.05和和=0.1,查表查表进行试算进行试算,最终确定最终确定n=37.9SPSS软件:参数件:参数检验之均之均值检验Means过程过程对
10、准备比较的各组计算描述指标,进对准备比较的各组计算描述指标,进行预分析,也可干脆比较。行预分析,也可干脆比较。One-SamplesTTest过程过程进行样本均数与已知总进行样本均数与已知总体均数的比较。体均数的比较。Independent-SamplesTTest过程过程进行两样本均进行两样本均数差别的比较,即通常所说的两组资料的数差别的比较,即通常所说的两组资料的t检验。检验。Paired-SamplesTTest过程过程进行配对资料的显进行配对资料的显著性检验,即配对著性检验,即配对t检验。检验。One-WayANOVA过程过程进行两组及多组样本均数进行两组及多组样本均数的比较,即成组设
11、计的方差分析,还可进行随后的比较,即成组设计的方差分析,还可进行随后的两两比较。的两两比较。10再通过转换:再通过转换:将将u通过转换为通过转换为y以后,留下以后,留下x和和y的刻度就是正态概率纸,是的刻度就是正态概率纸,是非匀整刻度。若是一般正态分布总体,则非匀整刻度。若是一般正态分布总体,则分布函数的图形分布函数的图形,在,在xu平面上是一条直线。即:平面上是一条直线。即:x=u+.不同表示斜率不同,不同表示斜率不同,不不同表示在同表示在x轴上的截距不同。轴上的截距不同。(二)检验方法二)检验方法若假设若假设H0为真,则在概率纸上的坐标点(为真,则在概率纸上的坐标点(xi,Fn(xi)(i
12、=1,2,m)在一条直线上。若在(近似)一条直线上,在一条直线上。若在(近似)一条直线上,就接受假设,否则拒绝。一般中间点靠近即可。就接受假设,否则拒绝。一般中间点靠近即可。113.5非参数假设检验非参数假设检验总体的分布类型不知道,仅知是连续或离散型总体的分布类型不知道,仅知是连续或离散型(一)正态概率纸的构造一)正态概率纸的构造 首先建立始终角坐标系,横轴上刻度为首先建立始终角坐标系,横轴上刻度为x x轴,纵轴,纵轴上刻度为轴上刻度为u u值,都为匀整刻度。其中:值,都为匀整刻度。其中:3.5.1正态概率纸检验正态概率纸检验工程上常用的简洁但粗糙方法工程上常用的简洁但粗糙方法,用以推断用以
13、推断是否是否正态分布以及相应的均值和方差估计。正态分布以及相应的均值和方差估计。非参数检验非参数检验随机变量之间的独立性检验随机变量之间的独立性检验总体分布函数的拟合检验总体分布函数的拟合检验12基本方法是首先将容量为n的样本从小到大排序得到,则样本的阅历分布函数可表示为当当时时,事实上取事实上取,相应的,相应的是是N(0,1)的的分位点,此时点分位点,此时点应当近似在直线应当近似在直线上。假如由样本计算出的上。假如由样本计算出的n个个点近似在直线上,则可认为它来自正态分布。点近似在直线上,则可认为它来自正态分布。一般地一般地,中间的点的位置离直线的偏差不能太大中间的点的位置离直线的偏差不能太
14、大,两头的两头的离直线位置的偏差可以大一些离直线位置的偏差可以大一些.否则拒绝原假设否则拒绝原假设.讲解讲解P99-101(例(例3.14)13表表3.3编号编号分组区间分组区间组中值组中值频数频数累积频数累积频数累积频率累积频率(%)1(-,198196.56652(198,201199.571310.833(201,204202.5142722.504(204,207205.5204739.175(207,210208.5237058.336(210,213211.5229276.667(213,216214.51410688.338(216,219217.58114959(219,+)2
15、20.56120100以分组区间的中点以分组区间的中点(组中值组中值)为横坐标为横坐标,累积频率为纵坐标累积频率为纵坐标,在正态概率纸上描出在正态概率纸上描出9个点个点(如图如图3-6,见书上,见书上P101)14由图形检验大致地推断出总体是听从正态分布后,由图形检验大致地推断出总体是听从正态分布后,由于由于由由与直线交点的横坐标即为与直线交点的横坐标即为;又由于又由于,则则与直线的交点的横坐标为与直线的交点的横坐标为得到得到。除此之外,还有对数正态概率纸,威布除此之外,还有对数正态概率纸,威布Weibull概率纸等来探讨相应的分布概率纸等来探讨相应的分布定性的方法。定性的方法。(三)未知参数
16、三)未知参数,2的估计的估计以下介绍数值检验方法(定量方法)以下介绍数值检验方法(定量方法)。15SPSS软件:非参数件:非参数检验之正之正态概率概率纸输入数据输入数据:确定变量确定变量,输入样本输入样本.若是分组资料,样本值输入组中值,再加权若是分组资料,样本值输入组中值,再加权(DATAWeighBy频数)频数)Q-Q图图一种正态概率纸一种正态概率纸,检验的吩咐在检验的吩咐在GRAPHS菜单菜单,由得到的图形是否为一条直由得到的图形是否为一条直线线,可以大致地推断总体是否听从正态分布。可以大致地推断总体是否听从正态分布。P99-101(例(例3.14)163.5.2皮尔逊皮尔逊拟合检验拟合
17、检验拟合检验拟合检验:H0 0:X的分布函数为的分布函数为F0(X)为理论分布,用其去拟合样本值。为理论分布,用其去拟合样本值。拟合优度:拟合好坏的标准拟合优度:拟合好坏的标准,即拟合的优良程度。即拟合的优良程度。设总体设总体X(一维或多维)的分布(一维或多维)的分布 完全已知或完全已知或分布中含有未知参数。分布中含有未知参数。为样本值。为样本值。一般原则一般原则:构造检验统计量:构造检验统计量(样本(样本X与总体分布与总体分布F0 0的偏差的度量)的偏差的度量)及界限及界限D0 。若若D超过了超过了D0 0,就否定,否则接受原假设。,就否定,否则接受原假设。对于对于D的不同定义可以得到不同的
18、检验方法的不同定义可以得到不同的检验方法。17(一)理论分布完全已知的状况(一)理论分布完全已知的状况1设总体设总体X是离散型,取有限值是离散型,取有限值理论分布律理论分布律F0:原假设原假设记记ni为为中等于中等于ai的个数,的个数,(ni称为称为ai的视察频数),的视察频数),Xa1a2akPp1p2pk18而而npi称作称作ai的的理论频数理论频数。当当X的分布为的分布为F0,由大数定理,由大数定理,H0成立时,成立时,与与 相差不大。相差不大。19001900年,皮尔逊建立了统计量年,皮尔逊建立了统计量 用来衡量理论分布用来衡量理论分布p1,p2,pk与实际数据的偏与实际数据的偏差差.
19、(相对差异的总和)。(相对差异的总和)。19得到了得到了:当当为真时,为真时,当当为假时,为假时,皮尔逊还证明白,皮尔逊还证明白,时,时,统计量的极统计量的极限分布为限分布为20因此,给定检验水平因此,给定检验水平上述检验问题的否定域为:上述检验问题的否定域为:(单侧检验问题)(单侧检验问题)此时,此时,时,时,皮尔逊皮尔逊检验法。检验法。讲解例讲解例3.15(P104)21Sig.P值值=0.05,接受接受H0SPSS输入变量值及频数输入变量值及频数,给变量加权给变量加权选选ANALYZE菜单非参数检验菜单非参数检验二项分布检验二项分布检验,输入检验参数值输入检验参数值.22(2)(2)为一
20、般(连续)的完全已知分布为一般(连续)的完全已知分布 化作离散型处理(设一维的状况)化作离散型处理(设一维的状况)选取常数选取常数 ,将将 分成分成k k个互不相交的区间,个互不相交的区间,记作记作 。记记 为为X X落入区间落入区间 的概率的概率.23记记为样本为样本落入区间落入区间的频数,理论的频数,理论频数为频数为。皮尔逊检验统计量为皮尔逊检验统计量为在在为真时,其极限分布为为真时,其极限分布为其余方法与前其余方法与前(1)相同。相同。24在很多实际问题中在很多实际问题中,理论分布类型已知理论分布类型已知,但其但其中含有若干未知参数中含有若干未知参数.如如:此时,检验此时,检验先求先求下
21、,未知参数的点估计下,未知参数的点估计(最大似然估计最大似然估计),记,记作,作,再计算再计算(二)理论分布带参数的状况(二)理论分布带参数的状况25用此代替前述的用此代替前述的,得到统计量为,得到统计量为Fisher证明白满足确定条件下的点估计,证明白满足确定条件下的点估计,其极限分布为其极限分布为于是,否定域为于是,否定域为具体过程见具体过程见P106,例,例3.16。26SPSS输入变量值及频数输入变量值及频数,给变量加权给变量加权,选选ANALYZE菜单菜单非参数检验中卡方检验非参数检验中卡方检验,输入检验参数值输入检验参数值(Pi).27(三)(三)方法用于检验独立性方法用于检验独立
22、性如如“服新药服新药”与与“痊愈痊愈”,“吸烟吸烟”与与“患肺癌患肺癌”等关系问题。等关系问题。模型:设模型:设X的可能取值是的可能取值是1,2,rY的可能取值是的可能取值是1,2,s。对随机向量对随机向量(X,Y)进行了进行了n次视察次视察,发觉发觉出现的次数为出现的次数为(频数)。(频数)。检验假设检验假设H0:X与与Y相互独立。相互独立。28当假设为真时,当假设为真时,探讨问题的数据常排列为探讨问题的数据常排列为“列联表列联表”(见见P108)。设设:于是检验问题为:于是检验问题为:29若分布已知,即若分布已知,即已知,构造统计量已知,构造统计量但此时分布未知,用极大似然估计量代替得到但
23、此时分布未知,用极大似然估计量代替得到得到否定域得到否定域30SPSS讲解例讲解例3.17(P110)输入变量值及频数输入变量值及频数,给变量加权给变量加权,选选ANALYZE菜单描述菜单描述性统计中列联表性统计中列联表,输入行和列输入行和列,点复选框中卡方检验进行独点复选框中卡方检验进行独立性检验立性检验.31若若(X,Y)为连续型随机向量时,作离散化处理。为连续型随机向量时,作离散化处理。小小结结皮尔逊方法运用范围广,对于一维、皮尔逊方法运用范围广,对于一维、多维、离散、连续、参数已知、未知、多维、离散、连续、参数已知、未知、全样本、截尾样本等均适用;全样本、截尾样本等均适用;但分组处理样
24、本值时,虽然假设分但分组处理样本值时,虽然假设分布不成立,但可能划分方式不同,特殊布不成立,但可能划分方式不同,特殊对于截尾样本,影响对于截尾样本,影响统计量的取值,统计量的取值,简洁导致犯其次类错误(取伪)的概率简洁导致犯其次类错误(取伪)的概率增加。增加。32阅历分布函数阅历分布函数将视察值排序将视察值排序(非降非降):定义定义Fn(x)一样地收敛于一样地收敛于F(x).3.5.3柯尔莫哥洛夫检验柯尔莫哥洛夫检验(一一)一般情形一般情形33柯氏提出的检验统计量为柯氏提出的检验统计量为其精确分布为已知其精确分布为已知(P(P112112)。柯尔哥莫洛夫检验柯尔哥莫洛夫检验假设:假设:H0:F
25、(x)=F0(x)其中其中F0(x)为完全已知的连续型分布函数为完全已知的连续型分布函数.34因为分布函数因为分布函数Fn(x)与与F0(x)均为均为X的单调非减函数,所的单调非减函数,所以二者偏差的上确界在以二者偏差的上确界在n个点个点X(i)处取得。处取得。先求先求偏差偏差则则。若若Fn(x)与与F0(x)拟合得好,则拟合得好,则Dn的值应比较小,反之,的值应比较小,反之,Dn的值较大时,拟合得不好。的值较大时,拟合得不好。柯氏检验规则柯氏检验规则:给定显著性水平给定显著性水平,原假设的拒绝域为原假设的拒绝域为即即(临界值临界值Dn,可查附表可查附表6得到得到)。)。35例例3.18(P1
26、14)3.18(P114)对一台设备进行寿命试验,记录了对一台设备进行寿命试验,记录了1010个数个数据,从小到大排列为据,从小到大排列为420420,500500,920920,23502350(小时)。问此种设备的寿命(小时)。问此种设备的寿命X X的分布是否的分布是否听从听从15001500的指数分布?的指数分布?解:解:由下表计算可得由下表计算可得Dn=0.30,取,取0.05,查表得,查表得,D10,0.05=0.40925,即使取即使取0.20,D10,0.20=0.32都比都比Dn大,故接受大,故接受H0,认为寿命认为寿命X的分的分布是否听从布是否听从1500的指数分布的指数分布
27、.36计算结果列表如下:37SPSS讲解例讲解例3.18输入变量值输入变量值,选选ANALYZE菜单非参数检验菜单非参数检验NParTests,进入进入One-SampleKolmogorov-SmirnovTest,点复选框中指数点复选框中指数分布分布,进行理论分布含有未知参数的检验进行理论分布含有未知参数的检验.38(二二)正态性检验正态性检验正态分布未知参数值运用它们的无偏估计值正态分布未知参数值运用它们的无偏估计值柯氏检验规则:给定显著性水平给定显著性水平,原假设的拒绝域为原假设的拒绝域为(临界值(临界值可查附表可查附表8得到)。得到)。39例例例例3.19 3.19 3.19 3.1
28、9 对对对对8 8 8 8个产品进行强度试验个产品进行强度试验个产品进行强度试验个产品进行强度试验,所得强度取自然对数所得强度取自然对数所得强度取自然对数所得强度取自然对数后为后为后为后为:0.25,0.53,0.88,1.22,1.76,2.44,3.41,4.90:0.25,0.53,0.88,1.22,1.76,2.44,3.41,4.90:0.25,0.53,0.88,1.22,1.76,2.44,3.41,4.90:0.25,0.53,0.88,1.22,1.76,2.44,3.41,4.90问这批强度问这批强度问这批强度问这批强度数据是否来自对数正态分布数据是否来自对数正态分布数据
29、是否来自对数正态分布数据是否来自对数正态分布?由上表得,由上表得,查临界值查临界值,因因,故接受原假设,故接受原假设,即认为即认为这批强度数据来自对数正态分布这批强度数据来自对数正态分布这批强度数据来自对数正态分布这批强度数据来自对数正态分布。40(三三)指数分布的检验指数分布的检验指数分布未知参数的极大似然估计指数分布未知参数的极大似然估计检验规则:给定显著性水平给定显著性水平,原假设的拒绝域为,原假设的拒绝域为,(临界值(临界值可查附表可查附表8得到)。得到)。41例例例例3.21 3.21 3.21 3.21 记录一台计算机的无故障工作时间七次,数据如下记录一台计算机的无故障工作时间七次
30、,数据如下记录一台计算机的无故障工作时间七次,数据如下记录一台计算机的无故障工作时间七次,数据如下:530,450,120,530530,450,120,530530,450,120,530530,450,120,530,600,650,460600,650,460600,650,460600,650,460。问此台计算机的无故障工作。问此台计算机的无故障工作。问此台计算机的无故障工作。问此台计算机的无故障工作时间是否听从指数分布?时间是否听从指数分布?时间是否听从指数分布?时间是否听从指数分布?由上表得,由上表得,查临界值查临界值,因因,故拒绝原假设,故拒绝原假设,即不能认为此台计算机的无故
31、障工作时间听从指数分布。即不能认为此台计算机的无故障工作时间听从指数分布。423.5.4 斯米尔诺夫检验设有连续型总体设有连续型总体X,分布函数,分布函数F(x),样本样本,阅历分布函数,阅历分布函数Fn1(x);有连续型总体有连续型总体Y,分布函数,分布函数G(x),样本样本,阅历分布函数,阅历分布函数Gn2(x)。假定两样本相互独立。假定两样本相互独立。相应的阅历分布函数为相应的阅历分布函数为。问题背景:柯尔哥莫洛夫检验事实上是对单样本的分布拟问题背景:柯尔哥莫洛夫检验事实上是对单样本的分布拟合问题的检验。而在实际中,常常须要对两个总体分布函合问题的检验。而在实际中,常常须要对两个总体分布
32、函数进行比较,斯米尔诺夫检验借助于阅历分布函数给出了数进行比较,斯米尔诺夫检验借助于阅历分布函数给出了与柯尔哥莫洛夫检验相类似的检验统计量。与柯尔哥莫洛夫检验相类似的检验统计量。43提出假设:提出假设:斯米尔诺夫提出的检验统计量是斯米尔诺夫提出的检验统计量是:并且证明白,当并且证明白,当 为真时,有为真时,有。44当当H0H0为真时,为真时,D D应当比较小,因此斯米尔诺夫检应当比较小,因此斯米尔诺夫检验的规则是验的规则是:给定显著性水平给定显著性水平,若,若 时,拒时,拒绝绝H0H0,否则接受,否则接受H0 H0。分位点分位点 查柯尔哥莫洛夫检验的临界值表查柯尔哥莫洛夫检验的临界值表(见附表
33、(见附表6 6),),n n取不超过其表达式的最大整数取不超过其表达式的最大整数.当当n n很大时(如很大时(如100100),由柯尔哥莫洛夫检验统计),由柯尔哥莫洛夫检验统计量的极限分布可得量的极限分布可得 ,其中,其中,临界值柯尔哥莫洛夫检验的极限分临界值柯尔哥莫洛夫检验的极限分布表布表(见附表见附表7)7)。即即:45解:检验统计量解:检验统计量Dn的观测值为的观测值为 ,查附表查附表6 6临界值临界值 ,因因 ,故拒绝原假设,故拒绝原假设,即认为这两批零件尺寸分布不相同。即认为这两批零件尺寸分布不相同。例例例例3.22 3.22 3.22 3.22 某自动车床加工一种零件某自动车床加工
34、一种零件某自动车床加工一种零件某自动车床加工一种零件,一位工人刚接班时一位工人刚接班时一位工人刚接班时一位工人刚接班时,抽取抽取抽取抽取n1=150n1=150n1=150n1=150只零件作为第一个样本只零件作为第一个样本只零件作为第一个样本只零件作为第一个样本.在自动车床工作了在自动车床工作了在自动车床工作了在自动车床工作了4 4 4 4小时后小时后小时后小时后,他又抽取了他又抽取了他又抽取了他又抽取了n2=100n2=100n2=100n2=100只零件作为其次个样本只零件作为其次个样本只零件作为其次个样本只零件作为其次个样本.测定测定测定测定每个零件的尺寸与标准尺寸的偏差每个零件的尺寸
35、与标准尺寸的偏差每个零件的尺寸与标准尺寸的偏差每个零件的尺寸与标准尺寸的偏差(单位单位单位单位:m):m):m):m)范围如表范围如表范围如表范围如表3-10(P122)3-10(P122)3-10(P122)3-10(P122)所示所示所示所示,试问在显著性水平试问在显著性水平试问在显著性水平试问在显著性水平=0.01=0.01=0.01=0.01下下下下,能否认为能否认为能否认为能否认为这批零件尺寸的分布相同这批零件尺寸的分布相同这批零件尺寸的分布相同这批零件尺寸的分布相同?46计算结果列表如下:计算结果列表如下:偏差范围偏差范围组中组中值值ni1ni2Fn1(x)Gn2(x)|Fn1(x
36、)-Gn2(x)|-12.5,-7.5-101000.0000.0000.000-7.5,-2.5-52770.0670.0000.067-2.5,2.5043170.2470.0700.1772.5,7.5538300.5330.2400.2937.5,12.51023290.7870.5400.24712.5,17.5158150.9400.8300.11017.5,22.520110.9930.9800.01322.5,27.525011.0000.9900.01047SPSS讲解例讲解例3.22输入变量值输入变量值,选选ANALYZE菜单非参数检验菜单非参数检验NParTests,进入
37、进入2-IndependentKolmogorov-SmirnovTest,对指标值加权对指标值加权,点复选框中样本类别且定义组别点复选框中样本类别且定义组别,进行两独立总体是否同分布的检验进行两独立总体是否同分布的检验.483.5.5Shapiro-Wilk W检验检验和和DAgostino D检验检验二者均为正态性检验,利用W和D检验可以检验一批观测值或一批随机数是否来自同一正态分布。H0:总体听从正态分布.(一)W检验()检验步骤:(1)将观测值(样本值)按非降序排列:;(2)计算统计量W的值49其中查附表10。(3)对给定的显著性水平和样本容量n,由附表11查得;(4)作出推断:若,则
38、拒绝原假设,认为样本不听从正态分布。(W1)检验原理(略)P124W检验优点:小样本推断总体是否听从正态分布.例例例例3.23 3.23 3.23 3.23 抽查用克矽平治疗矽肺患者抽查用克矽平治疗矽肺患者抽查用克矽平治疗矽肺患者抽查用克矽平治疗矽肺患者10101010名名名名,得他们治疗前得他们治疗前得他们治疗前得他们治疗前后血红蛋白的差后血红蛋白的差后血红蛋白的差后血红蛋白的差(g%)(g%)(g%)(g%)如下如下如下如下:2.7,-1.2,-1.0,0,0.7,2.0,3.7,-0.6,0.8,-0.3 2.7,-1.2,-1.0,0,0.7,2.0,3.7,-0.6,0.8,-0.3
39、 2.7,-1.2,-1.0,0,0.7,2.0,3.7,-0.6,0.8,-0.3 2.7,-1.2,-1.0,0,0.7,2.0,3.7,-0.6,0.8,-0.3试检验治疗前后血红蛋白的差是否听从正态分布试检验治疗前后血红蛋白的差是否听从正态分布试检验治疗前后血红蛋白的差是否听从正态分布试检验治疗前后血红蛋白的差是否听从正态分布(=0.05)(=0.05)(=0.05)(=0.05)50(二)(二)D D检验检验(50nY)P(XY)0.5Y)0.5P(XY)0.5,因此,因此T1T1应有偏应有偏大的趋势。所以大的趋势。所以H0H0成立,成立,T T值不应太大也不能太小。值不应太大也不能
40、太小。人们依据人们依据T T的分布编制了附表的分布编制了附表1313,对给定的显著性,对给定的显著性水平水平,可查表:,可查表:拒绝域:拒绝域:54SPSS秩和检验秩和检验输入变量值输入变量值,对指标值加权对指标值加权定义样本类别定义样本类别选选ANALYZE菜单非参数检验菜单非参数检验NParTests,进入进入2-IndependentSample选选Mann-WhitneyTest点复选框中样本类别且输入组别点复选框中样本类别且输入组别,进行两独立总体是否同分布的检验进行两独立总体是否同分布的检验.55解:解:例例例例3.25 3.25 3.25 3.25 以下是两个地区所种小麦的蛋白质
41、含量检验数据:以下是两个地区所种小麦的蛋白质含量检验数据:以下是两个地区所种小麦的蛋白质含量检验数据:以下是两个地区所种小麦的蛋白质含量检验数据:地区地区地区地区1 1 1 1:12.6 13.4 11.9 12.8 13.012.6 13.4 11.9 12.8 13.012.6 13.4 11.9 12.8 13.012.6 13.4 11.9 12.8 13.0 地区地区地区地区2 2 2 2:13.1 13.4 12.8 13.8 13.3 12.7 12.413.1 13.4 12.8 13.8 13.3 12.7 12.413.1 13.4 12.8 13.8 13.3 12.7
42、12.413.1 13.4 12.8 13.8 13.3 12.7 12.4问两地区小麦的蛋白质含量有无显著性差异问两地区小麦的蛋白质含量有无显著性差异问两地区小麦的蛋白质含量有无显著性差异问两地区小麦的蛋白质含量有无显著性差异?(?(?(?(=0.05)=0.05)认为两地区小麦的蛋白质含量认为两地区小麦的蛋白质含量认为两地区小麦的蛋白质含量认为两地区小麦的蛋白质含量无显著性差异无显著性差异无显著性差异无显著性差异.56 在秩和检验表只列出在秩和检验表只列出n1,n210时的时的的数值的数值,当当n1n2时时,可以证明可以证明,在在H0之下之下,有有:事实上事实上,在在n1,n2均大于均大于7时,时,u的分布近似标准正态的分布近似标准正态分布已特别精确。对给定显著性水平分布已特别精确。对给定显著性水平,可查标准正,可查标准正态分布表得态分布表得 拒绝域:拒绝域:57作业:作业:3.113.13,3.15,3.16,3.18,3.21.58