《非参数第三章精选文档.ppt》由会员分享,可在线阅读,更多相关《非参数第三章精选文档.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、非参数第三章本讲稿第一页,共三十七页 可以假定这个样本是从世界许多大城市中随机抽样得到的,可以假定这个样本是从世界许多大城市中随机抽样得到的,所有大城市的指数组成了总体所有大城市的指数组成了总体.有人说有人说64应该是这种大城市花应该是这种大城市花费指数的中位数(费指数的中位数(median);而另外有人说,而另外有人说,64顶多是下四分顶多是下四分位数(位数(first quantile).这里看上去有两个关于位置参数的不这里看上去有两个关于位置参数的不同检验问题同检验问题.(1)样本中位数)样本中位数M是否大于是否大于64.(2)样本下四分位点)样本下四分位点Q0.25是否小于是否小于64
2、.由于中位数也是分位点(由于中位数也是分位点(0.5分位点)分位点).这两个问题实际上是一这两个问题实际上是一个问题,即关于分位点的检验问题个问题,即关于分位点的检验问题.当然也出现了求当然也出现了求 分位点分位点 的的 置信区间问题置信区间问题.本讲稿第二页,共三十七页本讲稿第三页,共三十七页3.1.1 广义符号检验:对分位点进行的检验广义符号检验:对分位点进行的检验所谓的广义符号检验是对连续变量所谓的广义符号检验是对连续变量 分位点分位点 进行的检验;进行的检验;而狭义的符号检验则是仅针对中位数而狭义的符号检验则是仅针对中位数 进行的检验进行的检验.假定检验的零假设是假定检验的零假设是 ,
3、而备择假设则可能为而备择假设则可能为记样本中记样本中小于小于 的点数为的点数为 ,而大于,而大于 的点数为的点数为并且用小写的并且用小写的 和和 分别代表分别代表 和和 的实现值的实现值.记记 本讲稿第四页,共三十七页在零假设在零假设 下,下,应该服从二项分布应该服从二项分布 对对 的检验,下面变量的检验,下面变量K 的分布为的分布为 ,为样本为样本 分位点分位点备择假设备择假设值值使检验有意义的条件使检验有意义的条件本讲稿第五页,共三十七页而对于而对于 的特例,这时的特例,这时 为中位数,通常记为为中位数,通常记为M,则有下面的表,则有下面的表.对对 的检验,变量的检验,变量 的分布为的分布
4、为备择假设 值本讲稿第六页,共三十七页例例3.1(续)下面讨论例(续)下面讨论例3.1的样本下四分位点的样本下四分位点 是否小是否小于于64的检验的检验.则检验问题是则检验问题是本讲稿第七页,共三十七页再看关于再看关于64是否为中位数的检验,是否为中位数的检验,大样本正态近似大样本正态近似本讲稿第八页,共三十七页3.1.2 基于符号检验的中位数及分位点的置信区间基于符号检验的中位数及分位点的置信区间中位数中位数 的对称置信区间的对称置信区间.首先我们考虑关于中位数首先我们考虑关于中位数 的基于符号检验的的基于符号检验的 置信区间置信区间.它定义为:它定义为:对于显著性水平为对于显著性水平为 的
5、中位数的双边符号检验的中位数的双边符号检验,不会使不会使 被拒绝的那些零假设点被拒绝的那些零假设点 的集合的集合.本讲稿第九页,共三十七页例例3.2(数据:(数据:tax.txt)下面是随机抽取的)下面是随机抽取的22个企业的纳税额个企业的纳税额.数据已经按照升幂排列数据已经按照升幂排列.1.00 1.35 1.99 2.05 2.06 2.10 2.30 2.61 2.86 2.95 2.98 3.23 3.73 4.03 4.82 5.24 6.10 6.64 6.81 6.86 7.11 9.00实际置信度实际置信度置信区间置信区间0.9999995(1,9)0.999989(1.35,
6、7.11)0.9998789(1.99,6.86)0.9991446(2.05,6.81)0.9830995(2.10,6.10)0.9475212(2.30,5.24)本讲稿第十页,共三十七页 3.2 Wilcoxon符号秩检验,点估计和区间估计符号秩检验,点估计和区间估计Wilcoxon符号秩检验:把观测值和零假设的中心位置之符号秩检验:把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计差的绝对值的秩分别按照不同的符号相加作为其检验统计量量.注意注意,该检验需要假定样本点,该检验需要假定样本点 来自连续对称总来自连续对称总体分布体分布.例例3.3 (数据:(数据
7、:EuroAlc.txt)下面是)下面是10个欧洲城镇个欧洲城镇每人每年平均消费的酒类相当于纯酒精数(单位:升)每人每年平均消费的酒类相当于纯酒精数(单位:升),数据已经按照升幂排列,数据已经按照升幂排列.4.12 5.81 7.63 9.74 10.39 11.92 12.32 12.89 13.54 14.45 检验问题是:检验问题是:本讲稿第十一页,共三十七页Wilcoxon符号秩检验步骤如下:符号秩检验步骤如下:(1)计算)计算3.88 2.19 0.37 1.74 2.39 3.92 4.32 4.89 5.54 6.45(2)把上面的)把上面的n个绝对值排序,并找出它们的个绝对值排
8、序,并找出它们的n个秩,如果个秩,如果有相同的样本点,每个点取平均秩有相同的样本点,每个点取平均秩.5 3 1 2 4 6 7 8 9 10(3)令)令 等于等于 的的 的秩的和的秩的和.而而 等于等于 的的 的秩的和的秩的和.注意:注意:本讲稿第十二页,共三十七页(4)对双边检验)对双边检验 ,在零假设,在零假设下,下,和和 应该差不多应该差不多.因而,当其中之一很小时,应怀因而,当其中之一很小时,应怀疑零假设疑零假设.取检验统计量取检验统计量 类似的,对类似的,对 的单边检验取的单边检验取对对 的单边检验取的单边检验取 本讲稿第十三页,共三十七页(5)根据得到的)根据得到的W值,利用统计软
9、件或查值,利用统计软件或查Wilcoxon符号符号秩检验的分布表以得到在零假设下的秩检验的分布表以得到在零假设下的p值值.Psignrank(w,10)得到得到p=0.032(6)如果)如果p值较小,则可以拒绝零假设值较小,则可以拒绝零假设.如果如果p值较大则没有值较大则没有充分证据来拒绝零假设,但不意味着接受零假设充分证据来拒绝零假设,但不意味着接受零假设.wilcox.test(x-8,alt=greater)Wilcoxon signed rank testdata:x-8 V=46,p-value=0.03223alternative hypothesis:true location
10、is greater than 0 本讲稿第十四页,共三十七页W+在零假设下的分布在零假设下的分布.秩秩符号的8种组合123-+-+-+-+-+-+-+-+W+0 1 2 3 3 4 5 6概率概率注意注意 W+和和 W-Wilcoxon分布的关系分布的关系本讲稿第十五页,共三十七页3.2.2 基于基于Wilcoxon符号秩检验的点估计和区间估计符号秩检验的点估计和区间估计.首先求每两个数的平均首先求每两个数的平均 (一共有(一共有 个)来扩大样本数目个)来扩大样本数目.这样的平均称为这样的平均称为Walsh平均平均.可可以证明前面的统计量以证明前面的统计量 W+等于大于零的等于大于零的Wal
11、sh平均的个数平均的个数.即即 如果考虑移位如果考虑移位 ,即,即 ,同样可以用,同样可以用本讲稿第十六页,共三十七页 对称中心对称中心 可由可由Walsh平均的中位数来估计,称为平均的中位数来估计,称为Hodge-Lehmann估计量:估计量:利用利用Walsh平均还可以得到平均还可以得到 的置信区间,先按照升幂排的置信区间,先按照升幂排列列Walsh平均,记为平均,记为 ,则,则 的的 置信区间为置信区间为这里整数这里整数k由由 来决定来决定.本讲稿第十七页,共三十七页在大样本时,用类似于在大样本时,用类似于Wilcoxon检验的近似得到检验的近似得到例例3.3欧洲酒精人均消费的例子欧洲酒
12、精人均消费的例子.Walsh平均有平均有55个值(按照升幂排个值(按照升幂排列)列)4.120 4.965 5.810 5.875 6.720 6.930 7.255 7.630 7.775 8.020 8.100 8.220 8.505 8.685 8.830 8.865 9.010 9.065 9.285 9.350 9.675 9.740 9.775 9.975 10.065 10.130 10.260 10.390 10.585 10.830 11.030 11.040 11.155 11.315 11.355 11.640 11.640 11.920 11.965 12.095 12
13、.120 12.320 12.405 12.420 12.605 12.730 12.890 12.930 13.185 13.215 13.385 13.540 13.670 13.995 14.450本讲稿第十八页,共三十七页3.3 正态记分检验正态记分检验考虑线性秩统计量考虑线性秩统计量 ,要,要按照正态分布来定义记分函数,为了使按照正态分布来定义记分函数,为了使 ,不,不用用 作为这里的记分,而稍微改变一下记分函作为这里的记分,而稍微改变一下记分函数使其为数使其为经过相应的替换后经过相应的替换后本讲稿第十九页,共三十七页把把 标准化,就得到这里的对单样本位置的所谓正态标准化,就得到这里
14、的对单样本位置的所谓正态记分检验统计量记分检验统计量如果观测值的总体分布接近于正态,或者在大样本情况下,可如果观测值的总体分布接近于正态,或者在大样本情况下,可以认为以认为T近似的有标准正态分布近似的有标准正态分布.实际上,对于很小的样本也适实际上,对于很小的样本也适用用.如果记如果记 ,则有,则有 大约等于大约等于 ,也就是说,它和期望正态记分相近,也就是说,它和期望正态记分相近.本讲稿第二十页,共三十七页4.125.187.639.7410.3911.9212.3212.8913.5414.453.882.190.371.742.393.924.324.985.546.4553124678
15、910-0.6045-0.3487-0.11410.22980.47270.74780.90841.09681.33511.69064.125.187.639.7410.3911.9212.3212.8913.5414.458.386.694.872.762.110.580.180.391.041.9510987631245-1.6906-1.3351-1.0968-0.9084-0.7478-0.3487-0.11410.22980.47270.6045Sn=5.41406,T=1.9135,p=0.02783Sn=-4.9346 T=-1.74409 p=0.0405结论结论:拒绝零假设拒
16、绝零假设结论:拒绝零假设结论:拒绝零假设例例3.3 的正态记分检验的正态记分检验本讲稿第二十一页,共三十七页正态记分(正态记分(NS+)相对于)相对于Wilcoxon符号秩检验(符号秩检验(W+)对)对于不同总体分布的于不同总体分布的ARE总体分布总体分布均匀均匀 正态正态 Logistic 重指数重指数 CauchyARE(NS+,W+)+1.047 0.955 0.847 0.708本讲稿第二十二页,共三十七页3.4 Cox-Stuart趋势检验趋势检验例例3.4(数据:(数据:TJAir.txt)天津机场从)天津机场从1995年年1月到月到2003年年12月的月的108个月旅客吞吐量(人
17、次)个月旅客吞吐量(人次)54379 45461 55408 59712 60776 57635 63335 71296 70250 76866 75561 66427 61330 58186 67799 76360 86207 75509 83020 89614 75791 80835 72179 61520 66726 60629 68549 73310 80719 67759 70352 82825 70541 74631 68938 53318 62653 58578 63292 69535 73379 62859 72873 87260 67559 76647 70590 58935
18、 58161 64057 63051 58807 63663 57367 70854 79949 66992 80140 62260 55942 58367 56673 61039 74958 85859 67263 87183 97575 79988 88501 68600 58442 68955 56835 67021 81547 85118 70145 95080 106186 86103 88548 70090 65550 69223 85138 89799 99513 98114 68172 97366 116820 95665 109881 87068 75362 88268 85
19、183 87909 79976 27687 50178 100878 131788 116293 120770 104958 109603本讲稿第二十三页,共三十七页 plot(x,xlab=Month,ylab=Number of Passenger)lines(x)本讲稿第二十四页,共三十七页主要有三种检验:主要有三种检验:(1)H0:无增长趋势;:无增长趋势;H1:有增长趋势:有增长趋势.(2)H0:无减少趋势;:无减少趋势;H1:有减少趋势:有减少趋势.(3)H0:无趋势;:无趋势;H1:有增长或减少趋势:有增长或减少趋势.形式上,该检验问题可以重新叙述为:假定独立观形式上,该检验问题
20、可以重新叙述为:假定独立观测值测值 分别来自分布为分别来自分布为 的总体,这里的总体,这里 对称于零点对称于零点.上面第一个单边检验为上面第一个单边检验为 ,对,对 (至少一个不等式是严格的)(至少一个不等式是严格的).本讲稿第二十五页,共三十七页可以把每个观测值和相隔大约可以把每个观测值和相隔大约 的另一个观测值配对的另一个观测值配对比较,因此大约有比较,因此大约有 个对子个对子.然后看增长的对子和减少然后看增长的对子和减少的对子各有多少来判断总的趋势的对子各有多少来判断总的趋势.具体做法为,取具体做法为,取 和和 组成一对组成一对 ,这里,这里用每一对的两元素差用每一对的两元素差 的符号来
21、衡量增减的符号来衡量增减.令令 为正的为正的 的数目,而令的数目,而令 为负的为负的 的数目的数目.显然当正号显然当正号太多时,即太多时,即 很大时,有下降趋势很大时,有下降趋势,反之,则有增长趋反之,则有增长趋势势.本讲稿第二十六页,共三十七页类似于符号检验,对于上面类似于符号检验,对于上面1,2,3三种检验,分别取检验统三种检验,分别取检验统计量计量 .这里这里在例在例3.4中,由于中,由于 ,表明可能有增长的趋,表明可能有增长的趋势,考虑检验:势,考虑检验:H0:无增长趋势;:无增长趋势;H1:有增长趋势:有增长趋势.本讲稿第二十七页,共三十七页Cox-Stuart趋势检验的过程总结如下
22、:趋势检验的过程总结如下:零假设:零假设:H0备择假设:备择假设:H1检验统计量检验统计量(K)p值值H0:无增长趋势:无增长趋势H1:有增长趋势有增长趋势H0:无减少趋势:无减少趋势H1:有减少趋势有减少趋势H0:无趋势:无趋势H1:有增长或减有增长或减少趋势少趋势大样本时,用近似的正态统计量大样本时,用近似的正态统计量 作出结论作出结论本讲稿第二十八页,共三十七页关于随机性的游程检验(关于随机性的游程检验(run testrun test)游程检验方法是检验一个取两个值的变量的这两游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的个值的出现是否是随机的.例例1:假定下面是由:
23、假定下面是由0和和1组成的一个这种变量的组成的一个这种变量的样本(数据样本(数据run1.sav):):0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0其中相同的其中相同的0(或相同的(或相同的1)在一起称为一个游程)在一起称为一个游程(单独的(单独的0或或1也算)也算).这个数据中有这个数据中有4个个0组成的游程和组成的游程和3个个1组成的游程。组成的游程。一共是一共是R=7个游程。其中个游程。其中0的个数为的个数为m=15,而,而1的个数为的个数为n=10.本讲稿第二十九页,共三十七页例例2(数据:(数据:run01.txt)假定我们掷一个
24、硬币,)假定我们掷一个硬币,以概率以概率p出现正面(记为出现正面(记为1),以概率),以概率1-p出现反面出现反面(记为(记为0);这是一个);这是一个Bernoulli试验,如果这个试试验,如果这个试验是随机的,则不大可能出现许多验是随机的,则不大可能出现许多1或许多或许多0连在连在一起,也不可能一起,也不可能0和和1交替出现的太频繁交替出现的太频繁.例如,下例如,下面为一例这样的结果面为一例这样的结果0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 1 1 1 1 0 0 则上面这组数中有则上面这组数中有3个个0游程,游程,2个个1游程,一共游程,一共5个游程个游程.0的
25、总个数为的总个数为m=13,1的总个数的总个数n=10,总,总的试验次数的试验次数N=m+n=23.本讲稿第三十页,共三十七页出现出现0和和1的的这样一个过程可以看成是参数的的这样一个过程可以看成是参数为某未知为某未知p的的Bernoulli试验。但在给定了试验。但在给定了m和和n之后,在之后,在0和和1的出现是随机的零假设之下,的出现是随机的零假设之下,R的条件分布就和这个参数无关了。根据初等的条件分布就和这个参数无关了。根据初等概率论,概率论,R的分布可以写成(令的分布可以写成(令N=m+n)本讲稿第三十一页,共三十七页关于随机性的游程检验(关于随机性的游程检验(run testrun t
26、est)于是就可以算出在零假设下有关于是就可以算出在零假设下有关R的概率,以的概率,以及进行有关的检验了。利用上面公式可进行及进行有关的检验了。利用上面公式可进行精确检验;也可以利用大样本的渐近分布和精确检验;也可以利用大样本的渐近分布和利用利用Monte Carlo方法进行检验。利用上面数方法进行检验。利用上面数据的结果是据的结果是 本讲稿第三十二页,共三十七页关于随机性的游程检验(关于随机性的游程检验(run testrun test)当然,游程检验并不仅仅用于只取两个值的变当然,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小于某量,它还可以用于某个连续变量的取值小
27、于某个值及大于该值的个数(类似于个值及大于该值的个数(类似于0和和1的个数)的个数)是否随机的问题。看下面例子。是否随机的问题。看下面例子。例例(run2.sav):从某装瓶机出来的从某装瓶机出来的30盒化妆品盒化妆品的重量如下(单位克)的重量如下(单位克)71.6 71.0 71.8 70.3 70.5 72.9 71.0 71.0 70.1 71.8 71.9 70.3 70.9 69.3 71.2 67.3 67.6 67.7 67.6 68.1 68.0 67.5 69.8 67.5 69.7 70.0 69.1 70.4 71.0 69.9为了看该装瓶机是否工作正常,首先需要验证为了
28、看该装瓶机是否工作正常,首先需要验证是否大于和小于中位数的个数是否是随机的是否大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。(零假设为这种个数的出现是随机的)。本讲稿第三十三页,共三十七页关于随机性的游程检验(关于随机性的游程检验(run testrun test)如果把小于中位数的记为如果把小于中位数的记为0 0,否则记为,否则记为1 1,上面数据变成下面的,上面数据变成下面的0 01 1序列序列1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 这就归为上面的问题。当然这里进行这就归为上面的问题。当
29、然这里进行这种变换只是为了易于理解。实际计这种变换只是为了易于理解。实际计算时,用不着这种变换,计算机会自算时,用不着这种变换,计算机会自动处理这个问题的。动处理这个问题的。直接利用这个数据,通过直接利用这个数据,通过SPSSSPSS,得到下,得到下面游程检验结果的输出。面游程检验结果的输出。本讲稿第三十四页,共三十七页 source(ns.R)x=read.table(E:/data/EuroAlc.txt)x V11 4.122 5.813 7.634 9.745 10.396 11.927 12.328 12.899 13.5410 14.45 y=x1:10,本讲稿第三十五页,共三十七
30、页 n=length(y)ns(x,8)$p1 0.02783824$T1 1.913559$s 1-0.6045853-0.3487557-0.1141853 0.2298841 0.4727891 0.7478586 0.9084579 1.0968036 1.3351777 1.6906216本讲稿第三十六页,共三十七页ns=function(x,m0)x1=y-m0;r=rank(abs(x1);s=qnorm(0.5*(1+r/(n+1)*sign(x1);tt=sum(s)/sqrt(sum(s2);list(p=pnorm(tt,low=F),T=tt,s=s)本讲稿第三十七页,共三十七页