《MBA统计学非参数检验.ppt》由会员分享,可在线阅读,更多相关《MBA统计学非参数检验.ppt(91页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、MBA统计学非参数检统计学非参数检验验第十六章 非参数检验非参数检验 16.1 关于非参数的一些常识关于非参数的一些常识l经典统计的多数检验都假定了总经典统计的多数检验都假定了总体的背景分布。体的背景分布。l但在总体未知时,如果假定的总但在总体未知时,如果假定的总体和真实总体不符,那么就不适体和真实总体不符,那么就不适宜用通常的检验宜用通常的检验l这时如果利用传统的假定分布已这时如果利用传统的假定分布已知的检验,就会产生错误甚至灾知的检验,就会产生错误甚至灾难。难。l无需假定总体分布的具体形式,无需假定总体分布的具体形式,仅仅依赖于数据观测值的相对大仅仅依赖于数据观测值的相对大小小(秩秩)或零
2、假设下等可能的概率或零假设下等可能的概率等和数据本身的具体总体分布无等和数据本身的具体总体分布无关的性质进行的检验都称为关的性质进行的检验都称为非参非参数检验数检验(nonparametric testing)。16.1 关于非参数的一些常识关于非参数的一些常识l这些非参数检验在总体分布未知时有很这些非参数检验在总体分布未知时有很大的优越性。它总是比传统检验安全。大的优越性。它总是比传统检验安全。l在总体分布形式已知时,非参数检验不在总体分布形式已知时,非参数检验不如传统方法效率高。这是因为非参数方如传统方法效率高。这是因为非参数方法利用的信息要少些。往往在传统方法法利用的信息要少些。往往在传
3、统方法可以拒绝零假设的情况,非参数检验无可以拒绝零假设的情况,非参数检验无法拒绝。法拒绝。l但非参数统计在总体未知时效率要比传但非参数统计在总体未知时效率要比传统方法要高,有时要高很多。是否用非统方法要高,有时要高很多。是否用非参数统计方法,要根据对总体分布的了参数统计方法,要根据对总体分布的了解程度来确定。解程度来确定。 l这里介绍一些非参数检验。这里介绍一些非参数检验。l关于非参数方法的确切定义并不关于非参数方法的确切定义并不很明确。我们就其最广泛的意义很明确。我们就其最广泛的意义来理解。来理解。l在计算中,诸如列联表分析中的在计算中,诸如列联表分析中的许多问题都有精确方法,许多问题都有精
4、确方法,Monte Carlo抽样方法和用于大样本的抽样方法和用于大样本的渐近方法等选择。精确方法比较渐近方法等选择。精确方法比较费时间,后两种要粗糙一些,但费时间,后两种要粗糙一些,但要快些。要快些。 秩(秩(rank) l非参数检验中秩是最常使用的概非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一念。什么是一个数据的秩呢?一般来说,秩就是该数据按照升幂般来说,秩就是该数据按照升幂排列之后,每个观测值的位置。排列之后,每个观测值的位置。例如我们有下面数据例如我们有下面数据Xi159183178513719Ri75918426310这下面一行(记为这下面一行(记为Ri)就是上面一)就是
5、上面一行数据行数据Xi的秩。的秩。 秩(秩(rank) l利用秩的大小进行推断就避免利用秩的大小进行推断就避免了不知道背景分布的困难。这了不知道背景分布的困难。这也是非参数检验的优点。也是非参数检验的优点。l多数非参数检验明显地或隐含多数非参数检验明显地或隐含地利用了秩的性质;但也有一地利用了秩的性质;但也有一些非参数方法没有涉及秩的性些非参数方法没有涉及秩的性质。质。 16.2 单样本检验单样本检验16.2.1单样本中位数单样本中位数(a a-分位数分位数)符号检验符号检验l我们知道某点为中位数我们知道某点为中位数(a a-分位数分位数)意意味着一个数小于该点的概率应该为味着一个数小于该点的
6、概率应该为0.5(a a).l因此,一个观测值小于该点(或与因此,一个观测值小于该点(或与该点之差的该点之差的符号符号为负号)的概率为为负号)的概率为0.5(a a)。l这就是符号检验名称的来源,并与这就是符号检验名称的来源,并与二项分布有关。二项分布有关。例:数据例:数据gs.txtl例例16.1 质量监督部门对商店里面出售的某厂质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于家的西洋参片进行了抽查。对于25包写明为包写明为净重净重100g的西洋参片的称重结果为(单位:的西洋参片的称重结果为(单位:克):克):99.05 100.25 102.56 99.15 104.89 10
7、1.86 96.37 96.79 99.3796.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.79数据数据gs.txtl样本中位数为样本中位数为m=98.36。因此,。因此,人们怀疑厂家包装的西洋参片份人们怀疑厂家包装的西洋参片份量不足。由于对于这些重量的总量不足。由于对于这些重量的总体分布不清楚,决定对其进行符体分布不清楚,决定对其进行符号检验。需要检验的是:号检验。需要检验的是:01:100:100HmHm数据数据gs.txtl按照零假设,每个观测值
8、(每包西按照零假设,每个观测值(每包西洋参的净重)大于中位数洋参的净重)大于中位数m0=100g的机会和小于的机会和小于100g的概率都是的概率都是0.5。这服从二项分布这服从二项分布Bin(25,0.5)。l重于重于100g的只有的只有8包。这样的二项分包。这样的二项分布变量小于或等于布变量小于或等于8的概率为的概率为0.05388。这就是。这就是p-值。值。l因此因此, 对于水平对于水平a a=0.05, 根据这个符根据这个符号检验,没有充分的证据拒绝零假号检验,没有充分的证据拒绝零假设。设。数据数据gs.txtBinomial Test 1008.32251.00Group 1Group
9、 2TotalgsweightCategoryNObservedProp.Test Prop.Exact Sig.(2-tailed)PointProbabilitySPSS输出的结果在下面表格中。从输出的结果在下面表格中。从该表格可以看出精确的双边检验的该表格可以看出精确的双边检验的p-值值=0.108(精确地为(精确地为0.1078);也);也就是说,我们的单尾检验的就是说,我们的单尾检验的p-值为值为其一半。其一半。数据数据gs.txt另一种输出来自于另一种输出来自于SPSS的另一种选的另一种选项:项:Test Statisticsb.108a.054.032Exact Sig. (2-
10、tailed)Exact Sig. (1-tailed)Point Probabilitym - gsweightBinomial distribution used.a. Sign Testb. SPSS软件使用软件使用 l这里有两种选项方式:1.以数据gs.sav为例。直接使用SPSS选项AnalyzeNonparametric TestsBinomial,再把变量gsweight选入Test Variable List,然后在下面Define Dichotomy的Cut point输入100(克),在下面Test Proportion输入p0=0.50(零假设大于100小时的比例);还可
11、以点击Exact来选择精确检验,渐近检验和Monte Carlo方法等,然后OK即可得到前面显示的结果。SPSS软件使用软件使用 2. 数据gs.sav有一列(变量名为m),这是重复零假设的100g使得m的长度和gsweight一样。然后利用选项AnalyzeNonparametric TestsRelated Samples,再把变量gsweight和m同时选入Test Pair(s) List之中,再在下面选Sign及在Exact中选Exact;然后回到主对话框,OK即可。得出前面的第二个输出。16.2 单样本检验单样本检验16.2.2单样本位置参数的单样本位置参数的Wilcoxon符号秩
12、检验符号秩检验 l符号检验只用了差的符号,但没符号检验只用了差的符号,但没有利用差值的大小。有利用差值的大小。lW i l c o x o n 符 号 秩 检 验符 号 秩 检 验(Wilcoxon signed-rank test) 把差的绝对值的秩分别按照不同把差的绝对值的秩分别按照不同的符号相加作为其检验统计量。的符号相加作为其检验统计量。l它利用了更多的信息。它利用了更多的信息。 16.2 单样本检验单样本检验16.2.2单样本位置参数的单样本位置参数的Wilcoxon符号秩检验符号秩检验 lWilcoxon符号秩检验需要一点总体符号秩检验需要一点总体分布的性质;它要求假定样本点来分布
13、的性质;它要求假定样本点来自连续对称总体分布;而符号检验自连续对称总体分布;而符号检验不需要知道任何总体分布的性质。不需要知道任何总体分布的性质。l在对称分布中,总体中位数和总体在对称分布中,总体中位数和总体均值是相等的;因此,对于总体中均值是相等的;因此,对于总体中位数的检验,等价于对于总体均值位数的检验,等价于对于总体均值的检验。的检验。 l假定假定x1,x2, xn为来自连续对称总体。为来自连续对称总体。如果零检验为中位数(均值)如果零检验为中位数(均值)m = m0。l把满足把满足xi-m00的的|xi-m0|的秩求和,并用的秩求和,并用W+表示。如果表示。如果m0的确的确是中位数,那
14、么,是中位数,那么,W-和和W-应大体差不多。应大体差不多。l如果如果W-或者或者W+过大或过小,则应该怀过大或过小,则应该怀疑中位数疑中位数m = m0的零假设。的零假设。l令令W=min(W-,W+),则当,则当W太小时,应太小时,应该拒绝零假设。这个该拒绝零假设。这个W就是就是Wilcoxon符符号秩检验统计量。号秩检验统计量。例:数据例:数据gs.txtl例例16.1 质量监督部门对商店里面出售的某厂质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于家的西洋参片进行了抽查。对于25包写明为包写明为净重净重100g的西洋参片的称重结果为(单位:的西洋参片的称重结果为(单位:克)
15、:克):99.05 100.25 102.56 99.15 104.89 101.86 96.37 96.79 99.3796.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.7901:100:100HmHm例例16.1:数据:数据gs.txt(继续)(继续)l利用利用SPSS,很容易得到该数据的,很容易得到该数据的Wilcoxon符号秩检验结果符号秩检验结果 (Wilcoxon符号秩检验精确符号秩检验精确(单尾)的(单尾)的p-值为值为0.047 ):Te
16、st Statisticsb-1.682a.093.095.047.002ZAsymp. Sig. (2-tailed)Exact Sig. (2-tailed)Exact Sig. (1-tailed)Point Probabilitym - gsweightBased on negative ranks.a. Wilcoxon Signed Ranks Testb. 软件使用说明软件使用说明 l利用例16.1数据(gs.txt或gs.sav)。该数据有一列(变量名为m),这是重复零假设的100g使得m的长度和gsweight一样。然后利用选项AnalyzeNonparametric Tes
17、tsRelated Samples,再把变量gsweight和m同时选入Test Pair(s) List之中,再在下面选Wilcoxon及在Exact中选Exact;再回到主对话框,OK即可。 16.2.3 16.2.3 单样本单样本Kolmogorov-Smirnov检验检验 l单样本的单样本的Kolmogorov-Smirnov检验(检验(K-S检验)是用来检验一个数据的观测累积分布检验)是用来检验一个数据的观测累积分布是否是已知的理论分布。是否是已知的理论分布。l这些作为零假设的理论分布在这些作为零假设的理论分布在SPSS的选项中的选项中有正态分布,有正态分布,Poisson分布,均匀
18、分布和指数分布,均匀分布和指数分布。在分布。在SPSS软件中对于是否是正态分布或软件中对于是否是正态分布或均匀分布的检验统计量为均匀分布的检验统计量为100max()() ,()()iiiiiZnS XF XS XF X数据数据ksdata.sav的的K-S检验检验 l我们检验它是否是我们检验它是否是正态分布、均匀分布和指正态分布、均匀分布和指数分布数分布。输出结果分别显示在下面三个表中:。输出结果分别显示在下面三个表中:One-Sample Kolmogorov-Smirnov Test501.00211.07647.182.173-.1821.284.074NMeanStd. Deviat
19、ionNormal Parametersa,bAbsolutePositiveNegativeMost ExtremeDifferencesKolmogorov-Smirnov ZAsymp. Sig. (2-tailed)XTest distribution is Normal.a. Calculated from data.b. 单边检验的单边检验的p-值等于值等于0.074/2=0.037(渐(渐近检验)和近检验)和0.069/2=0.0345(精确检(精确检验)。如果按照显著性水平为验)。如果按照显著性水平为0.05的标的标准,可以拒绝产生数据的总体为正态分准,可以拒绝产生数据的总体为
20、正态分布的零假设。布的零假设。 One-Sample Kolmogorov-Smirnov Test 250.024.12.450.450-.0203.182.000NMinimumMaximumUniform Parametersa,bAbsolutePositiveNegativeMost ExtremeDifferencesKolmogorov-Smirnov ZAsymp. Sig. (2-tailed)XTest distribution is Uniform.a. Calculated from data.b. p-值等于值等于0.000(渐近检验)和(渐近检验)和0.000(精确
21、检验)。如果按照显著性水(精确检验)。如果按照显著性水平为平为0.05的标准,可以拒绝产生数的标准,可以拒绝产生数据的总体为均匀分布的零假设。据的总体为均匀分布的零假设。 One-Sample Kolmogorov-Smirnov Test 3501.0021.103.103-.052.728.664NMeanExponential parameter.a,bAbsolutePositiveNegativeMost ExtremeDifferencesKolmogorov-Smirnov ZAsymp. Sig. (2-tailed)XTest Distribution is Exponent
22、ial.a. Calculated from data.b. p-值等于值等于0.664/2=0.332(渐近检验)(渐近检验)和和0.662/2=0.331(精确检验)。如(精确检验)。如果按照显著性水平为果按照显著性水平为0.05的标准,的标准,不能拒绝产生数据的总体为指数分不能拒绝产生数据的总体为指数分布的零假设。布的零假设。 警告警告l经常有人在经常有人在Kolmogorov-Smirnov检验中,当检验不能拒绝总体分布检验中,当检验不能拒绝总体分布为某分布时,来为某分布时,来“接受接受”或或“证明证明”该样本来自该分布。这是错误的。该样本来自该分布。这是错误的。l比如我们有由比如我们
23、有由1、2、3、4、5五个五个数目组成的数据,我们分别检验该数目组成的数据,我们分别检验该数据是否是正态分布、均匀分布、数据是否是正态分布、均匀分布、Poisson分布或指数分布。结果归分布或指数分布。结果归纳为下表(读者可以自己练习去算)纳为下表(读者可以自己练习去算)Kolmogorov-Smirnov单样本分布检验单样本分布检验零假设的分布零假设的分布 (渐近双边检验的)(渐近双边检验的)p-值值正态分布正态分布1.000均匀分布均匀分布0.988Poisson分布分布1.000指数分布指数分布0.806根据此表,没有足够证据来拒绝任何根据此表,没有足够证据来拒绝任何一个零假设。难道我们
24、可以随意一个零假设。难道我们可以随意“接接受受”该总体为其中任一个分布吗?该总体为其中任一个分布吗? SPSSSPSS软件使用说明软件使用说明 l使用我们的使用我们的ksdata.sav数据。数据。l选项为选项为AnalyzeNonparametric Tests1 Sample K-S。l然后把变量(这里是然后把变量(这里是x)选入)选入Variable List。再在下面再在下面Test Distribution选中零假设的分布选中零假设的分布( N o r m a l 、 P o i s s o n 、 U n i f o r m 和和Exponential)作为零假设。)作为零假设。l
25、在点在点Exact时打开的对话框中可以选择精确方时打开的对话框中可以选择精确方法(法(Exact),),Monte Carlo抽样方法抽样方法(Monte Carlo)或用于大样本的渐近方法)或用于大样本的渐近方法(Asymptotic only)。最后)。最后OK即可。即可。 16.2.4 16.2.4 关于随机性的游程检验关于随机性的游程检验(run test)l游程检验方法是检验一个取两个值的变量游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的。假定下的这两个值的出现是否是随机的。假定下面是由面是由0和和1组成的一个这种变量的样本组成的一个这种变量的样本(数据(数据run
26、1.sav):):l0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0l其中相同的其中相同的0(或相同的(或相同的1)在一起称为一)在一起称为一个游程(单独的个游程(单独的0或或1也算)。也算)。l这个数据中有这个数据中有4个个0组成的游程和组成的游程和3个个1组成组成的游程。一共是的游程。一共是R=7个游程。其中个游程。其中0的个数的个数为为m=15,而,而1的个数为的个数为n=10。 关于随机性的游程检验(关于随机性的游程检验(run testrun test) l出现出现0和和1的的这样一个过程可以看成是参的的这样一个过程可以看成是参数为某
27、未知数为某未知p的的Bernoulli试验。但在给定试验。但在给定了了m和和n之后,在之后,在0和和1的出现是随机的零假的出现是随机的零假设之下,设之下,R的条件分布就和这个参数无关了。的条件分布就和这个参数无关了。根据初等概率论,根据初等概率论,R的分布可以写成(令的分布可以写成(令N=m+n)11211(2 ),11112211(21)mnkkP RkNnmnmnkkkkP RkNn关于随机性的游程检验(关于随机性的游程检验(run testrun test) l于是就可以算出在零假设下有关于是就可以算出在零假设下有关R的概率,的概率,以及进行有关的检验了。利用上面公式可以及进行有关的检验
28、了。利用上面公式可进行精确检验;也可以利用大样本的渐近进行精确检验;也可以利用大样本的渐近分布和利用分布和利用Monte Carlo方法进行检验。利方法进行检验。利用上面数据的结果是用上面数据的结果是 Runs Test.5000257-2.345.019.017.006Test ValueaTotal CasesNumber of RunsZAsymp. Sig. (2-tailed)Exact Sig. (2-tailed)Point ProbabilityXUser-specified.a. 关于随机性的游程检验(关于随机性的游程检验(run testrun test) l当然,游程检验
29、并不仅仅用于只取两个值的变当然,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小于某量,它还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于个值及大于该值的个数(类似于0和和1的个数)的个数)是否随机的问题。看下面例子。是否随机的问题。看下面例子。l例例 (run2.sav): 从某装瓶机出来的从某装瓶机出来的30盒化妆品盒化妆品的重量如下(单位克)的重量如下(单位克) l71.6 71.0 71.8 70.3 70.5 72.9 71.0 71.0 70.1 71.8 71.9 70.3 70.9 69.3 71.2 67.3 67.6 67.7 67.6
30、68.1 68.0 67.5 69.8 67.5 69.7 70.0 69.1 70.4 71.0 69.9l为了看该装瓶机是否工作正常,首先需要验证为了看该装瓶机是否工作正常,首先需要验证是否大于和小于中位数的个数是否是随机的是否大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。(零假设为这种个数的出现是随机的)。 关于随机性的游程检验(关于随机性的游程检验(run testrun test) l如果把小于中位数的记为如果把小于中位数的记为0 0,否则记,否则记为为1 1,上面数据变成下面的,上面数据变成下面的0 01 1序列序列l1 1 1 1 1 1 1 1 0 1
31、1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 l这就归为上面的问题。当然这里进行这就归为上面的问题。当然这里进行这种变换只是为了易于理解。实际计这种变换只是为了易于理解。实际计算时,用不着这种变换,计算机会自算时,用不着这种变换,计算机会自动处理这个问题的。动处理这个问题的。l直接利用这个数据,通过直接利用这个数据,通过SPSSSPSS,得到,得到下面游程检验结果的输出。下面游程检验结果的输出。 Runs Test70.201515308-2.787.005.005.002Test ValueaCases = Test ValueTotal CasesNumb
32、er of RunsZAsymp. Sig. (2-tailed)Exact Sig. (2-tailed)Point ProbabilityLENGTHMediana. SPSSSPSS软件使用说明软件使用说明 l用用run2.sav数据。数据。l选项为选项为AnalyzeNonparametric TestsRuns。l然后把变量(这里是然后把变量(这里是length)选入)选入Variable List。再在下面再在下面Cut Point选中位数(选中位数(Median)。当然,)。当然,也可以选其他值,如均值(也可以选其他值,如均值(Mean),众数),众数(Mode)或任何你愿意的数
33、目(放在)或任何你愿意的数目(放在Custom)。)。注意在对前面的由注意在对前面的由0和和1组成的序列(组成的序列(run1.sav进进行随机性检验时,行随机性检验时,要选均值要选均值(为什么?)。为什么?)。l在点在点Exact时打开的对话框中可以选择精确方法时打开的对话框中可以选择精确方法(Exact),),Monte Carlo抽样方法(抽样方法(Monte Carlo)或用于大样本的渐近方法()或用于大样本的渐近方法(Asymptotic only)。最后)。最后OK即可。即可。16.3 两独立样本检验两独立样本检验16.3.1 比较两总体中位数的非参数检验比较两总体中位数的非参数检
34、验: Wilcoxon (Mann-Whitney)秩和检验秩和检验l为检验两总体的中位数是否相等,常用为检验两总体的中位数是否相等,常用Wilcoxon (或称或称Mann-Whitney)秩和检秩和检验,其原理很简单验,其原理很简单l假定两个个样本分别有假定两个个样本分别有m个和个和n个观测值。个观测值。把两个样本混合后把这把两个样本混合后把这m+n个观测值升个观测值升幂排序,幂排序,l记下每个观测值在混合排序下面的秩。记下每个观测值在混合排序下面的秩。之后分别把两个样本所得到的秩相加。之后分别把两个样本所得到的秩相加。记第一个样本观测值的秩的和为记第一个样本观测值的秩的和为WX而第而第二
35、个样本秩的和为二个样本秩的和为WY。这两个值可以互。这两个值可以互相推算,称为相推算,称为Wilcoxon统计量。统计量。l该统计量的分布和两个总体分布该统计量的分布和两个总体分布无关。由此分布可以得到无关。由此分布可以得到p-值。值。l直观上看,如果直观上看,如果WX与与WY之中有之中有一个显著地大,则可以选择拒绝一个显著地大,则可以选择拒绝零假设。零假设。l该检验需要的唯一假定就是两个该检验需要的唯一假定就是两个总体的分布有类似的形状(不一总体的分布有类似的形状(不一定对称)。定对称)。例子例子l下面数据(下面数据(GDP.txt)是地区)是地区1的十个城市和地的十个城市和地区区2的的15
36、个城市的人均个城市的人均GDP(元)。现在要想(元)。现在要想以此作为两个样本来检验两个地区的人均以此作为两个样本来检验两个地区的人均GDP的中位数的中位数m1和和m2是否一样,即双尾检验是否一样,即双尾检验H0: m1=m2对对Ha: m1m2。由于地区。由于地区2的人均的人均GDP的中位数大于地区的中位数大于地区1的中位数,因此也可以做的中位数,因此也可以做单尾检验单尾检验H0: m1=m2对对Ha: m1m2。l地区地区1:3223452638362781598232164710562823034618l地区地区2:539139834076594147484600632545345526
37、569970085403667855375257Test Statisticsb32.00087.000-2.385.017.016a.016.008.001Mann-Whitney UWilcoxon WZAsymp. Sig. (2-tailed)Exact Sig.2*(1-tailed Sig.)Exact Sig. (2-tailed)Exact Sig. (1-tailed)Point Probability人均GDPNot corrected for ties.a. Grouping Variable: 地区b. SPSS的输出的输出l该结果头两行该结果头两行显示了显示了Mann
38、-Whitney和和Wilcoxon统计量的值。另外和我们需要结果统计量的值。另外和我们需要结果的相关部分为:对于双尾检验的相关部分为:对于双尾检验H0: m1=m2对对Ha: m1m2,p-值为值为0.016(见(见“Exact Sig. (2-tailed)”);而对于单尾检验;而对于单尾检验H0: m1=m2对对Ha: m1 Median= MedianPRICE1.002.003.00GROUPhouse.txt数据数据这里这里Test Statisticsc7522.10005.561a2.062.058b.052.064NMedianChi-SquaredfAsymp. Sig.S
39、ig.Lower BoundUpper Bound99% ConfidenceIntervalMonte CarloSig.PRICE0 cells (.0%) have expected frequencies less than 5.The minimum expected cell frequency is 9.9.a. Based on 10000 sampled tables with starting seed299883525.b. Grouping Variable: GROUPc. SPSSSPSS软件使用说明软件使用说明 l使用使用house.sav数据。数据。l选项为选项
40、为AnalyzeNonparametric TestsK Independent Samples。l把变量(这里是把变量(这里是price)选入)选入Test Variable List;再把数据中用;再把数据中用1、2、3来分类的变量来分类的变量group输入输入Grouping Variable,在,在Define Groups输入输入1、2、3。l在下面在下面Test Type选中选中Median。l在点在点Exact时打开的对话框中可以选择精确时打开的对话框中可以选择精确方法(方法(Exact),),Monte Carlo抽样方法抽样方法(Monte Carlo)或用于大样本的渐近方法
41、)或用于大样本的渐近方法(Asymptotic only)。最后)。最后OK即可即可 16.5 多个相关样本的检验多个相关样本的检验 16.5.1 Friedman秩和检验秩和检验 l前面讨论了两因子试验设计数据前面讨论了两因子试验设计数据的方差分析,那里所用的的方差分析,那里所用的F F检验需检验需要假定总体的分布为正态分布。要假定总体的分布为正态分布。l有一种非参数方差分析方法,称有一种非参数方差分析方法,称为为Friedman Friedman (两因子)秩和检验,(两因子)秩和检验,或或FriedmanFriedman方差分析。它适用于方差分析。它适用于两个因子的各种水平的组合都两个因
42、子的各种水平的组合都仅仅有一个观测值有一个观测值的情况。的情况。Friedman秩和检验秩和检验 l假定第一个因子有假定第一个因子有k k个水平(称为处个水平(称为处理,理,treatmenttreatment),第二个因子有),第二个因子有b b个个水平(称为区组);因此一共有水平(称为区组);因此一共有k kb bkbkb个观测值。个观测值。l这里之所以称一个因子为处理,是因这里之所以称一个因子为处理,是因为这是我们想要看该因子各水平是否为这是我们想要看该因子各水平是否对试验结果有显著的不同(它的各个对试验结果有显著的不同(它的各个水平的观测值也就是本小节的多个相水平的观测值也就是本小节的
43、多个相关样本)。而另一个因子称为区组,关样本)。而另一个因子称为区组,不同的区组也可能对结果有影响。下不同的区组也可能对结果有影响。下面是一个例子。面是一个例子。数据数据fert.txtl这里有三种肥料作为第一个因子(肥料因子)的这里有三种肥料作为第一个因子(肥料因子)的三个水平;而四种土壤为第二个因子(土壤因子)三个水平;而四种土壤为第二个因子(土壤因子)的四个水平。感兴趣于是否这三种肥料对于某作的四个水平。感兴趣于是否这三种肥料对于某作物的产量有区别。称肥料因子为处理,而土壤因物的产量有区别。称肥料因子为处理,而土壤因子为区组。数据在下表中(表中数字为相应组合子为区组。数据在下表中(表中数
44、字为相应组合的产量,单位公斤)。的产量,单位公斤)。 肥料种类肥料种类肥料肥料A肥料肥料B肥料肥料C土土壤壤类类型型土壤土壤1224668土壤土壤2253648土壤土壤3182120土壤土壤4111319Friedman秩和检验秩和检验 lFriedman秩和检验是关于位置的,和秩和检验是关于位置的,和Kruskal-Wallis检验类似,形式上,假定这些样本有连续检验类似,形式上,假定这些样本有连续分布分布F1,Fk,零假设为,零假设为H0:F1=Fk,备选假,备选假设为设为Ha:Fi(x)=F(x+q qi),i=1,k,这里,这里F为某连为某连续分布函数,而且这些参数续分布函数,而且这些
45、参数q qi并不相等。并不相等。l虽然这和以前的虽然这和以前的Kruskal-Wallis检验一样,但是检验一样,但是由于区组的影响由于区组的影响, 要首先在每一个区组中计算各要首先在每一个区组中计算各个处理的秩;再把每一个处理在各区组中的秩相个处理的秩;再把每一个处理在各区组中的秩相加加.如果如果Rij表示在表示在j个区组中第个区组中第i个处理的秩。则秩个处理的秩。则秩按照处理而求得的和为按照处理而求得的和为 1,1,.,biijjRRikFriedman秩和检验秩和检验 l这样做的目的是在每个区组内比较这样做的目的是在每个区组内比较处理。例如处理。例如, 同个年龄段中比较药同个年龄段中比较
46、药品的疗效比不分年龄来比较疗效要品的疗效比不分年龄来比较疗效要合理;在同一个部位比较不同的材合理;在同一个部位比较不同的材料要比混合起来比较要合理等等。料要比混合起来比较要合理等等。这里要引进的这里要引进的Friedman统计量定统计量定义为义为221112(1)123 (1)(1)2(1)kkiiiib kQRRb kbk kbk kFriedman秩和检验秩和检验 221112(1)123 (1)(1)2(1)kkiiiib kQRRb kbk kbk k第一个式子表明,如果各个处理很第一个式子表明,如果各个处理很不一样,和的平方就会很大,结果不一样,和的平方就会很大,结果就显著。第二个公
47、式是为了计算方就显著。第二个公式是为了计算方便而导出的。它有近似的(有便而导出的。它有近似的(有k-1个自由度的)个自由度的)c c2分布。分布。 fert.txt数据数据Test Statisticsa46.5002.039.042.037NChi-SquaredfAsymp. Sig.Exact Sig.Point ProbabilityFriedman Testa. Ranks1.002.252.75ABCMean RankSPSSSPSS软件使用说明软件使用说明 l使用使用fert.sav数据。数据。l选项为选项为AnalyzeNonparametric TestsK Related
48、Samples。l然后把变量(这里是然后把变量(这里是a、b、c)选入)选入Test Variable List。l在下面在下面Test Type选中选中Friedman。l在点在点Exact时打开的对话框中可以选择精确时打开的对话框中可以选择精确方法(方法(Exact),),Monte Carlo抽样方法抽样方法(Monte Carlo)或用于大样本的渐近方法)或用于大样本的渐近方法(Asymptotic only)。最后)。最后OK即可即可16.5.2 Kendall协同系数检验协同系数检验l实践中常需要按照某些特别的性质来多次实践中常需要按照某些特别的性质来多次对一些个体进行评估或排序;
49、对一些个体进行评估或排序;比如几个比如几个(m个)评估机构对一些(个)评估机构对一些(n个)学校进行个)学校进行排序。排序。人们想要知道,这些机构的不同结人们想要知道,这些机构的不同结果是否一致。如果很不一致,则该评估多果是否一致。如果很不一致,则该评估多少有些随机,意义不大。少有些随机,意义不大。l换句话说,这里想要检验的换句话说,这里想要检验的零假设零假设是:这是:这些对于不同学校的排序是不相关的或者是些对于不同学校的排序是不相关的或者是随机的;而随机的;而备选假设备选假设为:这些对不同学校为:这些对不同学校的排序是正相关的或者是多少一致的。的排序是正相关的或者是多少一致的。Kendall
50、协同系数检验协同系数检验l一个机构对诸个体(学校)的秩(次序)的和为一个机构对诸个体(学校)的秩(次序)的和为1+2+n=n(n+1)/2;所有;所有m个机构对所有个体个机构对所有个体评估的总秩为评估的总秩为mn(n+1)/2;这样对每个个体的平;这样对每个个体的平均秩为均秩为m(n+1)/2。如果记每一个个体的。如果记每一个个体的m个秩个秩(次序)的和为(次序)的和为Ri(i=1,n),),l如果评估是随机的,这些如果评估是随机的,这些Ri与平均秩的差别不会与平均秩的差别不会很大,反之差别会很大,也就是说下面的很大,反之差别会很大,也就是说下面的个体的个体的总秩与平均秩的偏差的平方和总秩与平