《第15章非参数检验PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第15章非参数检验PPT讲稿.ppt(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第15章非参数检验第1页,共64页,编辑于2022年,星期日什么是非参数检验?什么是非参数检验?和数据本身的总体分布无关和数据本身的总体分布无关的检验称为非参数的检验称为非参数检验。检验。不假定总体的具体背景分布形式;不假定总体的具体背景分布形式;多根据数据观测值的多根据数据观测值的相对相对大小建立检验统计量,大小建立检验统计量,然后找到在零假设下这些统计量的分布,看这些统然后找到在零假设下这些统计量的分布,看这些统计量的数据实现是否在零假设下属于小概率事件。计量的数据实现是否在零假设下属于小概率事件。第2页,共64页,编辑于2022年,星期日 t t-检验、方差分析、相关、回归的显著性检验,
2、都检验、方差分析、相关、回归的显著性检验,都需要利用总体分布的信息,因此这些检验都称为参需要利用总体分布的信息,因此这些检验都称为参数检验数检验 而非参数检验由于不涉及总体参数,也不依赖于总体分而非参数检验由于不涉及总体参数,也不依赖于总体分布的形式,因此它与总体分布状况无关,因此非参数检验布的形式,因此它与总体分布状况无关,因此非参数检验又称为无分布检验(又称为无分布检验(distribution-free testdistribution-free test)非参数检验是利用样本数据之间的大小比较以及大小顺非参数检验是利用样本数据之间的大小比较以及大小顺序,对序,对 2 2 个或多个样本所
3、属总体是否相同进行检验个或多个样本所属总体是否相同进行检验第3页,共64页,编辑于2022年,星期日非参数检验常用在以下情况:非参数检验常用在以下情况:(1)样本所在总体的分布状况未知,或知之甚少)样本所在总体的分布状况未知,或知之甚少无法肯定总体分布的性质无法肯定总体分布的性质(2)样本观测值明显偏离正态分布,因而不具备参数检)样本观测值明显偏离正态分布,因而不具备参数检验的应用条件验的应用条件非参数检验具有以下优点:非参数检验具有以下优点:计算简便、直观、易于掌握、检验速度快计算简便、直观、易于掌握、检验速度快第4页,共64页,编辑于2022年,星期日 但当我们所得资料符合参数检验的条件时
4、,非参数检验的但当我们所得资料符合参数检验的条件时,非参数检验的效率始终低于参数检验法,效率始终低于参数检验法,这是因为:这是因为:非参数检验法非参数检验法没有充分利用已知的总体分布信息没有充分利用已知的总体分布信息 也没有充分利用样本提供的信息,也没有充分利用样本提供的信息,因而非参数检验的功因而非参数检验的功效较低,犯效较低,犯型错误的可能性较大型错误的可能性较大第5页,共64页,编辑于2022年,星期日15.1 15.1 符号检验符号检验符号检验(符号检验(Sign TestSign Test):是最简单的非参):是最简单的非参数检验方法之一,通过符号和的数检验方法之一,通过符号和的个数
5、个数来做统计推断,所以称为符号检验。来做统计推断,所以称为符号检验。一个例子:联合国人员在世界上一个例子:联合国人员在世界上6666个大城市个大城市的生活花费指数(以纽约市的生活花费指数(以纽约市19961996年年1212月为月为100100)按由小至大的次序排列如下。)按由小至大的次序排列如下。第6页,共64页,编辑于2022年,星期日66757880818182838383838485858686868687878888888888898989899090919191919293939696969799 100101 102 103 103 104 104 104 105 106 109
6、 109110 110 110111 113 115 116 117 118 155 192第7页,共64页,编辑于2022年,星期日对均值的对均值的t t检验检验问题:假定这是从世界许多大城市中随机抽样而得到的样问题:假定这是从世界许多大城市中随机抽样而得到的样本。本。北京的指数为北京的指数为9999,能否认为北京市在总体平均水平,能否认为北京市在总体平均水平之上?之上?分析:分析:由于是大样本,所以不论总体是否正态,都由于是大样本,所以不论总体是否正态,都可以根据单个样本的可以根据单个样本的t t检验进行分析,检验总体的均值检验进行分析,检验总体的均值是否小于是否小于9999。如果能够认为
7、总体的均值小于。如果能够认为总体的均值小于9999,则可以,则可以知道北京市在总体水平之上。知道北京市在总体水平之上。第8页,共64页,编辑于2022年,星期日SPSSSPSS对均值的对均值的t t检验结果检验结果左侧检验时左侧检验时p p值等于值等于0.257/2=0.12850.257/2=0.1285,因此在,因此在5%5%的显著的显著性水平下不能拒绝总体均值大于等于性水平下不能拒绝总体均值大于等于9999的原假设。从而,的原假设。从而,没有证据表明北京市在没有证据表明北京市在总体总体平均水平之上。平均水平之上。第9页,共64页,编辑于2022年,星期日然而然而此组数据的直方图如下,可以
8、判断总体数据很可能为右此组数据的直方图如下,可以判断总体数据很可能为右偏分布。偏分布。这时中位数比均值更有代表性。这时中位数比均值更有代表性。下面我们来检验下面我们来检验能否认为总体的能否认为总体的中位数中位数小于小于9999。第10页,共64页,编辑于2022年,星期日符号检验的基本原理(左侧检验)符号检验的基本原理(左侧检验)用用M M表示总体中位数。表示总体中位数。表示大于中位数的数据个数。表示大于中位数的数据个数。在这个例子中,需要检验在这个例子中,需要检验M M是否小于是否小于9999。在样本的数据中,如果原假设成立,则大于在样本的数据中,如果原假设成立,则大于9999的数据个的数据
9、个数数 应该比较大。应该比较大。第11页,共64页,编辑于2022年,星期日检验统计量如果如果M M的确是总体的中位数,则每个样本点都以的确是总体的中位数,则每个样本点都以0.50.5的概率小于的概率小于(或大于)(或大于)M M。这显然是一系列。这显然是一系列BernoulliBernoulli试验。大于试验。大于M M的样本点的样本点的个数的个数 与小于与小于M M的个数的个数 都服从二项分布都服从二项分布 B B(n,0.5n,0.5),),二者都可用作检验统计量。二者都可用作检验统计量。因此,假设因此,假设x x服从二项分布服从二项分布 B B(6666,0.50.5)在这个例子中只需
10、要)在这个例子中只需要计算计算如果如果p p值小于值小于a a,则拒绝原假设。,则拒绝原假设。第12页,共64页,编辑于2022年,星期日根据二项分布的计算结果根据二项分布的计算结果在这个例子中大于在这个例子中大于9999的数据个数为的数据个数为2323。在在ExcelExcel单元格中输入单元格中输入“=BINOMDIST(23,66,0.5,1)”=BINOMDIST(23,66,0.5,1)”,可知这一概率(可知这一概率(p p值)为值)为0.009328630.00932863由于由于p p值小于值小于a a,则拒绝原假设。,则拒绝原假设。结论:总体的中位数要小于结论:总体的中位数要小
11、于9999。在这种情况下,可以认为北京的生活指数(在这种情况下,可以认为北京的生活指数(9999)高于)高于世界大城市的中位数世界大城市的中位数第13页,共64页,编辑于2022年,星期日双侧检验时的双侧检验时的p p值值 当零假设为真时,当零假设为真时,不应该太大或太小。不应该太大或太小。如果如果 太大或太小,则可以拒绝原假设。太大或太小,则可以拒绝原假设。p值等于值等于根据给定的显著性水平得出检验结论。根据给定的显著性水平得出检验结论。第14页,共64页,编辑于2022年,星期日右侧检验时的右侧检验时的p p值值 当零假设为真时,当零假设为真时,不应该太大。如果不应该太大。如果 太大,则可
12、以拒绝原假设。太大,则可以拒绝原假设。假设假设x x服从二项分布服从二项分布 B B(n,0.5n,0.5),则),则p p值等值等于于根据给定的显著性水平得出检验结论。根据给定的显著性水平得出检验结论。第15页,共64页,编辑于2022年,星期日符号检验在符号检验在SPSSSPSS中的实现中的实现以上例为例,检验世界花费指数的中位数是否小于以上例为例,检验世界花费指数的中位数是否小于9999,因此提出假设如下:,因此提出假设如下:在在SPSS17.0SPSS17.0中,使用选项中,使用选项Analyze-Nonparametric Analyze-Nonparametric Tests-Bi
13、nomialTests-Binomial,再把变量,再把变量“生活花费指数生活花费指数”选入选入Test Test Variable ListVariable List。然后在下面。然后在下面Define DichotomyDefine Dichotomy的的Cut Cut PointPoint输入输入“99”99”,在下面,在下面Test ProportionTest Proportion输入输入“0.50”0.50”,得到如下对话框。,得到如下对话框。第16页,共64页,编辑于2022年,星期日符号检验的具体步骤:第一步:提出假设 第二步:计算检验统计量()第三步:计算统计量的P值并作出决
14、策。第17页,共64页,编辑于2022年,星期日例15.1的SPSS实现第18页,共64页,编辑于2022年,星期日例例15.115.1的的SPSSSPSS结果结果二项检验类别N观察比例检验比例渐近显著性(双侧)生活花费指数组 19923.35合计661.00a.基于 Z 近似值。在二项检验的结果中,小于等于在二项检验的结果中,小于等于9999的观测值个数有的观测值个数有4343个,大于个,大于9999的有的有2323个,共个,共6666个;所观察的比例分别是个;所观察的比例分别是0.650.65和和0.350.35,检验的比例为,检验的比例为0.50.5。双侧检验的双侧检验的p p值为值为0
15、.0190.019。对于这里的左侧检验,检验的对于这里的左侧检验,检验的p p值为值为0.019/2=0.00950.019/2=0.0095,小于,小于显著性水平显著性水平0.050.05,因此,拒绝零假设。,因此,拒绝零假设。第19页,共64页,编辑于2022年,星期日配对数据比较的符号检验配对数据比较的符号检验成对数据可以采用成对数据可以采用t t检验的方法,但需要有正态性的或检验的方法,但需要有正态性的或者大样本的假设条件。者大样本的假设条件。如果对数据的正态性没有把握,则可以采用非参数的如果对数据的正态性没有把握,则可以采用非参数的方法,例如符号检验。方法,例如符号检验。基本原理:基
16、本原理:一个组分别在实验处理前后接受同样的测试得到的两组一个组分别在实验处理前后接受同样的测试得到的两组数据,或者配对的两个组分别接受直接测试和实验处理后的测试得到的数据,或者配对的两个组分别接受直接测试和实验处理后的测试得到的两组数据是否存在差异,当不能确定总体是否为正态分布时可以使用符两组数据是否存在差异,当不能确定总体是否为正态分布时可以使用符号检验。具体做法是:用第二组数据减去对应的第一组数据,得正数记号检验。具体做法是:用第二组数据减去对应的第一组数据,得正数记为正号、得负数记为负号,然后作单样本的二项分布检验即可判断正负为正号、得负数记为负号,然后作单样本的二项分布检验即可判断正负
17、号数是否存在差异号数是否存在差异。第20页,共64页,编辑于2022年,星期日配对数据符号检验的原理配对数据符号检验的原理双侧检验的原假设为:配对数据差值总体分双侧检验的原假设为:配对数据差值总体分布的中位数为布的中位数为0 0。样本中正差值与负差值的个数应接近各占一样本中正差值与负差值的个数应接近各占一半。半。也可以做单侧检验。也可以做单侧检验。第21页,共64页,编辑于2022年,星期日例15.2实施实施JIT前前15.814.915.215.815.514.61514.915.115.4实施实施JIT后后14.615.515.514.715.214.814.814.615.315.5从实
18、行适时管理(从实行适时管理(JITJIT)的企业中,随机抽取)的企业中,随机抽取1010家进行家进行效益分析,它们在实施效益分析,它们在实施JITJIT前后三年的平均资产报酬率。前后三年的平均资产报酬率。问在问在5 5的显著性水平下,企业在实施的显著性水平下,企业在实施JITJIT前后的资产前后的资产报酬率是否有显著差异?报酬率是否有显著差异?第22页,共64页,编辑于2022年,星期日t检验的结果第23页,共64页,编辑于2022年,星期日数据分布正态性的分析数据分布正态性的分析下图是差值序列的直方图,没有证据表明不是来自正态下图是差值序列的直方图,没有证据表明不是来自正态总体。总体。由于数
19、据个数不多,所以很难对总体的分布作出有把握的由于数据个数不多,所以很难对总体的分布作出有把握的判断。可以用符号检验再进行一次检验。判断。可以用符号检验再进行一次检验。第24页,共64页,编辑于2022年,星期日在在SPSS17.0SPSS17.0中,直接使用选项中,直接使用选项Analyze-Analyze-Nonparametric Tests-2 Related SamplesNonparametric Tests-2 Related Samples,再,再把变量把变量“实施实施JITJIT前前”和和“实施实施JITJIT后后”分别选入分别选入Test PairsTest Pairs的的P
20、air 1Pair 1的的Variable1Variable1和和Variable2Variable2中。中。然后,在选项然后,在选项Test TypeTest Type中选择中选择SignSign,得到如下,得到如下图的对话框。图的对话框。例例15.2 15.2 非参数方法的非参数方法的SPSSSPSS实现实现第25页,共64页,编辑于2022年,星期日例15.2的SPSS实现第26页,共64页,编辑于2022年,星期日频数NJIT后-JIT前差值为负a5差值为正b5结c0合计10a.JIT后 JIT前c.JIT后=JIT前注:数据中有相同的数值,称为结(tie)。第27页,共64页,编辑于
21、2022年,星期日例例15.215.2的的SPSSSPSS结果与分析结果与分析 从上述结果看出,如果从上述结果看出,如果给定显著性水平为给定显著性水平为5%5%,由,由于检验统计量的于检验统计量的p p值值=1.000=1.000大于显著性水平,大于显著性水平,因此不能拒绝原假设,即因此不能拒绝原假设,即没有证据表明企业在实施没有证据表明企业在实施JITJIT前后的资产报酬率的前后的资产报酬率的分布有显著差异。分布有显著差异。检验统计量bJIT后-JIT前精确显著性(双侧)1.000aa.已使用的二项分布。b.符号检验第28页,共64页,编辑于2022年,星期日15.2 Wilcoxon15.
22、2 Wilcoxon符号秩检验符号秩检验 在符号检验中,符号检验只用到它们差值在符号检验中,符号检验只用到它们差值的符号,而对差值数值的大小未能考虑,的符号,而对差值数值的大小未能考虑,因而失去了样本所提供的部分信息。因而失去了样本所提供的部分信息。为改进信息的利用效率,为改进信息的利用效率,WilcoxonWilcoxon提出了提出了符号秩检验法。符号秩检验法。WilcoxonWilcoxon符号秩检验不仅利用了观察值与符号秩检验不仅利用了观察值与零假设的中心位置之差的符号,而且还利零假设的中心位置之差的符号,而且还利用了这些差的绝对值的大小,使检验结果用了这些差的绝对值的大小,使检验结果更
23、加精确。更加精确。第29页,共64页,编辑于2022年,星期日秩(秩(rankrank)非参数检验中秩是最常使用的概念。什么是非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来说,秩就是该数据一个数据的秩呢?一般来说,秩就是该数据按照升序排列之后,每个观测值的位置。按照升序排列之后,每个观测值的位置。下面一行下面一行R Ri i就是上面一行数据就是上面一行数据X Xi i的秩。的秩。Xi159183178513719Ri75918426310第30页,共64页,编辑于2022年,星期日秩(rank)的计算数据中有相同的数值,称为结。结中数字的秩为它们按升幂排列后位置的平均值Xi159
24、173178513719Ri758.518.5426310第31页,共64页,编辑于2022年,星期日提出假设提出假设计算检验统计量计算检验统计量 首先,计算各样本观察值与假定的中位数首先,计算各样本观察值与假定的中位数的差值的差值 ,并取绝对值,并取绝对值 。然后,将然后,将 排序,并找出他们的秩。排序,并找出他们的秩。检验步骤检验步骤最小最小 的秩为的秩为1 1,最大,最大 的秩为的秩为n,n,如果有相同如果有相同的的 则取各点秩的平均值。则取各点秩的平均值。第32页,共64页,编辑于2022年,星期日 对于正的 的秩和负的 的秩分别加总,得到正的秩的总和 ,负的秩的总和这里的这里的 和和
25、 就是就是Wilcoxon定义的定义的统计量。统计量。对于双侧检验,当原假设为真时,正的秩和对于双侧检验,当原假设为真时,正的秩和与负的秩和的大小应该近似相等。与负的秩和的大小应该近似相等。l 根据根据P P值作出决策。值作出决策。对于正的 的秩和负的 的秩分别加总,得到正的秩的总和 ,负的秩的总和第33页,共64页,编辑于2022年,星期日两个配对样本的两个配对样本的WilcoxonWilcoxon符号秩检验符号秩检验两个配对样本的两个配对样本的WilcoxonWilcoxon符号秩检验是在配对数据的符号检验的符号秩检验是在配对数据的符号检验的基础上发展起来的。但比单独的用符号检验更为有效。
26、在参数假设检基础上发展起来的。但比单独的用符号检验更为有效。在参数假设检验中,曾介绍了配对样本均值之差的验中,曾介绍了配对样本均值之差的t t检验方法,但这种方法假设检验方法,但这种方法假设总体服从正态分布,两个配对样本的总体服从正态分布,两个配对样本的WilcoxonWilcoxon符号秩检验没有符号秩检验没有这些要求,它只要求两个样本的数据之差服从对成分布。这些要求,它只要求两个样本的数据之差服从对成分布。第34页,共64页,编辑于2022年,星期日提出假设提出假设计算检验统计量计算检验统计量 计算样本中各配对数据的差值。计算样本中各配对数据的差值。计算差值绝对值的秩。计算差值绝对值的秩。
27、分别计算出差值序列中正数的分别计算出差值序列中正数的秩和秩和 以及以及负数的负数的秩和秩和 。如果两个秩和比较接近,则说明之前和之如果两个秩和比较接近,则说明之前和之后没有显著差异。后没有显著差异。检验步骤检验步骤检验的原假设:配对数检验的原假设:配对数据差值总体的分布是关据差值总体的分布是关于于0值对称的。值对称的。第35页,共64页,编辑于2022年,星期日检验统计量:检验统计量:双侧检验:双侧检验:也可以进行单侧检验。也可以进行单侧检验。检验的临界值和检验的临界值和p p值:值:当样本量较小时,可以通过查当样本量较小时,可以通过查WilcoxonWilcoxon符号秩检验的临界值表符号秩
28、检验的临界值表得出结论。得出结论。有的书中有有的书中有W W统计量的分布表,可以查出零假设下的统计量的分布表,可以查出零假设下的p p值。值。第36页,共64页,编辑于2022年,星期日检验的临界值和p值当当n n很大无法查表时,还可利用正态近似检验统计很大无法查表时,还可利用正态近似检验统计量的量的p p值。值。第37页,共64页,编辑于2022年,星期日Wilcoxon符号秩检验的实现 对对于于例例15.215.2的的问问题题,在在SPSS17.0SPSS17.0中中,直直接接 使使 用用 选选 项项 Analyze-Nonparametric Analyze-Nonparametric
29、Tests-2 Tests-2 Related Related SamplesSamples,再再 把把 变变 量量“JIT“JIT前前”和和“JIT“JIT后后”分分 别别 选选 入入 Test Test PairsPairs的的Pair Pair 1 1的的Variable1Variable1和和Variable2Variable2中中。然然后后,在在选选项项Test Test TypeType选选择择WilcoxonWilcoxon,得得到如下图的对话框。到如下图的对话框。第38页,共64页,编辑于2022年,星期日例15.2的SPSS实现第39页,共64页,编辑于2022年,星期日例1
30、5.2的SPSS结果秩秩N平均平均秩秩秩和秩和JIT后后-JIT前前负秩负秩5a6.8034.00正秩正秩5b4.2021.00结结0c总数总数10a.JIT后 JIT前c.JIT后=JIT前第40页,共64页,编辑于2022年,星期日例15.2的SPSS结果与分析 从结果可以看出,双尾检验的p值为0.505,表明前后差异不大,与普通符号检验结果一致。这里的p值小于符号检验的p值,说明这种方法更精确。检验统计量bJIT后-JIT前Z-.666a渐近显著性(双侧).505a.基于正秩。b.Wilcoxon 带符号秩检验第41页,共64页,编辑于2022年,星期日15.3 Wilcoxon-Man
31、n-Whitney检验在两个独立样本的在两个独立样本的t t检验中,需要假设两个总体都服检验中,需要假设两个总体都服从正态分布。当这一假设条件不满足时,特别是小从正态分布。当这一假设条件不满足时,特别是小样本时,需要使用非参数的方法。样本时,需要使用非参数的方法。非参数检验中对应的方法为非参数检验中对应的方法为Wilcoxon-Mann-WhitneyWilcoxon-Mann-Whitney秩和检验。秩和检验。第42页,共64页,编辑于2022年,星期日WMW检验的基本思想检验中的原假设一般为两个总体有相同的统检验中的原假设一般为两个总体有相同的统计分布(或者有相同的中位数)。计分布(或者有
32、相同的中位数)。检验的基本思想:检验的基本思想:将两个样本的数据混合在一起排秩。将两个样本的数据混合在一起排秩。分别计算两个样本中数据的秩和(分别计算两个样本中数据的秩和(rank sumrank sum)如果两个总体具有相同的统计分布,则来自两如果两个总体具有相同的统计分布,则来自两个样本的秩和应该比较接近。个样本的秩和应该比较接近。第43页,共64页,编辑于2022年,星期日检验统计量检验统计量两个样本的秩和任何一个都可以作为检验统计量,我两个样本的秩和任何一个都可以作为检验统计量,我们用们用T T来表示。来表示。当样本量都不超过当样本量都不超过1010时,可以通过查表找到临界值;时,可以
33、通过查表找到临界值;否则可以用正态分布进行近似计算:否则可以用正态分布进行近似计算:第44页,共64页,编辑于2022年,星期日一个例子 例例15.3 15.3 我国沿海和非沿海省市区的人均生产总值(我国沿海和非沿海省市区的人均生产总值(GDPGDP)某)某年抽样数据如下(单位为元)。沿海省市区为:年抽样数据如下(单位为元)。沿海省市区为:15044 12270 5345 7730 22275 8447 15044 12270 5345 7730 22275 8447 9455 8136 6834 9513 4081 55009455 8136 6834 9513 4081 5500而非沿海省
34、市区的为:而非沿海省市区的为:5163 4220 4259 6468 3881 37155163 4220 4259 6468 3881 37154032 5122 4130 3763 2093 37154032 5122 4130 3763 2093 37152732 3313 2901 3748 3731 51672732 3313 2901 3748 3731 5167第45页,共64页,编辑于2022年,星期日t检验的结果根据SPSS的结果可知,两个总体方差不相等;检验认为两个总体的均值不相等(p值等于0.003)。第46页,共64页,编辑于2022年,星期日两个样本的直方图第一个总体
35、的统计分布很难说是正态分布。因此t检验的结果不可靠,尝试WMW秩和检验。第47页,共64页,编辑于2022年,星期日例13.3的SPSS实现第48页,共64页,编辑于2022年,星期日49例15.3的SPSS结果秩组别N平均秩秩和人均GDP11223.75285.0021810.00180.00合计30 由上述结果可知,沿海组的秩和为285,非沿海组的秩和为180。第49页,共64页,编辑于2022年,星期日例15.3的SPSS结果与分析 从结果可以看出,Wilcoxon统计量 W=180.000,p值=0.000小于显著性水平0.05,故可认为沿海组和非沿海组的人均GDP的分布(或中位数)并
36、不一样。检验统计量b人均GDPMann-Whitney U9.000Wilcoxon W180.000Z-4.191渐近显著性(双侧).000精确显著性2*(单侧显著性).000aa.没有对结进行修正。b.分组变量:组别第50页,共64页,编辑于2022年,星期日15.4 Kruskal-Wallis检验 在在比比较较多多个个总总体体均均值值的的方方差差分分析析中中需需要要相相应应的的假假设设条条件件。如如果果违违背背了了相相应应的的假假设条件,可以使用非参数的方法。设条件,可以使用非参数的方法。在在比比较较两两个个以以上上的的总总体体时时广广泛泛使使用用非非参参数方法是数方法是Kruskal
37、-WallisKruskal-Wallis检验。检验。它它是是WilcoxonWilcoxon秩秩和和检检验验在在多多于于两两个个样样本本时的推广。时的推广。第51页,共64页,编辑于2022年,星期日检验的原假设和备择假设检验的原假设和备择假设 原假设:多个总体有相同的统计分布 备择假设:多个总体的统计分布不全相同 第52页,共64页,编辑于2022年,星期日Kruskal-Wallis检验的基本原理 将所有样本的数据合在一起排秩,然后计算各样本的秩和。如果各组有显著性差异,在各组样本容量相等的情况下,各组秩和应该相等或趋于相等。如果各组秩和相差较大,则各组有显著性差异的可能性较大。第53页
38、,共64页,编辑于2022年,星期日检验统计量在原假设成立时服从自由度为k-1的 分布。第54页,共64页,编辑于2022年,星期日一个例子一个例子 例例15.4 15.4 从我国上市公司中分别随机抽取了工从我国上市公司中分别随机抽取了工业、商业、建筑业、交通运输业等四个行业,业、商业、建筑业、交通运输业等四个行业,其在某年的总资产报酬率如下表。问四个行业其在某年的总资产报酬率如下表。问四个行业总资产报酬率是否有显著性差异?总资产报酬率是否有显著性差异?12345678910工业工业9.58.68.86.77.36.87.77.78.69.7商业商业8.18.27.67.78.07.57.38
39、.28.58.4建筑业建筑业8.68.89.28.89.89.79.29.710.29.7交通运输交通运输9.07.98.27.68.77.88.87.68.98.7第55页,共64页,编辑于2022年,星期日单因素方差分析的结果结论:拒绝各组均值相等的原假设。第56页,共64页,编辑于2022年,星期日但是从标准差看最大值和最小值的比值超过了从标准差看最大值和最小值的比值超过了2 2,因此不能认为各组方差相等。,因此不能认为各组方差相等。因此方差分析不适用。因此方差分析不适用。第57页,共64页,编辑于2022年,星期日l在SPSS17.0中,定义分组变量为行业(工业为1,商业为2,建筑业为
40、3,交通运输为4)后,直接使用选项Analyze-Nonparametric Tests-K Independent Samples。然后把变量“总资产报酬率”选入Test Variable List;再把数据中用变量“行业“输入Grouping Variable,在Define Range中的选项Minimum和Maximum分别输入“1”和“4”。然后在下面选项Test Type选择Kruckal-Wallis H,得到如下图的对话框。Kruskal-Wallis检验第58页,共64页,编辑于2022年,星期日例15.4的SPSS实现第59页,共64页,编辑于2022年,星期日例15.4的
41、SPSS结果 由上述结果可知,四个行业总资产报酬率的由上述结果可知,四个行业总资产报酬率的平均秩分别为平均秩分别为16.8516.85、12.7512.75、33.0533.05、19.35 19.35。秩秩行业行业N平均秩平均秩总资总资产报产报酬率酬率11016.8521012.7531033.0541019.35合计合计40第60页,共64页,编辑于2022年,星期日 从结果可以看出,Kruskal-Wallis检验的p值为0.001,小于给定的显著性水平,所以有理由拒绝原假设,即认为这四个行业的总资产报酬率有不同的统计分布。检验统计量检验统计量a,b总资产报酬率总资产报酬率17.053自
42、由度自由度df3渐近显著渐近显著性性.001a.Kruskal-Wallis 检验检验b.分组变量分组变量:行业行业第61页,共64页,编辑于2022年,星期日小 结(1)符号检验是利用某假设下正号和负号的数目做出判定的非参数方法。符号检验方法可以通过成对数据差值的符号进行检验,从而比较两个总体差异的显著性。Wilcoxon符号秩检验是把成对数据样本中每对数据差值的绝对值赋予秩次并记上符号,然后依据正秩和与负秩和做出判定的。第62页,共64页,编辑于2022年,星期日小 结(2)Wlicoxon(Mann-Whitney)秩和检验可以把两个样本混合排列,然后通过比较两个样本的秩和做出判定。Kruckal-Wallis检验是将多个样本的数据合在一起按照从小到大的顺序排出秩次,然后基于秩次构造统计量进行判定的非参数检验方法。第63页,共64页,编辑于2022年,星期日第64页,共64页,编辑于2022年,星期日