《2022年非参数统计学讲义讲稿2 .pdf》由会员分享,可在线阅读,更多相关《2022年非参数统计学讲义讲稿2 .pdf(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第页1 非参数统计学讲义第四章多样本模型1 k 个相关样本的非参数检验在参数统计中,检验几个样本是否来自完全相同的总体,采用方差分析或F 检验。运用 F 检验的假定条件是:样本是从正态分布的总体中独立抽选的;总体具有相同的方差;数据的测量层次至少是定距尺度。当被用来分析的数据不符合这些假定条件,或研究者不希望作这些假设,以便增加结论的普遍性时,不宜采用参数统计的方法,而必须运用非参数方法。如果 k等于或大于3个样本是按某种或某些条件匹配的,那么k 个样本称为相关的,否则为独立的。k 个相关和独立样本的差异与两个相关和独立样本之间的差异类似。本节介绍k 个相关样本的非参数检验。一、 Cochra
2、n Q 检验1研究背景Cochran Q 检验也译为科库兰检验。它是用以检验匹配的三组或三组以上的频数或比例之间有无显著差异的方法。这种匹配可以用不同形式获得。例如,检验三种不同类型的采访形式对被采访者的有效答复是否有影响,可以抽选一些人,分成n 组,每组有3 个匹配的被采访者,要求他们的有关情况相同。每组的 3 名成员被随机地置于3 种条件之下, 即分别接受三种类型的采访,于是,就获得了 3 个匹配的样本,即k3,每个样本有n 个观测结果。 k 个相关样本也可以采用同一组人,对不同的k 个条件的反应匹配成样本,这类似于两个相关样本中以研究对象作为自身的对照者。例如,检验几种教学手段对学生掌握
3、知识是否有显著不同,可以随机抽取 n 个学生,让他们先后置于k 种教学手段之下,再作出评价。这样可以获得k 个匹配的样本,每个样本有n 个观测结果。在现实生活中,很多数据是以二元数据的形式出现的,【例 4-1】村民对四个候选人的评价得到结果:表 4-1 村民评价结果处理区组: 20 个村民对 A、B、C、D 四个候选人的评价iNA 0 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 16 B 1 1 0 0 0 1 1 1 1 1 0 1 1 0 1 1 0 0 0 0 11 C 0 1 1 1 1 0 0 0 0 1 0 0 0 1 1 0 1 0 1 0 9 D
4、 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1 1 0 0 0 6 jL1 3 2 1 2 3 2 2 3 3 1 2 2 3 3 3 2 1 2 1 42 其中: 1 表示同意; 0 表示不同意。关心的问题是候选人在村民眼中有无区别,即检验H0:12k是否成立。2基本方法假设有 k 个相关样本,每个样本有n 个观测结果,检验k 个样本间是否有显著差异,可以建立双侧备择,假设组为kH:0个样本间无显著差异kH:1个样本间有显著差异由于三个及三个以上样本间差异的方向不便于判定,因而,通常只建立双侧备择进行检验。为对假设作出判定,所分析的数据测量层次为定类尺度即可。获得的数据可排
5、成一个n 行 k 列的表。如果H0为真,那么将测量结果分为“成功”和“失败”的话,“成功”与“失败”应随机地分布在表中的各行各列。Cochran Q 检验的统计量定义为222112211(1)()(1)(1)kkiiiibbiijjk kNNk kNkNQkNLkNL(4.1) 式中, k 为处理数; b 为区组数;iN为行总和;jL为列总和;ijijNNL;1iiNNk。由于 Q 统计量的抽样分布近似为自由度dfk 一 1 的2分布,所以根据自由度dfk 一 1,给定的显著性水平,能够在附表中查找临界值2,假设2Q则在显著性水平下拒绝 H0,说明样本之间存在着显著差异。相反,则不能拒绝H0。
6、3使用说明精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 16 页第页2 运用 Cochran Q 检验时应注意,只有当行数n 不太小时, Q 的抽样分布才近似于dfk 一 1 的2分布。但是, n 的最小数值日前并没有明确的说明,使用者采用时视具体问题而定。Cochran Q 检验适用于定类尺度测量的数据,其它测量层次的数据也可以运用,但要象例4-2 那样,转化为两类,但这样做可能浪费数据中包含的信息。因此,Cochran Q 检验一般只用于定类尺度的数据。4应用【续例 4-1】候选人的例子2222220.05222243(16119
7、6 )3429.357.815(3)442(1321 )Q因而,拒绝原假设,认为这4 位候选人在选民眼中不同。【例 4-2】消费者对饮料的爱好是否存在差异某商店为决定经营饮料的品种、数量,对消费者的爱好进行了一次调查。随机抽取18 个消费者,请他们对四种饮料:热牛奶、酸奶、果汁、可口可乐的喜好作出评价,凡喜好的记作1,不喜好记作0。调查结果如表42。表 4-2 消费者对饮料喜好的调查结果消费者热牛奶酸奶果汁可口可乐合计iy1 1 0 0 1 2 2 0 0 1 0 1 3 0 0 1 1 2 4 1 1 0 0 2 5 1 0 1 0 2 6 0 1 0 0 1 7 0 0 0 1 1 8 0
8、 1 0 0 1 9 0 1 1 0 2 10 1 1 1 0 3 11 0 0 1 0 1 12 0 0 1 0 1 13 1 0 0 1 2 14 1 1 0 0 2 15 1 1 0 0 2 16 0 1 0 0 1 17 1 0 0 1 2 18 0 0 0 1 1 合计jx8 8 7 6 29 分析:为检验消费者对四种饮料的爱好是否有差异,建立双侧各择,假设组为:0H消费者对四种饮料爱好无显著差异:1H消费者对四种饮料爱好有显著差异由于数据为定类尺度测量,只有“爱好” 与“不爱好” 两种结果, 且是两个以上相关样本,这里是四种饮料, k4,所以选用 Cochran Q 检验。根据表
9、41 的调查数据,计算H0成立时的统计量Q。1x8 表示喜欢第一种饮料热牛奶的总次数,82x是喜欢酸奶的总次数,其它的依此类推。2941jjx是所有四种饮料中,消费者表示喜欢的总次数。iy是第i 个消费者喜欢各种饮料的次数。2941jiy,是各个消费者对四种饮料表示喜欢的总次数。kjjx1表示按样本数计算的消费者喜欢的总次数,而niiy1表示按观察对象即消费者或说按样品数计算的对各种饮料喜欢的总次数。这两个总和应相等,即有niikjjyx11。统计量Q 正是用于说明按样本数计算的总次数与按样品数计算的总次数的符合程度。按(4.1)式,可以计算出Q= 精选学习资料 - - - - - - - -
10、 - 名师归纳总结 - - - - - - -第 2 页,共 16 页第页3 根据给定的显著性水平,自由度 df4l3,查附表,得到临界值2782。显然, Q052382782。因而,调查数据在5的显著性水平上不能拒绝H0,即消费者对四种饮料的爱好没有显著差异。【例 4-3】三种不同教学方法的效果是否有显著差异三种不同教学方法:电视教学、课堂讲授、课堂讨论,对学生掌握知识的效果是否有所不同。为检验这一问题,抽选部分学生分为 18 组,每组 3 名匹配的学生,他们的有关情况类似。各组中3 名学生被随机地置于3 种条件下,即随机地指定接受某种教学方法。实施不同教学方法后进行测验,成绩合格为有效,记
11、作1;成绩不合格为无效,记作0。结果如表43。表 4-3 实施不同教学方法的学生成绩学生组电视教学课堂讲授课堂讨论合计iy1 0 0 0 0 2 0 1 1 2 3 0 1 0 1 4 0 0 0 0 5 1 0 1 2 6 0 1 1 2 7 0 1 1 2 8 0 1 0 1 9 1 0 1 2 10 0 0 0 0 11 0 1 1 2 12 0 1 1 2 13 0 1 1 2 14 0 1 1 2 15 0 1 1 2 16 1 1 1 3 17 0 0 1 1 18 0 1 1 2 合计jx3 12 13 28 分析:学生的考试成绩是定距尺度测量,这里将其转化为合格、不合格两类,则
12、视为定类尺度。合格即教学方法有效为1,不合格为教学方法无效,记作0。接受三种不同教学方法的学生在每一组是匹配的,即构成3 个相关样本, k3。检验三种教学方法的效果是否存在差异,建立的假设组为:0H三种教学方法的效果无显著差异:1H三种教学方法的效果有显著差异由于是定类尺度测量的数据,相关样本数目大于2,因此,宜采用Cochran Q 检验。利用表42 的数据计算检验统计量Q=13 给定显著性水平005, df312,查附表中相应临界值2599。显然, Q132599,在 5的显著性水平上调查数据拒绝H。 ,说明三种不同教学方法的效果有显著差异。最后的判定,还可以采用这种方法,计算其尾概率。5
13、软件处理C ochra n Q Tes t ( 例 4-1.st a)N umber of v alid cases: 18Q = .5238096, df = 3, p .913630VariableSumPercent0sPercent1s热 牛 奶酸 奶果 汁可 口 可 乐8.00000055.5555644.444448.00000055.5555644.444447.00000061.1111138.888896.00000066.6666733.33333Cochra n Q Test ( 例 4-2.sta)Number of v alid cases: 18Q = 13.000
14、00, df = 2, p .001504VariableSumPercent0sPercent1s电 视 教 学课 堂 讲 授课 堂 讨 论3.0000083.3333316.6666712.0000033.3333366.6666713.0000027.7777872.22222二、 Friedman 检验精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 16 页第页4 Friedman 检验亦称佛利得曼的2检验 。或佛利得曼双向评秩方差分析,或者 Friedman 秩和检验。 它是对 k 个样本是否来自同一总体的检验。k 个样本是匹
15、配的,实现匹配的方法与前面类似。可以是k 个条件下同一组受试者构成,即受试对象作为自身的对照者,也可以将受试者分为n 个组,每组均有k 个匹配的受试者,随机地将k 个受试者置于k 个条件之下形成。在不同受试者匹配的样本中,应尽量使不同受试者的有关因素匹配即相似。1基本方法与 Cochran Q 检验相似, Friedman 检验也是用来检验各个样本所得的结果在整体上是否存在显著差异。因此建立的也是双侧备择,假设组为H0:k 个样本间无显著差异或者H0:12kH1:k 个样本间有显著差异H1:不全相等为对假设作出判定,所分析的数据应是定序尺度测量。获得的数据排成一个n 行 k 列的表,行代表不同
16、的受试者或匹配的受试小组,列代表各种条件。由于是定序尺度测量的数据,因此,可以对每一行的观测结果分别评秩,即评等级,等级1 是最小的,依次排序,秩从1 到 k。如果 H0为真,那么每一列中秩的分布应该是随机的,即各个秩出现在所有列中的频数应几乎相等,也就是说各列的秩和应该大致相等。STEP1:在每一个区组中计算各个处理的秩:ijR;STEP2:计算秩和11,2,biijjRRik;STEP3:定义 Friedman 检验统计量为。221112(1)12()3 (1)(1)2(1)kkiiiib kQRRb kbk kbk k(4.2) NOTE : Q 越大对 H0越不利;在小样本时,要查临界
17、值表,查表时,要作变换(1)QWb k;在大样本时,有Q 的抽样分布在n、k 不太小时,近似于自由度dfkl 的2分布,即2(1),Qkkb定。因此,在附表中,可以根据给定的显著性水平,自由度 dfk 一 1 查得 H0为真时,相应的临界值2。假设2r2,则在水平上拒绝 H0,否则不能拒绝H0;某区组中存在结时,Q 应作适当的修正。2应用【例 4-4】在不同的城市对不同的人群进行血液中铅含量测试。设有A、B 、C 三个城市汽车密度不同代表三种不同的处理k=3 ,对试验者按职业分组(b=4) 取血四个区组 。他们血液中铅含量及其评秩的结果如下:表 4-4 不同城市居民血液铅含量评秩城市处理职业区
18、组iRA 80(3) 100(3) 51(2) 65(3) 11 B 52(2) 76(2) 52(3) 53(2) 9 C 40(1) 52(1) 34(1) 35(1) 4 由此可以计算出6.5(0.8125)QW【例 4-4】三种不同教学方法的效果是否有显著差异三种不同教学方法同例4-2,抽选的学生也分为18 组,每组 3 名匹配的学生,其有关情况类似。各组中3 名学生被随机地安排接受某种教学方法。实施不同教学方法后,进行测验,按成绩高低对3 名匹配学生的成绩排列等级即评秩,结果如表44。表 4-4 实施不同教学方法的学生成绩学生组电视教学课堂讲授课堂讨论1 1 3 2 2 1 2 3
19、3 2 3 1 4 3 2 1 5 2 1 3 6 1 3 2 7 1 2 3 8 2 3 1 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 16 页第页5 9 2 1 3 10 2 1 3 11 1 3 2 12 1 3 2 13 1 2 3 14 1 3 2 15 1 16 1 2 3 17 1 2 3 18 1 2 3 合计jR25 分析:这个问题与例4-3 类似,也是检验三种教学方法的效果,有无差异,因而应建立双侧备择,假设组为Ho:三种学方法的效果无显著差异H1:三种教学方法的效果有显著差异表 4-4 实施不同教学方法的学生
20、成绩等级由于数据的测量已转化为定序尺度,且是两个以上相关样本,故可以来用Friedman检验。根据表44 的数据1,按 ()式计算检验统计量2r8 .102r给定显著性水平0 05, 自由度 dfkl2, 查附表中 H0成立时相应的临界值25 99。 显然,8.102r25 99,因此数据在5的显著性水平上拒绝H0,三种教学方法的效果有显著差异。【例 4-5】四部分技术训练的有效性有无差异某田径队对新入队的学员要进行四个部分的技术训练,以提高学员的身体素质。为检验这四个部分的技术训练计划是否确实有效,随机抽选了14 名新学员,分别接受四个部分的训练。每一训练结束后,均进行该部分的测验,成绩以1
21、0 分为最高。检测结果如表 4-5。表 4-5 学员受训后检测的成绩学员编号技术训练技术训练技术训练技术训练1 10 3 6 8 2 2 5 9 4 3 4 10 3 8 4 6 3 10 4 5 3 4 10 6 6 5 4 6 7 7 7 10 6 5 8 6 10 3 5 9 10 5 7 6 10 8 9 7 6 11 5 4 2 6 12 3 5 4 7 13 4 5 10 9 14 6 5 8 10 分析:学员的测验成绩是定距尺度测量的,但可以将其转换为定序尺度。将每一学员的4 个成绩,按由低到高的顺序排列,给出等级即评秩,得到表4 一 5。由于是两个以上相关样本,且数据为定序尺度
22、,故可以运用Friedman 检验。建立的假设组为Ho:四个部分技术训练的有效性无显著差异H1:四个部分技术训练的有效性有显著差异1表 43 中,第 15 组接受课堂讲授和课堂讨论方法的学生测验成绩相同,因此排序时,取秩2 和 3 的平均值,均记为25。以平均秩替代同分,不影响这一检验的有效性。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 16 页第页6 根据表 45 的数据,按 (4.2)计算得到7714. 02r在附表中,查找与显著性水平005,自由度 dfk13 相对应的临界值2782。显然 Q077142782,调查结果在5的
23、显著性水平上不能拒绝H0,说明四个技术训练的有效性没有显著差异。3软件处理Frie dman ANOV A a nd Ke nda ll Coe f f. ofCon cord anc e ( 例 4-3.st a)ANOVA Chi Sqr. (N = 18, df = 2) = 10.33803 p .00569Coef f. of Concordance = .28717 Aver. rank r = .24524VariableAv erageRankSum ofRanksMeanStd.Dev.电 视 教 学课 堂 讲 授课 堂 讨 论1.38888925.000001.388889
24、0.6076852.25000040.500002.2500000.7326422.36111142.500002.3611110.763228Friedman ANOVA and Kendall Coeff. of C oncordance ( 例 4-4.sta)ANOVA Chi Sqr. (N = 14, df = 3) = .7714286 p .85629Coef f. of Concordance = .01837 Aver. rank r = -.0571VariableAv erageRankSum ofRanksMeanStd.Dev.技 术 训 练技 术 训 练技 术 训
25、 练技 术 训 练2.35714333.000005.6428572.4684832.35714333.000005.8571432.6561152.57142936.000006.5000002.7386132.71428638.000006.5000001.786703三、 Cochran Q 检验与 Friedman检验这两个检验都用于k 个相关样本是否可能来自同一个总体的检验。但对数据测量层次的要求不同。Cochran Q 检验适用于定类尺度的测量数据,其它测量层次的数据也可以使用,但应转化为两类数据。有时观察值是以“是”或“否”, “喜欢”或“不喜欢”等二元数据的形式出现,如果用Fr
26、iedman 秩和检验将会出现很多打结的现象,即秩相同。Cochran Q 检验就解决了打结的问题。但当数据为定类尺度测量,只能运用Cochran Q 检验。因为,这一检验对于定类尺度或仅分为两类的定序尺度测量数据是极为有效的。假设数据测量层次至少为定序尺度时,应优先选用 Friedman 2r检验。 因为假设将定序尺度转换为定类尺度,而采用 Cochran Q 检验,可能会浪费数据包含的信息四、区组设计的另外两种检验:Page 检验和 Durbin 检验1完全区组设计的Page 检验对于单边检验问题01:kH,11:kH,Page 于 1963 年引入下面统计量:1kiiLiR(0.1) 式
27、中iR为秩ijR在第 j 个区组中的秩和1biijjRR。NOTE : L 值越大对 H0越不利;在b时,有正态近似(0,1)LLLZN,其中:2(1)4Lbk k;322()144(1)Lb kkk,证明过程详见笔记;存在打结时,需要进行修正。【续例 4-4】血液中含铅量的例子这里将城 A 和 C 对调,即检验0123:H,1123:H。14R,29R,31R所以,4 19211 355L,查表2得,(5)0.010.05P L,拒绝原假设,认为有显著性影响。正态近似计算,55482.4751.963 / 3LLLZ。2不完全区组设计的Durbin 检验考虑平衡的不完全区组设计( , , ,
28、 ,)BIBD k b r t,检验01:kH,1:H不全相等。 Durbin 于 1951 年提出检验统计量为:2P187 表,3,4kb。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 16 页第页7 22112(1)(1)()2(1)kiikr tDRrk t(0.2) 可以使用下面的简化计算:22112(1)3 (1)(1)1(1)kiikr ktDRtrk t(0.3) 在原假设成立时,D 统计渐近服从2(1)k【例 4-6】比较四种材料4k在四个部位4b的磨损,数据可以记为下面两种形式:解:从右边的表容易看出BIB 设计的平
29、衡性质,这里( , , , , )(4,4,3,3, 2)k b r t。220.12112(1)3 (1)(1)6.756.25(3)1(1)kiikr ktDRtrk t拒绝原假设,认为在10%的显著性水平下,不同材料的磨损情况存在区别。表 4-6b 不完全区组设计举例部位区组34(A) 30(B) 48(C) 59(D) 36(B) 28(A) 54(D) 60(C) 40(C) 44(D) 36(A) 45(B) 表 4-6a 不完全区组设计举例材料处理部位区组iRA 34(1) 28(1) 36(1) 3 B 36(2) 30(2) 45(1) 5 C 40(3) 48(2) 60(
30、3) 8 D 44(3) 54(3) 59(2) 8 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 7 页,共 16 页第页8 2 k 个独立样本的非参数检验一、Kruskal-Wallis检验Kruskal Wallis 检验亦有译为克拉夏尔瓦里斯检验,或简称为克氏检验。它是两个独立样本MannWhitney Wilcoxon 检验的一种推广 。1问题的提出【例 4-7】在一项健康试验中,有三种生活方式,减肥效果如下表,问:每种生活方式的减肥效果是否相同?表 4-7 减肥效果表生活方式1 2 3 一个月后减少的重量单位 500gin5 5 4
31、更为一般的数据形式为:表 4-8 一般的数据结构1 2 k 11x21x1kx12x22x2kx11nx22nxkknx在数理统计学中,应作单因素方差分析原假设:kH210:检验统计量:), 1()/()(1/)(22kNkFkNxxkxxnSSESSAFiijii但这是要求不同的样本来自于具有相同方差的正态总体。然而,这种条件在现实中难以满足。2KruskalWallis 检验基本方法1.基本假定假定这 k 个样本具有相似的连续分布;所有的观察值在样本内和样本间是相互独立的。2.提出原假设假设有 k 个总体,各自的连续累积分布函数为)(,),(),(21xFxFxFk,那么 Kruskal
32、Wallis 检验的一般零假设为)()()(:210 xFxFxFHk对所有的 x 如果在研究总体是否相同时,偏重于考察位置参数,并且位置参数采用各个总体的中位数,即么,H0等价于 k 个总体的中位数相等。假设仍以kMMM,21代表 k 个总体的中位数,则Kruskal Wallis 检验建立的假设组为kMMMH210:), 1(:1kjMHj中至少有两个不相等这里的备择对于k2 时不存在单侧备择的配对,因为对于), 1(kjMj来说,有! k种不同的有序排列,这不便于进行检验。3.基本原理3为对假设作出判定,需要的数据是k 个独立的随机样本, 其大小为knnn,21样本独立地分别从各自总体抽
33、取,总体分别具有连续的累积概率分布)(,),(),(21xFxFxFk。数据的测量层次至少在定序尺度上。记观察值ijx在混合样本中的秩为ijR。则有kiRRinjiji,2, 1,1为第 i 个样本的秩和3统计量的构造可以仿照两样本的Wilcoxon 秩和检验,先混合两个样本,然后找出各个观察值在混合样本中的秩,分别按样本求和。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 8 页,共 16 页第页9 kinRRiii,2, 1,/为第 i 个样本的平均秩和NRRkii1212)1(21NNNNNN当iR存在较大差异时,有理由疑心H0是否为真。由此
34、,仿照方差分析的做法,可以构造检验的统计量,将它定义为H )1()()1(122120kRRnNNHHkjii(0.4) 4.7式还可以写成下面的形式)1(3)1(1212NnRNNHkjjj(0.5) 或者可以这样来思考。将所有数据按从小到大的顺序合并成一个单一的样本,其大小knnnN21。将每一个观察值给出一个等级即评秩,秩为整数,从1 到 N。对于 N 个观察值来说,平均等级是212)1(21NNNNNN对于含有jn个观察值的第j 个样本来说,等级总和的期望值是2/)1(Nnj。假设以jR表示第 j 个样本的实际等级总和,那么2/) 1(NnRjj就表示 k 个样本中第j 个样本等级总和
35、与其均值的偏差。如果H0为真,所有样本数据混合排列成一个单一的随机样本,等级即秩次应该在k 个样本之间均匀地分布,也就是说,各样本实际的等级总和即秩次和jR与期望等级总和2/)1(Nnj之间的偏差应很小。因此, Kruskal wallis 检验定义的统计量可以建立在实际等级总和jR与期望等级总和2/)1(Nnj的偏差的基础上。计算公式为kjjjjnNnRNNH122/ )1()1(12(0.6) 4.9式也可以写4.8式。4.检验统计量检验统计量为:)1()1(3)1(12212kNnRNNHkjjj5.确定 P 值小样本时,可以查附表K-W 。大样本时,可以查2分布表。当样本数 k、每个样
36、本包含的观察值数目jn,不是很小时,检验统计量H 渐近的抽样分布是自由度dfk1 的2分布。根据给定的显著性水平,自由度 dfk 一 1,在附表中可以查找到H0为真时的临界值2。假设 H2,说明 H 是一个较小的值,数据支持 H0,k 个样本之间无显著差异。假设H2,反映实际的秩次和分布与期望的分布之间不一致,数据拒绝H0,k 个样本来自不同总体。通常情况下,当k3 和各个5jn时,渐近的P 值无法由卡方分布表得到,而只能查找附表K-W 附表。这个表是 Kruskal WH 和 WallisWA于 1952 年在其合作的著作中发表的。Note:在大样本时,还可以构造一个F 统计量来作多个独立样
37、本的检验。), 1()/()() 1/()21(11212*kNkFkNRRkNRnFkinjiijkiiii(0.7) 统计量*F与 H 之间的关系为:)1)(1/()(*HNkHkNF3应用【例 4-8】续前例分析:将样本观察值进行混合,然后进行评秩,结果见表49 表 4-9 减肥效果评秩表生活方式1 2 3 一个月后减少的重量121476精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 9 页,共 16 页第页10 单位 500g28115913110秩和iR15 46 44 秩平均iR3 11 在该题中,1n=5,2n=5,3n=4,N=14
38、。依题意,可以提出如下的假设:3210:MMMH)3 , 2, 1(:1jMHj中至少有两个不相等依表中的数据,可以计算检验统计量H 的统计值为: H=。查 K-W 表,得到在1%的显著性水平下的临界值为,因此拒绝原假设。如果使用卡方分布作近似计算,可以查卡方分布表,得21.9)2(201. 0,结论同上。Kruskal-Wallis ANOVA by Ranks; 减 少 的 重 量 (例4-5.sta)Independent (grouping) vari able: 组 变 量Kruskal-Wallis test: H ( 2, N= 14) =9.432159 p =.0090Dep
39、end.:减 少 的 重 量CodeValidNSum ofRanksGrp.1Grp.2Grp.31515.000002546.000003444.00000Box plot by GroupVariable: 减少的重量 Median 25%-75% Min-Max123组变量2345678910【例 4-9】四种不同类型治疗的有效性是否有显著不同对于精神错乱有4 种不同的手段:电击、心理疗法,电击加心理疗法、无任何治疗。为检验这几种不同手段对精神错乱治疗的有效性是否不同,选取了40 个病人。他们在智力、品德、心理等因素方面相差不多。随机地将40 人分成 4 个组,每组10 人。 4个组分
40、别接受不同方法的治疗。一个周期后,对每个病人相对改善程度进行测量,依改善高低程度给40 人分等级,等级l 是改善的最高水平,依次排序,直至等级40 是改善最小的水平。评秩结果如表410。表 4-10 40 名病人改善程度的等级电击疗法组心理疗法组电击加心理疗法组无治疗组22 2 5 30 19 6 1 32 29 16 4 34 24 11 8 36 37 7 9 39 27 18 15 35 28 14 12 40 25 21 20 31 23 10 13 33 26 17 3 38 秩次和jR260 122 90 348 分析:对任何一种方法判定其有效的标志是病人分数的中位数,假设4 种方
41、法效果差异不大,则各样本的中位数应相等。为检验 4 种方法有效性是否有差异,可以建立假设组为43210:MMMMH)4, 1(:1jMHj中至少有两个不相等由于数据是定序尺度测量,有两个以上独立样本,因此可以来用Kruskal Wallis 检验;根据表45 的数据,按 (44)式计算检验精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 10 页,共 16 页第页11 统计量 H。89.31)140(3)1038410901012210260() 140(4012) 1(3) 1(12222212NnRNNHkjjj在卡方分布表中,与dfk 一 13
42、,显著性水平005 相对应的临界值82.72。显然 H318982. 72。数据在 5的显著性水平上拒绝H0,说明四种不同治疗方法对精神错乱的有效性存在显著差异。Kruskal-Wallis AN OVA by Ranks; rank (例 4-6.sta)Independent (grouping) variable: groupKruskal-Wallis test: H ( 3, N= 40) =31.89366 p =.0000Depend.:rankCodeValidNSum ofRanksGrp.1Grp.2Grp.3Grp.4110260.0000210122.000031090
43、.0000410348.0000Bo xp lot b y G roupVa ria ble : ra nk M ed ia n 2 5%- 75% M in -Max 1234grou p-5051015202530354045rank4同分的处理在实际中,往往会出现评分相同的情况。如果在两个或两个以上的评分之间出现同分时,每一个评分的秩都记作这些同分秩的平均值。由于出现同分会对统计量H 有影响,因而计算H 值时,应进行校正。校正系数为NNuu331(0.8) 式中, u 是相同评分的观察值数目,如学员考试成绩有2 个 62 分,则 u2;还有 4 个 78 分,则 u=4 等等。计算H 值
44、时,利用 (47)式除以 H,得到的是校正的H 值。经过校正以后H 值比校正前要大。如果末校正时,计算结果就能拒绝H0,那么校正后将在更加苛刻的显著性水平上拒绝H0, 因为与较大的H 值相对应的概率P 值将更小。在大多数情况下, 这一校正常可忽略。 根据 Kruskal和 Wallis 在 1952 年的著作中证明,当同分的观察值数目占观察值总数目的比例不到25时,校正后的概率仅仅改变百分之十几。一般情况,校正因子的大小取决于u 值的大小,即同分的数目和同分观察值数目占观察值总数的百分比。【例 4-10】三种不同教学方法的有效性是否有显著差异某大学制定三种不同的教学方法:大班讲授,小组讲授、小
45、组讨论。为检验三种方法对学生掌握知识的有效性是否相同,进行了一次试验。选取二年级大学生50 名,随机地分为三组,分别接受三种不同方法教学。由同一教师按不同方法分别讲授同一方面的知识,规定的内容讲授完后,对学生进行统一考试,成绩如表411 所示。表 4-11 学生考试成绩大班讲授组小组讲授组小组讨论组62 78 56 73 84 56 79 48 78 86 62 89 64 92 98 84 98 72 86 72 90 92 78 84 69 48 52 84 69 79 49 54 86 73 86 64 84 92 92 84 69 82 98 98 70 72 69 62 81 90
46、分析:学生成绩为定距尺度测量,但为了防止作出某些假设,以使结论更具普遍性,所以不准备采用参数检验方法,而选用非参数检验。由于三种不同教学方法是独立的,故应采用6 个独立样本的统计检验。对于三组学生成绩集中趋势的一个很好的度量指标是中位数,成绩可以由小到大排序给出等级,因此能够采用Kruskal Wallis 检验。建立假设组为3210:MMMH)3 , 2, 1(:1jMHj中至少有两个不相等精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 11 页,共 16 页第页12 假设用文字描述为H0:接受不同教学方法的学生平均成绩没有显著差异H1:接受不同
47、教学方法的学生平均成绩不完全相同为采用 Kruskal Wallis 检验对假设作出判定,将表49 中的所有学生成绩排序,最低分秩评为1,最高分秩评为50。由于 50名学生中有不少是同分,采用相应秩的简单算术平均数作为同分的平均秩,得到表412。表 4-12 学生考试成绩的等级大班讲授组小组讲授组小组讨论组629782256732284567948788662989406492988498721986721990927884694852484697949354586732286648492928469822998987017721969629812890合计 Ri307 用表中数据,按H 的计
48、算公式计算得到2626.5)150(3)103071090105.318305.649()150(5012) 1(3)1(12222212NnRNNHkjjj附表中, dfk 一 12,H5.2626 出现的概率P 在 0.05 与 0.10 之间。假设显著性水平0.05,则数据不能拒绝H0;而显著性水平0.10,则数据拒绝H0。由于学生成绩中同分较多,因而应采用校正的H。计算同分的观察值数目,即u和3u,计算过程列于表411中。由于558436013uu,所以校正因子为9955.0) 150(5055811233NNuu校正后的统计量H 为2864.59955. 02626.5H这一结果与校
49、正前的H 值相差不多。对于显著性水平0.05,dfk 一 12,H0为真时的临界值为25.99。H5.286425.99,数据在 5的显著性水平上不能拒绝H0,说明接受不同教学方法的学生平均成绩没有显著差异。表 4-13 同分的观察值数目计算同分的观察值U U 3 48 2 8 56 2 8 62 3 27 64 2 8 69 4 64 72 3 27 73 3 27 78 2 8 79 2 8 84 6 216 86 4 64 90 2 8 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 12 页,共 16 页第页13 92 4 64 98 4
50、64 合计43 601 Boxplotby G roupVariable:gradeMedian 25% -75%Min-M ax 123group405060708090100grade书上的例子,详见笔记P25 二、Jonkheere-Terpstra检验设有 k 个样本kXXX,21,)(iiXFX,其中k,21为位置参数。 K-S 检验主要用于双边假设检验,但在实践 中 , 有 可 能 需 要 我 们 判 断 样 本 的 位 置 是 否 呈 现 出 某 种 趋 势 上 升 或 下 降 趋 势 , 则 可 检 验kH210:,kH211:,我们可以使用Jonkheere-Terpstra