《医学统计学教学汕头大学非参数检验.pptx》由会员分享,可在线阅读,更多相关《医学统计学教学汕头大学非参数检验.pptx(76页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2023/2/22秩和检验1参数统计与非参数统计1、参数统计(parametric statistics)样本所来自的总体分布具有某个已知的函数形式(如正态分布),而其中样本所来自的总体分布具有某个已知的函数形式(如正态分布),而其中有的有的参数参数是未知的,统计分析是未知的,统计分析的目的是对这些未知的参数进行估计或检验。的目的是对这些未知的参数进行估计或检验。第1页/共76页2023/2/22秩和检验2但实际上有些医学研究资料并但实际上有些医学研究资料并不符合上述条件不符合上述条件,即使用变量变换的方法也难以,即使用变量变换的方法也难以达到应用参数方法的要求。达到应用参数方法的要求。这就需
2、要一种这就需要一种不依赖于总体分布不依赖于总体分布的具体形式的统计方法来解决此类问题。的具体形式的统计方法来解决此类问题。由于这类方法不受总体参数的影响,故称非参数检验法。由于这类方法不受总体参数的影响,故称非参数检验法。它检验的是它检验的是分布分布,而,而非参数。非参数。第2页/共76页2023/2/22秩和检验32、非参数统计(non-parametric statistics)不考虑研究对象总体分布的具体形式,也不对总体参数进行统计推断,而是不考虑研究对象总体分布的具体形式,也不对总体参数进行统计推断,而是通过检验样本所代表的通过检验样本所代表的总体分布形式是否一致总体分布形式是否一致来
3、得出统计结论。由于这类方法不来得出统计结论。由于这类方法不受总体参数的限制,故称非参数统计法。有时也称为任意分布检验受总体参数的限制,故称非参数统计法。有时也称为任意分布检验(distribution-free statistics)(distribution-free statistics)。第3页/共76页2023/2/22秩和检验43、非参数统计的优点 适用范围广,不论样本所代表的总体分布形式如何,甚至是未知的,都可适用;适用范围广,不论样本所代表的总体分布形式如何,甚至是未知的,都可适用;资料可用资料可用“等级等级”、“符号符号”表示,收集方便;表示,收集方便;多数非参数检验方法简便,
4、易于理解和掌握。多数非参数检验方法简便,易于理解和掌握。第4页/共76页2023/2/22秩和检验54、非参数统计的缺点 对符合用参数检验的资料,如用非参数统计,会丢失信息,导致检验效率下降,犯第对符合用参数检验的资料,如用非参数统计,会丢失信息,导致检验效率下降,犯第IIII类错误的可能性比类错误的可能性比参数检验大参数检验大,即即 值值;非参数检验的有些问题的计算仍显繁冗。非参数检验的有些问题的计算仍显繁冗。第5页/共76页2023/2/22秩和检验6何时使用非参数检验?1.1.等级资料(半定量资料)等级资料(半定量资料)当指标只能用严重程度当指标只能用严重程度(轻、中、重轻、中、重),优
5、劣,优劣等级(好、中、差),治疗转归(治愈、好转、等级(好、中、差),治疗转归(治愈、好转、无效)等形式表达时,原始资料并非定量的,无效)等形式表达时,原始资料并非定量的,这些数据比这些数据比“定量定量”粗,而比一般的粗,而比一般的“定性定性”细,是相继的若干阶梯。但毗邻的阶梯之间并细,是相继的若干阶梯。但毗邻的阶梯之间并非等距离,亦不能度量。非等距离,亦不能度量。2.2.偏态分布资料偏态分布资料第6页/共76页2023/2/22秩和检验7何时使用非参数检验?3.3.个别数据偏离过大资料个别数据偏离过大资料 这里指的是随机的偏离而不属于这里指的是随机的偏离而不属于“过失误过失误差差”所致。还有
6、一种情况就是数据的某一端无所致。还有一种情况就是数据的某一端无确定数值,如确定数值,如“50mg”等等,等等,只给一个上限或下限,而没有具体数值。只给一个上限或下限,而没有具体数值。4.4.各组离散程度相差悬殊各组离散程度相差悬殊(方差不齐方差不齐)的资的资料料 如经变量变换达到方差齐性,则可用参数如经变量变换达到方差齐性,则可用参数检验;否则的话就要用非参数法处理。检验;否则的话就要用非参数法处理。第7页/共76页2023/2/22秩和检验8何时使用非参数检验?5.5.分布形态不明的资料分布形态不明的资料 小样本,但又不趋向于正态分布;不稳定,例数少,分布不明确的资料。小样本,但又不趋向于正
7、态分布;不稳定,例数少,分布不明确的资料。符合参数检验条件首选参数检验 不符合条件非参数检验第8页/共76页2023/2/22秩和检验9秩和检验秩和检验秩次秩次(rankrank):就是将观察值按顺序由小到大排列):就是将观察值按顺序由小到大排列(排名次排名次),并用序号(如,并用序号(如1,2,31,2,3 )代替变量值本身,秩次即通常意义上的序号。)代替变量值本身,秩次即通常意义上的序号。秩和:秩和:即秩次的和。即秩次的和。秩转换秩转换:将数值变量转换成秩次,再计算检验统计量的过程。:将数值变量转换成秩次,再计算检验统计量的过程。秩和检验秩和检验:就是通过秩次的排列求秩和进行假设检验的方法
8、。:就是通过秩次的排列求秩和进行假设检验的方法。第9页/共76页2023/2/22秩和检验10Contents第一节第一节 配对资料的符号秩和检验(配对资料的符号秩和检验(WilcoxonWilcoxon配对法)配对法)第二节第二节 两独立样本比较的秩和检验(两独立样本比较的秩和检验(WilcoxonWilcoxon两样两样本法)本法)第三节第三节 完全随机设计多个样本比较的秩和检验完全随机设计多个样本比较的秩和检验(Kruskal-Kruskal-allisallis检验)检验)第10页/共76页2023/2/22秩和检验11第一节第一节 两配对样本差值的符号秩和检两配对样本差值的符号秩和检
9、验验(Wilcoxon signed rank test)符号秩和检验由符号秩和检验由WilcoxonWilcoxon于于19451945年提出,作为配对年提出,作为配对t t检验的替代方法。检验的替代方法。检验配对资料的差值是否来自检验配对资料的差值是否来自中位数中位数为为0 0的总体。的总体。在数据满足配对在数据满足配对t t检验的要求时,符号秩和检验的功效是配对检验的要求时,符号秩和检验的功效是配对t t检验效能检验效能的的95%95%左右。左右。第11页/共76页2023/2/22秩和检验12符号秩和检验的符号秩和检验的基本思想基本思想:在在H H0 0成立的条件下(两配对处理效应相同
10、成立的条件下(两配对处理效应相同 ),两配对样本的差数的正负是),两配对样本的差数的正负是随机的,则正差数的秩和与负差数的秩和应该相差不会太大,随机的,则正差数的秩和与负差数的秩和应该相差不会太大,即总体中位即总体中位数为数为0 0;反之,若两秩和相差太悬殊,则认为;反之,若两秩和相差太悬殊,则认为H H0 0成立的可能性受到怀疑,从成立的可能性受到怀疑,从而拒绝而拒绝H H0 0,接受接受H H1 1。第12页/共76页2023/2/22秩和检验13例例1 1:分别用氰化高铁法与光电比色法测得:分别用氰化高铁法与光电比色法测得1010个血样的血红蛋白含量,问两法测得结果有无差别?个血样的血红
11、蛋白含量,问两法测得结果有无差别?第13页/共76页2023/2/22医学统计学-秩和检验14表1 两种方法测定血清血红蛋白含量血样号 氰化高铁法 光电比色法 1 15.0 12.5 2 12.8 12.9 3 13.5 13.0 4 11.3 12.8 5 12.3 15.4 6 12.1 12.9 7 13.7 13.0 8 12.9 14.1 9 12.9 12.1 10 13.0 12.9 配对差值经检验不符合正态分布,不满足t检验条件第14页/共76页2023/2/22秩和检验15符号秩和检验的基本步骤:1.1.建立检验假设,确定检验水准建立检验假设,确定检验水准 H H0 0 :M
12、d=0Md=0(两处理效应相同)(两处理效应相同)H H1 1:Md0Md0(两处理效应不相同)(两处理效应不相同)=0.05=0.05第15页/共76页2023/2/22秩和检验162.2.求两组数据的差数求两组数据的差数d d,对差数的绝,对差数的绝对值编秩号对值编秩号 差数为差数为0 0的数据忽略不计,对子数减的数据忽略不计,对子数减1 1;余下的余下的n-in-i个差数个差数按绝对值按绝对值由小到大排秩号,但排好后的秩号由小到大排秩号,但排好后的秩号要保持原差数的要保持原差数的正负号正负号;差数绝对值相等时,则取其平均秩次。差数绝对值相等时,则取其平均秩次。第16页/共76页2023/
13、2/22医学统计学-秩和检验17表1 两种方法测定血清血红蛋白含量血样号 氰化高 光电比 差值 负秩 正秩 铁法 色法 (1)(2)(3)(4)=(2)-(3)(5)(6)1 15.0 12.5 2.5 9 2 12.8 12.9 -0.1 -1.5 3 13.5 13.0 0.5 3 4 11.3 12.8 -1.5 -8 5 12.3 15.4 -3.1 -10 6 12.1 12.9 -0.8 -5.5 7 13.7 13.0 0.7 4 8 12.9 14.1 -1.2 -7 9 12.9 12.1 0.8 5.5 10 13.0 12.9 0.1 1.5 T-=-32 T+=23验算
14、:|T+|+|T-|=n(n+1)/2=55统计量统计量统计量统计量T T对差对差数的数的绝对绝对值编值编秩秩第17页/共76页2023/2/22秩和检验183.分别求正、负差数的秩和,以绝对值较小者为分别求正、负差数的秩和,以绝对值较小者为T T 验算:验算:T T+T+T-=n(n+1)/2=n(n+1)/24.4.确定确定P P值和作出推断结论值和作出推断结论小样本时(小样本时(n n50,50,n n为为d0d0的对子数的对子数),通过查通过查p226p226附表附表8(T8(T界值表界值表)得得到到P P值,值,原则原则是:若统计量是:若统计量T T处于某处于某T T界值范围之内,其
15、界值范围之内,其P P值大于或等于相应值大于或等于相应概率;反之,则小于相应概率。当概率;反之,则小于相应概率。当T T值恰好等于附表中的界值时,其确切概值恰好等于附表中的界值时,其确切概率常小于相应的概率水平。率常小于相应的概率水平。第18页/共76页2023/2/22秩和检验19本例中:T=23 对子数n=10,查p226附表8得2310 45 10 45 故 P0.10下结论:在=0.05=0.05水准上不拒绝H H0 0 ,故不能认为两法测得血红蛋白含量有差别。第19页/共76页2023/2/22秩和检验20 大样本时(对子数n50)通过公式进行u u转化,采用正态近似检验:(式10-
16、110-1)式中0.50.5是连续性校正数,因为T T值是不连续的,而u u分布是连续的。秩和标准秩和标准差差平均秩和平均秩和第20页/共76页2023/2/22秩和检验21当存在同一秩较多时,按(式10-110-1)计算的u u值要比实际的u u值小,应采用(公式10-210-2)对u u加以校正:其中,t tj j是相同秩号的个数。校正系数校正系数第21页/共76页2023/2/22秩和检验22符号秩和检验的SPSS实现 SPSS(Statistical Package for Social Science,社会科学统计软件包)一直是国际上最流行且最具权威性的统计分析软件之一。SPSS最显
17、著的特点是菜单和对话框操作方式,无需编程,且图形功能强大,易于掌握和操作。第22页/共76页2023/2/22秩和检验23第23页/共76页2023/2/22秩和检验24符号秩和检验的SPSS实现1 1 定义变量定义变量第24页/共76页2023/2/22秩和检验25符号秩和检验的SPSS实现2 2 输输入入数数据据第25页/共76页2023/2/22秩和检验26第26页/共76页2023/2/22秩和检验27符号秩和检验的SPSS实现第27页/共76页2023/2/22秩和检验28符号秩和检验的SPSS实现第28页/共76页2023/2/22秩和检验29Wilcoxon Signed Ran
18、ks TestWilcoxon Signed Ranks Test结结果果第29页/共76页2023/2/22医学统计学-秩和检验30第二节第二节 两独立样本秩和检验两独立样本秩和检验(WilcoxonWilcoxon两样本比较法)两样本比较法)观测值X A 7 14 22 36 40 48 63 98 41.0029.81B 3 5 6 10 17 18 20 39 14.7511.73方差齐性检验:P0.05两样本方差不齐,不能应用t检验第30页/共76页2023/2/22医学统计学-秩和检验31采用Wilcoxon两独立样本秩和检验基本思想:基本思想:假定原假设假定原假设H H0 0成立
19、(成立(样本来自两个相同总体样本来自两个相同总体),合并两样本,将观察值),合并两样本,将观察值由小到大排列,编写秩次。在由小到大排列,编写秩次。在H H0 0成立的条件下,成立的条件下,T T值应接近平均秩和值应接近平均秩和n n0 0(1+N)/2(1+N)/2,其中,其中N=nN=n1 1+n+n2 2,n,n0 0=min(n=min(n1 1,n,n2 2)。如果如果T T值严重偏离平均秩和,则提示值严重偏离平均秩和,则提示H H0 0可能是不正确的。可能是不正确的。(1+2+3+1+2+3+16)/2=68+16)/2=68n n0 0(1+N)/2=8*(1+16)=68(1+N
20、)/2=8*(1+16)=68第31页/共76页2023/2/22医学统计学-秩和检验32采用Wilcoxon秩和检验一、建立检验假设,确定检验水准一、建立检验假设,确定检验水准 H H0 0 :样本来自两个相同总体:样本来自两个相同总体 (样本的每个观察值来自两总体的概率均为(样本的每个观察值来自两总体的概率均为0.50.5)H H1 1:样本来自两个不同总体:样本来自两个不同总体 (样本的每个观察值来自两总体的概率不等)(样本的每个观察值来自两总体的概率不等)=0.05第32页/共76页2023/2/22秩和检验33二、编秩二、编秩 将两组数据由小到大统一编秩,如遇相同将两组数据由小到大统
21、一编秩,如遇相同原始数据原始数据,若,若在同一组在同一组,仍按数据出现顺序编秩;若,仍按数据出现顺序编秩;若在不同组在不同组,则取其平均秩次。本例编秩结果见表则取其平均秩次。本例编秩结果见表2 2第33页/共76页2023/2/22医学统计学-秩和检验34表2 两种疗法的退热时间 新疗法 旧疗法退热时间 秩号 退热时间 秩号 25 1 36 5 30 2 40 9 32 3 44 11 35 4 48 13.5 37 6 50 15 39 7.5 56 16 39 7.5 59 17 42 10 60 18 46 12 64 19 48 13.5 195 20 240 21 n1=10 T1=
22、66.5 n2=11 T2=164.5两样本混两样本混合后统一合后统一编秩求得编秩求得秩号秩号分别求秩和分别求秩和第34页/共76页2023/2/22医学统计学-秩和检验35三、分组求秩和并确定检验统计量三、分组求秩和并确定检验统计量当样本例数不等时,取当样本例数不等时,取较小例数组较小例数组的秩和为统计量的秩和为统计量T T;如;如n n1 1=n=n2 2,则取任一组秩和为,则取任一组秩和为统计量统计量T T。本例中。本例中:n n1 1=10 n=10 P,不拒绝不拒绝H H0 0;如果;如果T T值恰好等值恰好等于界值,于界值,PP;如果;如果T T位于检验界值区间外,位于检验界值区间
23、外,PP,拒绝,拒绝H H0 0 ,接受,接受H H1 1 。第36页/共76页2023/2/22医学统计学-秩和检验37在本例中,在本例中,T=66.5T=66.5,取,取=0.05=0.05,根据附表根据附表9 9双侧检验界值双侧检验界值0.010.01区间为(区间为(73,14773,147),),T T位于区间外,所以位于区间外,所以P0.01P0.01。P0.01Pn2=50 T=例数较少组对应的秩和=T2=4338.5(T)第52页/共76页2023/2/22医学统计学-秩和检验53根据公式(10-3)计算u根据C根据t界值表,PHHH,则则PPP;ii.ii.大样本情况:若大样本
24、情况:若k k 3 3或或n ni i 5 5时,理论时,理论上,上,H H近似服从自由度为近似服从自由度为k k1 1的的 分布,可查附表分布,可查附表7 7(界值表)界值表)得出得出P P值,最后按值,最后按P P值作出推断结论。值作出推断结论。第71页/共76页2023/2/22秩和检验72 本例处理数本例处理数k=3k=3,各组样本含量均为,各组样本含量均为1010,超出了附表,超出了附表1010(H H界值表)的范围。界值表)的范围。因此,查附表因此,查附表7 7(界值表)确定界值表)确定P P值。值。按自由度按自由度v=k-1=2v=k-1=2查附表查附表7 7,0.005(2)0.005(2)=10.1018.12=10.1018.12,于是,于是P0.005P50)量 独立:Wilcoxon two sample test T 查表法资 (mann-whitney test)料 多组-完全随机:kruskal-Wallis test H(k3且ni5查H表)ni5或k3查 界值表 两组:Wilcoxon two sample test 多组:kruskal-Wallis test两组两组等级资料等级资料第75页/共76页2023/2/22医学统计学-秩和检验76谢谢您的观看!第76页/共76页