《第十三章--非参数统计分析2014-12-25要点优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第十三章--非参数统计分析2014-12-25要点优秀PPT.ppt(98页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十三章第十三章 非参数统计分析非参数统计分析nonparametric testsnonparametric tests范红敏范红敏第一节 概述 非参数检验最大的缺点就是检验效能较低,非参数检验最大的缺点就是检验效能较低,事实上依据国外的一项探讨表明,有些方法的事实上依据国外的一项探讨表明,有些方法的检验效能大约在参数检验方法的检验效能大约在参数检验方法的95%95%左右,并非左右,并非低得不能接受。低得不能接受。参数统计方法,是在已知总体分布的条件参数统计方法,是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。下,对相应分布的总体参数进行估计和检验。非参数统计方法的着眼点不是总
2、体参数,而非参数统计方法的着眼点不是总体参数,而是总体的分布状况,已知探讨目标总体的分布是是总体的分布状况,已知探讨目标总体的分布是否与已知理论分布相同,或者各样本所在总体的否与已知理论分布相同,或者各样本所在总体的分布位置分布位置/形态是否相同。由于这一类方法并不形态是否相同。由于这一类方法并不涉及总体参数,因而被称为非参数方法。涉及总体参数,因而被称为非参数方法。留意:非参数方法这个名称的含义指的是它的留意:非参数方法这个名称的含义指的是它的推断过程和结论均与原总体参数无关,并非说推断过程和结论均与原总体参数无关,并非说它在推断中什么分布参数都不利用,事实上,它在推断中什么分布参数都不利用
3、,事实上,最常用的秩和检验就是基于秩次的分布特征推最常用的秩和检验就是基于秩次的分布特征推导出来的,即可能会利用到秩分布的参数。导出来的,即可能会利用到秩分布的参数。nonparametric testsnonparametric tests菜单中供应了菜单中供应了8 8种非参数分析种非参数分析方法,可分为两类方法,可分为两类1.1.分布类型检验方法分布类型检验方法 :亦称拟合优度检验方法,:亦称拟合优度检验方法,即检验样本所在总体是否听从已知的总体分布即检验样本所在总体是否听从已知的总体分布包括如下过程:包括如下过程:(1 1)检验二项)检验二项/多项分类变量分布的多项分类变量分布的chi-
4、squarechi-square过过程;程;(2 2)检验二项分类变量分布的)检验二项分类变量分布的binomialbinomial过程;过程;(3 3)检验样本序列随机性的)检验样本序列随机性的runsruns过程;过程;(4 4)检验样本是否听从各种常用分布的)检验样本是否听从各种常用分布的1-sample 1-sample K-SK-S过程。过程。2.2.分布位置检验方法:用于检验样本所在总体的分布位置检验方法:用于检验样本所在总体的分布位置分布位置/形态是否相同,最常用的一类方法。形态是否相同,最常用的一类方法。包括如下过程:包括如下过程:(1 1)成组资料分布位置检验的)成组资料分布
5、位置检验的2 independent 2 independent samplessamples与与K independent samplesK independent samples(2 2)配对资料分布位置检验的)配对资料分布位置检验的2 related 2 related samplessamples与与K related samplesK related samplesAnalyze Analyze Nonparametric TestsNonparametric Tests(非参数检验)非参数检验)2 2 Independent Independent SamplesSamples (
6、两独立样本比较)两独立样本比较)K Independent K Independent SamplesSamples (多独立样本比较)多独立样本比较)2 2 Related SamplesRelated Samples (两相关样本比较)两相关样本比较)K K Related SamplesRelated Samples (多相关样本比较)多相关样本比较)SPSS非参数统计过程名非参数统计过程名非参数检验非参数检验两独立样本比较两独立样本比较多独立样本比较多独立样本比较两相关样本比较两相关样本比较多相关样本比较多相关样本比较第一节第一节 分布类型检验方法分布类型检验方法基本原理:算出实际分布
7、和理论分布间的差基本原理:算出实际分布和理论分布间的差异大小,然后依据某种统计量来求出异大小,然后依据某种统计量来求出P值。值。Chi-squareChi-square过程其分析目的是检验分类数据样过程其分析目的是检验分类数据样本所在总体分布(各类别所占比例)是否与已本所在总体分布(各类别所占比例)是否与已知总体分布相同,是一个单样本检验。知总体分布相同,是一个单样本检验。例:某公司准备推出一个新品牌矿泉水,现已例:某公司准备推出一个新品牌矿泉水,现已万事俱备,就是在新产品的名称上几位董事看万事俱备,就是在新产品的名称上几位董事看法尚未统一。董事会屡议不决之后,最终确定法尚未统一。董事会屡议不
8、决之后,最终确定进行抽样调查。在受访的进行抽样调查。在受访的200200人中,人中,5252人更宠人更宠爱名称爱名称A A,6161人更宠爱名称人更宠爱名称B B,8787人更宠爱名称人更宠爱名称C C,请问,请问ABCABC三种名称受欢迎的程度有无差异?三种名称受欢迎的程度有无差异?一、数据基本操作一、数据基本操作datadataWeight casesWeight cases选择此项选择此项二、基本操作过程二、基本操作过程1.1.打开主对话框打开主对话框Analyze nonparametric chi-square Analyze nonparametric chi-square 2.2
9、.检验变量的选择和设置检验变量的选择和设置在变量列表框中选择检验变量,单击右向箭头按在变量列表框中选择检验变量,单击右向箭头按钮,将其移动至右侧的钮,将其移动至右侧的“test variable listtest variable list”列表框。列表框。(1 1)Expected range(Expected range(期望范围期望范围)选项组用于确选项组用于确定检验值的范围,有以下两个单选项定检验值的范围,有以下两个单选项Get from data Get from data 默认选项,由数据的最小默认选项,由数据的最小值和最大值确定的范围。值和最大值确定的范围。Use specifi
10、ed range Use specified range 用户指定范围,可在用户指定范围,可在被激活的被激活的“lowerlower”和和“upperupper”参数框中键参数框中键入检验范围的下限和上限。入检验范围的下限和上限。(2 2)Expected values(Expected values(期望值期望值)选项组用于指选项组用于指定期望频数定期望频数npnp的方法的方法All categories equal All categories equal 默认选项,全部子默认选项,全部子集的期望概率值都相同,即检验总体是否听从集的期望概率值都相同,即检验总体是否听从匀整分布匀整分布Val
11、ues Values 指定分组的期望概率值。在其后的文指定分组的期望概率值。在其后的文本框内可以输入相应的大于本框内可以输入相应的大于0 0的数值。可以单的数值。可以单击击“add”“add”、“change”“change”、“remove”“remove”按钮对按钮对输入的数值进行增加、修改和删除。有几个类输入的数值进行增加、修改和删除。有几个类别需输入几个期望值。别需输入几个期望值。3.Options3.Options选项选项4.Exact tests4.Exact tests选项选项(1 1)Asymptotic only:Asymptotic only:渐进法(近似分布法),渐进法(
12、近似分布法),默认计算显著性水平的方法默认计算显著性水平的方法基本条件:渐进方法的显著性水平要求数据量足够基本条件:渐进方法的显著性水平要求数据量足够大,假如数据量比较小,或者频数过低,检验结果大,假如数据量比较小,或者频数过低,检验结果可能会失效。可能会失效。(2 2)Monte carlo Monte carlo 蒙特卡洛估计方法,精确显著蒙特卡洛估计方法,精确显著性水平的无偏估计。性水平的无偏估计。(3 3)Exact Exact 精确计算显著性水平的方法。精确计算显著性水平的方法。三、检验结果三、检验结果1.1.描述性统计量描述性统计量2.2.期望数和观测数期望数和观测数3.3.检验结
13、果检验结果结论:拒绝无效假设,认为三种名称受欢迎结论:拒绝无效假设,认为三种名称受欢迎的程度不同。的程度不同。二、单样本二、单样本K-SK-S检验检验1.适用条件:连续性资料的分布状况适用条件:连续性资料的分布状况2.检验原理:它分别做出已知理论分布下的累检验原理:它分别做出已知理论分布下的累积频数分布以及视察的累积频数分布,然后对积频数分布以及视察的累积频数分布,然后对两者进行比较,从中确定两种分布的最大差异两者进行比较,从中确定两种分布的最大差异点。若样本的确听从理论分布,则最大差异值点。若样本的确听从理论分布,则最大差异值不应太高,否则就应当拒绝该假设。不应太高,否则就应当拒绝该假设。基
14、本操作如下:基本操作如下:analyzeNonparametric tests1-sample K-S1-sample K-STest variable list 框:变量名框:变量名 要检验的变量要检验的变量Grouping variable框:变量名框:变量名 分组变量分组变量Define groups:group1:1 group2:2 Continue指定所比较两组的代码指定所比较两组的代码OKK-SK-S过程的分析界面过程的分析界面【主对话框主对话框】指定须要进行分布指定须要进行分布类型分析的变量,类型分析的变量,可同时指定多个,可同时指定多个,系统会分别进行分系统会分别进行分析析分
15、析结果分析结果其次节其次节 分布位置检验方法分布位置检验方法非参数方法的适用条件:非参数方法的适用条件:1.1.总体分布非正态分布,也无法通过适当的变量变总体分布非正态分布,也无法通过适当的变量变换达到正态分布,甚至于分布类型未知。换达到正态分布,甚至于分布类型未知。2.2.有些数据不行能精确测量,如有些数据不行能精确测量,如“50mg”“50mg”等。等。3.3.当数据为分类资料时,传统的参数检验方法作用当数据为分类资料时,传统的参数检验方法作用特别有限,样本量少时。特别有限,样本量少时。非参数检验最大的缺点就是检验效能较低非参数检验最大的缺点就是检验效能较低一、一、2 independen
16、t samples2 independent samples与与K independent K independent samples samples 2 independent samples检验两个独立样本所在总体分布是否相同的方法检验两个独立样本所在总体分布是否相同的方法K independent samples检验多个独立样本所在总体分布是否相同的方法检验多个独立样本所在总体分布是否相同的方法Analyze nonparametric 2 independent sampleTest variable list 框:变量名框:变量名 要检验的变量要检验的变量Grouping varia
17、ble框:变量名框:变量名 分组变量分组变量Define groups:group1:1 group2:2 Continue指定所比较两组的代码指定所比较两组的代码OK 主对话框主对话框 1.Test variable list1.Test variable list框:指定须要进行分析的变量,可同框:指定须要进行分析的变量,可同时指定多个,系统会分别进行分析。时指定多个,系统会分别进行分析。2.Grouping variable2.Grouping variable框:指定分组变量。和两样本框:指定分组变量。和两样本t t检验时检验时相同,该分组变量也必需运用相同,该分组变量也必需运用def
18、ine groupsdefine groups钮具体定义进行钮具体定义进行比较的两个组的变量取值。比较的两个组的变量取值。3.Test type3.Test type复选框组合:给出四种可用来进行两组间非参数复选框组合:给出四种可用来进行两组间非参数检验的方法。检验的方法。(1(1)mann-whitney U:mann-whitney U:默认值,最常用的两样本秩和检验,检默认值,最常用的两样本秩和检验,检验时利用了大小次序,要求变量至少为有序测量水平。与验时利用了大小次序,要求变量至少为有序测量水平。与wilcoxonwilcoxon秩和检验及两组比较的秩和检验及两组比较的kruskal-
19、Walliskruskal-Wallis检验完全等检验完全等价。价。(2 2)Kolmogorov-smirnov Z:Kolmogorov-smirnov Z:检验两个独立样本是否取自同检验两个独立样本是否取自同一总体,原理是两个样本的累积频数分布曲线原委差了多远。一总体,原理是两个样本的累积频数分布曲线原委差了多远。(3 3)moses extreme reactions:moses extreme reactions:该检验有其该检验有其特殊用途,适用施加的处理对某些个体出现正特殊用途,适用施加的处理对某些个体出现正效应,对另一些个体出现负效应时。基本思想效应,对另一些个体出现负效应时。
20、基本思想是,在剔除了各是,在剔除了各5%5%的最大和最小值后,比较两的最大和最小值后,比较两组的极差是否相同。组的极差是否相同。(4 4)wald-wolfowitz runs:wald-wolfowitz runs:检验的是总体分检验的是总体分布状况是否相同。基于排秩后的游程检验。布状况是否相同。基于排秩后的游程检验。1 1.两独立样本比较的秩和检验两独立样本比较的秩和检验 2-2-Independent SamplesIndependent Samples例例2 2 某某探探讨讨室室在在用用药药物物预预防防高高原原肺肺水水肿肿的的动动物物试试验验中中,模模拟拟海海拔拔4000m4000m状
21、状态态下下1212小小时时后后处处死死试试验验大大白白鼠鼠,测测得得给给药药组组与与不不给给药药(比比照照)组组肺肺含含水水量量(gggg干干重重)资资料料,试试检检验验两两组组大大鼠鼠肺肺含含水水量量有有无差别?无差别?n n行行2 2列列(指标变量、分组变量)(指标变量、分组变量)数据格式数据格式AnalyzeAnalyze Nonparametric TestsNonparametric Tests 2 2 Independent SamplesIndependent Samples 检验步骤检验步骤Two-Independent-Samples Test对话框对话框检验变量检验变量分组
22、变量分组变量定义分组定义分组Define Groups对话框对话框点击点击“OK”,运行结果运行结果结果输出结果输出秩统计量描述秩统计量描述秩和检验结果秩和检验结果Mann-Whitney U统计量统计量Wilcoxon W统计量统计量Z统计量统计量P值值确切概率确切概率例:某试验室视察某种抗癌新药治疗小鼠例:某试验室视察某种抗癌新药治疗小鼠移植性肿瘤的疗效,两组各移植性肿瘤的疗效,两组各1010只小鼠,以只小鼠,以生存日数作为视察指标,试验结果如下:生存日数作为视察指标,试验结果如下:试检验两组小鼠生存日数有无差别。试检验两组小鼠生存日数有无差别。试验组:试验组:24 26 27 27 30
23、 32 34 36 40 60天以上天以上比照组:比照组:4 6 7 9 10 10 12 13 16 16分析结果分析结果秩和检验中用到的编秩状况列表,试验秩和检验中用到的编秩状况列表,试验组秩次要高一些。组秩次要高一些。近似法算出的近似法算出的P P值和准确概率法计算出的值和准确概率法计算出的P P值,值,两种算法得出的结论一样,两组生存时间的分两种算法得出的结论一样,两组生存时间的分布差别具有显著的统计学意义,结合实际数据,布差别具有显著的统计学意义,结合实际数据,可认为是试验组生存时间较长,因此该抗癌新可认为是试验组生存时间较长,因此该抗癌新药是有效的。药是有效的。K independ
24、ent samplesK independent samples过程用于多组间的非参数检验留意事项过程用于多组间的非参数检验留意事项1.1.多组比较中仍须要指定分组变量的取值范围,超过此范围多组比较中仍须要指定分组变量的取值范围,超过此范围将不纳入分析。将不纳入分析。2.2.多组比较中假如要求系统计算准确概率,则须要的内存量多组比较中假如要求系统计算准确概率,则须要的内存量特别大。特别大。3.K independent samples 3.K independent samples 供应的比较方法:供应的比较方法:(1 1)Kruskal-wallis H:Kruskal-wallis H:最
25、常用的多样本比较的秩和检验;最常用的多样本比较的秩和检验;(2 2)MedianMedian:中位数检验,检验各个样本是否来自具有相同:中位数检验,检验各个样本是否来自具有相同中位数的总体,三种方法中它的检验效能最低。中位数的总体,三种方法中它的检验效能最低。(3 3)Jonckheere-terpastra:Jonckheere-terpastra:该检验对连续性资料或有序分该检验对连续性资料或有序分类资料都适用,并且当分组变量为有序分类资料时,此法的类资料都适用,并且当分组变量为有序分类资料时,此法的检验效能要高于检验效能要高于Kruskal-wallis HKruskal-wallis
26、H。2 2.多个独立样本比较的多个独立样本比较的K-W HK-W H检验检验 K-Independent SamplesK-Independent Samples例例3 3 某探讨所为视察甲、乙两种药物的利胆作用,某探讨所为视察甲、乙两种药物的利胆作用,将将1818条犬随机分为四组,禁食条犬随机分为四组,禁食1818小时后,在麻醉状小时后,在麻醉状况下分别赐予不同处理,计算况下分别赐予不同处理,计算3030分钟内胆汁分泌滴分钟内胆汁分泌滴数,结果如表。试比较各组间有无显著差别?数,结果如表。试比较各组间有无显著差别?n n行行2 2列列(指标变量、分组变量)(指标变量、分组变量)数据格式数据格
27、式AnalyzeAnalyze Nonparametric TestsNonparametric Tests K Independent Samples K Independent Samples 检验步骤检验步骤Test for Several Independent Samples对话框对话框检验变量检验变量分组变量分组变量定义分组定义分组Define Groups对话框对话框点击点击“OK”,运行结果运行结果结果输出结果输出秩统计量描述秩统计量描述秩和检验结果秩和检验结果卡方值卡方值自由度自由度P值值3 3.两样本等级资料的比较两样本等级资料的比较 2-2-Independent Sam
28、plesIndependent Samples例例5 5 某防疫站为了解不同季节居民体内核黄素养某防疫站为了解不同季节居民体内核黄素养分状况,于某年夏、冬季分别对成年居民口服分状况,于某年夏、冬季分别对成年居民口服5mg5mg核黄素后收集核黄素后收集4 4小时的负荷尿,测定核黄素含小时的负荷尿,测定核黄素含量,试比较两个季度间有无差别?量,试比较两个季度间有无差别?n n行行3 3列列(频数变量、分组变量、等级变量)(频数变量、分组变量、等级变量)数据格式数据格式(1 1)定义频数变量)定义频数变量DataData Weight Cases Weight Cases 检验步骤检验步骤 Weig
29、ht Cases对话框对话框不设置权重不设置权重设置权重设置权重频数变量频数变量 Weight Cases对话框对话框(2 2)秩和检验)秩和检验AnalyzeAnalyze Nonparametric TestsNonparametric Tests 2 2 Independent Samples Independent Samples Two Independent-Samples Test对话框对话框检验变量(即检验变量(即等级变量)等级变量)分组变量分组变量定义分组定义分组Define Groups对话框对话框点击点击“OK”,运行结果运行结果结果输出结果输出秩统计量描述秩统计量描述秩
30、和检验结果秩和检验结果4 4.多样本等级资料的比较多样本等级资料的比较 K Independent SamplesK Independent Samples例例6 6 某院用三种疗法治疗慢性喉炎患者,结果如表,试某院用三种疗法治疗慢性喉炎患者,结果如表,试比较其疗效。比较其疗效。n n行行3 3列列(频数变量、分组变量、等级变量)(频数变量、分组变量、等级变量)数据格式数据格式(1 1)定义频数变量)定义频数变量DATADATA Weight Cases Weight Cases 检验步骤检验步骤 Weight Cases对话框对话框(2 2)秩和检验)秩和检验AnalyzeAnalyze N
31、onparametric TestsNonparametric Tests K K Independent Samples Independent Samples Test for Several Independent Samples对话框对话框检验变量(即检验变量(即等级变量)等级变量)分组变量分组变量定义分组定义分组Define Groups对话框对话框点击点击“OK”,运行结果运行结果结果输出结果输出秩统计量描述秩统计量描述秩和检验结果秩和检验结果二、二、2 related samples2 related samples与与K related samplesK related sam
32、ples2 related samples2 related samples过程的检验目的是考察配对样本的总过程的检验目的是考察配对样本的总体分布是否相同,或差值是否以体分布是否相同,或差值是否以0 0为中心分布。为中心分布。K related samplesK related samples过程则用于检验多个配伍样本所在总过程则用于检验多个配伍样本所在总体的分布是否相同。体的分布是否相同。Analyze nonparametric 2 related samplesTest pairs list 框:变量名框:变量名1(result1)变量名变量名2(result2)变量成对输入变量成对输入
33、OK【主对话框主对话框】1.Test pairs list1.Test pairs list框:指定须要进行分析的变量对,框:指定须要进行分析的变量对,留意变量必需成对引入,可以同时指定多对,系统留意变量必需成对引入,可以同时指定多对,系统会分别进行分析。会分别进行分析。2.Test type2.Test type复选框组:给出四种可用来进行配对样复选框组:给出四种可用来进行配对样本间非参数检验的方法。本间非参数检验的方法。(1 1)wilcoxon:wilcoxon:默认值,常用的配对设计差值的秩默认值,常用的配对设计差值的秩和检验。和检验。(2 2)signsign:符号检验:符号检验(3
34、 3)McNemar:McNemar:事实上就是常用的配对卡方检验,事实上就是常用的配对卡方检验,适用两分类资料,考察重点是两组间分类的差适用两分类资料,考察重点是两组间分类的差异,特殊适用自身比照设计。异,特殊适用自身比照设计。(4 4)Marginal Homogeneity:Marginal Homogeneity:是是McNemarMcNemar法向多法向多分类情形下的扩展,适用于资料为有序分类的分类情形下的扩展,适用于资料为有序分类的状况。状况。3.Current selections 3.Current selections 框:用于动态显示当前框:用于动态显示当前选中的变量名,便
35、于用户进行操作。选中的变量名,便于用户进行操作。5 5.配对样本比较的符号秩和检验配对样本比较的符号秩和检验 2 Related Samples2 Related Samples 例例1 1 某院检验科试用检测谷某院检验科试用检测谷-丙转氨酶的新方法,丙转氨酶的新方法,时间由时间由2020分钟缩短为分钟缩短为1010分钟,加基液后孵箱温分钟,加基液后孵箱温度由度由3737升至升至5656,原法与新法同测一份血清。,原法与新法同测一份血清。问两法所得结果有无显著差别?问两法所得结果有无显著差别?n n行行2 2列列 (指标变量(两组)(指标变量(两组)数据格式数据格式 AnalyzeAnalyz
36、e Nonparametric TestsNonparametric Tests 2 2 Related Samples Related Samples 检验步骤检验步骤Two-Related-Samples对话框对话框配对检验指标配对检验指标结果输出结果输出秩统计量描述秩统计量描述负秩负秩正秩正秩例数例数平均秩次平均秩次秩和秩和秩和检验结果秩和检验结果P值值Wilcoxon Signed Ranks Test编秩状况列表,接受的新方法编秩状况列表,接受的新方法-老方法的差值。老方法的差值。可见负的秩和较多,即新方法的检测结果稍低,可见负的秩和较多,即新方法的检测结果稍低,该差异有无统计学意义
37、需看后面的检验结果。该差异有无统计学意义需看后面的检验结果。注:秩和检验结果,给出的是注:秩和检验结果,给出的是Z Z统计量和近似统计量和近似的的P P值。可见两组差异无统计学意义,因此可值。可见两组差异无统计学意义,因此可用新方法代替老方法进行检测。用新方法代替老方法进行检测。K related samplesK related samples几点留意事项几点留意事项K related samplesK related samples过程供应的比较方法过程供应的比较方法(1 1)friedman:friedman:系统默认值,即最常用单样本重系统默认值,即最常用单样本重复测量或配伍组设计定量
38、或等级资料的一种非参复测量或配伍组设计定量或等级资料的一种非参数检验方法,亦称为数检验方法,亦称为M M检验。检验。(2 2)kendalls Wkendalls W:表示的是:表示的是K K个指标间相互关个指标间相互关联的程度,取值在联的程度,取值在0-10-1之间。之间。(3 3)cochrans Qcochrans Q:是两相关样本:是两相关样本McNemarMcNemar检验检验在多样本情形下的推广,只适用于二分类变量。在多样本情形下的推广,只适用于二分类变量。6 6.多个相关样本比较的多个相关样本比较的Friendman MFriendman M检验检验 K-related Samp
39、les K-related Samples例例4 4 受试者受试者6 6人,每人穿人,每人穿4 4种不同的防护服时的脉搏数如表,问种不同的防护服时的脉搏数如表,问4 4种防护服对脉种防护服对脉搏的影响有无显著差别?搏的影响有无显著差别?n n行行k k列列(指标变量(指标变量(k k个组)个组)数据格式数据格式AnalyzeAnalyze Nonparametric TestsNonparametric Tests K Related Samples K Related Samples 检验步骤检验步骤Test for Several Samples对话框对话框点击点击“OK”,运行结果运行结果结果输出结果输出秩统计量描述秩统计量描述秩和检验结果秩和检验结果例数例数卡方值卡方值自由度自由度P值值