第六章非参数检验 (2)精选文档.ppt-淘文阁

资源描述

《第六章非参数检验 (2)精选文档.ppt》由会员分享，可在线阅读，更多相关《第六章非参数检验 (2)精选文档.ppt（42页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第六章非参数检验本讲稿第一页，共四十二页主要内容 n非参数检验和参数检验的区别n总体分布的卡方检验n二项分布检验nSPSS单样本变量值随机性检验nSPSS单样本K-S检验n两独立样本非参数检验n多独立样本非参数检验n两配对样本非参数检验n多配对样本非参数检验本讲稿第二页，共四十二页非参数检验简介 n参数检验方法检验的内容是总体分布的某些参数，例如均值，方差，比率等。n非参数检验主要用于不考虑被研究对象的总体分布，或对总体的分布不做任何事先的假定的检验。n非参数检验的内容不是总体分布的某些参数，而是检验总体某些有关的性质，例如总体的分布位置、分布形状之间的比较，或者各样本所在总体是否独立等。本讲

2、稿第三页，共四十二页非参数检验方法的优点 n稳健性：因对总体分布的约束条件放宽，从而对一些离群值或极端值不至于太敏感。n使用范围广：对数据的度量标准（或测量测度）无约束，定序数据、定量数据都可；部分数据缺失也可；小样本、分布未知样本、数据污染样本、混杂样本等都可以应用非参数方法。本讲稿第四页，共四十二页非参数检验的应用范围n参数检验方法的条件不满足。例如样本来自的总体不服从正态分布，T检验不适用，必须应用非参数方法来比较两个总体的中心趋势。n研究定类变量和定序变量之间的关系。本讲稿第五页，共四十二页SPSS非参数检验本讲稿第六页，共四十二页非参数检验n非参数检验根据样本数目以及样本之间的关系可

3、以分为：n单样本非参数检验n两独立样本非参数检验n多独立样本非参数检验n两配对样本非参数检验n多配对样本非参数检验本讲稿第七页，共四十二页单样本非参数检验 nSPSS的单样本非参数检验方法包括：n总体分布的卡方(Chi-square)检验n二项分布(Binomial)检验n单样本K-S(Kolmogorov-Smirnov)检验n单样本变量值随机性检验(Runs Test)本讲稿第八页，共四十二页卡方检验n卡方检验是一种常用的对总体分布进行检验的非参数检验方法。n例如，医生研究心脏病人猝死人数与日期的关系，检验现在的人口结构和十年前是否一样，血型是否和人的性格有关系，现代社会中受过高等教育、高

4、中毕业、初中毕业、小学毕业和文盲的比例是否为3：6：10：2：1等问题都可以通过卡方检验来实现。本讲稿第九页，共四十二页卡方检验的定义n定义：总体分布的卡方检验适用于配合度检验，是根据样本数据的实际频数推断总体分布与期望分布或理论分布是否有显著差异。n卡方检验的原假设是：H0样本来自的总体的分布与假设的分布（又称期望分布或者理论分布）无显著差异。本讲稿第十页，共四十二页卡方检验的原理（1）n卡方检验的基本思想是，如果从一个随机变量X所在的总体中随机抽取若干个观察样本，这些观察样本落在X的k个互不相交的子集中的观测频数服从一个多项分布，这个多项分布当k趋于无穷时近似服从卡方分布。本讲稿第十一页，

5、共四十二页卡方检验的原理（2）n因此假设样本来自总体服从某个期望分布或理论分布，同时获得样本数据各子集的实际观察频数，并根据下面的公式计算统计量Q，作出推断：n其中，Qi表示观察频数，Ei表示期望频数或理论频数。可见Q值越大，表示观察频数和理论频数越不接近；Q值越小，说明观察频数和理论频数越接近。本讲稿第十二页，共四十二页卡方检验的原理（3）nSPSS将自动计算Q统计量，由于Q统计量服从自由度为k-1的卡方分布，因此SPSS将根据卡方分布表给出Q统计量所对应的相伴概率值。n如果相伴概率小于或等于显著性水平，则应拒绝零假设H0，认为样本来自的总体分布形态与期望分布或理论分布存在显著差异；如果相伴

6、概率值大于显著性水平，则不能拒绝零假设，认为样本来自的总体分布形态与期望分布或理论分布不存在显著差异。本讲稿第十三页，共四十二页卡方检验例子n某地一周内各日患忧郁症的人数分布如下表所示，请检验一周内各日患忧郁症人数是否满足1:1:2:2:1:1:1本讲稿第十四页，共四十二页单击Data菜单中的Weight Cases命令，弹出Weight Cases对话框，选中Weight cases by选项，将变量“患者数”添加到Frequency Variable框中，定义该变量为权数，再单击OK按钮，返回数据编辑窗口。本讲稿第十五页，共四十二页本讲稿第十六页，共四十二页弹出Chi-Square Tes

7、t对话框，要对一周内各日的人数进行分布分析，故在对话框左侧的变量列表中选择“周日”变量，使之添加到Test Variable List框中。确定待检验样本的取值范围所有数据都参加检验用户自定义一个取值范围，只有在这个范围内的数据才参与检验给出期望分布的频数表示所有分组的期望频数都相同，即期望分布为均匀分布要求用户输入期望分布的频率数，通过单击Add（增加），Change（更改），Remove（删除）按钮对期望分布进行操作本讲稿第十七页，共四十二页单击Chi-Square Test对话框中的Options按钮，打开上图对话框。Options对话框中的Statistics框用来指定输出附加的分析结

8、果，其中：nDescriptive：表示输出待检验变量的描述统计量nQuartiles：表示输出待检验变量的四分位数Missing Values框用来说明缺失值如何处理，其中：nExclude cases test-by-test：表示当分析计算涉及到含有缺失值的变量时，则去掉在该变量上是缺失值的个案nExclude cases listwise：表示去除所有含缺失值的个案后再进行分析本讲稿第十八页，共四十二页结果分析第一个表中，周一到周日实际患病的人数（Observed N）分别为31、38、70、80、29、24、31，按照给定的理论分布，这一周各天的期望频数（Expected N）应为3

9、3.7、33.7、67.3、67.3、33.7、33.7、33.7。实际观察频数和期望频数的差（Residual）分别为-2.7、4.3、2.7、12.7、-4.7、-9.7、-2.7第二表中，Asymp.Sig值即相伴概率值0.331，大于显著性水平0.05，因此不能拒绝零假设，可以认为样本来自的总体分布与指定的期望分布无显著差异，即忧郁症患病人数在一周内的比例关系基本是1:1:2:2:1:1:1本讲稿第十九页，共四十二页二项分布检验n现实生活中有很多数据的取值只有两类，如医学中的生与死、患病的有与无、性别中的男与女、产品的合格与不合格等。从这种二分类总体中抽取的所有可能结果，要么是对立分类

10、中的这一类，要么是另一类，其频数分布称为二项分布。nSPSS二项分布检验就是根据收集到的样本数据，推断总体分布是否服从某个指定的二项分布。本讲稿第二十页，共四十二页二项分布检验n其零假设是：样本来自的总体与所指定的某个二项分布不存在显著的差异。n如果相伴概率小于或等于显著性水平，则应拒绝零假设H0，认为样本来自的总体分布形态与指定的二项分布存在显著差异；如果相伴概率值大于显著性水平，则不能拒绝零假设，认为样本来自的总体分布形态与指定的二项分布不存在显著差异。本讲稿第二十一页，共四十二页二项分布检验n例：某地某一时期内出生35名婴儿，其中女性19名，男性16名，问这个地方出生婴儿的性别比例与通常

11、的男女比例（总体概率约为0.5）是否不同？本讲稿第二十二页，共四十二页在Analyze菜单Nonparametric Tests中选择Binomial Test命令本讲稿第二十三页，共四十二页在弹出的Binomial Test对话框中，将变量“性别”添加到Test Variable List框中。Define Dichotomy 用来确定待检验样本的取值范围。其中：Get from data：表示所有观察数据都参与检验，而且这些数据本身就是二值数据的情况。Cut point：如果检验变量的数据不是二值数据，则可以选择该项，并在这里输入一个分割点，小于该分割点值的观察值为一类，大于该值为另外一类

12、。输入二项分布的检验概率值本讲稿第二十四页，共四十二页单击Binomial Test对话框中的Options按钮，打开上图对话框。Options对话框中的Statistics框用来指定输出附加的分析结果，其中：nDescriptive：表示输出待检验变量的描述统计量nQuartiles：表示输出待检验变量的四分位数Missing Values框用来说明缺失值如何处理，其中：nExclude cases test-by-test：表示当分析计算涉及到含有缺失值的变量时，则去掉在该变量上是缺失值的个案nExclude cases listwise：表示去除所有含缺失值的个案后再进行分析本讲稿第二十

13、五页，共四十二页结果分析总共35个观察数据，男性16人，女性19人，分别占的比率（Observed Prop.）为0.46和0.54，最后一列（Asymp.Sig.）给出相伴概率为0.736，大于显著性水平0.05，因此不能拒绝零假设，认为该地区出生的婴儿性别比例相等。本讲稿第二十六页，共四十二页SPSS单样本变量值随机性检验n定义：单样本变量值的随机性检验是对某变量的取值出现是否随机进行检验，也称为游程检验（Run过程）。n例如，某村发生一种地方病，其住户沿一条河居住，调查时对发病的住户标记为“1”，对非发病住户标记为“0”。经过调查就可以得到一个以1、0组成的数据序列，如101110000

14、111010.人们就会问，这种病的出现是否具有随机性。n要研究这个问题，就需要对上面的0、1序列进行分析，通过验证0、1出现是否随机来判定该病出现是否具有随机性。本讲稿第二十七页，共四十二页SPSS单样本变量值随机性检验n单样本变量值随机性检验的零假设是：总体某变量的变量值出现是随机的。n单样本变量值随机性检验通过游程（Run）数来实现。所谓游程是样本序列中连续出现的变量值的次数。n如果该地方病的出现是随机的，那么在上面的数据序列中，将不太可能有许多0或1连续出现的情况，同时也不太可能出现1和0交叉频繁的现象。因此出现太少或太多的游程就表明相应的变量值出现在一定程度上不是随机的。本讲稿第二十八

15、页，共四十二页SPSS单样本变量值随机性检验n在SPSS单样本变量值随机性检验中，SPSS将利用游程构造Z统计量，并依据正态分布表给出对应的相伴概率值。如果相伴概率小于或等于用户的显著性水平，则应拒绝零假设，认为样本值的出现不是随机的；如果相伴概率大于显著性水平，则不能拒绝零假设，认为变量值的出现是随机的。本讲稿第二十九页，共四十二页SPSS单样本变量值随机性检验n例，某村发生一种地方病，其住户沿一条河居住，调查时对发病的住户标记为“1”，对非发病住户标记为“0”，共35户居民，问这种病的出现是否具有随机性。本讲稿第三十页，共四十二页在弹出的Runs Test对话框中，在左侧的变量列表中选择“

16、发病情况”变量，使之添加到Test Variable List框中。在临近割点Cut Point框中有4个选项：nMedian：中位数作临界割点，在临界割点之下的为一类，大于或等于临界割点的为另一类。nMode：众数作临界割点，在临界割点之下的为一类，大于或等于临界割点的为另一类。nMean：均数作临界割点，在临界割点之下的为一类，大于或等于临界割点的为另一类。nCustom：用户指定临界割点，在临界割点之下的为一类，大于或等于临界割点的为另一类。本例选择Custom项，在其方框中输入1（根据需要选项，本例是0、1二分变量，故临界割点值是1.）本讲稿第三十一页，共四十二页单击Runs Test

17、对话框中的Options按钮，打开上图对话框。Options对话框中的Statistics框用来指定输出附加的分析结果，其中：nDescriptive：表示输出待检验变量的描述统计量nQuartiles：表示输出待检验变量的四分位数Missing Values框用来说明缺失值如何处理，其中：nExclude cases test-by-test：表示当分析计算涉及到含有缺失值的变量时，则去掉在该变量上是缺失值的个案nExclude cases listwise：表示去除所有含缺失值的个案后再进行分析本讲稿第三十二页，共四十二页结果分析从结果表格中看出，总共35个观察数据，游程数（Number

18、of Runs）为14，测试值（Test Value）为1，得到的相伴概率为0.181，大于显著性水平0.05，因此不能拒绝零假设，认为患病的住户沿河分布的情况无聚集性，而是呈随机分布。本讲稿第三十三页，共四十二页SPSS单样本K-S检验n定义：单样本K-S检验是以两位前苏联数学家Kolmogorov和Smirnov命名的，也是一种拟合优度的非参数检验方法。单样本K-S检验是利用样本数据推断总体是否服从某一理论分布的方法，适用于探索连续型随机变量的分布形态。n单样本K-S检验可以将一个变量的实际频数分布与正态分布（Normal）、均匀分布（Uniform）、泊松分布（Poisson）、指数（E

19、xponential）分布进行比较。本讲稿第三十四页，共四十二页SPSS单样本K-S检验nSPSS单样本K-S检验的零假设为：样本来自的总体与指定的理论分布无显著差异。nSPSS在统计中将计算K-S的Z统计量。并依据K-S分布表（小样本）或正态分布表（大样本）给出对应的相伴概率值。如果相伴概率小于或等于用户的显著性水平，则应拒绝零假设，认为样本来自的总体与指定的分布有显著差异；如果相伴概率值大于显著性水平，则不能拒绝零假设，认为样本来自的总体与指定的分布无显著差异。本讲稿第三十五页，共四十二页SPSS单样本K-S检验n某地144个周岁儿童的身高数据，问该地区儿童身高是否呈正态分布?本讲稿第三十

20、六页，共四十二页弹出的One-Sample Kolmogorov-Smirnov Test对话框，左侧变量列表中的“人数”使之添加到Test Variable List框中Test Distribution框中选择理论分布，其中：nNormal：表明与正态分布形式相比较。nUniform：表明与均匀分布比较。nPoisson：表明与泊松分布比较。nExponential：表明与指数分布形态相比较。本例中选择Normal项，表明与正态分布形式相比较。本讲稿第三十七页，共四十二页单击Options按钮，打开上图对话框。Options对话框中的Statistics框用来指定输出附加的分析结果，其中：

21、nDescriptive：表示输出待检验变量的描述统计量nQuartiles：表示输出待检验变量的四分位数Missing Values框用来说明缺失值如何处理，其中：nExclude cases test-by-test：表示当分析计算涉及到含有缺失值的变量时，则去掉在该变量上是缺失值的个案nExclude cases listwise：表示去除所有含缺失值的个案后再进行分析本讲稿第三十八页，共四十二页结论分析结果中相伴概率为0.681，大于显著性水平0.05.因此不能拒绝零假设，认为144个周岁儿童的身高服从正态分布。本讲稿第三十九页，共四十二页单样本非参数检验对数据的要求：n卡方检验一般要求待检验样本有比较大的样本容量，比较适合于一个因素的多项分类的数据分析。n二项分布检验只能用作二项分布检验。n单样本K-S检验比较适合于连续型数据的分析，其检验功效比较强。本讲稿第四十页，共四十二页本讲稿第四十一页，共四十二页集体项目本讲稿第四十二页，共四十二页

展开阅读全文