2022年spss非参数教程 .pdf

上传人:Che****ry 文档编号:27267527 上传时间:2022-07-23 格式:PDF 页数:16 大小:708.12KB
返回 下载 相关 举报
2022年spss非参数教程 .pdf_第1页
第1页 / 共16页
2022年spss非参数教程 .pdf_第2页
第2页 / 共16页
点击查看更多>>
资源描述

《2022年spss非参数教程 .pdf》由会员分享,可在线阅读,更多相关《2022年spss非参数教程 .pdf(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、实际上,方法近年来发展极第十三章非参数统计分析方法Nonparametric Tests菜单详解非参数检验最大的缺点就是检验效能较低,实际上根据国外的一项研究,有些方法的检验效能大约在参数检验方法的95左右,并非低得不能接受。张文彤平时我们使用的统计推断方法大多为参数统计方法,他们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u 检验就是假定该样本所在总体服从正态分布, 然后推断总体的均数是否和已知的总体均数相同。本章要讨论的是另一大类统计分析方法,它的着眼点不是总体参数,而是总体的分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在总体的分布位置/

2、形状是否相同。由于这一类方法并不涉及总体参数,因而被称为非参数方法。非参数方法这个名称的含义指的是他的推断过程和结论均与原总体参数无关,并非说他在推断中什么分布参数都不利用,实际上, 最常用的秩和检验就是基于秩次的分布特征推导出来的,即可能会利用到秩分布的参数。SPSS的 Nonparametric Tests 菜单中一共提供了8 种非参数分析方法,他们可以被分为两大类:1分布类型检验方法:亦称拟合优度检验方法,即检验样本所在总体是否服从已知的理论分布。具体包括检验二项/多项分类变量分布的Chi-Square 过程;检验二项分类变量分布的Binomial 过程;检验样本序列随机性的Runs过程

3、;以及检验样本是否服从各种常用分布的1-Sample K-S 过程。2分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同,我们平时说的最多的非参数检验方法实际上指的就是这一类方法。具体包括用于成组资料分布位置检验的 2 Independent Samples 与 K Independent Samples 过程;以及用于配伍资料分布位置检验的 2 Related Samples 与 K Related Samples 过程。除以上两类现成的方法外,本章还将专门向大家介绍基于非参数检验原理的秩变换分析方法, 它可以作为现有方法的补充和有效扩展,大家会发现这种方法将在实际工作中非常有用

4、。- 242 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 16 页 - - - - - - - - - 实际上,方法近年来发展极第十三章非参数统计分析方法Nonparametric Tests菜单详解非参数检验最大的缺点就是检验效能较低,实际上根据国外的一项研究,有些方法的检验效能大约在参数检验方法的95左右,并非低得不能接受。张文彤平时我们使用的统计推断方法大多为参数统计方法,他们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u 检验

5、就是假定该样本所在总体服从正态分布, 然后推断总体的均数是否和已知的总体均数相同。本章要讨论的是另一大类统计分析方法,它的着眼点不是总体参数,而是总体的分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在总体的分布位置/形状是否相同。由于这一类方法并不涉及总体参数,因而被称为非参数方法。非参数方法这个名称的含义指的是他的推断过程和结论均与原总体参数无关,并非说他在推断中什么分布参数都不利用,实际上, 最常用的秩和检验就是基于秩次的分布特征推导出来的,即可能会利用到秩分布的参数。SPSS的 Nonparametric Tests 菜单中一共提供了8 种非参数分析方法,他们可以被分

6、为两大类:1分布类型检验方法:亦称拟合优度检验方法,即检验样本所在总体是否服从已知的理论分布。具体包括检验二项/多项分类变量分布的Chi-Square 过程;检验二项分类变量分布的Binomial 过程;检验样本序列随机性的Runs过程;以及检验样本是否服从各种常用分布的1-Sample K-S 过程。2分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同,我们平时说的最多的非参数检验方法实际上指的就是这一类方法。具体包括用于成组资料分布位置检验的 2 Independent Samples 与 K Independent Samples 过程;以及用于配伍资料分布位置检验的 2 R

7、elated Samples 与 K Related Samples 过程。除以上两类现成的方法外,本章还将专门向大家介绍基于非参数检验原理的秩变换分析方法, 它可以作为现有方法的补充和有效扩展,大家会发现这种方法将在实际工作中非常有用。- 242 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 16 页 - - - - - - - - - 图 13.3 Exact子对话框图 13.4 Options子对话框2Expected Range 单选框 组: 设定需要检验的

8、变量的取值范围 ,在此 范围之 外的 取值将不进 入分析。 默认 为使用数据文件中的最大和最小值作为检验范围 ,可使用 Use specified range 框组自行指定。3Expected Values 单选框 组:指定已知总体的各分类构成比,默认 为各类别构成比相等,可以使用下方的Values 自行定 义,注意 定义 时有 几个类别,就应输入几 个数值,并且数值的 排列次序和数据文件中记录 的排列次序应当相同, 因为它们 之间存在着一一对应的 关系。图 13.2 主对话框【 Exact 子对话框】用于 设定是否进行确 切概率 的计算, 以及具体的计算方法。共有 只计算 近似概率、 采用蒙

9、特 卡 罗模 拟方法计算确 切概率、 直接 计算确 切概率三 种选择 ,具体情况我们已经在卡方检验一章中 学习 过了,这里不 再重复 。【 Options 子对话框】1Statistics 复选框 组:一些可供 输出的统计量。Descriptive :常用 描述 统计量,包括均数、最小值 、 最大值 、标准差。Quartiles:输出四分位数。- 244 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 16 页 - - - - - - - - - 第十三章非参数统计分

10、析方法Nonparametric Tests 菜单详解2Missing Values 单选框 组: 选择 对缺失 值的处理方 式,可以是具体分析用到的变量有缺失 值才去 除该 记录 (Excludes cases test-by-test),或 只要相 关变量有 缺失 值, 则 在所有分析中均将该记录去 除(Excludes cases listwise)。默认 为前者,以充分 利用数据。分析结果 如下:NPar Tests Chi-Square Test Frequencies Test Statistics9.9102.007.007.000Chi-SquareadfAsymp. Sig.

11、Exact Sig.Point ProbabilityTYPE0 cells (.0%) have expected frequencies less than5. The minimum expected cell frequency is 66.7.a. TYPE5266.7-14.76166.7-5.78766.720.32001.002.003.00TotalObserved NExpected NResidual上面的两个表 格即为分析 结果 :Type 表显示 的是 三个类别的 观察 频数 、期望频数和残差。Test Statistics 表为最 终的检验 结果 ,给出了卡方值 、

12、近似 的 P 值和确 切 P 值。 结果显示 确切 P 值为 0.007,因此 结论为 拒绝无 效假 设,认为三种名称受欢迎 的程度不同。表中最后一行为点概率 值,即在总体中抽得 当前样本的 概率 ,本例中 没有实际 意义 。上面的结论显示 的是 三者总体有差异, 如果 要进行两两比较,就需要调整水准 ,此处不 再详述 ,最终的分析 结论应当为 三者两两有差异。 这个 结果拿到董事 会上 去,大家应当不会有 什么意见 了吧。13.1.2Binomial 过程匆匆吃完晚饭 ,小王心神 不宁 的向 晚自习 的教室走去 ,那个女孩今天 还会 坐在我 旁边吗?不知从 什么 时候起 ,小王开始注意起教室

13、中一个上 自习 的女孩 ,她长 的文 静可人,穿着素雅 ,浑身洋溢 着特有的 青春魅力 ,不可否 认,小 王在心底 里已 经喜欢 上了 她。但 生性腼腆 的他不 敢向对方表 白,只是 每天默默 的欣赏 着那种醉人 的 美丽 。那个女孩 一般都只坐 最后一 排左侧 或右侧 的两个 角落 中的位置, 小王则习惯坐 在 倒数第二排的右侧 ,不知 那女孩感觉到 他了 没有。上周忽 然就 消失 了几天 ,等重新回 来后一 直都坐在小王的后 面,已经连续六天 了。小王真 的希 望这是一种 暗示 ,可他 又害怕 是一种误解, 害怕自己 的行为 导致连仅 有的 希望也不复存 在。其实小 王并不知 道,呆板乏味

14、 的统计方法在这里可以助他一 臂 之力 :那个女孩 以 前总是随 意坐两个位置中的一个,即概率 各为 0.5。现在 连续 6 天都坐在同一个位置,相当于取得 了一个样本量为6 的样本, 只 要利用二项分布的原理计算一下,就可以知 道现在 她选- 245 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 16 页 - - - - - - - - - 第十三章非参数统计分析方法Nonparametric Tests 菜单详解2Missing Values 单选框 组: 选择

15、 对缺失 值的处理方 式,可以是具体分析用到的变量有缺失 值才去 除该 记录 (Excludes cases test-by-test),或 只要相 关变量有 缺失 值, 则 在所有分析中均将该记录去 除(Excludes cases listwise)。默认 为前者,以充分 利用数据。分析 结果 如下:NPar Tests Chi-Square Test Frequencies Test Statistics9.9102.007.007.000Chi-SquareadfAsymp. Sig.Exact Sig.Point ProbabilityTYPE0 cells (.0%) have e

16、xpected frequencies less than5. The minimum expected cell frequency is 66.7.a. TYPE5266.7-14.76166.7-5.78766.720.32001.002.003.00TotalObserved NExpected NResidual上面的两个表 格即为分析 结果 :Type 表显示 的是 三个类别的 观察 频数 、期望频数和残差。Test Statistics 表为最 终的检验 结果 ,给出了卡方值 、近似 的 P 值和确 切 P 值。 结果显示 确切 P 值为 0.007,因此 结论为 拒绝无 效假

17、设,认为三种名称受欢迎 的程度不同。表中最后一行为点概率 值,即在总体中抽得 当前样本的 概率 ,本例中 没有实际 意义 。上面的结论 显示 的是 三者总体有差异,如果 要进行两两比较,就需要调整水准 ,此处不 再详述 ,最终的分析 结论应当为 三者两两有差异。 这个 结果拿到董事 会上 去,大家应当不会有 什么意见 了吧。13.1.2Binomial 过程匆匆吃完晚饭 ,小王心神 不宁 的向 晚自习 的教室走去 ,那个女孩今天 还会 坐在我 旁边吗?不知从 什么 时候起 ,小王开始注意起教室中一个上 自习 的女孩 ,她长 的文 静可人,穿着素雅 ,浑身洋溢 着特有的 青春魅力 ,不可否 认,

18、小 王在心底 里已 经喜欢 上了 她。但 生性腼腆 的他不 敢向对方表 白,只是 每天默默 的欣赏 着那种醉人 的 美丽 。那个女孩 一 般都只坐 最后一 排左侧 或右侧 的两个 角落 中的位置, 小王则习惯坐 在 倒数第二排的右侧 ,不知 那女孩感觉到他了 没有。上周忽 然就 消失 了几天 ,等重新回 来后一 直都坐在小 王的后 面,已经连续六天 了。小王真 的希 望这是一种 暗示 ,可他 又害怕 是一种误解, 害怕自己 的行为 导致连仅 有的 希望也不复存 在。其实小 王并不知 道,呆板乏味 的统计方法在这里可以助他一 臂 之力 :那个女孩 以 前总是随 意坐 两个位置中的一个,即概率 各

19、为 0.5。现在 连续 6 天都坐在同一个位置,相当于取得 了一个样本量为6 的样本, 只 要利用二项分布的原理计算一下,就可以知 道现在 她选- 245 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 16 页 - - - - - - - - - 第十三章非参数统计分析方法Nonparametric Tests 菜单详解2 Define Dichotomy 单 选框 组:指定二分类的获取方法,如 果变量就是按二分类方式录入 的,则直接 使用 默认 的 Get fro

20、m data , 否则, 需要使用 Cut point 来指定一个分 界点。3Test Proportion 框:指定已知的总体概率 值, 默认 为 0.5。此处 输入 的数值应当和数据 录入的顺序相一 致,否 则可 能得出错误的 结 论。【Exact 子对话框 与 Options 子对话框】这两个对 话框 的形 式和功能 与本章 前面 讲过的 几个过程 完 全相同,此处不赘。分析结果 如下:以上文字Binomial Test1.001.00.01.105a,b.090.003991.004001.00Group 1Group 2TotalILLCategoryNObserved Prop.T

21、est Prop.Asymp. Sig.(1-tailed)Exact Sig.(1-tailed)Alternative hypothesis states that the proportion of cases in the first group 0.05,结论为 尚不能 认为该 地新生 儿的异常 率低于一 般。13.1.3Runs过程在许多时 候,研究者 关心 的不 仅仅 是分布的位置 、或者形状, 也希 望考察样本的随机性如 何。因为如 果样本不是从总体中随机抽取 出的,那么 所作的 任何 推断都将变 得没 有价值。在另外一些情况下,样本随机性的 重要程度会 远远 大于总体参数的重

22、要程度, 比如说在甲 A 联赛 的某 场关键比赛 中, 裁判 一共 判罚犯规40 次,其中 红队 、黄队 各 20 次,从样本 率上讲非常 公平。但观察整 个比 赛过程,人们发现上 半场 的 22 次犯规 有 17 次是 红队的,而下 半场 的 18 次犯规 则只 有 3次是 红队 的。大家 必然会 怀疑 其中是否有 黑箱 操作,即裁判 的判罚尺 度在 全场 不统一,并非 公平合理。从而就会导致 球迷闹 事、俱 乐部 上告、报纸 发行量大 增、裁判愤 而起诉媒 体 ,最 终导致 GDP 上升若干百 分点。游程检验的目的就是检验取 值为二分类, 并且按时间或某种 顺序 排列的数列资料是否为真正随

23、机出现, 即各 观察 对象 是否来 自同一个总体, 并且取 值各 自独立 。它的具体做法是将 连续的相同 取值的 记录 作为一个 游程,比如说下 面这个序列:最前面 的三个加号 为一个 游 程,随后的两个 减号 为第二个 游程,整个序列中共有六个游程。- 247 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 16 页 - - - - - - - - - 第十三章非参数统计分析方法Nonparametric Tests 菜单详解2 Define Dichotomy 单

24、 选框 组:指定二分类的获取方法,如 果变量就是按二分类方式录入 的,则直接 使用 默认 的 Get from data , 否则, 需要使用 Cut point 来指定一个分 界点。3 Test Proportion 框:指定已知的总体概率 值, 默认 为 0.5。此处 输入 的数值应当和数据 录入 的顺序相一 致,否 则可 能得出错误的 结 论。【Exact 子对话框 与 Options 子对话框】这两个对 话框 的形 式和功能 与本章 前面 讲过的 几个过程 完 全相同,此处不赘。分析 结果 如下:以上文字Binomial Test1.001.00.01.105a,b.090.00399

25、1.004001.00Group 1Group 2TotalILLCategoryNObserved Prop.Test Prop.Asymp. Sig.(1-tailed)Exact Sig.(1-tailed)Alternative hypothesis states that the proportion of cases in the first group 0.05,结论为 尚不能 认为该 地新生 儿的异常 率低于一 般。13.1.3Runs过程在许多时 候 ,研究者 关心 的不 仅仅 是分布的位置、或者形状, 也希 望考察样本的随机性如 何。因为如 果样本不是从总体中随机抽取 出的

26、,那么 所作的 任何 推断都将变 得没 有价值。在另外一些情况下,样本随机性的 重要程度会 远远 大于总体参数的重要程度, 比如说在甲 A 联赛 的某 场关键比赛 中, 裁判 一共 判罚犯规40 次,其中 红队 、黄队 各 20 次,从样本 率上讲非常 公平。但观察整 个比 赛过程,人们发现上 半场 的 22 次犯规 有 17 次是 红队的,而下 半场 的 18 次犯规 则只 有 3次是 红队 的。大家 必 然会 怀疑 其中是否有 黑箱 操作,即裁判 的判罚尺 度在 全场 不统一,并非 公平合理。从而就会导致 球迷闹 事、俱 乐部 上告、报纸 发行量大 增 、裁判愤 而起诉媒 体 ,最 终导致

27、 GDP 上升若干百 分点。游程检验的目的就是检验取 值为二分类, 并且按时间或某种 顺序 排列的数列资料是否为真正随机出现, 即各 观察 对象 是否来 自同一个总体, 并且取 值各 自独立 。它的具体做法是将 连续 的相同 取值的 记录 作为一个 游程,比如说下面这个序列:最前面 的三 个加号 为一个 游 程,随后的两个 减号 为第二个 游程,整个序列中共有六个游程。- 247 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 16 页 - - - - - - - -

28、 - 2 Cut Point 复选框 组: 给出了 四 种划分样本类别的方法,可以是中位数、众数、 均数和指定数值, 系统会按照指定方法将样本一分为二,然后比较两 部 分的出现 次序是否随机。 默认 方法为中位数。图 13.7 主对话框以上 划分方法可以同时指定,此时系统会分别给出每种划 分方法的检验 结果 。【Exact 子对话框 与 Options 子对话框】这两个对 话框 的形 式和功能 与本章 前面 讲过的 几个过程 完 全相同,此处不赘。分析结果 如下:NPar Tests Runs Test.545515183311-2.092.036.031b.027.036Test Value

29、aCases = Test ValueTotal CasesNumber of RunsZAsymp. Sig. (2-tailed)Sig.Lower BoundUpper Bound99% ConfidenceIntervalMonte Carlo Sig.(2-tailed)有有有有Meana. Based on 10000 sampled tables with starting seed 1993510611.b. 上表为 游程检验的 结果 ,依 次显示 的是分 界 值、小于分 界值的例数 、大于 等于分 界值的例数 、总例数 、游程数, Z 值 、近似 P 值和 Mont Carl

30、o 抽样方法算出的P 值可 信区 间。可见两种方法算出的P 值均小于0.05, 再结 合样本数据里中毒家庭在可 疑污染源附 近 分布较集中,因此 结 论支持 研究者的假 设,即中 毒与 饮水可能有关 。- 249 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 16 页 - - - - - - - - - 2 Cut Point 复选框 组: 给出了 四 种划分样本类别的方法,可以是中位数、众数、 均数和指定数值, 系统会按照指定方法将样本一分为二,然后比较两 部 分

31、的出现 次序是否随机。 默认 方法为中位数。图 13.7 主对话框以上 划分方法可以同时指定,此时系统会分别给出每种划 分方法的检验 结果 。【Exact 子对话框 与 Options 子对话框】这两个对 话框 的形 式和功能 与本章 前面 讲过的 几个过程 完 全相同,此处不赘。分析 结果 如下:NPar Tests Runs Test.545515183311-2.092.036.031b.027.036Test ValueaCases = Test ValueTotal CasesNumber of RunsZAsymp. Sig. (2-tailed)Sig.Lower BoundUp

32、per Bound99% ConfidenceIntervalMonte Carlo Sig.(2-tailed)有有有有Meana. Based on 10000 sampled tables with starting seed 1993510611.b. 上表为 游程检验的 结果 ,依 次显示 的是分 界 值、小于分 界值的例数 、大于 等于分 界值的例数 、总例数 、游程数, Z 值 、近似 P 值和 Mont Carlo 抽样方法算出的P 值可 信区 间。可见两种方法算出的P 值均小于0.05, 再结 合样本数据里中毒家庭在可 疑污染源附 近 分布较集中,因此 结 论支持 研究者的假

33、 设,即中 毒与 饮水可能有关 。- 249 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 16 页 - - - - - - - - - One-Sample Kolmogorov-Smirnov Test1014.6995.8616.072.072-.045.724.671NMeanStd. DeviationNormal Parametersa,bAbsolutePositiveNegativeMost Extreme DifferencesKolmogorov

34、-Smirnov ZAsymp. Sig. (2-tailed)XTest distribution is Normal.a. Calculated from data.b. 2Test Distribution 复选框 组:给出了 四种可进行检验的分布类型,分别是正态分布、均匀分布 、Poisson 分布和指数分布。【Exact 子对话框 与 Options 子对话框】这两个对 话框 的形 式和功能 与本章 前面 讲过的 几个过程中 完全相同,此处不赘。分析结果 如下:NPar Tests 上表即为K-S 检验的分析 结果 ,由于进行的是正态分布检验,首先会 给 出正态分布中的一些参数,即均

35、数和标准差;随后是最大差异列表,即理论值和实际值的最大差值,分别会 给出最大 绝对值 、正值和 负值;最后是Z 统计量和 P值, 结果显示 P=0.671,差别无统计 学意义 ,因此可以 认为变量 X 服从正态分布。13.2分布位置检验方法我们常用的统计推断方法都要求样本来自的总体分布型已知(如正态分布) ,在这种假设基础上才能对总体参数 (如总体均数) 进行估计或检验,因此都属于称为参数统计方法。但是这种方法对分布有着严 格的要求(正态性 、方差 齐等),一 旦不满足 这些条件就非常 麻烦。除此以外,参数分析方法在以下这些情形时也无 法使用:总体分布非正态分布,也无 法通过适当的变量变换达到

36、正态分布, 甚至 于分布类型未知。比如 收入数据和 住院费 用数据, 都是 典型的 强烈负偏 态数据, 大部 分数值较 低 ,但总有 若干 个先 富起来的同 志高 得惊人。这种数据一 般是无法变换为正态分布的, 自然也难以 采用基于正态分布的t 检验 等方法来分析。数据 只 有被 精确测量后 才有可 能计算参数统计量,但有的数据不可能精 确测量,如“50mg”或“0.5mg 以下 ”等,他们就 无法用参数检验来分析。当数据为分类资料时,传 统的参数检验方法作用非常有限 。样本量大时 尚可 采用Logistc 模型、对数 线性模型等方法将频 率纳入到连续 性资料的分析 范畴中,当样本量 少的时

37、候则几 乎 无能为力。- 251 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 16 页 - - - - - - - - - One-Sample Kolmogorov-Smirnov Test1014.6995.8616.072.072-.045.724.671NMeanStd. DeviationNormal Parametersa,bAbsolutePositiveNegativeMost Extreme DifferencesKolmogorov-Smir

38、nov ZAsymp. Sig. (2-tailed)XTest distribution is Normal.a. Calculated from data.b. 2Test Distribution 复选框 组:给出了 四种可进行检验的分布类型,分别是正态分布、均匀分布 、Poisson 分布和指数分布。【Exact 子对话框 与 Options 子对话框】这两个对 话框 的形 式和功能 与本章 前面 讲过的 几个过程中 完全相同,此处不赘。分析 结果 如下:NPar Tests 上表即为K-S 检验的分析 结果 ,由于进行的是正态分布检验,首先会 给 出正态分布中的一些参数,即均数和标准

39、差;随后是最大差异列表,即理论值和实际值的最大差值,分别会 给出最大 绝对值 、正值和 负值;最后是Z 统计量和 P值, 结果显示 P=0.671,差别无统计 学意义 ,因此可以 认为变量 X 服从正态分布。13.2分布位置检验方法我们常用的统计推断方法都要求样本来自的总体分布型已知(如正态分布) ,在这种假设基础上才能 对总体参数 (如总体均数)进行估计或检验,因此都属于称为参数统计方法。但是这种方法对分布有着严 格的要求(正态性、方差 齐等),一 旦不满足 这些条件就非常 麻烦 。除此以外,参数分析方法在以下这些情形时也无 法使用:总体分布非正态分布,也无 法通过适当的变量变换达到正态分布

40、, 甚至 于分布类型未知。比如 收入数据和 住院费 用数据, 都是 典型的 强烈负偏 态数据, 大部 分数值较 低 ,但总有 若干 个先 富起来的同 志高 得惊人。这种数据一 般是无法变换为正态分布的, 自然也难以 采用基于正态分布的t 检验 等方法来分析。数据 只 有被 精确测量后 才有可 能计算参数统计量,但有的数据不可能精 确测量,如“50mg”或“0.5mg 以下 ”等,他们就 无法用参数检验来分析。当数据为分类资料时,传 统的参数检验方法作用非常有限 。样本量大时 尚可 采用Logistc 模型、对数 线性模型等方法将频 率纳入到连续 性资料的分析 范畴中,当样本量 少的时 候则几

41、乎 无能为力。- 251 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 16 页 - - - - - - - - - Mann-Whitney U :默认 值,说白了就是相当于我们最常用的两样本秩和检验。如果非要说 得很高深 ,那么 它是和参数t 检验相当的一种非参数检验方法,在检验时利用了大小 次序,即检验A 样本中的数值是否多数都大于B 样本。因此,它要求变量 至少 为有序 测 量水平。Kolmogorov-Smirnov Z :和上一 节讲 到的 K-S 检

42、验是一家 人,不过这 次是检验两个独立 样本是否 取自 同一总体, 操作原理是做出两个样本的累积 频数分布 曲线 ,然后 观察 两条 曲线 究竟 差了多 远。那么 要到多远才算是有统计 意义? 大家不用管,那 是统计 学家的工作。我们会看结果 就行。Moses extreme reactions:该检验有其 特定用 途,顾名思义 ,如果施加 的处理使 得某些个体出现正向效应,而另一些个体出现负向效应时,就应当 采用该检验方法。比如说要研究 人民群众 对电信 资费下调 的反应,多数 人当然是 弹冠 相庆 , 但是 靠电信 吃饭 的朋友们会比较沮丧了,因此如 果研究目标 人群 中电信 职工较多,

43、不妨考虑 采用此法。Wald-Wolfowitz runs :从 名字就可以 看出它属于 游程检验的一种,即检验的是总体分布情况是否相同。更准 确的说, 只要两样本各 自所在总体有 任何 一点分布上的差别, 无论是 集中趋势 、离散趋势 、偏度还是 波动 情况,统统都 逃不过他的法眼。因此如 果只 是要检验中 心位置是否相同,最好不要 选他。图 13.9 主对话框【Exact 子对话框 与 Options 子对话框】这两个对 话框 的形 式和功能 与本章 前面 讲过的 几个过程中 完全相同,此处不赘。分析结果 如下:NPar Tests Mann-Whitney Test - 253 - 名师

44、资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 16 页 - - - - - - - - - 统计之星示例文档:第三部份基础统计分析方法Ranks1015.50155.00105.5055.0020组组试试组对对组Total生生生生NMean RankSum of RanksTest Statisticsb.00055.000-3.784.000.000aMann-Whitney UWilcoxon WZAsymp. Sig. (2-tailed)Exact Sig. 2*

45、(1-tailed Sig.)生生生生Not corrected for ties.a. Grouping Variable: 组组b. 上表即为检验 结果 ,一共 给出了 Mann-Whitney U统计量 、Wilcoxon W 统计量和 Z值(即 通常所用的u 值),下方 则分别 给出了 近似 法计算出的P 值和确 切概率 法计算出的P 值,可见两种算法 得出的 结 论一 致,都是两组 生存 时间的分布差别具有显著的统计 学意义,结合实际数据,可以认为是 试验组 生存 时间较 长,因此该 抗癌 新药是有效的。如果大 家的统计学 思维 足够敏捷 ,就会发 现 上面的结论有问题:检验结果只能

46、说明分布不同, 怎么推论到总体均数上去了 ?这样推论是 没有办法的 事情 ,实际问题关 心的肯定是总体参数有无差异 ,而秩和检验关 心的是中 心位置 是否不同, 一般来说 位置 和均数的 差异 是同方 向的,为了 解决 实际问题, 我们都直接 推论到均数 差异 上去 。当然这 样是有漏洞,大家有兴趣也可以 揪住 这点不 放 。但是请 记住 ,理论和实 践永远 是有 差异 的,而统计学 应当 以解决实际问题为出发点。K Independent Samples 过程用于多组间的非参数检验,其操作界面 和做法与2 Independent Samples 没有本 质区别,这里我们就不 再详 细讲 述,

47、 只指出 几点注意事 项如下:1多组比较中 仍然需要指定分组变量的取 值范围 ,超过此 范围 的组将不 纳入分析。2多组比较中如果要求系统计算确切概率 ,则需 要的 内存 量非常的大,多数情况都会因 内存不足而失败。3K Independent Samples 过程提供的比较方法和2 Independent Samples 过程不同,他们分别是:Kruskal-Wallis H :即最常用的多样本比较的秩和检验。Median:中位数检验, 检验各个样本是否来自具有相同中位数的总体,三种方法中他的检验效 能最低。- 254 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - -

48、 - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 16 页 - - - - - - - - - 统计之星示例文档:第三部份基础统计分析方法Ranks1015.50155.00105.5055.0020组组试试组对对组Total生生生生NMean RankSum of RanksTest Statisticsb.00055.000-3.784.000.000aMann-Whitney UWilcoxon WZAsymp. Sig. (2-tailed)Exact Sig. 2*(1-tailed Sig.)生生生生Not corrected

49、 for ties.a. Grouping Variable: 组组b. 上表即为检验 结果 ,一共 给出了 Mann-Whitney U统计量 、Wilcoxon W 统计量和Z值(即 通常所用的u 值),下方 则分别 给出了 近似 法计算出的P 值和确 切概率 法计算出的P 值,可 见两种算法 得出的 结 论一 致,都是两组 生存 时间的分布差别具有显著的统计 学意义,结合实际数据,可以认为是 试验组 生存 时间较 长,因此该 抗癌 新药是有效的。如果大 家的统计学 思维 足够敏捷 ,就会发 现 上面的结论有问题:检验结果只能说明分布不同, 怎么推论到总体均数上去了 ?这样推论是 没有办法

50、的 事情 ,实际问题关 心的肯定是总体参数有无差异 ,而秩和检验关 心的是中 心位置 是否不同, 一般来说 位置 和均数的 差异 是同方 向的,为了 解决 实际问题, 我们都直接 推论到均数 差异 上去 。当然这 样是有漏洞 ,大 家有兴趣 也可以 揪住 这点不 放 。但是请 记住 ,理论和实 践永远 是有 差异 的,而统计学 应当 以解决 实际问题为出发点。K Independent Samples 过程用于多组间的非参数检验,其操作界面 和做法与2 Independent Samples 没有本 质区别,这里我们就不 再详 细讲 述, 只指出 几点注意事 项如下:1多组比较中 仍然需要指定

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁