《教学课件(11)第11章不依赖于分布的检验(第4版).pptx》由会员分享,可在线阅读,更多相关《教学课件(11)第11章不依赖于分布的检验(第4版).pptx(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、教材配套资源页完整PPT课件教学课件(11)第11章 不依赖于分布的检验(第4版)1应用统计学AppliedApplied StatisticsStatistics谭英平2统计名言统计名言n使我们陷入麻烦的通常并不是我们不知道的事情,而是那些我们知道使我们陷入麻烦的通常并不是我们不知道的事情,而是那些我们知道却不正确的事情却不正确的事情。 Artemus WardArtemus Ward3第第 11 11 章章 不依赖于分布的检验不依赖于分布的检验l11.1 11.1 关于非参数检验关于非参数检验l11.2 11.2 单样本的非参数检验单样本的非参数检验l11.3 11.3 两样本的非参数检验
2、两样本的非参数检验StatisticsStatistics411.1 11.1 关于非参数检验关于非参数检验11.1.1 11.1.1 什么时候选择非参数检验什么时候选择非参数检验11.1.2 11.1.2 预备知识预备知识第第 11 11 章章 不依赖于分布的检验不依赖于分布的检验511.1.1 11.1.1 什么时候选择非参数检验什么时候选择非参数检验11.1 11.1 关于非参数检验关于非参数检验6应用统计学(第4版)什么时候选择非参数检验什么时候选择非参数检验n之前我们所接触到的各种统计检验方法大多与总体的分布形态有关,要么要求总体分布是给定的,要么需要进行某种假设。这些都属于典型的参
3、数统计方法。n如果不知道样本所属的总体到底服从什么分布;知道总体的分布形态但其却与检验所要求的条件不符;某些变量无法精确测量,均值、方差的计算没有意义在这些情况下,如果刻意忽略检验的前提,仍然牵强附会地使用参数统计方法,很可能产生错误的甚至灾难性的结果。7应用统计学(第4版)什么时候选择非参数检验什么时候选择非参数检验n正确的做法应当是适时放弃对总体分布的依赖,转而寻求更多的纯粹来自数据自身的信息,通过建立与总体分布形态无关的检验统计量,实现对所研究的问题的推断。n与数据所属总体的分布无关的统计检验方法称为非参数检验非参数检验,也有人将其称为不依赖于分布的检验。n但这里指的是检验推断的过程与总
4、体的分布及其参数无关,而不是说在整个推断过程中什么分布、什么参数都不需要。8应用统计学(第4版)什么时候选择非参数检验什么时候选择非参数检验n如果我们掌握了有关总体足够多的信息,能够确定或合理假定总体的具体分布,采用参数检验的效率会高于非参数检验。n在总体分布未知的时候,非参数检验比随意假定总体分布的参数检验的效率要高,有时甚至会高很多。n非参数检验不仅适用于小样本、无分布样本,还适用于污染样本、混杂样本等。911.1.2 11.1.2 预备知识预备知识11.1 11.1 关于非参数检验关于非参数检验10应用统计学(第4版)心中有数心中有数n当拿到数据以后,首先应该考虑数据的类型,适合采用什么
5、样的方法,是否应该进行一些数据转换。n其次要充分利用图表等工具对数据的分布形态进行探索性分析,尽管绝大部分非参数检验不需要假定总体的具体分布形式,但在不同的方法中,可能对总体分布的形状有所要求。n在可以对总体分布作出合理假定的情况下,不要浪费总体信息,而在适合采用非参数统计方法的情况下,进一步考虑是否应该对数据进行变换以满足某些特定方法的要求。11应用统计学(第4版)秩秩n秩是大部分非参数检验方法都要使用的概念。n简单地说,秩秩就是一组数据按照从小到大的顺序排列之后,每一个观测值所在的位置。n用一般符号来表示,假定一组数据X1,X2,Xn按照从小到大的顺序排列,Xi在所有观测值中排第Ri位,那
6、么Xi的秩即为Ri。n显然,Ri也是一个统计量,它测度的是数据观测值的相对大小。12应用统计学(第4版)结结n很多情况下,数据中会出现相同的观测值,那么对它们进行排序后,这些相同观测值的排名显然是并列的,也就是说它们的秩是相等的,相同观测值被称为数据中的结结。n对于结的处理,通常是以排序后所处位置的平均值作为它们共同的秩。n我们用i来表示第i个结中所包含的观测值个数,当一个数据中结比较多时,某些非参数检验中原假设下检验统计量的分布就会受到影响,从而需要对统计量进行修正。1311.2 11.2 单样本的单样本的非参数检验非参数检验11.2.1 11.2.1 符号检验符号检验11.2.2 11.2
7、.2 WilcoxonWilcoxon符号秩检验符号秩检验第第 11 11 章章 不依赖于分布的检验不依赖于分布的检验1411.2.1 11.2.1 符号检验符号检验11.2 11.2 单样本的单样本的非参数检验非参数检验15应用统计学(第4版)符号检验符号检验【例11.1】某果汁饮料生产商称,其生产的饮料纯果汁含量不低于90%,现在超市随机抽取了该厂家生产的25瓶饮料,并测量每瓶饮料中纯果汁含量,结果如下:16应用统计学(第4版)符号检验符号检验n按照前面学习的内容,我们可以检验该生产商生产的所有饮料的纯果汁含量总体均值是否等于假定的值,利用t检验方法可以完成对这类问题的检验。n但是,均值的
8、t检验需要假定观测值所属总体服从正态分布。如果我们对这个厂家生产的饮料果汁含量的总体分布一无所知(现实往往如此),就不能随意作出正态假定,也就不能进行均值t检验。n而除了均值,还有一个用于描述总体“中心”位置的参数,即中位数。17应用统计学(第4版)符号检验符号检验n我们用m表示该厂家生产的饮料果汁含量的总体中位数,容易算出数据的样本中位数为87%,小于90%,所以我们怀疑该厂家生产的饮料果汁含量没有达到其所声称的水平,从而提出如下的假设:H0: m 90%;H1: m 90%n在m=m0=90%成立时,数据中每个观测值大于90%或小于90%的概率都是0.5,也就是说,每一次观测都以0.5的概
9、率大于m0,也以0.5的概率小于m0,这显然是一次伯努利试验。那么,25次观测的结果就服从二项分布B(25,0.5)。18应用统计学(第4版)符号检验符号检验n符号检验符号检验就是利用这一原理,分别用S+和S-表示样本数据中大于m0的观测值个数和小于m0的观测值个数。n等价于分别代表观测值xi-m0大于零(符号为正)的个数和xi-m0小于零(符号为负)的个数。n这也正是该检验取名为符号检验的原因。19应用统计学(第4版)符号检验符号检验20应用统计学(第4版)符号检验符号检验2111.2.2 11.2.2 WilcoxonWilcoxon符号秩检验符号秩检验11.2 11.2 单样本的单样本的
10、非参数检验非参数检验22应用统计学(第4版)WilcoxonWilcoxon符号秩检验符号秩检验n符号检验仅仅利用了观测值与假定的中位数的差值符号来进行检验,也就是说,它仅仅利用了相对位置的信息。n正负符号只代表了每个观测值位于中位数的哪一边,而这一距离有多远却需要通过观测值与中位数差值的绝对值大小来衡量。nWilcoxon符号秩检验就是结合了这两方面的信息,通过巧妙的构思达到比符号检验更有效的目的。23应用统计学(第4版)WilcoxonWilcoxon符号秩检验符号秩检验nWilcoxon符号秩检验的基本步骤: 首先,对每个观测值计算 ,它们代表了每个观测值与假定中位数的距离;然后把这些绝
11、对值排序,找出每个 对应的秩;把 符号为正的那些 的秩加总起来,记作W+ ,而把 符号为负的那些 的秩加总起来,记作W- ;如果中位数的假定m=m0成立时,W+和W-应该差不多,如果W+或W- 过大或过小,都应该怀疑m=m0的假定;对双侧检验,取检验统计量W=min(W+,W-),当W太小时,拒绝原假设;对左侧检验,就取W=W+,当W太小时,拒绝原假设;对右侧检验,就取W=W-,当W太小时,拒绝原假设。这个统计量W被称为Wilcoxon符号秩检验统计量。24应用统计学(第4版)WilcoxonWilcoxon符号秩检验符号秩检验2511.3 11.3 两样本的两样本的非参数检验非参数检验11.
12、3.1 11.3.1 两独立样本的秩和检验两独立样本的秩和检验11.3.2 11.3.2 配对样本的中位数检验配对样本的中位数检验11.3.3 Spearman11.3.3 Spearman秩相关检验秩相关检验第第 11 11 章章 不依赖于分布的检验不依赖于分布的检验2611.3.1 11.3.1 两独立样本的秩和检验两独立样本的秩和检验11.3 11.3 两样本的两样本的非参数检验非参数检验27应用统计学(第4版)两独立样本的秩和检验两独立样本的秩和检验n当需要比较两个总体的中心位置是否相同时,如果我们使用参数检验方法,同样要求两个总体均服从正态分布。n非参数统计提供了在总体分布未知的情况
13、下用于检验两个总体的中位数是否相等的多种方法,Wilcoxon(Mann-Whitney)秩和检验是应用最广的一种。n它的唯一假定是两个总体的分布形状类似(不要求对称) 。28应用统计学(第4版)两独立样本的秩和检验两独立样本的秩和检验【例11.2】有人尝试对淘宝和拼多多两个电子商务平台的消费者群体进行研究,其中一方面是对其年龄进行比较。研究者随机收集了两个平台各12位消费者的年龄信息,如表11-7所示。29应用统计学(第4版)两独立样本的秩和检验两独立样本的秩和检验nWilcoxon(Mann-Whitney)秩和检验把两个样本混合起来,然后对混合后的所有观测值从小到大进行排序,那么每一个观
14、测值就有了自己的秩。n用mX,mY分别代表淘宝和拼多多的消费者年龄中位数,由表11-7提供的数据很容易算出,淘宝消费者的样本年龄中位数小于拼多多消费者的样本年龄中位数,所以我们可以建立如下的假设:H0: mX mY ;H1: mX mYn然后又把每个观测值和它对应的秩按照所属的样本分开,同一个样本的观测值的秩相加,这样就得到了两个样本分别对应的所有秩的和。30应用统计学(第4版)两独立样本的秩和检验两独立样本的秩和检验n分布用WX和WY代表两个样本中所有观测值的秩的和,如果WX很小,说明淘宝消费者样本中的观测值偏小,其中心位置自然也偏小,那么就可以怀疑原假设。nWX或WY被称为Wilcoxon
15、秩和统计量,实际上它们是可以互推的。n由于Mann和Whitney提出了另一个等价的统计量,因此该检验也被称为Mann-Whitney检验。31应用统计学(第4版)两独立样本的秩和检验两独立样本的秩和检验3211.3.2 11.3.2 配对样本的中位数检验配对样本的中位数检验11.3 11.3 两样本的两样本的非参数检验非参数检验33应用统计学(第4版)配对样本的中位数检验配对样本的中位数检验n关于配对样本的非参数检验方法,其基本逻辑与参数检验方法并没有实质区别。n配对样本的非参数检验方法同样是先求出两个配对样本的差值,然后对差值所属总体的中位数是否等于零进行检验。n然后通过前面介绍的符号检验
16、和Wilcoxon符号秩检验都可以实现。34应用统计学(第4版)配对样本的中位数检验配对样本的中位数检验【例11.3】有人建议,如果每天在车间提供背景音乐、免费咖啡和甜点,该车间的日产量就会增加。管理层同意按照这个办法试行一段时间,通过抽样得到的14名雇员在改进方法试行前后每周生产的产品数如表11-9所示。35应用统计学(第4版)配对样本的中位数检验配对样本的中位数检验n用md表示试行这一建议前后所有雇员生产的产品数差值(之前的产量减之后的产量)的中位数,那么管理层可以建立如下的假设:H0: md 0;H1: md 036应用统计学(第4版)配对样本的中位数检验配对样本的中位数检验3711.3
17、.3 Spearman11.3.3 Spearman秩相关检验秩相关检验11.3 11.3 两样本的两样本的非参数检验非参数检验38应用统计学(第4版)SpearmanSpearman秩相关检验秩相关检验n对于两个配对样本,人们除了关心其总体分布的中心位置是否相同之外,往往还想知道这两个样本所代表的变量之间有没有关系。n当我们感兴趣的两个变量是顺序变量时,得到的数据只能排序而不能运算,Pearson相关系数便不再适用了,因而学者们提出了非参数统计中的Spearman秩相关系数。n传统的Pearson相关系数度量的是数值变量之间的线性关系。39应用统计学(第4版)SpearmanSpearman
18、秩相关检验秩相关检验【例11.4】在一项关于职业声望和可信赖程度的调查中,研究者列举了12种职业,要求受访者分别按照声望和可信赖程度高低对其进行排序(“1”代表声望最高,且信赖程度最高),结果如表11-12所示。试判断受访者对这12种职业的声望和可信赖程度的评价之间是否存在一定的关系。40应用统计学(第4版)SpearmanSpearman秩相关检验秩相关检验n设一组配对样本数据为(x1, y1),(x2, y2),(xn, yn),首先分别找出所有xi在变量X样本中的秩Ri(i=1,2,n),以及所有yi在变量Y样本中的秩Si(i=1,2,n);然后对每一对观察值的秩进行比较,计算两个秩之间
19、的差值di = Ri-Si ,再按下面的表达式计算Spearman秩相关系数rs:n例11.4中的调查数据本身就是排序的结果,因此每个观测值就是它在相应样本中的秩,只要把成对的观测值之差及样本量代入到上面的表达式中,便可得到这12种职业的声望排序与可信赖程度排序之间的相关系数。41应用统计学(第4版)SpearmanSpearman秩相关检验秩相关检验n与参数统计方法一样,我们还需要对由样本数据计算出来的这一相关系数的显著性进行检验。n检验的原假设为H0:变量X与变量Y是不相关的,而备择假设可以视具体情况选择下面的一种:H1:变量X与变量Y是(或正或负)相关的; H1:变量X与变量Y是正相关的; H1:变量X与变量Y是负相关的。42应用统计学(第4版)SpearmanSpearman秩相关检验秩相关检验43应用统计学(第4版)本课件制作整理者:郭迎春 仅可用于教学、学习、交流使用 如内容、图片、字体等有侵权,请联系删除。 44