《2022年非参数统计学讲义相关与回归.docx》由会员分享,可在线阅读,更多相关《2022年非参数统计学讲义相关与回归.docx(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用非参数统计学讲义主讲:统计系 袁靖第五章 相关和回来 1 引言所谓 相关 ,是指两组或两组以上观看结果之间的连带性或联系;换句话说,也就是各组观看结果所反映的特性之间有关系;如几个亲生兄弟间的智商与诞生次序有关系,受训练程度与性别有关系,诞生率 X 和文盲率 Y 之间的关系等等;在实际问题的讨论中,人们经常想知道两组或两组以上的观看结果是否有联系,同时也想知道联系的程度如何;前面的统计检验能够在肯定的显著性水平上,确定各组观看值的关系是否存在;相关方法被用来度量两个或更多变量之间的线性关系的强度,是回来分析的基础;在数
2、理统计学中,我们使用相关系数定义变量X 和变量 Y 之间的相关性;对于样本X1Y 1,corrX,YcovX,Y10.1r 是varXvar YX2Y2, ,XnY n来说, Pearson相关系数为r11XiXXY iYY2XiXXY iY20.2nXi2YXi2 Y iYn假如在这个样本中的n 个观看值独立,就r 是的渐近无偏估量;假如它又是二元正态分布,就的 ML 估量;为了检验H0:0,H1:0,可以选取统计量trnr2tn2 Spearman秩相关系数rs12结论: Pearson相关系数度量的是一种线性关系,而我们所要介绍的非参数的和 Kendall 相关系数实际上度量的是一种形式
3、的相依联系,或是更广义的单调关系;因此相关的概念被推广,不仅指线性相关,而泛指相依或联系; 2 两个样本的相关分析一、 等级相关等级相关 Rank Correlation 也称作级序相关 讨论背景,用于两个至少是定序尺度测量的样本问相关程度的测定名师归纳总结 1度量了总体样本点在标准差线四周的集合程度,详见笔记P38;第 1 页,共 21 页- - - - - - -精选学习资料 - - - - - - - - - 1基本方法个人资料整理仅限学习使用两个样本 X、Y,其观看数据可以配对为 X 1Y 1 , X 2Y 2 , , X nY n ;将 x 1 , x 2 , , x n 排序后评秩
4、,其秩记作 U,与 ix 相对应的秩为 U i i ,1 2 , , n ;同样,y 1 , y 2 , , y n 排序后评秩,秩记作 V ,与y 相对应的秩为 i V i i ,1 ,2 , n ;这样得到的 n 对秩 U 1V 1 , U 2V 2 , , U nV n 可能每一对完全相等,也可能不等;由于每一样本都是 n 个数据评秩,因此 U 与 i V 的取值都是从 i 1 到 n;X、Y 的秩可能完全一样,即对于全部的 i 来说,有 U V ,表 51 是完全一样的评秩结果;X、Y 的秩可能完全相反,表 52 是完全相反的评秩结果;假如 X、Y 完全相关,应当对于全部的 i 有 U
5、 V ,即 U V 0;因此,U 与 V 之差可以用来度量 X、Y 的相关程度;定义D i U i V i表 5-1 完全一样的评秩X的秩 Y 的秩1 1 2 2 n 1 n1 n n 表 5-2 完全相反的评秩就两组秩完全相关时,inX的秩Y 的秩1 n 2 n1 n 1 2 n 1 D 115.3)式的这个秩差值平方和的大小既受到n 的多少的影响,又受到两组秩不一样程度的影响,因名师归纳总结 此,采纳相对的测量指标有利于说明X、Y 的相关程度;由于D2 i的最大值反映X 、Y 完全不相关的情第 2 页,共 21 页况,所以,用 5.4)式的中括号内最终一项,当 n 为奇数时是 2 2;n
6、为偶数时是 1 2;5.3)式除以 n n 1 / 3 n n 1 5.5)式的取值从 0 到 1;依据表 5-1 中的数据运算 5.5)式值为 0,表 5-2 中的数据运算的 5.5)式值为 1,即 X 、Y 的秩完全一样时,5.5)式的值为 0,X、Y 的秩完全不一样时, 是测定两个样本相关强度的重要指标;其运算公式为2R 1 62 D i0.6n n 1 斯皮尔曼相关系数也写为 sr ,在有下标注以 s 是为说明这个相关系数 r 不是积矩相关的简洁相关系数,而是等级相关的 Spearman相关系数;注:由于 5.6)式与 5.5)式不同,所以,R 的取值从一 1 到十 1,R 1 说明
7、X、Y 完全相关, R十 l 为完全正相关,R一 1 为完全负相关;R 越接近于 l,说明相关程度越高,反之,R 越接近于零,说明相关程度越低,R0 为完全不相关;R0 为正相关, R0 为负相关;通常认为 R 0 . 8 为相关程度较高;Spearman秩相关系数检验临界值查表可得,P198;存在打结时,Spearman统计量要作相应修正;在大样本时,可用正态近似作检验;2Zrsn1nN1,0应用【例 5-1】经济进展水平和卫生水平之间的相关分析对某地区12 个街道进行调查,并对经济进展水平和卫生水平按规定的标准打分,评定结果如表54;表 5-4 某地区经济水平与卫生水平得分名师归纳总结 1
8、街道号经济水平卫生水平街道号经济水平卫生水平第 3 页,共 21 页82 86 7 84 80 287 78 8 78 77 360 65 9 80 75 - - - - - - -精选学习资料 - - - - - - - - - 498 88 个人资料整理仅限学习使用96 10 94 5 75 64 11 85 85 6 89 90 12 68 70 分析:将表 54 中定距尺度测量的分数,按从小到大的次序排等级,得到表 55 的结果;对两个定序尺度测量的样本进行相关分析,可以采纳等级相关系数测定;必要的运算过程如表 5 5 所列;依据56)式可得由于R16n2D2 i11263211.01
9、1190.8881n12 12R0 888l 08,所以该地区的经济进展水平和卫生水平存在着正相关关系,相关程度较高,为 88 81;表 5-5 某地区经济水平与卫生水平得分街道号经济水平 U)卫生水平 n n2112 un21 12 v式中, u 是 X 中同分的观看值数目,v 是 Y 中同分的观看值数目;【例 5-2】经济进展水平和卫生水平之间的相关分析某地区对 24 个区县进行调查,并对经济进展水平和卫生水平按规定标准评分,结果如表 56;分析:将表 56 的评分转换为秩次,从高往低排序,同分的秩取平均值,结果见表 57;依据公式5.6 运算名师归纳总结 - - - - - - -第 4
10、 页,共 21 页精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用2R 1 62 D i 1 6 3472 1 0 . 1509 0 . 8491n n 1 24 24 1由于经济水平和卫生水平的评分中均有同分,应采纳校正因子修正;利用 5.7 式运算修正的 R 为2 2n n 1 6 D i 6 u v 24 575 6 347 1 / 2 16 12 R .0 8490n n 21 12 u n n 21 12 v 24 575 16 24 575 12对比两个 R 值可知,由于同分的观看值数目占观看值总数目的比例不是很大,因而校正后的 R 与校正前的 R 变化
11、不大;但是,校正前的只略大于校正后的 R,这说明同分对只的影响虽然很小,但同分的影响是夸大 R 值;因此;在 X 、Y 中至少有一个存在大量同分时,应进行校正;表 5-6 经济水平与卫生水平评分区县编号经济水平 X)卫生水平 Y)区县编号经济水平 X)卫生水平 Y)192 56 13 68 55 290 70 14 67 66 390 71 15 65 59 487 76 16 64 58 581 69 17 61 50 680 68 18 60 54 779 62 19 59 43 877 70 20 55 45 976 64 21 46 34 1076 63 22 42 32 1174 5
12、4 23 39 30 1268 65 24 38 31 表 5-7 经济水平与卫生水平的秩次名师归纳总结 区县编号X的秩次 U)Y的秩次 V)D=U-V 2 D第 5 页,共 21 页11 14 -13 169 22.5 3.5 -1 1 32.5 2 0.5 0.25 44 1 3 9 55 5 0 0 66 6 0 0 77 11 -4 16 88 3.5 4.5 20.25 99.5 9 0.5 0.25 109.5 10 -0.5 0.25 1111 16.5 -5.5 30.25 1212.5 8 4.5 20.25 1312.5 15 -2.5 6.25 1414 7 7 49 1
13、515 12 3 9 1616 13 3 9 1717 18 -1 1 - - - - - - -精选学习资料 - - - - - - - - - 41818 个人资料整理仅限学习使用16.5 1.5 2.25 1919 20 -1 1 2020 19 1 1 2121 21 0 0 2222 22 0 0 2323 24 -1 1 2424 23 1 1 合计347.00 R 的显著性检验利用相关系数及其修正的公式运算的R 值,是抽自两个总体的样本数据运算的结果,从这一相关系数的大小,可推测总体的秩相关系数是否与零有显著差异,但是否为真,应进行假设检验;对 R 的显著性检验正是为了回答这一问
14、题;检验可以仅讨论两个总体是否存在相关,也可以分别讨论相关的方向,即是正相关,仍是负相关;针对讨论问题的不同,可以建立不同的假设组;双侧检验H 0:不相关H 1:存在相关单侧检验H0:不相关 H0:不相关H+ :正相关 H:负相关为对假设作出判定,所需数据至少是定序尺度测量的;依据前式运算出R 值;当n30时,在附表中,依据 n 和 R 查找相应的概率P;表 58 是判定指导表;表 5-8 R 显著性检验判定指导表如n30备 择 假 设P-值PH+:正相关R的右尾概率H:负相关R的左尾概率H1:存在相关R的较小概率的2 倍,就按 【例 5-3】对例 53 作显著性检验分析:由于例 53 中未指
15、明相关的方向,只需检验是否相关,因而建立双侧备择:H 0:不相关H 1:存在相关名师归纳总结 - - - - - - -第 6 页,共 21 页精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用利用供应的数据运算的 R 值为 0 8491,每个样本数据 n 为 24;在附表中 n 24 时;双侧检验R 0 . 608 的概率为 0 002;明显, R0 849lR 0 . 608;因此,概率 P0002,数据拒绝 H 0,表明经济水平和卫生水平的确存在相关关系;二、 Kendall 相关检验Kendall 秩相关即肯德尔秩相关,与等级相关一样,也是用于两个样本相关程度
16、的测量,要求数据至少是定序尺度的;它也是利用两组秩次测定两个样本问相关程度的一种非参数统计方法;1基本概率协 同 C2 nn非一样对评分与最大可能总分之比为V 2 VC n 2 n n 1 0.10当 Y 的秩对完全按自然次序排列时,5.9)式的值为 1,5.10)式的值为 0;而当 Y 的秩对全部为非一样对时, 5.10)式的值为 1,nT1n4 V1 0.12n如记 SU 一 V ,就 Kendall 秩相关系数为Tn2S1 0.13T一n这里的Kendall 秩相关系数T 是 Tau 的缩写,也常写作 ;Tl,说明两组秩次完全正相关;1,说明两组秩次间完全负相关;一般T.08,可以为相关
17、程度较高;NOTE :该定义式实质为概率,1T1;详见笔记P40 S 和 T 等价;S 的运算;小样本时,可以查表;大样本时,可以作正态近似:Zknn18n5 N1,0;1 2存在打结时,进行同分的处理;3应用【例 5-4】利用例 5-2 的数据资料分析经济水平和卫生水平的相关程度名师归纳总结 分析:依据表55 的评秩结果进行秩次重新排列,将经济水平的秩次按自然次序排列,得表510的结果;由表可以运算得到2、3、1、5、 4、9、7、8、6、11 的一样对数目第 8 页,共 21 页- - - - - - -精选学习资料 - - - - - - - - - U1099773433156个人资料
18、整理仅限学习使用依据 5 11)式运算有Tn 4 U1112456110. 6970n 12由表可以运算出非一样对的数目V 为V 1 十 1 十 1 十 3 十 1 十 1 十 1 十 1=10 依据 5 12)式运算有T1n4 V1 1124101 10. 3030.06970n 12如依据 513)式运算,也可以得到同样的结论;T0 697008,说明经济水平与卫生水平相关程度不够高;Kendall 秩相关系数也可以用于定距尺度测量的数据,数据不必评秩,而直接比较大小得到一样对或非一样对的数目;表 5-10 经济水平和卫生水平秩的排序街道编号经济水平的秩卫生水平的秩街道编号经济水平的秩卫生
19、水平的秩3 1 2 7 7 7 12 2 3 11 8 8 5 3 1 2 9 6 8 4 5 6 10 11 9 5 4 10 11 12 1 6 9 4 12 10 注:也可以依据原始资料进行排序,比较大小,从而进行判定;4同分的处理 当两个样本中无论哪一个或者两个均有同分观看值时,仍采纳通常的方法,将每一个同分观看值的秩记作其应有秩的平均值;由于同分的影响,也需要对了运算公式中的分母进行校正;在同分情形下,C2 v, u 是 X 中同分观看值的数目;u,v 仍分, u 是 X 中同分观看值的数目,v别表示 X、Y 的每一同分组中同分观看值的数目;表 5-11 两个裁判员的秩的评分名师归纳
20、总结 X 的数对Y 的数对分数总和第 9 页,共 21 页1,2.5 2,3.5 1 5 个加1,2.5 2,3.5 1 3 个减1,4.5 2,1 -1 1,4.5 2,5 1 2.5 ,2.5 3.5 ,3.5 0 - - - - - - -精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用2.5 ,4.5 3.5 ,1 -1 2.5 ,4.5 3.5 ,5 1 2.5 ,4.5 3.5 ,1 -1 2.5 ,4.5 3.5 ,5 1 4.5 ,4.5 1,5 0 5T 的显著性检验与 Spearman 秩相关系数 R 一样, Kendall 秩相关系数 T 的显
21、著性也应进行检验;这一检验实际上是检验两个总体的相关是否真实存在,是正相关或是负相关,从而说明以T 的大小反映相关程度的高低是可信;假如讨论关怀的是相关是否的确存在,而不考虑相关的方向,就应建立双侧备择,假设组为H 0:不相关H 1:存在相关如关怀的是相关的方向,就应建立单侧备择,假设组为H0:不相关 H0:不相关H+ :正相关 H:负相关为对假设作出判定,所需数据至少是定序尺度测量的;通过对数据求出一样对或非一样对数目,可以依据运算公式算出 nKendall 秩相关系数T;T 的抽样分布中附表中给出;1)小样本时30,可以查表给出尾概率,表 5-12 T 显著性检验判定指导表,可作正态近似Z
22、3 Tn n12 2 n52 n由于 Z 近似正态分布,故可以查标准正态分布表找到相应的尾概率;三、 等级相关系数 R 和 Kendall 秩相关系数 T 的比较1相同点两个相关系数的检验都要求数据至少是在定序尺度上测量;都是运算秩相关系数,用以测度两个相关样本之间的相关程度;它们的取值都是在1 到 1 之间;2不同点R 和 T 的数值即使对于同一组数据也是不同的,多数情形下,R 的肯定值大于 T 的肯定值;虽然 R 和 T 都使用了资料中同量的信息,但由于两者具有不同的基础尺度,R 利用的是秩差,而T 利用的是秩的次序,即一样对和非一样对,因此,不能将它们的数值加以比较,以说明相关程度的高名
23、师归纳总结 - - - - - - -第 10 页,共 21 页精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用低;T 的说明比起 R 来更简洁;两个观看的数对 x i , y i , x jy j ,当 x i x j 时,总有 y i y j,称为次序一样对,如对于每个 x i x j,都有 y i y j,就为不一样对;T 的精确意义是:一样对数目与非一样对数目之差占全部可能数对的比重;四、 偏秩相关详见易丹辉教材 3 k 个样本的相关分析前面一章讨论的是 n 个对象或个体的两组秩之间相关的度量,在实际问题中,往往仍涉及 n 个对象或个体的几组秩评定之间的相关
24、;对于至少是定序尺度测量的 k 个配对样本的数据,或 k 次试验得到的数据,其秩评定间的相关,可以采纳 Kendall 秩评定协同系数度量;本章主要介绍两种 Kendall 秩评定协同系数:完全秩评定协同系数和不完全秩评定协同系数;一、 完全秩评定的 Kendall 协同系数完全秩评定的 Kendall 协同系数 KendallCoefficient of Concordancefor ComPlete Rankings 用于是组秩评定间相关程度的测定,即多组秩之间关联程度的测定;1基本方法n 个数据,即n 个对象或个体,可以分别赐予某一个秩,如被分析的数据是定序尺度测量的,那么在这一组数据内
25、全部的秩次和即等级和为12nn n1/ 2j514;表中最终一行R 是每一种假如有 k 组秩,那么这k 组秩的秩次总和就是kn n1 / 2;例如 3 个消费者分别给6 种牌号电冰箱的质量评等级,结果如表牌号电冰箱的秩和,总的秩和为kn n1 / 23661 / 2636R ;这也就是最大可能的秩次和;这时,对于每一个观看对象或个体来说,平均的秩次和应为kn n11/ 2/n表 5-14 消费者给冰箱质量评定的秩名师归纳总结 消费者冰箱 A 冰箱 B 冰箱 C 冰箱 D 冰箱 E 冰箱 F 第 11 页,共 21 页1 1 6 3 2 5 4 2 1 5 6 4 2 3 3 6 3 2 5 4
26、 1 - - - - - - -精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用秩和2;假如 R j l,2, , n表示每一观看对象或个体的实际秩和,那么,R 与 kn十 1 2 越接近,说明对第 j 个观看对象或个体的秩评定越接近平均秩;二者相差越远,远离平均秩;由于 R 与 k22 十 12 的差值可正可负,因此,在分析时应采纳差值的平方和;定义差值的平方和为 j S,即Sjn1R jk n1/ 2 20.16在 k 组秩评定完全一样时,各个观看对象或个体的秩和与平均秩和的离差平方和,是最大可能的离差平方和;由于 k 组秩评定完全一样时,各观看对象或个体的秩和
27、分别为 k,2k, , nk,如表 514,假如3 位消费者对 6 种牌号电冰箱的质量看法一样,那么他们会给出相同的秩;这时,被认为质量最好的电冰箱将得到 3 个秩 1,它们的秩和 Rj1 十 1 十 13k;被认为质量其次的,秩和 Rj2 十 2 十 2 62k;最差的电冰箱秩和将是 Rj6 十 6 十 618nk;也就是说,当 k 组秩评定之间完全一样的时候,Rj应是 k,2k, , nk;因此,最大可能的离差平方和为jn1jkk n1/ 22k2jn1jn2 1/ 22 k n n21/120.17实际偏差平方和与最大可能偏差平方和之比,在肯定程度上能反映k 组秩评定间的一样性,即和谐程
28、度; 5.16)式除以 k n n 1 j 1 k n n 1W 的取值在 0 到 1 之间;如 W=0,说明 k 组秩之间不相关;如 W=1,说明 k 组秩之间完全相关,即完全一样;由于 k2 时, k 组秩评定不行能完全不一样,也就是说,只有当 k2 时,秩评定一样和非一样是对称相反的,而 k2,对称性不再存在,因此,W 取值不行能为负;为便利实际运算,k n n 1NOTE :在 m 组秩的评定完全一样时,该离差平方和是最大可能的离差平方和,实际上,个体的秩和分别为: k,2k, ,nk;2 2最大可能的离差平方和为:k n n 1 /12完全评秩的协同系数 W,实际表达了实际偏差平方和
29、和最大可能偏差平方和之比,在肯定程度上反映了 k 组评秩之间的一样性,即协同程度;名师归纳总结 - - - - - - -第 12 页,共 21 页精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用 0 W 1;当 W=0 时,说明 k 组秩之间不相关;如 W=1 ,说明 k 组秩之间完全相关,即完全一样; 在 作 检 验 时 , W 统 计 量 和 S 统 计 量 都 有 表 可 查 ; 当 大 样 本 时 , 有12 S 2Q k n 1 W n 1kn n 12应用【例 5-8】裁判组整体评分成效的相关分析在某次业余歌手大赛上,6 名裁判员组成的裁判组,对10 名参赛歌手的评分等级如表5 15;表 5-15 裁判员对唱手评定的等级歌手编号