2022年非参数统计学讲义相关与回归 .docx

上传人:H****o 文档编号:63350378 上传时间:2022-11-24 格式:DOCX 页数:24 大小:491.04KB
返回 下载 相关 举报
2022年非参数统计学讲义相关与回归 .docx_第1页
第1页 / 共24页
2022年非参数统计学讲义相关与回归 .docx_第2页
第2页 / 共24页
点击查看更多>>
资源描述

《2022年非参数统计学讲义相关与回归 .docx》由会员分享,可在线阅读,更多相关《2022年非参数统计学讲义相关与回归 .docx(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精品_精品资料_非参数统计学讲义主讲:统计系袁靖第五章相关和回来1引言所谓 相关 ,是指两组或两组以上观看结果之间的连带性或联系.换句话说,也就是各组观看结果所反映的特性之间有关系.如几个亲生兄弟间的智商与诞生次序有关系,受训练程度与性别有关系,诞生率 X 和文盲率 Y 之间的关系等等.在实际问题的讨论中,人们经常想知道两组或两组以上的观看结果是否有联系,同时也想知道联系的程度如何.前面的统计检验能够在肯定的显著性水平上,确定各组观看 值的关系是否存在.相关方法被用来度量两个或更多变量之间的线性关系的强度,是回来分析的基础.在数理统计学中,我们使用相关系数定义变量X 和变量 Y 之间的相关性.

2、可编辑资料 - - - 欢迎下载精品_精品资料_corr X ,Ycov X , Yvar X varY10.1可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_对于样本 X 1 , Y1 , X 2 ,Y2 , X n ,Yn 来说, Pearson相关系数为可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_1 X irnX YiY X iX YiY 0.2可编辑资料 - - - 欢迎下载精品_精品资料_n1 X iX 2YiY 2 X iX 2YiY 2可编辑资料 - - - 欢迎下载精品_精品资料

3、_假如在这个样本中的n 个观看值独立,就r 是的渐近无偏估量.假如它又是二元正态分布,就r 是的 ML 估量.可编辑资料 - - - 欢迎下载精品_精品资料_为了检验H 0 :0 , H 1 :0 ,可以选取统计量trn21r 2 t n2可编辑资料 - - - 欢迎下载精品_精品资料_结论: Pearson相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman秩相关系数 r s和 Kendall 相关系数实际上度量的是一种形式的相依联系,或是更广义的单调关系.因此相关的概念被推广,不仅指线性相关,而泛指相依或联系. 2两个样本的相关分析一、 等级相关等级相关 Rank Cor

4、relation 也称作级序相关 ,用于两个至少是定序尺度测量的样本问相关程度的测定讨论背景1 度量了总体样本点在标准差线四周的集合程度,详见笔记P38.可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_1. 基本方法两个样本 X 、Y ,其观看数据可以配对为 X 1 , Y1 , X 2 , Y2 , X n , Yn .将x1 , x2 , xn 排序后可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_评秩,其秩记作U ,与xi 相对应的秩为U i i1,2, n .同样,y1 , y2 , yn

5、排序后评秩,秩记作V ,与可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_y i 相对应的秩为Vi i1,2, n .这样得到的n 对秩U 1 ,V1 , U 2 , V2 ,U n ,Vn 可能每一对完全相可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_等,也可能不等.由于每一样本都是n 个数据评秩,因此U i 与Vi 的取值都是从 1 到 n.X 、Y 的秩可能完可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_全一样,即对于全部的i 来说,有U i

6、 Vi,表 5 1 是完全一样的评秩结果.X 、Y 的秩可能完全相反,可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_表 5 2 是完全相反的评秩结果.假如X 、Y 完全相关,应当对于全部的i 有U i Vi ,即 U i Vi 0.因可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_此, U i 与 Vi之差可以用来度量X 、Y 的相关程度.定义可编辑资料 - - - 欢迎下载精品_精品资料_D iU iVi表 5-1X 的秩完全一样的评秩Y 的秩1122n 1n 1nn表 5-2完全相反的评秩X

7、的秩Y 的秩1n2n 1n 12n1可编辑资料 - - - 欢迎下载精品_精品资料_就两组秩完全相关时,Di 可编辑资料 - - - 欢迎下载精品_精品资料_D5.3 )式的这个秩差值平方和的大小既受到n 的多少的影响,又受到两组秩不一样程度的影响,因可编辑资料 - - - 欢迎下载精品_精品资料_此,采纳相对的测量指标有利于说明X 、Y 的相关程度.由于2 的最大值反映 X 、Y 完全不相关的情可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_Di2况,所以,用 可编辑资料 - - - 欢迎下载精品_精品资料_5.4 )式的中括号内最终一项,当n

8、 为奇数时是 22. n 为偶数时是 12.5.3 )式除以 1可编辑资料 - - - 欢迎下载精品_精品资料_5.5 )式的取值从 0 到 1.依据表 5-1 中的数据运算 5.5)式值为 0,表 5-2 中的数据运算的 5.5)式值为 1,即 X 、Y 的秩完全一样时, 5.5 )式的值为 0, X 、Y 的秩完全不一样时, 是测定两个样本相关强度的重要指标.其运算公式为可编辑资料 - - - 欢迎下载精品_精品资料_6R1nn 2D 2i0.61可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_斯皮尔曼相关系数也写为rs ,在有下标注以s 是

9、为说明这个相关系数r 不是积矩相关的简洁相关系可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_数,而是等级相关的Spearman相关系数.注:由于 5.6)式与 5.5)式不同,所以,R 的取值从一 1 到十 1, R1 说明 X 、Y 完全相关, R可编辑资料 - - - 欢迎下载精品_精品资料_十 l 为完全正相关, R一 1 为完全负相关.R 越接近于 l,说明相关程度越高,反之,R 越接近于零,说明相关程度越低,R 0 为完全不相关. R 0 为正相关, R 0 为负相关.通常认为R0.8 为相关程度较高. Spearman秩相关系数检验

10、临界值查表可得,P198.存在打结时, Spearman统计量要作相应修正.在大样本时,可用正态近似作检验.可编辑资料 - - - 欢迎下载精品_精品资料_Zrsn1nN 0,1可编辑资料 - - - 欢迎下载精品_精品资料_2. 应用【例 5-1】经济进展水平和卫生水平之间的相关分析对某的区 12 个街道进行调查,并对经济进展水平和卫生水平按规定的标准打分,评定结果如表54.表 5-4某的区经济水平与卫生水平得分1街道号经济水平82卫生水平86街道号7经济水平84卫生水平8028778878773606598075可编辑资料 - - - 欢迎下载精品_精品资料_498881094965756

11、411858568990126870分析:将表 5 4 中定距尺度测量的分数,按从小到大的次序排等级,得到表5 5 的结果.对两个定序尺度测量的样本进行相关分析,可以采纳等级相关系数测定.必要的运算过程如表5 5 所列.依据5 6)式可得可编辑资料 - - - 欢迎下载精品_精品资料_2R16D i163210.11190.8881可编辑资料 - - - 欢迎下载精品_精品资料_n n 2112 12 21由于 R 0 888l 0 8,所以该的区的经济进展水平和卫生水平存在着正相关关系,相关程度较高,为 88 81.表 5-5某的区经济水平与卫生水平得分2街道号经济水平 U)卫生水平 nn

12、2112unn 2112v式中, u 是 X 中同分的观看值数目, v 是 Y 中同分的观看值数目.【例 5-2】经济进展水平和卫生水平之间的相关分析某的区对 24 个区县进行调查,并对经济进展水平和卫生水平按规定标准评分,结果如表5 6.分析:将表5 6 的评分转换为秩次,从高往低排序,同分的秩取平均值,结果见表5 7.依据公式5.6 运算可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_2R16D i1634710.15090.8491可编辑资料 - - - 欢迎下载精品_精品资料_nn 212424 21由于经济水平和卫生水平的评分中均有同分

13、,应采纳校正因子修正.利用5.7 式运算修正的 R 为nn 216D 26uv 2457563471 / 21612Ri0.8490可编辑资料 - - - 欢迎下载精品_精品资料_n n2112unn 2112v24575162457512可编辑资料 - - - 欢迎下载精品_精品资料_对比两个R 值可知,由于同分的观看值数目占观看值总数目的比例不是很大,因而校正后的R 与校正前的R 变化不大.但是,校正前的只略大于校正后的R,这说明同分对只的影响虽然很小,但同分的影响是夸大 R 值.因此.在X 、Y 中至少有一个存在大量同分时,应进行校正.表 5-6经济水平与卫生水平评分区县编号经济水平X)

14、卫生水平Y)区县编号经济水平X)卫生水平Y)192561368552907014676639071156559487761664585816917615068068186054779621959438777020554597664214634107663224232117454233930126865243831表 5-7经济水平与卫生水平的秩次2区县编号X 的秩次 U) Y的秩次 V)D=U-VD1114-1322.53.5-132.520.54413555066607711-4883.54.599.590.5109.510-0.5111116.5-5.51212.584.51312.515

15、-2.514147715151231616133171718-116910.259001620.250.250.2530.2520.256.2549991可编辑资料 - - - 欢迎下载精品_精品资料_181816.51.5191920-1202019121212102222220232324-12424231合计2.25110011347.004. R 的显著性检验利用相关系数及其修正的公式运算的R 值,是抽自两个总体的样本数据运算的结果,从这一相关系数的大小,可推测总体的秩相关系数是否与零有显著差异,但是否为真,应进行假设检验.对R 的显著性检验正是为了回答这一问题.检验可以仅讨论两个总体

16、是否存在相关,也可以分别讨论相关的方向,即是正相关,仍是负相关.针对讨论问题的不同,可以建立不同的假设组.双侧检验H 0:不相关H 1:存在相关单侧检验H0 :不相关H0 :不相关H+ :正相关H :负相关为对假设作出判定,所需数据至少是定序尺度测量的.依据前式运算出R 值.当 n30 时,在附表中,依据 n 和 R 查找相应的概率 P.表 5 8 是判定指导表.表 5-8R显著性检验判定指导表备 择 假 设P- 值H+ :正相关R 的右尾概率H :负相关H1:存在相关R 的左尾概率R 的较小概率的2 倍如 n30 ,就按 【例 5-3】对例 53 作显著性检验分析:由于例 5 3 中未指明相

17、关的方向,只需检验是否相关,因而建立双侧备择: H 0:不相关H 1:存在相关可编辑资料 - - - 欢迎下载精品_精品资料_利用供应的数据运算的R 值为 0 8491 ,每个样本数据n 为 24.在附表中n 24 时.双侧检验R0.608的概率为 0 002.明显, R0 849l R0.608 .因此,概率P 0 002,数据拒绝H 0,表明经济水平和卫生水平的确存在相关关系.二、 Kendall 相关检验Kendall 秩相关即肯德尔秩相关,与等级相关一样,也是用于两个样本相关程度的测量,要求数据至少是定序尺度的.它也是利用两组秩次测定两个样本问相关程度的一种非参数统计方法.可编辑资料

18、- - - 欢迎下载精品_精品资料_1. 基本概率协 同 可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_V2VCn2n n10.10可编辑资料 - - - 欢迎下载精品_精品资料_当 Y 的秩对完全按自然次序排列时,5.9 )式的值为 1, 5.10 )式的值为 0.而当 Y 的秩对全部为非一样对时, 5.10)式的值为 1, 0.12可编辑资料 - - - 欢迎下载精品_精品资料_n n1如记 S U 一 V ,就 Kendall 秩相关系数为可编辑资料 - - - 欢迎下载精品_精品资料_T2Sn n10.13可编辑资料 - - - 欢迎下

19、载精品_精品资料_这里的 Kendall 秩相关系数 T 是 Tau 的缩写,也常写作.Tl,说明两组秩次完全正相关.T一1,说明两组秩次间完全负相关.一般T0.8 ,可以为相关程度较高.可编辑资料 - - - 欢迎下载精品_精品资料_NOTE :该定义式实质为概率, S 和 T 等价. S 的运算.1T1.详见笔记 P40可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_小样本时,可以查表.大样本时,可以作正态近似:Zk18N 0,1 .可编辑资料 - - - 欢迎下载精品_精品资料_nn1 2n5存在打结时,进行同分的处理.3. 应用【例 5-

20、4】利用例 5-2 的数据资料分析经济水平和卫生水平的相关程度分析:依据表5 5 的评秩结果进行秩次重新排列,将经济水平的秩次按自然次序排列,得表5 10的结果.由表可以运算得到2、3、1、5、 4、9、7、8、6、11 的一样对数目可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_U1099773433156可编辑资料 - - - 欢迎下载精品_精品资料_依据5 11)式运算有4U456n n1112121T10.6970由表可以运算出非一样对的数目V 为V 1 十 1 十 1 十 3 十 1 十 1 十 1 十 1=10依据5 12)式运算有可

21、编辑资料 - - - 欢迎下载精品_精品资料_T14Vn n114101212110.30300.6970可编辑资料 - - - 欢迎下载精品_精品资料_如依据 5 13)式运算,也可以得到同样的结论.T 0 69700 8,说明经济水平与卫生水平相关程度不够高.Kendall 秩相关系数也可以用于定距尺度测量的数据,数据不必评秩,而直接比较大小得到一样对或非一样对的数目.表 5-10经济水平和卫生水平秩的排序街道编号经济水平的秩卫生水平的秩街道编号经济水平的秩卫生水平的秩312777122311885312968456101195410111216941210注:也可以依据原始资料进行排序,

22、比较大小,从而进行判定.4. 同分的处理当两个样本中无论哪一个或者两个均有同分观看值时,仍采纳通常的方法,将每一个同分观看值的秩记作其应有秩的平均值.由于同分的影响,也需要对了运算公式中的分母进行校正.在同分情形下,CCuv22nn可编辑资料 - - - 欢迎下载精品_精品资料_式中, uC 2 , u 是 X 中同分观看值的数目,vC 2 , u 是 X 中同分观看值的数目. u, v 仍分可编辑资料 - - - 欢迎下载精品_精品资料_uv别表示 X 、Y 的每一同分组中同分观看值的数目.表 5-11两个裁判员的秩的评分X 的数对Y 的数对分数总和1, 2.52, 3.515 个加1, 2

23、.52, 3.513 个减1, 4.52, 1-11, 4.52, 512.5 , 2.53.5 , 3.50可编辑资料 - - - 欢迎下载精品_精品资料_2.5 , 4.53.5 , 1-12.5 , 4.53.5 , 512.5 , 4.53.5 , 1-12.5 , 4.53.5 , 514.5 , 4.51, 505. T 的显著性检验与 Spearman 秩相关系数 R 一样, Kendall 秩相关系数 T 的显著性也应进行检验.这一检验实际上是检验两个总体的相关是否真实存在,是正相关或是负相关,从而说明以T 的大小反映相关程度的高低是可信.假如讨论关怀的是相关是否的确存在,而不

24、考虑相关的方向,就应建立双侧备择,假设组为H 0:不相关H 1:存在相关如关怀的是相关的方向,就应建立单侧备择,假设组为H0 :不相关H0 :不相关H+ :正相关H :负相关为对假设作出判定,所需数据至少是定序尺度测量的.通过对数据求出一样对或非一样对数目,可以依据运算公式算出Kendall 秩相关系数 T.1)小样本时 n30 ,可以查表给出尾概率,T 的抽样分布中附表中给出.表 5-12T显著性检验判定指导表备 择 假 设P- 值H+ :正相关T 的右尾概率H :负相关H1:存在相关T 的左尾概率T 的较小概率的2 倍可编辑资料 - - - 欢迎下载精品_精品资料_22n5nn1 2n5

25、/ 18可编辑资料 - - - 欢迎下载精品_精品资料_由于 Z 近似正态分布,故可以查标准正态分布表找到相应的尾概率.三、 等级相关系数 R 和 Kendall 秩相关系数 T 的比较1相同点两个相关系数的检验都要求数据至少是在定序尺度上测量.都是运算秩相关系数,用以测度两个相关样本之间的相关程度.它们的取值都是在 1 到 1 之间. 2不同点 R 和 T 的数值即使对于同一组数据也是不同的,多数情形下,R 的肯定值大于T 的肯定值.虽然 R 和 T 都使用了资料中同量的信息,但由于两者具有不同的基础尺度,R 利用的是秩差,而T 利用的是秩的次序,即一样对和非一样对,因此,不能将它们的数值加

26、以比较,以说明相关程度的高可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_低. T 的说明比起R 来更简洁.两个观看的数对 x i ,yi , x j , y j ,当xix j 时,总有yiyj,称为可编辑资料 - - - 欢迎下载精品_精品资料_可编辑资料 - - - 欢迎下载精品_精品资料_次序一样对,如对于每个xixj ,都有yiy j ,就为不一样对. T 的精确意义是:一样对数目与非一样可编辑资料 - - - 欢迎下载精品_精品资料_对数目之差占全部可能数对的比重.四、 偏秩相关详见易丹辉教材 3k 个样本的相关分析前面一章讨论的是n 个对

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁