第十讲典型相关分析课件.ppt

上传人:石*** 文档编号:50890220 上传时间:2022-10-16 格式:PPT 页数:54 大小:3.30MB
返回 下载 相关 举报
第十讲典型相关分析课件.ppt_第1页
第1页 / 共54页
第十讲典型相关分析课件.ppt_第2页
第2页 / 共54页
点击查看更多>>
资源描述

《第十讲典型相关分析课件.ppt》由会员分享,可在线阅读,更多相关《第十讲典型相关分析课件.ppt(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第十讲典型相关分析第1页,此课件共54页哦两组变量的相关问题两组变量的相关问题 n我们知道如何衡量两个变量之间是我们知道如何衡量两个变量之间是否相关的问题;这是一个简单的公否相关的问题;这是一个简单的公式就可以解决的问题式就可以解决的问题(Pearson相关相关系数、系数、Kendalls t t、Spearman 秩相关系数秩相关系数)。公式公式n如果我们有两组变量,如何能够表明如果我们有两组变量,如何能够表明它们之间的关系呢?它们之间的关系呢?第2页,此课件共54页哦两个变量时两个变量时,用线性相关系数用线性相关系数研究两研究两个变量之间的线性相关性个变量之间的线性相关性:返回返回第3页,

2、此课件共54页哦 典型相关典型相关是研究是研究两组变量两组变量之间相之间相关性的一种统计分析方法。也是一关性的一种统计分析方法。也是一种降维技术。种降维技术。典型相关分析方法最早源于荷泰林典型相关分析方法最早源于荷泰林(H,Hotelling)于于1936年在生物统计期刊上发表的一篇论文两组变式之间的关年在生物统计期刊上发表的一篇论文两组变式之间的关系。他所提出的方法经过多年的应用及发展,逐渐达到完善,系。他所提出的方法经过多年的应用及发展,逐渐达到完善,在在70年代臻于成熟。年代臻于成熟。如如CooleyandLohnes(1971)、Kshirsagar(1972)和和Mardia,Ken

3、t,andBibby(1979)推动推动了它的应用。了它的应用。第4页,此课件共54页哦5第一节 典型相关分析的基本思想如何研究两组两组变量之间的相关关系呢?如何进一步确定两组变量在整体整体上的相关程度呢?第5页,此课件共54页哦 通常情况下,为了研究两组变量 的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。第6页,此课件共54页哦 在解决实际问题中,这种方法有广泛的应用。如,在 工 厂 里 常 常 要 研 究

4、 产 品 的 q个 质 量 指 标 和p个原材料的指标之间的相关关系;可以采用典型相关分析来解决。如果能够采用类似于主成分的思想,分别找出两组变量的线性组合既可以使变量个数简化,又可以达到分析相关性的目的。第7页,此课件共54页哦例子(数据例子(数据tv.txt)n业内人士和观众对于一些电视节目的观点有业内人士和观众对于一些电视节目的观点有什么样的关系呢?什么样的关系呢?该数据该数据是不同的人群对是不同的人群对30个电视节目所作的平均评分。个电视节目所作的平均评分。n观众评分来自低学历观众评分来自低学历(led)、高学历、高学历(hed)和和网络网络(net)调查三种调查三种,它们形成它们形成

5、第一组变量第一组变量;n而业内人士分评分来自包括演员和导演在内而业内人士分评分来自包括演员和导演在内的艺术家的艺术家(arti)、发行、发行(com)与业内各部门主与业内各部门主管管(man)三种,形成三种,形成第二组变量第二组变量。人们对这样。人们对这样两组变量之间的关系感到兴趣。两组变量之间的关系感到兴趣。第8页,此课件共54页哦第9页,此课件共54页哦寻找代表寻找代表 n如直接对这六个变量的相关进行两两分如直接对这六个变量的相关进行两两分析,很难得到关于这两组变量之间关系析,很难得到关于这两组变量之间关系的一个清楚的印象。的一个清楚的印象。n希望能够把多个变量与多个变量之间的相希望能够把

6、多个变量与多个变量之间的相关化为关化为两个两个变量之间的相关。变量之间的相关。n现在的问题是为每一组变量现在的问题是为每一组变量选取一个综合选取一个综合变量作为代表;变量作为代表;n而一组变量最简单的综合形式就是该组变而一组变量最简单的综合形式就是该组变量的量的线性组合线性组合。第10页,此课件共54页哦 利用主成分分析的思想,可以把多个变量与多个变量之间的相关转化为两个变量之间的相关。主成分综合变量找出系数 和 使得新变量和之间有最大可能的相关系数。(典型相关系数)即使第11页,此课件共54页哦例例 家庭特征与家庭消费之间的关系家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间

7、的关系。调查了70个家庭的下面两组变量:分析两组变量之间的关系。第12页,此课件共54页哦X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵变量间的相关系数矩阵第13页,此课件共54页哦y2y3y1x2x1第14页,此课件共54页哦典型相关分析的基本理论典型相关分析的基本理论n由于一组变量可以有无数种线性组合由于一组变量可以有无数种线性组合(线性组合由相应的系数确定),因(线性组合由相应

8、的系数确定),因此必须找到此必须找到既有意义又可以确定的线性既有意义又可以确定的线性组合。组合。n典型相关分析典型相关分析(canonical correlation analysis)就是要找到这两组变量线性就是要找到这两组变量线性组合的系数使得这两个由线性组合生组合的系数使得这两个由线性组合生成的变量(和其他线性组合相比)之成的变量(和其他线性组合相比)之间的间的相关系数最大。相关系数最大。第15页,此课件共54页哦典型变量典型变量n假假定定两两组组变变量量为为X1,X2,Xp和和Y1,Y2,Yq,那那么么,问问题题就就在在于于要要寻寻找找系系数数a1,a2,ap和和b1,b2,bq,和和

9、使使得得新新的的综综合合变变量量(亦亦称称为为典典型型变变量量(canonical variable))n之之间间的的相相关关关关系系最最大大。这这种种相相关关关关系系是是用用典典型型相相关关系数(系数(canonicalcorrelationcoefficient)来衡量的。)来衡量的。第16页,此课件共54页哦典型相关系数典型相关系数 n这这里里所所涉涉及及的的主主要要的的数数学学工工具具还还是是矩矩阵阵的的特特征征值值和和特特征征向向量量问问题题。而而所所得得的的特特征征值值与与V和和W的典型相关系数有直接联系。的典型相关系数有直接联系。n由由于于特特征征值值问问题题的的特特点点,实实际

10、际上上找找到到的的是是多多组组典典型型变变量量(V1,W1),(V2,W2),,其其中中V1和和W1最相关,而最相关,而V2和和W2次之等等,次之等等,第17页,此课件共54页哦典型相关系数典型相关系数 n而而且且V1,V2,V3,之之间间及及而而且且W1,W2,W3,之之间间互互不不相相关关。这这样样又又出出现现了了选选择择多多少少组组典典型型变变量量(V,W)的的问问题题了了。实实际际上上,只只要要选选择择特特征值累积总贡献占主要部分的那些即可。征值累积总贡献占主要部分的那些即可。n软软件件还还会会输输出出一一些些检检验验结结果果;于于是是只只要要选选择择显显著的那些著的那些(V,W)。n

11、对对实实际际问问题题,还还要要看看选选取取的的(V,W)是是否否有有意意义义,是是否否能能够够说说明明问问题题才才行行。至至于于得得到到(V,W)的的计计算算,则则很很简简单单,下下面面就就tv.txt数数据据进进行分析。数学原理?行分析。数学原理?第18页,此课件共54页哦计算结果计算结果 n第第一一个个表表为为判判断断这这两两组组变变量量相相关关性性的的若若干干检检验验,包包括括Pillai迹迹检检验验,Hotelling-Lawley迹迹检检验验,Wilksl检检验验和和Roy的的最最大大根根检检验验;它它们们都都是是有有两两个个自自由由度度的的F检检验验。该该表表给给出出了了每每个个检

12、检验验的的F值,两个自由度和值,两个自由度和p值(均为值(均为0.000)。)。第19页,此课件共54页哦计算结果计算结果 n下下面面一一个个表表给给出出了了特特征征根根(Eigenvalue),特特征征根根所所占占的的百百分分比比(Pct)和和累累积积百百分分比比(Cum.Pct)和和典典型型相相关关系系数数(CanonCor)及及其其平平方方(Sq.Cor)。看看来来,头头两两对对典典型型变变量量(V,W)的的累累积积特特征征根根已已经经占占了了总总量量的的99.427%。它它们们的的典典型型相相关关系系数数也也都在都在0.95之上。之上。第20页,此课件共54页哦计算结果计算结果 n对对

13、于于众众多多的的计计算算机机输输出出挑挑出出一一些些来来介介绍绍。下下面面表表格格给给出出的的是是第第一一组组变变量量相相应应于于上上面面三三个个特特征征根根的的三三个个典典型型变变量量V1、V2和和V3的的系系数数,即即典典型型系系数数(canonicalcoefficient)。注注意意,SPSS把把第第一一组组变变量量称称为为因因变变量量(dependentvariables),而而把把第第二二组组称称为为协协变变量量(covariates);显显然然,这这两两组组变变量量是是完全对称的。这种命名仅仅是为了叙述方便。完全对称的。这种命名仅仅是为了叙述方便。n这这些些系系数数以以两两种种方

14、方式式给给出出;一一种种是是没没有有标标准准化化的的原原始始变变量量的的线线性性组组合合的的典典型型系系数数(rawcanonicalcoefficient),一一种种是是标标准准化化之之后后的的典典型型系系数数(standardizedcanonicalcoefficient)。标标准准化化的的典典型型系系数数直直观观上上对对典典型型变变量量的的构构成成给给人人以以更更加加清清楚楚的印象。的印象。第21页,此课件共54页哦可以看出,头一个典型变量可以看出,头一个典型变量V1相应于前面相应于前面第一个(也是最重要的)特征值,主要代第一个(也是最重要的)特征值,主要代表高学历变量表高学历变量he

15、d;而相应于前面第二个;而相应于前面第二个(次要的)特征值的第二个典型变量(次要的)特征值的第二个典型变量V2主主要代表低学历变量要代表低学历变量led和部分的网民变量和部分的网民变量net,但高学历变量在这里起负面作用。,但高学历变量在这里起负面作用。第22页,此课件共54页哦计算结果计算结果 n类类似似地地,也也可可以以得得到到被被称称为为协协变变量量(covariate)的的标标准准化化的的第第二二组组变变量量的的相相应应于于头头三三个个特特征征值值得得三个典型变量三个典型变量W1、W2和和W2的系数。的系数。第23页,此课件共54页哦第24页,此课件共54页哦例子结论例子结论 n从从这

16、这两两个个表表中中可可以以看看出出,V1主主要要和和变变量量hed相相关关,而而V2主主要要和和led及及net相相关关;W1主主要要和和变变量量arti及及man相相关关,而而W2主主要要和和com相相关关;这这和和它它们们的的典型系数是一致的。典型系数是一致的。n由由于于V1和和W1最最相相关关,这这说说明明V1所所代代表表的的高高学学历历观观众众和和W1所所主主要要代代表表的的艺艺术术家家(arti)及及各各部部门门经经理理(man)观观点点相相关关;而而由由于于V2和和W2也也相相关关,这这说说明明V2所所代代表表的的低低学学历历(led)及及以以年年轻轻人人为为主主的的网网民民(ne

17、t)观观众众和和W2所所主主要要代代表表的的看看重重经经济济效效益益的的发发行行人人(com)观观点点相相关关,但但远远远远不不如如V1和和W1的相关那么显著(根据特征值的贡献率)。的相关那么显著(根据特征值的贡献率)。第25页,此课件共54页哦SPSS的的实现实现n对例对例tv.sav,首先打开例,首先打开例14.1的的SPSS数据数据tv.sav,n通通过过FileNewSyntax打打开开一一个个空空白白文文件件(默默认认文文件件名名为为Syntax1.sps),再在其中键入下面命令行:),再在其中键入下面命令行:nMANOVA led hed net WITH arti com man

18、n/DISCRIM ALL ALPHA(1)n/PRINT=SIG(EIGEN DIM).n再点击一个向右的三角形图标再点击一个向右的三角形图标(运行目前程序,运行目前程序,Run current),就可以得到所需结果了。,就可以得到所需结果了。n还可以把还可以把Syntax1.sps另以其他名字(比如另以其他名字(比如tv.sps)存入一)存入一个文件夹。下次使用时就可以通过个文件夹。下次使用时就可以通过FileOpenSyntax来来打开这个文件了。打开这个文件了。第26页,此课件共54页哦SPSS的的实现实现n注注意意1:典典型型相相关关分分析析是是本本书书内内容容中中唯唯一一不不能能用

19、用SPSS的的点点击击鼠鼠标标的的“傻傻瓜瓜”方方式式,而而必必须须用用写写入入程程序序行行来来运运行行的的模模型型。读读者者不不必必要要再再去去研研究究语语法法的的细细节节,只只要要能能够够举举一一反反三三,套套用这个例子的程序即可。用这个例子的程序即可。n当当然然,如如果果读读者者愿愿意意学学习习SPSS的的语语法法,则则在在处理数据时,肯定会更方便。处理数据时,肯定会更方便。第27页,此课件共54页哦SPSS的的实现实现n注注意意2:一一些些SPSS的的输输出出很很长长,这这时时输输出出窗窗口口截截去去了了一一些些内内容容没没有有显显示示(这这有有些些随随意意性性)。这这时时输输出出窗窗

20、口口(SPSS Viewer)中中结结果果的的左左下角有一个红色的三角型。下角有一个红色的三角型。n如如果果想想要要看看全全部部内内容容,可可以以先先点点击击鼠鼠标标左左键键,选选中中输输出出结结果果,然然后后从从点点右右键键得得到到的的菜菜单单中中选选择择Export,就就可可以以把把全全部部结结果果(包包括括截截去去的的部部分分)存存入入一一个个htm形形式式的的文文件件了了供供研研究究和打印之用。和打印之用。第28页,此课件共54页哦附录附录 第29页,此课件共54页哦典型相关分析典型相关分析n目的目的:研究多个变量之间的相关性研究多个变量之间的相关性n方法方法:利用主成分思想利用主成分

21、思想,可以把多个变量与可以把多个变量与多个变量之间的相关化为两个变量之间多个变量之间的相关化为两个变量之间的相关的相关.即找一组系数即找一组系数(向量向量)l和和m,使新使新变量变量U=lX(1)和和V=mX(2)有最大可能的有最大可能的相关关系相关关系.第30页,此课件共54页哦数学数学:设两组随机变量设两组随机变量而而的协方差阵的协方差阵S S0,均值向量均值向量m m=0,S S的的剖分为剖分为:对于前面的新变量对于前面的新变量U=lX和和V=mYVar(U)=Var(lX)=lS S11lVar(V)=Var(mY)=mS S22mCov(U,V)=lS S12m,r rUV=lS S

22、12m/(lS S11l)(mS S22m)我们试图在约束条件我们试图在约束条件Var(U)=1,Var(V)=1下寻求下寻求l和和m使使r rUV=Cov(U,V)=lS S12m达到最大达到最大.第31页,此课件共54页哦这是这是Lagrange乘数法求下面乘数法求下面f f的极大值的极大值经过求偏导数和解方程经过求偏导数和解方程,得到得到l=nl=n=lS S12m=Cov(U,V),及及因此因此l l2 2既是既是A又是又是B的特征值的特征值,而相应的特征向而相应的特征向量为量为l,m第32页,此课件共54页哦可得到可得到p1对线性组合对线性组合Ui=l(i)X,Vi=m(i)Y,称每

23、称每一对变量为一对变量为典型变量典型变量.其极大值其极大值称为称为第一典型相关系数第一典型相关系数.一般只取前几个影响大一般只取前几个影响大的典型变量和典型相关系数来分析的典型变量和典型相关系数来分析.A和和B的特征根有如下性质的特征根有如下性质:(1)A和和B有相同的有相同的非零特征根非零特征根,(2)其数目为其数目为p1.A和和B的特征根非的特征根非负负.(3)A和和B的特征根均在的特征根均在0和和1之间之间.我们表示这些称为我们表示这些称为典型相关系数典型相关系数的非零特征值的非零特征值和相应的特征向量为和相应的特征向量为第33页,此课件共54页哦典型变量的性质典型变量的性质:(1)X和

24、和Y中的一切典型变量都不相关中的一切典型变量都不相关.(2)X和和Y的同一对典型变量的同一对典型变量Ui和和Vi之间的相关之间的相关系数为系数为l li,不同对的不同对的Ui和和Vj(ij)之间不相关之间不相关.样本情况样本情况,只要把只要把S S用样本协差阵或样本相关阵用样本协差阵或样本相关阵R代替代替.下面回到我们的例子。下面回到我们的例子。第34页,此课件共54页哦典型相关系数的显著性检验典型相关系数的显著性检验:首先看首先看X和和Y是否相关是否相关,如不相关如不相关,就不必讨论就不必讨论.如果如果这是为检验第这是为检验第1个典型相关系数的显著性个典型相关系数的显著性检验统计量为检验统计

25、量为其中其中为为的特征根的特征根.第35页,此课件共54页哦如果如果H0为检验第为检验第r(rk)个典型相关系数的显著性个典型相关系数的显著性检验统计量为检验统计量为第36页,此课件共54页哦当然在实际例子中一般并不知道当然在实际例子中一般并不知道S S。因此在只。因此在只有样本数据的情况下有样本数据的情况下,只要把只要把S S用样本协差阵用样本协差阵或样本相关阵代替就行了。但是这时的特征或样本相关阵代替就行了。但是这时的特征根可能不在根可能不在0和和1的范围,因此会出现软件输的范围,因此会出现软件输出中的特征根(比如大于出中的特征根(比如大于1)不等于相关系数)不等于相关系数的平方的情况,这

26、时,各种软件会给出调整的平方的情况,这时,各种软件会给出调整后的相关系数。后的相关系数。第37页,此课件共54页哦典型相关和回归分析的关系典型相关和回归分析的关系把把X和和Y换成回归中的换成回归中的X和和Y,这就是因变量这就是因变量和自变量之间的相关问题和自变量之间的相关问题.而而Y在在X上的投上的投影影,就是回归了就是回归了.第38页,此课件共54页哦典型相关分析计算步骤第39页,此课件共54页哦第40页,此课件共54页哦补充:典型相关系数和补充:典型相关系数和典型变量的数学描述典型变量的数学描述第41页,此课件共54页哦考虑两组变量的向量 其协方差阵为 其中11是第一组变量的协方差矩阵;2

27、2是第二组变量的协方差矩阵;是X 和Y 的协方差矩阵。第42页,此课件共54页哦如果我们记两组变量的第一对线性组合为:其中:所以,典型相关分析就是求a a1和b b1,使uv达到最大。第43页,此课件共54页哦 在约束条件:下,求a a1 1和和b b1 1,使uv达到最大。令第44页,此课件共54页哦根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转化为求的极大值,其中和是 Lagrange乘数。第45页,此课件共54页哦 将上面的3式分别左乘 和 第46页,此课件共54页哦由(3)式的第二式,得代入(3)式的第一式,得的特征根是 ,相应的特征向量为第47页,此课件

28、共54页哦由(3)式的第一式,得代入(3)式的第二式,得的特征根是 ,相应的特征向量为第48页,此课件共54页哦 结论:既是M1又是M2的特征根,和 是相应于M1和M2的特征向量。至此,典型相关分析转化为求M1和M2特征根和特征向量的问题。第一对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。第49页,此课件共54页哦 在剩余的相关中再求出第二对典型变量和他们的典型相关系数。设第二对典型变量为:在约束条件:求使 达到最大的 和 。第50页,此课件共54页哦典型变量的性质典型变量的性质1、同一组变量的典型变量之间互不相关同一组变量的典型变量之间互不相关 X组的典型变量之间是相互独立的:组的典型变量之间是相互独立的:Y组的典型变量之间是相互独立的:组的典型变量之间是相互独立的:因为特征向量之间是正交的。故因为特征向量之间是正交的。故第51页,此课件共54页哦2 2、不同组变量的典型变量之间的相关性、不同组变量的典型变量之间的相关性 不同组内一对典型变量之间的相关系数为:同对相关系数为 ,不同对则为零。第52页,此课件共54页哦3、原始变量与典型变量之间的相关系数、原始变量与典型变量之间的相关系数 第53页,此课件共54页哦第54页,此课件共54页哦

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁