《应用多元统计分析-第九章 典型相关分析.ppt》由会员分享,可在线阅读,更多相关《应用多元统计分析-第九章 典型相关分析.ppt(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、典型相关分析第九章典型相关分析典型相关分析两组变量的相关问题两组变量的相关问题我们知道如何衡量两个变量之间是我们知道如何衡量两个变量之间是否相关的问题;这是一个简单的公否相关的问题;这是一个简单的公式就可以解决的问题(式就可以解决的问题(PearsonPearson相关相关系数、系数、KendallKendalls ts t、Spearman Spearman 秩相关系数秩相关系数)。如果我们有两组变量,如何表明它如果我们有两组变量,如何表明它们之间的关系呢?们之间的关系呢?例例9.19.1(数据(数据tv.sav)tv.sav)例如:业内人士和观众对于一些电视节目的观点例如:业内人士和观众对
2、于一些电视节目的观点有什么样的关系呢?有什么样的关系呢?数据数据tv.savtv.sav是不同的人群对是不同的人群对3030个电视节目所作的平均评分。个电视节目所作的平均评分。观众评分来自低学历观众评分来自低学历(led)(led)、高学历、高学历(hed)(hed)和网络和网络(net)(net)调查三种,它们形成调查三种,它们形成第一组变量第一组变量;而业内人士分评分来自包括演员和导演在内的艺而业内人士分评分来自包括演员和导演在内的艺术家术家(arti)(arti)、发行、发行(com)(com)与业内各部门主管与业内各部门主管(man)(man)三种,形成三种,形成第二组变量第二组变量。
3、人们对这样两组变量之。人们对这样两组变量之间的关系感到兴趣。间的关系感到兴趣。第一组第一组变量变量:观众观众第二组第二组变量变量:业内业内人士人士低低学学历历高高学学历历网网络络主主管管发发行行人人艺艺术术家家典型相关典型相关如何进行典型相关如何进行典型相关如果直接对这六个变量的相关进行两两如果直接对这六个变量的相关进行两两分析,很难得到关于这两组变量之间关分析,很难得到关于这两组变量之间关系的一个清楚的印象。系的一个清楚的印象。希望能够把多个变量与多个变量之间的希望能够把多个变量与多个变量之间的相关化为相关化为两个两个变量之间的相关。变量之间的相关。现在的问题是为每一组变量现在的问题是为每一
4、组变量选取一个综选取一个综合变量作为代表;合变量作为代表;而一组变量最简单的综合形式就是该组而一组变量最简单的综合形式就是该组变量的变量的线性组合线性组合。如何进行典型相关如何进行典型相关由于一组变量可以有无数种线性组合由于一组变量可以有无数种线性组合(线性组合由相应的系数确定),因此(线性组合由相应的系数确定),因此必须找到必须找到既有意义又可以确定的线性组既有意义又可以确定的线性组合。合。典型相关分析典型相关分析(canonical correlation(canonical correlation analysis)analysis)就是要找到这两组变量线性组就是要找到这两组变量线性组合
5、的系数,使得这两个由线性组合生成合的系数,使得这两个由线性组合生成的变量(和其他线性组合相比)之间的的变量(和其他线性组合相比)之间的相关系数最大。相关系数最大。XV1V2|VdYW1W2|Wdx1x2xiy1y2yjcr1cr2crdd=min(i,j)(V1=a0+a1x1+aixi)(W1=b0+b1y1+bjyj)建立第一对典型变量建立第一对典型变量(函数函数)的原则的原则尽量使所建的两个典型变量之间的相关尽量使所建的两个典型变量之间的相关系数最大化,就是在两个变量组各自的系数最大化,就是在两个变量组各自的总变化中先寻求他们之间最大的一部分总变化中先寻求他们之间最大的一部分共变关系,并
6、用一对典型变量所描述。共变关系,并用一对典型变量所描述。因而,第一维度上的典型相关系数也随因而,第一维度上的典型相关系数也随之求的。之求的。建立第二对典型变量建立第二对典型变量(函数函数)的原则的原则继续在两组变量剩余的变化中寻找第二继续在两组变量剩余的变化中寻找第二个最大的共变部分,形成第二对典型变个最大的共变部分,形成第二对典型变量,并解出第二维度上的典型相关系数。量,并解出第二维度上的典型相关系数。依此类推,直至所有变化部分被剥离完依此类推,直至所有变化部分被剥离完毕。毕。典型相关分析原理及方法典型相关分析原理及方法设有两组随机向量,典型相关分析原理及方法典型相关分析原理及方法典型相关分
7、析原理及方法典型相关分析原理及方法根据典型相关分析的基本思想,要进行两组随机向量间的相关分析,首先要计算出各组变量的线性组合典型变量,并使其相关系数达到最大。因此,我们设两组变量的线性组合分别为:典型相关分析原理及方法典型相关分析原理及方法显见:典型相关分析原理及方法典型相关分析原理及方法我们希望寻找使相关系数达到最大的向量a与b,由于随机向量乘以常数时并不改变他们的相关系数,所以,为防止结果的重复出现,令:那么:这样就成为求使上式达到最大的系数向量a与b。典型相关系数典型相关系数这这里里所所涉涉及及的的主主要要的的数数学学工工具具还还是是矩矩阵阵的的特特征征值值和和特特征征向向量量问问题题。
8、而而所所得得的的特特征征值值与与V和和W的典型相关系数有直接联系。的典型相关系数有直接联系。由由于于特特征征值值问问题题的的特特点点,实实际际上上找找到到的的是是多多组组典典型型变变量量(V1,W1),(V2,W2),,其其中中V1和和W1最相关,而最相关,而V2和和W2次之等等,次之等等,而而且且V1,V2,V3,之之间间及及而而且且W1,W2,W3,之之间间互互不不相相关关。这这样样又又出出现现了了选选择择多多少少组组典典型型变变量量(V,W)的的问问题题了了。实实际际上上,只只要要选选择择特征值累积总贡献占主要部分的那些即可。特征值累积总贡献占主要部分的那些即可。注意注意严格地说,一个典
9、型相关系数描述的只严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两是一对典型变量之间的相关,而不是两个变量组之间的相关。个变量组之间的相关。而各对典型变量之间构成的多维典型相而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的关才共同揭示了两个观测变量组之间的相关形式。相关形式。典型相关模型的基本假设和数据要求典型相关模型的基本假设和数据要求要求两组变量之间为线性关系,即每对要求两组变量之间为线性关系,即每对典型变量之间为线性关系;典型变量之间为线性关系;每个典型变量与本组所有观测变量的关每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系,系
10、也是线性关系。如果不是线性关系,可先线性化:如经济水平和收入水平与可先线性化:如经济水平和收入水平与其他一些社会发展水之间并不是线性关其他一些社会发展水之间并不是线性关系,可先取对数。系,可先取对数。即即log经济水平,经济水平,log收入水平。收入水平。典型相关模型的基本假设和数据要求典型相关模型的基本假设和数据要求所有观测变量为定量数据。同时也可将所有观测变量为定量数据。同时也可将定性数据按照一定形式设为虚拟变量后,定性数据按照一定形式设为虚拟变量后,再放入典型相关模型中进行分析。再放入典型相关模型中进行分析。检验假设:检验假设:典型相关分析说明典型相关分析说明下面就下面就tv.savtv
11、.sav数据进行典型相关分析数据进行典型相关分析的说明的说明头头两两对对典典型型变变量量(V,W)的的累累积积特特征征根根已已经经占占了了总总量量的的99.427%99.427%。它它们们的的典典型型相相关关系系数数也也都都在在0.950.95之上。之上。典型相关系数的平方典型相关系数的平方与简单相关系数一样,典型相关系数的实际意与简单相关系数一样,典型相关系数的实际意义并不十分明确。义并不十分明确。所以,由经验的研究人员往往更愿意采用典型所以,由经验的研究人员往往更愿意采用典型相关系数的平方(相当于回归分析中的确定系相关系数的平方(相当于回归分析中的确定系数)。数)。由于相关涉及的两个典型变
12、量都是标准化的,由于相关涉及的两个典型变量都是标准化的,所以双方的方差都等于所以双方的方差都等于1。典型相关系数的平。典型相关系数的平方的实际意义是一对典型变量之间的共享方差方的实际意义是一对典型变量之间的共享方差在两个典型变量各自方差中的比例。在两个典型变量各自方差中的比例。典型相关系数的检验典型相关系数的检验整体检验:整体检验:典型相关系数的检验典型相关系数的检验维度递减检验:仍然是一种多元检验,维度递减检验:仍然是一种多元检验,但可以提供每对典型变量的典型相关是但可以提供每对典型变量的典型相关是否显著的信息。否显著的信息。Dimension Reduction AnalysisRoots
13、Wilks L.F HypothDFError DFSig.of F1 to 32 to 33 to 30.000500.054710.59382141.58046 40.94049 17.78432 9.00 4.00 1.00 58.56 50.00 26.00 0.000 0.000 0.000典型系数典型系数下下面面表表格格给给出出的的是是第第一一组组变变量量相相应应于于上上面面三三个个特特征征根根的的三三个个典典型型变变量量V V1 1、V V2 2和和V V3 3的的 系系 数数,即即 典典 型型 系系 数数(canonical(canonical coefficient)coef
14、ficient)。注注意意,SPSS把把第第一一组组变变量量称称为为因因变变量量(dependent variables),而而把把第第二二组组称称为为协协变变量量(covariates);显显然然,这这两两组组变变量量是是完完全全对对称称的的。这这种种命命名名仅仅仅仅是是为为了了叙叙述方便。述方便。典型系数典型系数这这些些系系数数以以两两种种方方式式给给出出;一一种种是是没没有有标标准准化化的的原原始始变变量量的的线线性性组组合合的的典典型型系系数数(raw(raw canonical canonical coefficient)coefficient),一一种种是是标标准准化化之之后后的的
15、典典型型系系数数(standardized(standardized canonical canonical coefficient)coefficient)。标标准准化化的的典典型型系系数数直直观观上上对对典典型型变变量量的的构构成成给给人人以以更加清楚的印象。更加清楚的印象。典型系数典型系数可以看出,头一个典型变量可以看出,头一个典型变量V V1 1相应于相应于前面第一个(也是最重要的)特征前面第一个(也是最重要的)特征值,主要代表值,主要代表高学历变量高学历变量hedhed;而相应于前面第二个(次要的)特而相应于前面第二个(次要的)特征值的第二个典型变量征值的第二个典型变量V V2 2主
16、要代表主要代表低低学历变量学历变量ledled和部分的网民变量和部分的网民变量netnet,但高学历变量在这里起负面作用。,但高学历变量在这里起负面作用。典型系数典型系数类似地,也可以得到被称为协变量类似地,也可以得到被称为协变量(covariate)(covariate)的标准化的第二组变量的相应于头三个特征值的标准化的第二组变量的相应于头三个特征值得三个典型变量得三个典型变量W W1 1、W W2 2和和W W2 2的系数:的系数:典型负载(相关)系数典型负载(相关)系数也称为因变量或协变量与典型变量之间也称为因变量或协变量与典型变量之间的两两相关系数。的两两相关系数。例子结论例子结论从从
17、这这两两个个表表中中可可以以看看出出,V V1 1主主要要和和变变量量hedhed相相关关,而而V V2 2主主要要和和ledled及及netnet相相关关;W W1 1主主要要和和变变量量artiarti及及manman相相关关,而而W W2 2主主要要和和comcom相相关关;这这和和它它们们的的典典型型系系数数是是一一致的。致的。由由于于V V1 1和和W W1 1最最相相关关,这这说说明明V V1 1所所代代表表的的高高学学历历观观众众和和W W1 1所所主主要要代代表表的的艺艺术术家家(arti)(arti)及及各各部部门门经经理理(man)(man)观观点点相相关关;而而由由于于V
18、 V2 2和和W W2 2也也相相关关,这这说说明明V V2 2所所代代表表的的低低学学历历(led)(led)及及以以年年轻轻人人为为主主的的网网民民(net)(net)观观众众和和W W2 2所所主主要要代代表表的的看看重重经经济济效效益益的的发发行行人人(com)(com)观观点点相相关关,但但远远远远不不如如V V1 1和和W W1 1的的相相关关那那么么显显著著(根根据据特特征征值值的的贡献率)。贡献率)。相关分析的冗余分析相关分析的冗余分析主要说明典型变量对各组观测变量总方主要说明典型变量对各组观测变量总方差的代表比例和解释比例。差的代表比例和解释比例。Variance in de
19、pendent variables explained by canonical variablesCAN.VARPct Var DECum Pct DEPct Var COCum Pct CO12341.45547.75310.79241.45589.208100.0041.07843.3534.38441.07884.43188.814相关分析的冗余分析相关分析的冗余分析其中:其中:DE因变量组因变量组 CO协变量组协变量组Variance in covariates variables explained by canonical variablesCAN.VARPct Var DECu
20、m Pct DEPct Var COCum Pct CO12371.69122.310 1.24971.69194.00195.25172.34924.575 3.07672.34996.924 100.00相关分析的冗余分析相关分析的冗余分析解释比例解释比例=代表比例代表比例典型相关系数的平方典型相关系数的平方对于因变量则有:对于因变量则有:Var CO=Var DESq.Cor 41.078=41.4550.991所以典型相关系数高时,并不说明典型变所以典型相关系数高时,并不说明典型变量对观测组变量的解释程度高,代表程度量对观测组变量的解释程度高,代表程度高。高。相关分析的冗余分析相关分析
21、的冗余分析通过不同观察变量组的代表比例和解释通过不同观察变量组的代表比例和解释比例相乘,可以得到因变量组总方差与比例相乘,可以得到因变量组总方差与协变量组总方差的共享比例。即:协变量组总方差的共享比例。即:因变量组的因变量组的Var DE协变量组的协变量组的Var DE或:因变量组的或:因变量组的Var CO协变量组的协变量组的Var CO 两个变量组的共享方差两个变量组的共享方差相关分析的冗余分析相关分析的冗余分析第一典型相关的共享方差为:第一典型相关的共享方差为:0.410780.72349=0.29720=29.720%第二典型相关的共享方差为:第二典型相关的共享方差为:0.433530
22、.24575=0.10354=10.654%第三典型相关的共享方差为:第三典型相关的共享方差为:0.043840.03076=0.00135=0.135%SPSS的的实现实现首先打开首先打开SPSSSPSS数据数据tv.savtv.sav,通通过过FileFileNewNewDateDateSyntaxSyntax打打开开一一个个空空白白文文件件(默默认认文文件件名名为为Syntax1.spsSyntax1.sps),再再在在其其中中键键入入下下面命令行:面命令行:MANOVA led hed net WITH arti com man MANOVA led hed net WITH arti
23、 com man /DISCRIM ALL ALPHA(1)/DISCRIM ALL ALPHA(1)/PRINT=SIG(EIGEN DIM)./PRINT=SIG(EIGEN DIM).再点击再点击RunRun,就可以得到所需结果了。,就可以得到所需结果了。还可以把还可以把Syntax1.spsSyntax1.sps另以其他名字(比如另以其他名字(比如tv.spstv.sps)存入一个文件夹。下次使用时就可以通过)存入一个文件夹。下次使用时就可以通过FileFileOpenOpenSyntaxSyntax来打开这个文件了。来打开这个文件了。例例12.212.2(科技经费投入科技经费投入.s
24、av.sav)我国科技市场产出情况与我国科技市场产出情况与R&DR&D经费支出变量的经费支出变量的典型相关分析典型相关分析 “科学技术是第一生产力科学技术是第一生产力”,近几年来,我国,近几年来,我国在科研方面的投入不断增加,国家的研究与试在科研方面的投入不断增加,国家的研究与试验发展(验发展(R&DR&D)经费内部支出到)经费内部支出到20012001年已达到年已达到8956.68956.6亿元。那么,科技市场的产出情况是否亿元。那么,科技市场的产出情况是否与经费投入密切相关?各种类型的经费投入对与经费投入密切相关?各种类型的经费投入对科技市场的发展具体有怎样的影响?通过对科技市场的发展具体
25、有怎样的影响?通过对R&DR&D各种项目的支出变量与科技市场在某些方各种项目的支出变量与科技市场在某些方面的产出变量做典型相关分析,找出两者之间面的产出变量做典型相关分析,找出两者之间的联系。的联系。数据说明数据说明 R&DR&D经费投入变量包括三个:经费投入变量包括三个:基础研究的基础研究的R&DR&D经费支出、应用研究的经费支出、应用研究的R&DR&D经费支出经费支出和试验发展的和试验发展的R&DR&D经费支出经费支出(协变量)。(协变量)。科技市场产出变量也选择了三个,分别科技市场产出变量也选择了三个,分别为:为:新产品产值、专利授予量和科技市新产品产值、专利授予量和科技市场成交额场成交
26、额(因变量)。(因变量)。资料来源于资料来源于20022002年年统计年鉴统计年鉴。使用使用SPSSSPSS进行典型相关分析进行典型相关分析 使使用用MANOVAMANOVA进进行行典典型型相相关关分分析析。程程序序命命令如下(令如下(syntax-manova12.2syntax-manova12.2):):MANOVA xch zhl chj WITH jch yy shy/DISCRIM ALL ALPHA(1)/PRINT=SIG(EIGEN DIM).主要结果的解释主要结果的解释 Test Name Value Approx.F Hypoth.DF Error DF Sig.of F
27、Pillais 1.86281 11.46653 9.00 63.00 .000Hotellings 13.36726 26.23943 9.00 53.00 .000Wilks .01533 23.53353 9.00 46.39 .000Roys .88531Multivariate Tests of Significance(S=3,M=-1/2,N=8 1/2)主要结果的解释主要结果的解释Eigenvalues and Canonical Correlations Root No.Eigenvalue Pct.Cum.Pct.Canon Cor.Sq.Cor 1 7.719 57.74
28、6 57.746 .941 .885 2 5.497 41.122 98.868 .920 .846 3 .151 1.132 100.000 .363 .131 维度递减检验维度递减检验Dimension Reduction AnalysisRootsWilks L.F HypothDFError DFSig.of F1 to 32 to 33 to 30.015330.133690.86858 23.53353 17.34940 3.17735 9.00 4.00 1.00 46.39 40.00 21.00 0.000 0.000 0.089Standardized canonical
29、coefficients for DEPENDENT variables 可以得到典型变量可以得到典型变量V V 1 1、V V 2 2和和V V 3 3对于标准化的变量对于标准化的变量xchxch,zhlzhl,chjchj的表示式。由前所示,前两对典型变量的的表示式。由前所示,前两对典型变量的累积百分比已达到累积百分比已达到98.868%,98.868%,所以我们主要看所以我们主要看V V 1 1和和V V 2 2的的表达式:表达式:V V 1 1=0.003xch+0.593zhl+0.566chj=0.003xch+0.593zhl+0.566chj V V 2 2=0.261xch=
30、0.261xch0.834zhl-0.948chj0.834zhl-0.948chj Function No.Variable 1 2 3 XCH .003 .261 1.067 ZHL .593 .834 -.709 CHJ .566 -.948 .316 Correlations between DEPENDENT and canonical variables 从典型变量与科技投入变量组的相关系数也从典型变量与科技投入变量组的相关系数也能看出,能看出,V V 1 1主要代表专利授予量和科技市场主要代表专利授予量和科技市场成交量指标。成交量指标。Function No.Variable 1
31、 2 3 XCH .325 .468 .822 ZHL .870 .479 -.119 CHJ .855 -.505 .121 Standardized canonical coefficients for COVARIATES variables典型变量典型变量W W 1 1、W W 2 2对科技投入组各变量的关系。对科技投入组各变量的关系。W W 1 1 0.370jch-0.350yy+1.006shy0.370jch-0.350yy+1.006shy W W 2 2 0.334jch-1.092yy+1.034shy0.334jch-1.092yy+1.034shy Function
32、No.Variable 1 2 3 JCH .370 -.334 -3.993 YY -.350 -1.092 4.241 SHY 1.006 1.034 -.358 Correlations between COVARIATES and canonical variables 从从W W 1 1、W W 2 2和各投入变量的相关系数看,和各投入变量的相关系数看,这这W W 1 1与与“试验发展试验发展”变量关系紧密变量关系紧密,W W 2 2与与“基础研究基础研究”和和“应用研究应用研究”变量关变量关系紧密。系紧密。Function No.Variable 1 2 3 JCH .689 -.
33、714 -.127 YY .732 -.669 .124 SHY .996 .030 .090 典型相关分析的结果显示,我国科技市典型相关分析的结果显示,我国科技市场的产出情况与场的产出情况与R&DR&D经费支出具有显著的经费支出具有显著的相关关系,相关关系,尤其是试验发展方面的尤其是试验发展方面的R&DR&D投入,对科技投入,对科技市场成交额和专利授予量方面的贡献比市场成交额和专利授予量方面的贡献比较大。较大。相关分析的冗余分析相关分析的冗余分析Variance in dependent variables explained by canonical variablesCAN.VARPct
34、 Var DECum Pct DEPct Var COCum Pct CO12353.07423.44023.48653.07476.514100.0046.98719.8323.08646.98766.81969.906相关分析的冗余分析相关分析的冗余分析Variance in covariate variables explained by canonical variablesCAN.VARPct Var DECum Pct DEPct Var COCum Pct CO12359.08027.0310.17359.08086.11286.28566.73431.9491.31766.73498.683100.00因变量组与协变量组的共享方差:因变量组与协变量组的共享方差:在第一典型相关上:在第一典型相关上:0.469870.66734=0.31356=31.356%在第二典型相关上:在第二典型相关上:0.198320.31949=0.06336=6.336%