《最新多元统计典型相关分析PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新多元统计典型相关分析PPT课件.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元统计典型相关分析多元统计典型相关分析典型相关分析典型相关分析及应用及应用研究多个变量与多个变量之间的相关性典型相关分析求解方法典型相关分析通常可采取两种方法:方法1 讨论第一组每个变量和第二组每个变量的相互关系,得到pq个相关系数,再用这些相关系数反应两组变量的关系。BUT 。在两组变量较多时,方法繁琐也不容易抓到问题实际。简单相关系数的局限性简单相关系数的局限性只是孤立考虑单个X与单个Y间的相关,没有考虑X、Y变量组内部各变量间的相关。两组间有许多简单相关系数(例每组30个变量),使问题显得复杂,难以从整体描述。难以抓到重点- - 用来描述两个变量的之间的线性相关性。 典型相关分析求解方
2、法方法2 在每组变量中选择若干个由代表性的综合指标,这些指标是原始变量的线性组合,代表了原始变量的大部分信息, 且两组综合指标的相关程度最大。 (类似于主成分分析法) 新产生的综合指标成为典型相关变量 Canonical Variable,通过少数的几个综合变量来反应两组变量的相关性质。方法2更为简洁直接 典型相关分析的中心思想。 典型相关分析的基本思想 首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。 然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的相关性被提取完毕为此。 被选出的线性组合配对
3、称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。 典型相关分析的基本思想一般情况,设为两个相互关联的随机向量,分别在两组变量中选取若干有代表性的综合变量Ui、Vi,使得每一个综合变量是原变量的线性组合,即 典型相关分析的基本思想ab与与 典型相关分析的基本思想 典型相关分析的基本思想第一步:估计组合系数使得对应的典型变量和相关系数达到最大。最大的相关系数为第一典型相关系数,且称有最大相关系数的这对典型变量为典型相关变量。第二步:再次估计组合相关系数,找出第二大的典型相关系数,称为第二典型相关西湖,称有第二大相关系数的这对典型变量为第二典型相关变量。设两
4、组的变量个数为p, q, pq, 那么寻求典型变量的过程可一直重复, 直到得到P对典型变量。 典型相关分析的基本思想 当有少数几对或者一对典型变量能够反映原数据的主要信息, 那么两个变量组的相关程度的分析就可以转化为对少数几对,或者对一对典型变量的相关分析, 这就是典型相关分析的基本目的。 典型相关分析与主成分分析典型相关分析在某些方面与主成分分析类似,但并不完全相同。二者均是通过构造原变量的适当线性组合提取不同信息,主成分分析着眼于考虑变量的“分散性”信息,考虑的是一组变量内部各个变量直接的相关关系。而典型相关分析则立足于识别和量化二组变量的统计相关性,是两个随机变量之间的相关性在两组变量之
5、下的推广。 典型相关分析求解方法例 1985年中国年中国28 省市城市男生省市城市男生(1922岁岁)的调的调查数据。记查数据。记形态指标形态指标身高身高(cm)、坐高、体重、坐高、体重(kg)、胸围、胸围、肩宽肩宽、盆骨宽分别为盆骨宽分别为X1,X2,X6;机能指标机能指标脉搏脉搏(次次/分分)、收缩压、收缩压(mmHg) 、舒张压舒张压(变音变音)、舒张压、舒张压(消音消音)、肺活量、肺活量(ml)分别分别为为Y1,Y2,Y5。现欲研究这两组变量之。现欲研究这两组变量之间的相关性。间的相关性。 简单相关系数矩阵简单相关系数矩阵CorrCorr(X X)R R1111CorrCorr(X X
6、)R R1111CorrCorr(X X)R R1111CorrCorr(Y Y)R R22221221RR 典型相关系数和典型变量的求法 在约束条件:( )1Var u11a a( )1Var v22b b下,求a a1 1和和b b1 1,使uv达到最大。令23根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转化为求的极大值,其中和是 Lagrange乘数。) 1 () 1(2) 1(2),(12211111112111bbaababa(3)121111211221 b - a = 0 a - b = 0 将上面的3式分别左乘 和 1a1b 11211111121
7、11221a b -a a = 0b a - b b = 0)2(0012212111111121bvababa11( , )u v 1121a b由(3)式的第二式,得0-121222211111 a - a0-1-121112222111 a - a 11211211a bb a(3)121111211221 b - a = 0 a - b = 01211221ab代入(3)式的第一式,得211221211121a的特征根是 ,相应的特征向量为-1-1111122221-1-1222211112M = M = 令2122M a = aM b = b(3)121111211221 b - a
8、 = 0 a - b = 0由(3)式的第一式,得1121111ba代入(3)式的第二式,得121112112221b的特征根是 ,相应的特征向量为0122211211121bb01211211121122bb2 结论:结论: 既是既是MM1 1又是又是MM2 2的特征根,的特征根, 和和 是相应于是相应于MM1 1和和MM2 2的特征向量。的特征向量。1a1b 至此,典型相关分析转化为求M1和M2特征根和特征向量的问题。 第一对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。 在剩余的相关中再求出第
9、二对典型变量和他们的典型相关系数。设第二对典型变量为:2u2a x22v = b y在约束条件: 2()1Var u2112a a2()1Var v2222b b12cov( ,)cov()0u u121112a x,a xa a12cov( ,)cov()0v v121112b y,b yb b 求使 达到最大的 和 。22cov(,)u v2122a b2a2b例 Text book p 277全部总体典型相关系数均为0部分总体典型相关系数为0(1),( , ).(2)p qX YNnpq对资料的要求:两个变量组应服从多变量正态分布。即设()例 家庭特征与家庭消费之间的关系 为了了解家庭的
10、特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xx分析两组变量之间的关系。X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵典型相关分析典型相关分析典型相典型相关系数关系数调整典型调整典型相关系数相关系数近似方差近似方差典型相关系典型相关系数的平方数的平方10.6879480.
11、6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数 U1U2X1(就餐)0.7689-1.4787X2(电影)0.27211.6443Y组典型变量的系数 V1V2Y1(年龄)0.04911.0003Y2(收入)0.8975-0.5837Y3(文化)0.19000.29562112721. 07689. 0 xxu2126443. 14787. 1xxu32111900. 08975. 00491. 0yyyv32122956. 05837. 00003. 1yyyv典型变量的结构(相关系数) U1U2X10.9866
12、-0.1632X20.88720.4614 V1V2Y10.42110.8464Y20.9822-0.1101Y30.51450.3013典型变量的结构(相关系数) V1V2X10.6787-0.0305X20.61040.0862 U1U2Y10.28970.1582Y20.6757-0.0206Y30.35390.0563 两个反映消费的指标与第一对典型变量中u1的相关系数分别为0.9866和0.8872,可以看出u1可以作为消费特性的指标,第一对典型变量中v1与Y2之间的相关系数为0.9822,可见典型变量v1主要代表了了家庭收入, u1和 v1的相关系数为0.6879,这就说明家庭的消
13、费与一个家庭的收入之间其关系是很密切的; 第二对典型变量中u2与x2的相关系数为0.4614,可以看出u2可以作为文化消费特性的指标,第二对典型变量中v2与Y1和Y3之间的分别相关系数为0.8464和0.3013,可见典型变量v2主要代表了家庭成员的年龄特征和教育程度, u2和 v2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的相关性。4、各组原始变量被典型变量所解释的方差X组原始变量被ui解释的方差比例pmpiiiixuxuxuu/ )(2,2,2,21X组原始变量被vi解释的方差比例pmpiiiixvxvxvv/ )(2,2,2,21y组原始变量被ui解释的方差比例y组原始
14、变量被vi解释的方差比例qnqiiiiyuyuyuu/ )(2,2,2,21qnqiiiiyvyvyvv/ )(2,2,2,21 被典型变量解释的被典型变量解释的X组原始变量的方差组原始变量的方差被本组的典型变量解释被本组的典型变量解释被对方被对方Y组典型变量解释组典型变量解释比例比例累计比例累计比例典型相关典型相关系数平方系数平方比例比例累计比例累计比例10.88030.88030.47330.41660.416620.11971.00000.03490.00420.4208 被典型变量解释的被典型变量解释的Y组原始变量的方差组原始变量的方差被本组的典型变量解释被本组的典型变量解释被对方被对
15、方X组典型变量解释组典型变量解释比例比例累计比例累计比例典型相关典型相关系数平方系数平方比例比例累计比例累计比例1 0.46890.46890.47330.22190.22192 0.27310.74200.03490.00950.2315典型相关分析在典型相关分析在SPSSSPSS中的运用中的运用(一)操作步骤在SPSS中没有提供典型相关分析的专门菜单项,要想利用SPSS实现典型相关分析,必须在语句窗口中调用SPSS的 Canonical correlation.sps 宏。具体方法如下:1. 按FileNewSyntax的顺序新建一个语句窗口。在语句窗口中输入下面的语句:INCLUDE (
16、路径)/Canonical correlation.sps.CANCORR SET1=x1 x2 x3 x4 /SET2=y1 y2 y3 / . 典型相关分析在典型相关分析在SPSSSPSS中的运用中的运用2. 点击语句窗口Run菜单中的All子菜单项,运行典型相关宏命令,得出结果。 典型相关分析求解方法典型相关分析求解方法典型相关分析在典型相关分析在SPSSSPSS中的运用中的运用(二)主要运行结果解释1. Correlations for Set-1、Correlations for Set-2、 Correlations Between Set-1 and Set-2(分别给出 两组变
17、量内部以及两组变量之间的相关系数矩阵)2. Canonical Correlations(给出典型相关系数)3. Test that remaining correlations are zero(给出典 型相关的显著性检验)4. Raw Canonical Coefficients(分别给出两组典型变量的未标准化系数)5. Standardized Canonical Coefficients(分别给出两组典型变量的标准化系数)7. Redundancy Analysis(分别给出两组典型变量的冗余分析)6. Canonical Loadings for Set-1 , 2 (分别给出两组数
18、据中的典型载荷包括交叉载荷,典型载荷是衡量原始变量与典型变量的相关程度的指标。 典型相关分析在典型相关分析在SPSSSPSS中的运用中的运用例2 , 第277页SPSS算法 C.R.Rao(1952)关于典型相关的经典例子进行分析,列举了25个家庭的成年长子和次子的头长和头宽。利用典型相关分析法分析长子和次子头型的相关性。典型相关分析求解方法典型相关分析求解方法典型相关分析在典型相关分析在SPSSSPSS中的运用中的运用典型相关分析求解方法典型相关分析求解方法典型相关分析在典型相关分析在SPSSSPSS中的运用中的运用典型相关分析求解方法典型相关分析求解方法典型相关分析在典型相关分析在SPSS
19、SPSS中的运用中的运用SPSS操作步骤1. 按FileNewSyntax的顺序新建一个语句窗口。在语句窗口中输入下面的语句: INCLUDE Canonical correlation.sps.CANCORR SET1=x1 x2 /SET2=y1 y2 / .2. 点击语句窗口Run菜单中的All子菜单项,运行典型相关宏命令,得出结果。 典型相关分析求解方法典型相关分析求解方法典型相关分析在典型相关分析在SPSSSPSS中的运用中的运用主要运行结果解释1. 典型相关系数和典型相关的显著性检验从下表可以看出,两队典型变量中,第一对的典型相关系数达到0.788,属于强相关,而第二对典型变量的相关则比较弱。在之后的显著性检验的结果在0.05的显著性水平下,只有第一对典型相关是显著的。 典型相关分析求解方法典型相关分析求解方法典型相关分析求解方法典型相关分析求解方法典型相关分析求解方法典型相关分析求解方法典型相关分析求解方法典型相关分析求解方法典型相关分析求解方法典型相关分析求解方法冗余分析 以原变量与典型变量间相关为基础。通过计算X、Y 变量组由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比,反映由典型变量预测原变量的程度。在我们的例子中,长子的头型变量被自身的第一典型变量解释了86.7%,次子的头型变量被自身的第一典型变量解释了91.8%。 55 结束语结束语