《典型有关分析的实例.ppt》由会员分享,可在线阅读,更多相关《典型有关分析的实例.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Canonical Correlation Analysis,典型相关分析,一、引言,1. 两个随机变量Y与X 简单相关系数 2. 一个随机变量Y与一组随机变量X1,X2, Xp 多重相关(复相关系数) 3. 一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp 典型(则)相关系数,(一)何时采用典型相关分析,典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。,典型相关是研究两组变量之间相关性的一种统计分析方法。也是一种降维技术。 由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshir
2、sagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。,实例(X与Y地位相同),1985年中国28 省市城市男生(1922岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,X6;机能指标脉搏(次/分)、收缩压(mmHg) 、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为Y1,Y2,Y5。现欲研究这两组变量之间的相关性。,简单相关系数矩阵,简单相关系数公式符号,Corr(X)R11,Corr(Y)R22,Corr(Y,X)R21,Corr(X,Y)R12,简单相关系数描述两组变量的相关关系的缺
3、点,只是孤立考虑单个X与单个Y间的相关,没有考虑X、Y变量组内部各变量间的相关。 两组间有许多简单相关系数(实例为30个),使问题显得复杂,难以从整体描述。,(二)典型相关分析的思想,采用主成分思想寻找第i对典型(相关)变量(Ui,Vi):,典型相关系数 典型变量系数或典型权重,X*1,X*2,X*p和Y*1,Y*2,Y*q分别为X1,X2,Xp和Y1,Y2,Yq的正态离差标准化值。 记第一对典型相关变量间的典型相关系数为: Corr(U1,V1)(使U1与V1 间最大相关) 第二对典型相关变量间的典型相关系数为: Corr(U2,V2)(与U1、V1 无关; 使U2与V2 间最大相关) .
4、第五对典型相关变量间的典型相关系数为: Corr(U5,V5) (与U1、V1 、 U4、V4无关; U5与V5 间最大相关) 有:,典型相关变量的性质,1与2是三个X变项的线性组合。 1与2代表两个Y变项的线性组合。,(三)典型相关分析示意图,二、典型相关系数及其检验,(一)求解典型相关系数的步骤,求X,Y变量组的相关阵 R= ; 求矩阵 A、B 可以证明A、B有相同的非零特征根;,3. 求A或B的i(相关系数的平方)与 , i1,m,即 ; 4. 求A、B关于i的特征根向量即变量加权系数。,(二)典型相关系数计算实例,求X,Y变量组的相关阵 R=,Corr(X)R11,Corr(Y)R22
5、,Corr(Y,X)R21,Corr(X,Y)R12,2. 求矩阵A、B,A矩阵(pp),B矩阵(qq),3. 求矩阵A、B的(相关系数的平方),A、B有相同的非零特征值,B矩阵求(典型相关系数的平方),5个与典型相关系数,4. 求A、B关于i的变量系数(求解第1典型变量系数),求解第2典型变量系数,求解第5典型变量系数,5组(标准化)典型变量系数(X),5组(标准化)典型变量系数(X),由标准化典型变量系数获得原变量X对应的粗典型变量系数,粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。,5组(标准化)典型变量加权系数(Y),(三)典型相关系数的特点,两变量组的变量单位改变,典型相
6、关系数不变,但典型变量加权系数改变。(无论原变量标准化否,获得的典型相关系数不变) 第一对典则相关系数较两组变量间任一个简单相关系数的绝对值都大,即 1max(|Corr(Xi,Yj)|) 或 1max(|Corr(X,Yj)|) max(|Corr(Xi,Y)|),(四)校正典型相关系数(Adjusted Canonical Correlation),为了使结果更加明了,增加大值或小值,减少中间大小的值,将典型变量系数旋转,可得到校正的典型相关系数。 缺点:1.可能影响max(U1,V1); 2. 影响(U1,V1)与其他典型变量间的独立性。,(五)典型相关系数的假设检验,全部总体典型相关系
7、数均为0 部分总体典型相关系数为0,1. 全部总体典型相关系数为0,F近似检验(计算公式),F近似检验(SAS结果),Test of H0: The canonical correlations in the current row and all that follow are zero Likelihood Approximate Ratio F Value Num DF Den DF Pr F 1 0.06798466 2.24 30 70 0.0030 2 0.28840509 1.38 20 60.649 0.1686 3 0.63195301 0.80 12 50.561 0.65
8、04 4 0.85521598 0.54 6 40 0.7729 5 0.97803479 0.24 2 21 0.7920,多变量统计量与F近似检验,Multivariate Statistics and F Approximations Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.06798 2.24 30 70 0.0030 Pillais Trace 1.71651 1.83 30 105 0.0133 Hotelling-Lawley Trace 4.95277 2.62 30 35.396 0.0032 Roy
9、s Greatest Root 3.24221 11.35 6 21 .0001 NOTE: F Statistic for Roys Greatest Root is an upper boun.,多变量统计量的计算公式,2. 部分总体典型相关系数为0仅对较小的典型相关作检验,卡方近似检验,部分总体F近似检验(计算公式),三、典型结构分析,与原变量间的相关程度和典型变量加权系数有关。,典型变量与原变量的亲疏关系,原变量与自已的典型变量 原变量与对方的典型变量之间的相关系数。,原变量在典型变量上的负荷 (即原变量与典型变量间的相关系数),负荷矩阵的表达,左上角的矩阵 X1=0.9050U1-0
10、.0806U2+0.3777U3-0.1487U4+0.0887U5 X2=0.8616U1+0.0112U2+0.4152U3-0.0360U4+0.2412U5 X6,右下角的矩阵 Y1= -0.4130 V1-0.0848V2+0.7353V3+0.4530V4+0.2764V5 Y2=0.4533V1+0.8452V2+0.0968V3+0.1433V4+0.2240V5 .Y5,各典型变量的意义解释,等于该变量与自己这方典型变量的相关系数与典则相关系数的乘积,原变量与对方典型变量的相关,原变量与对方典型变量的相关,右上角和左下角反映了原变量和对方的典型变量间关系,为利用对方的典型变量
11、来预测原变量(回归)提供依据。,四、典型变量的冗余分析(Canonical Redundancy Analysis),该方法由Stewart and Love 1968; Cooley and Lohnes 1971; van den Wollenberg 1977)发展。 以原变量与典型变量间相关为基础。 通过计算X、Y变量组由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比,反映由典型变量预测原变量的程度。,X原变量的相关被典型变量解释的百分比,Y原变量的相关被典型变量解释的百分比,U1,U2,U5并没有完全概括X变量的全部信息(97.24),而V1,V2,V5 却概括了Y变量的全部信息(100); V1,V2,V5中仅蕴含X变量信息的48.44%,而U1,U2,U5中仅蕴含Y变量信息的43.96%。,实例冗余分析的解释,