《MATLAB数据分析方法-(4).ppt》由会员分享,可在线阅读,更多相关《MATLAB数据分析方法-(4).ppt(84页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 普通高等院校计算机课程规划普通高等院校计算机课程规划教材教材MATLAB数据分析方法数据分析方法 李柏年 吴礼斌 主编 张孔生 丁 华 参编 2/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 第第5章章 主成分与典型相关分析主成分与典型相
2、关分析 主成分分析就是将原来指标重新组合成一组新的主成分分析就是将原来指标重新组合成一组新的互相无关的指标来代替原来指标互相无关的指标来代替原来指标.这些综合指标就是原这些综合指标就是原来指标的线性组合,同时根据实际需要从中选取几个来指标的线性组合,同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来指标的信息较少的综合指标尽可能多地反映原来指标的信息.5.1主成分分析的基本原理主成分分析的基本原理 1.基本思想基本思想主成分分析是一种数学降维的方法,找出几个综合变主成分分析是一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能量来代替原来众多的变量,使这些
3、综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。的统计分析方法就叫做主成分分析或主分量分析。3/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 2.主成分的数学模型主成分的数学模型设设X1,X2,Xp,为实际问题的,为实际问题的p个个n维随机变量维随
4、机变量(p项指标项指标)记记X=(X1,X2,Xp)T,其协方差矩阵为,其协方差矩阵为它是一个它是一个p阶的非负定矩阵。设变量阶的非负定矩阵。设变量x1,x2,xp经过经过线性变换后得到新的综合变量线性变换后得到新的综合变量Y1,Y2,Yp,即,即或或(5.1.1)4/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 其中系数其中系数 为常数向量。要求为常数向量。要求(5.1.1)满足以下条件:满足以下条件:(1)系数向量是单位向量,即)系数向
5、量是单位向量,即(2)不同的主成分不相关,即)不同的主成分不相关,即(3)各主成分的方差递减,即)各主成分的方差递减,即(5.1.2)(5.1.3)(5.1.4)于是,称于是,称Y1为第一主成分,为第一主成分,Y2为第二主成分,为第二主成分,依此类推,依此类推,Yp称为称为第第p个主成分。主成分又叫主分个主成分。主成分又叫主分量。这里量。这里lij我们称为主成分的系数。我们称为主成分的系数。5/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析
6、3.主成分的求法及性质主成分的求法及性质 当总体当总体X=(X1,X2,Xp)T的协方差矩阵的协方差矩阵=(ij)p已已知时,我们可根据下面的定理求出主成分。知时,我们可根据下面的定理求出主成分。定理定理5.1 设设p维随机向量维随机向量X的协方差矩阵的协方差矩阵 的特征值满足的特征值满足 12 p 0,相应的单位正交特征向量为相应的单位正交特征向量为e1,e2,ep,则,则X的第的第i个主成分为个主成分为(5.1.5)其中其中 ,且,且(5.1.6)6/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业
7、出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 证明:证明:令令 ,则则P为正交矩阵,且为正交矩阵,且 若若 为为X的第一主成分,其中的第一主成分,其中 ,令,令则则 ,且,且只有当只有当h1=(1,0,0)(标准单位向量标准单位向量)时等号成立,这时时等号成立,这时因此,因此,X的第的第1个主成分为个主成分为:且方差且方差 Var(Y1)=1,达到最大达到最大.7/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 若若 为为X的
8、第二主成分,其中的第二主成分,其中 ,且,且则则 ,且,且从而从而只有当只有当h2=(0,1,0)=2时等号成立,这时时等号成立,这时因此的第因此的第2个主成分为:个主成分为:且方差且方差 Var(Y2)=2,达到最大达到最大.8/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 类似可得其余主成分的表达式,且各主成份的方类似可得其余主成分的表达式,且各主成份的方差等于相应的特征值差等于相应的特征值.定理定理5.1表明:求表明:求X的主成分等价
9、于求它的协方差矩阵的主成分等价于求它的协方差矩阵的所有特征值及相应的正交单位化特征向量的所有特征值及相应的正交单位化特征向量.推论:若记推论:若记Y=(Y1,Y2,Yp)T为主成分向量,矩阵为主成分向量,矩阵p=(e1,e2,ep),则则 Y=pTX,且,且Y的协方差的协方差主成分的总方差主成分的总方差9/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 证明证明:由由(5.1.5)式,显然有式,显然有Y=PTX,又由,又由(5.1.6)式,式
10、,有有 又因为又因为 此性质表明主成分分析是将此性质表明主成分分析是将p个原始变量的总方个原始变量的总方差分解为差分解为p个不相关变量个不相关变量Y1,Y2,Yp的方差之和的方差之和.由于由于Var(Yk)=k,因此,因此 描述了第描述了第k个主成分提个主成分提取的信息占总信息的份额取的信息占总信息的份额.10/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 我们称我们称 为第个主成分的贡献率,他表示第个为第个主成分的贡献率,他表示第个主成分
11、提取的信息占总信息的百分比主成分提取的信息占总信息的百分比.称前称前m个主成分的贡献率之和个主成分的贡献率之和为累计贡献率,它表示前为累计贡献率,它表示前m个主成分综合提供总信个主成分综合提供总信息的程度息的程度.通常通常m eps B=B*real(inv(B*B)(1/2);div=min(abs(diag(B*BOld);BOld =B;B=(sPCA*(sPCA*B).3)/length(sPCA)-3*B;sICA=sPCA*B;end%独立成分分析独立成分分析52/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)
12、数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 subplot(322),plot(sICA(:,1),ylabel(s_ICA1),title(Separated signals-ICA)subplot(324),plot(sICA(:,2),ylabel(s_ICA2)subplot(326),plot(sICA(:,3),ylabel(s_ICA3)图图 5.6 分离信号图形分离信号图形53/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主
13、成分与典型相关分析主成分与典型相关分析 5.3 典型相关分析典型相关分析 在在对对经经济济和和管管理理问问题题的的研研究究中中,不不仅仅经经常常需需要要考考察察两两个个变变量量之之间间的的相相关关程程度度,而而且且还还经经常常需需要要考考察察多多个个变变量量与与多多个个变变量量之之间间即即两两组组变变量量之之间间的的相相关关性性。比比如如工工厂厂管管理理人人员员需需要要了了解解原原料料的的主主要要质质量量指指标标x1,x2,xp 与与产产品品的的主主要要质质量量指指标标Y1,Y2,Yq 之之间间的的相相关关性性,以以便便提提高高产产品品质质量量;医医生生要要根根据据病病人人的的一一组组体体检检
14、化化验验指指标标与与一一些些疾疾病病之之间间的的相相关关性性,以以便便确确定定治治疗疗方方法法等等等等.典典型型相相关关分分析析就就是是测测度度两两组组变变量量之之间间相相关关程程度度的的一一种种多多元元统统计计方方法法,它它是是两两个个随随机机变变量量之之间的相关性在两组变量之下的推广间的相关性在两组变量之下的推广54/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 5.3.1典型相关分析的基本原理典型相关分析的基本原理对对于于两两组组随随
15、机机变变量量(X1,X2,Xp)和和(Y1,Y2,Yq),象象主主成成分分分分析析那那样样,考考虑虑(X1,X2,Xp)一一个个线线性性组组合合U及及的的(Y1,Y2,Yq)一一个个线线性性组组合合V,希希望望找找到到的的U和和V之之间间有有最最大大可可能能的的相相关关系系数数,以以充充分分反反映映两两组组变变量量间间的的关关系系。这这样样就就把把研研究究两两组组随随机机变变量量间间相相关关关关系系的的问问题题转转化化为为研研究究两两个个随随机机变变量量间间的的相相关关关关系系。如如果果一一对对变变量量(U,V)还还不不能能完完全全刻刻划划两两组组变变量量间间的的相相关关关关系系时时,可可以以
16、继继续续找找第第二二对对变变量量,希希望望这这对对变变量量在在与与第第一一对对变变量量(U,V)不不相相关关的的情情况况下下也也具具有有尽尽可可能能大大的的相相关关系系数数。直直到到进进行行到到找找不不到到相相关关变变量量对对时时为为止止。这这便便引引导导出出典典型相关变量的概念。型相关变量的概念。55/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 1.总体典型相关变量总体典型相关变量设有两组随机变量设有两组随机变量(XT,YT)T=(X1
17、,X2,Xp,Y1,Y2,Yq)T的协方差矩阵的协方差矩阵为为其中,其中,11=cov(X),22=cov(Y),12=T21=cov(X,Y)根据典型相关思想是要寻找根据典型相关思想是要寻找 的线性组合的线性组合(p q),将两组合并成一组向量将两组合并成一组向量(5.3.1)56/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 使使U1,V1的相关系数的相关系数(U1,V1)达到最大,这里达到最大,这里由(由(5.3.1)式,)式,所以所
18、以U1,V1的相关系数为的相关系数为(5.3.2)又由于相关系数与量纲无关,因此可设约束条件又由于相关系数与量纲无关,因此可设约束条件(5.3.3)满足约束条件(满足约束条件(5.3.3)的相关系数的最大值称为第)的相关系数的最大值称为第一典型相关系数,一典型相关系数,U1,V1称为第一对典型相关变量称为第一对典型相关变量.57/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 典型相关分析在约束条件典型相关分析在约束条件a1T 11a1=b1
19、T 22b1=1下,求下,求a1,b1,使得,使得 u1,v1=a1T 12b1取得最大值取得最大值.如果如果(U1,V1)还不足以反映还不足以反映X,Y之间的相关性,还之间的相关性,还可构造第二对线性组合:可构造第二对线性组合:使得使得(U1,V1)与与(U2,V2)不相关,即不相关,即cov(u1,u2)=cov(u1,v2)=cov(u2,v1)=cov(v1,v2)=0在在约束条件约束条件Var(u1)=Var(v1)=Var(u2)=Var(v2)=1下求下求a2,b2,使得,使得 u2,v2=a2T 12b2取得最大值取得最大值.58/24MATLABMATLAB数据分析方法(机械
20、工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 一般地,若前一般地,若前k-1对典型变量还不足以反映对典型变量还不足以反映X,Y之之间的相关性,还可构造第间的相关性,还可构造第k对线性组合:对线性组合:在约束条件在约束条件 Var(uk)=Var(vk)=1,及及cov(uk,uj)=cov(uk,vj)=cov(vk,uj)=cov(vk,vj)=0,(1 jk)求求ak,bk,使得,使得 uk,vk=akT 12bk取得最大值取得最大值.如此确定的如此确定的(uk,vk)称为称为X,
21、Y的第的第k对典型变量,相对典型变量,相应的应的 uk,vk称为第称为第k个典型相关系数个典型相关系数.59/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 2.总体典型变量与典型相关系数的计算总体典型变量与典型相关系数的计算(1)计算矩阵计算矩阵(XT,YT)T的协方差矩阵的协方差矩阵或相关系数矩阵或相关系数矩阵(2)令令或或求求A,B的特征值的特征值 12,22,p2与对应的正交单位特与对应的正交单位特征向量征向量ek,fk,k=1,p(
22、3)X,Y的第的第k对典型相关变量为对典型相关变量为(k=1,2,p)(4)X,Y的第的第k个典型相关系数为:个典型相关系数为:k,k=1,2,p60/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 X=data;%输入协方差矩阵输入协方差矩阵Xp=c1;q=c2;%c1,c2分别表示分别表示X,Y向量的维数向量的维数R11=X(1:p,1:p);R12=X(1:p,p+1:p+q);%读取读取 11,12R21=X(p+1:p+q,1:p)
23、;R22=X(p+1:p+q,p+1:p+q);%读取读取 21,22 v1,d1=eig(R11);%计算计算R11的特征值与单位正交向量的特征值与单位正交向量v2,d2=eig(R22);%计算计算R22的特征值与单位正交向量的特征值与单位正交向量p1=inv(v1*sqrt(d1)*v1);p2=inv(v2*sqrt(d2)*v2);%p1,p2表示的平方根矩阵的逆表示的平方根矩阵的逆 A=p1*R12*inv(R22)*R21*p1;%计算矩阵计算矩阵AB=p2*R21*inv(R11)*R12*p2;%计算矩阵计算矩阵Bva,da=eig(A),%计算计算A的特征值与特征向量的特征
24、值与特征向量vb,db=eig(B),%计算计算B的特征值与特征向量的特征值与特征向量A1=p1*va,%计算典型相关变量计算典型相关变量U的系数的系数B1=p2*vb,%计算典型相关变量计算典型相关变量V的系数的系数r=sqrt(sum(da),%计算典型相关系数计算典型相关系数以上过程的以上过程的MATLAB实现程序如下:实现程序如下:61/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 例例5.3.1 设样本的相关系数矩阵为设样本的相关
25、系数矩阵为 计算典型相关系数与典型相关变量计算典型相关系数与典型相关变量.解:由于给出了相关系数矩阵,计算程序如下解:由于给出了相关系数矩阵,计算程序如下R11=1,0.505;0.505,1;R12=0.569,0.602;0.422,0.467;R21=0.569,0.422;0.602,0.467;R22=1,0.926;0.926,1;v1,d1=eig(R11);%计算计算R11的特征值与单位正交向量的特征值与单位正交向量v2,d2=eig(R22);%计算计算R22的特征值与单位正交向量的特征值与单位正交向量62/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方
26、法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 p1=inv(v1*sqrt(d1)*v1);%p1就是平方根矩阵的逆就是平方根矩阵的逆 p2=inv(v2*sqrt(d2)*v2);%p2就是平方根矩阵的逆就是平方根矩阵的逆 T1=p1*R12*inv(R22)*R21*p1;%计算矩阵计算矩阵AT2=p2*R21*inv(R11)*R12*p2;%计算矩阵计算矩阵B va,da=eig(T1),vb,db=eig(T2),A1=p1*va,%计算典型相关变量计算典型相关变量U的系数的系数B1=p2*vb,
27、%计算典型相关变量计算典型相关变量V的系数的系数r=sqrt(sum(da),%计算典型相关系数计算典型相关系数典型相关系数为典型相关系数为:典型变量为:典型变量为:63/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 5.3.2样本的典型变量与典型相关系数样本的典型变量与典型相关系数 在实际问题中在实际问题中(XT,YT)T的协方差矩阵的协方差矩阵(或相关系或相关系数矩阵数矩阵R)一般是未知的,我们所具有的资料通常是一般是未知的,我们所具有
28、的资料通常是关于关于X和和Y的的n组组观测数据观测数据:同主成分分析一样,利用观测数据的样本协方差矩同主成分分析一样,利用观测数据的样本协方差矩阵或者相关系数矩阵阵或者相关系数矩阵或或作为作为 或或 的估计,其中的估计,其中64/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 以以S代替代替 或或R代替代替 所求得的典型变量和典型相关系所求得的典型变量和典型相关系数分别称为样本典型变量和样本典型相关系数。此数分别称为样本典型变量和样本典型相关
29、系数。此时样本典型变量和典型相关系数计算方法同总体典时样本典型变量和典型相关系数计算方法同总体典型变量和典型相关系数的计算方法一样。型变量和典型相关系数的计算方法一样。在在MATLAB中,样本典型相关分析的命令中,样本典型相关分析的命令canoncorr,其调用格式为,其调用格式为A,B,r,U,V,stats=canoncorr(X,Y)其中输入其中输入X表示第一组向量的观测矩阵,表示第一组向量的观测矩阵,Y表示第二表示第二组向量的观测矩阵,输出组向量的观测矩阵,输出A,B是典型相关变量的系数是典型相关变量的系数矩阵;矩阵;r表示典型相关系数;表示典型相关系数;U,V表示表示典型相关变量典型
30、相关变量的得分;输出的得分;输出stats包括包括wilks、chisq及及F统计量以统计量以及相应的概率。及相应的概率。65/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 例例5.3.2 某康复俱乐部对某康复俱乐部对20名中年人测量了三项生理名中年人测量了三项生理指标:体重指标:体重(weight)、腰围、腰围(waist)、脉搏、脉搏(pulse)和和三项训练指标:引体向上三项训练指标:引体向上(chins)、起坐次数、起坐次数(sit
31、ups)、跳跃次数、跳跃次数(jumps)。其数据列于表。其数据列于表5.6。试分析这。试分析这两组变量间的相关性。两组变量间的相关性。解:三项生理指标作为第一组向量解:三项生理指标作为第一组向量X,三项训练指标,三项训练指标作为第二组向量作为第二组向量Y,表,表5.6中的数据作为样本数据,中的数据作为样本数据,调用典型相关分析命令调用典型相关分析命令.程序如下程序如下:DATA=;%将表将表5.6中的数据输入中的数据输入DATAX=DATA(:,1:3);%第一组向量观测值第一组向量观测值Y=DATA(:,4:6);%第二组向量观测值第二组向量观测值A,B,r,U,V,stats=canon
32、corr(X,Y)66/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 ObsObsweight weight waist waist pulse pulse chins chins situpssitups jumps jumps 1 1191191363650505 516216260602 2189189373752522 211011060603 31931933838585812121011011011014 41621623535
33、6262121210510537375 518918935354646131315515558586 6182182363656564 410110142427 7211211383856568 810110138388 8167167343460606 612512540409 917617631317474151520020040401010154154333356561717251251250250111116916934345050171712012038381212166166333352521313210210115115131315415434346464141421521510
34、51051414247247464650501 1505050501515193193363646466 67070313116162022023737626212122102101201201717176176373754544 46060252518181571573232525211112302308080191915615633335454151522522573732020138138333368682 21101104343表表5.6 某康复俱乐部测量的生理指标和训练指标某康复俱乐部测量的生理指标和训练指标67/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法
35、(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 输出结果为:输出结果为:A=-0.0314 -0.0763 0.0077 0.4932 0.3687 -0.1580 -0.0082 -0.0321 -0.1457B=-0.0661 -0.0710 0.2453 -0.0168 0.0020 -0.0198 0.0140 0.0207 0.0082r=0.7956 0.2006 0.072668/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)
36、数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 5.3.3典型相关系数的显著性检验典型相关系数的显著性检验设总体设总体X,Y的各对典型相关系数为的各对典型相关系数为 1 2 p 0首先提出检验原假设与备择假设首先提出检验原假设与备择假设若不能拒绝原假设,则若不能拒绝原假设,则 1=2=k=0,此时,此时不能做典型相关分析;若拒绝不能做典型相关分析;若拒绝H0(1),继续如下检继续如下检验验若不能拒绝若不能拒绝H0(2),表明只有第一对典型变量显著相关表明只有第一对典型变量显著相关外,其余变量均不显著,实际应用只需考虑第一对外,其余变量均不显著,实际应用只需考
37、虑第一对典型变量;若拒绝典型变量;若拒绝H0(2),则需检验则需检验 3是否为零是否为零,以此以此类推,若假设类推,若假设 k-1=0被拒绝,则检验被拒绝,则检验1.检验方法检验方法69/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 若不能拒绝若不能拒绝H0(k),则只需考虑前则只需考虑前k-1对典型相关变量对典型相关变量,否则继续检验,直至检验否则继续检验,直至检验 p是否为零是否为零.在总体服从在总体服从p+q维正态分布条件下,可用如下
38、维正态分布条件下,可用如下的似然比统计量进行检验的似然比统计量进行检验70/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 对于给定的对于给定的,计算概率,计算概率若若pk ,即认为第,即认为第k对典型变量显著相关对典型变量显著相关.上述检上述检验依次对验依次对k=1,2,p进行,若对某个进行,若对某个k检验概率首次检验概率首次大于大于,则检验停止,即认为只有前,则检验停止,即认为只有前k-1对典型变量对典型变量显著相关显著相关.2.典型相关
39、分析检验的典型相关分析检验的Matlab实现实现设设 是取自总体的观测数据,利用是取自总体的观测数据,利用MATLAB软件进行典型相关分析的步骤如下:软件进行典型相关分析的步骤如下:71/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 输入数据并计算协方差矩阵或相关系数矩阵输入数据并计算协方差矩阵或相关系数矩阵 a=X,Y;%此前此前X,Y的数据应该已经输入的数据应该已经输入n,m=size(a);R=cov(a);计算典型相关系数计算典型相
40、关系数R1=inv(R(1:p,1:p)*R(1:p,p+1:p+q)*inv(R(p+1:p+q,p+1:p+q)*R(p+1:p+q,1:p);d=sort(eig(R1),descend);xgxs=sqrt(d);计算典型相关向量计算典型相关向量X=X./ones(n,1)*std(X);Y=Y./ones(n,1)*std(Y);A,B=canoncorr(X,Y);U=(X-ones(n,1)*mean(X)*AV=(Y-ones(n,1)*mean(Y)*B72/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)
41、数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 典型相关系数的显著性检验典型相关系数的显著性检验其中其中检验程序如下:检验程序如下:D=1-d;f1=fliplr(D);%矩阵左右翻转矩阵左右翻转f2=cumprod(f1);%向量累积乘积向量累积乘积k=1:p;d1k=(p-k+1).*(q-k+1);Qk=-n-0.5*(p+q+3).*(log(fliplr(f2);GL=1-chi2cdf(Qk,d1k)注意:如果使用下面的命令,则注意:如果使用下面的命令,则、可一步实现可一步实现 A,B,r,U,V,stats=canoncorr(X,Y)r:典型
42、相关系数,典型相关系数,stats:Wilks、卡方卡方、F统计量及概率统计量及概率73/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 例例5.3.3 选取选取1980-2008年安徽省人均粮食总产量(吨年安徽省人均粮食总产量(吨/人)、人均农业总产值人)、人均农业总产值(亿元亿元/万人万人)、,人均粮食播种、,人均粮食播种面积(千公顷面积(千公顷/万人)、人均农业机械总动力(千瓦万人)、人均农业机械总动力(千瓦/人)、单位面积化肥施用(万
43、吨人)、单位面积化肥施用(万吨/千公顷)、人均受灾千公顷)、人均受灾面积(千公顷面积(千公顷/万人)以及农业生产资料价格指数指标,万人)以及农业生产资料价格指数指标,分别记为:分别记为:,解决以下问题:,解决以下问题:(1)对安徽省粮食生产进行主成分分析,在此基础上给对安徽省粮食生产进行主成分分析,在此基础上给出适当的分类;出适当的分类;(2)对安徽省粮食生产影响因素进行典型相关分析对安徽省粮食生产影响因素进行典型相关分析.5.3.4典型相关分析实例典型相关分析实例74/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分
44、析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分析 19800.87040.04114.63320.39790.00710.2628102.100019811.05380.05684.56640.39290.00910.6130101.700019821.08180.05864.48080.40470.01140.2349101.300019831.08980.06044.26000.41470.01150.1339102.800019841.15760.06644.18720.41910.01270.4036107.000019851.09830.07364.147
45、00.42230.01390.2131101.700019861.16490.08174.00890.45030.01410.3617102.100019871.16700.09024.02260.49780.01440.2895112.800019881.06610.09923.76960.52970.01550.6894118.600019891.08800.10603.69690.54920.01670.3333121.700019901.09500.11343.61230.56800.01740.4821103.900019910.74100.08743.47200.58470.017
46、60.4576102.300019920.96280.10783.35270.59700.01910.3754102.500019931.03740.14273.30300.62030.02150.5717112.900019940.92860.19953.24990.66210.02300.1626122.800019951.02330.24613.22280.70830.02430.3637128.000019961.03120.26113.19300.77020.02970.2261107.200019971.04780.26213.15500.83730.02850.224798.90
47、0019980.95330.25013.15150.93710.02960.142494.800019991.01720.25943.15021.01540.02980.333695.300020000.88360.24143.00881.06360.03010.347098.200020010.88620.24382.91911.12170.03180.262897.900020020.97310.25072.95801.18680.03220.613099.900020030.77390.21592.94381.23870.03340.2349100.200020040.94240.289
48、32.96561.30010.03220.1339112.000020050.88640.27852.97881.35540.03260.4036108.300020060.95840.30402.94871.42040.03340.2131100.000020070.96780.35162.95341.51280.03450.3617106.800020080.99690.39502.95701.58520.03430.2895123.900075/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版
49、社)第第5章章 主成分与典型相关分析主成分与典型相关分析 解:解:(1)设原始数据矩阵为设原始数据矩阵为首先进行无量纲化,得到矩阵首先进行无量纲化,得到矩阵其中,其中,由于原始数据的协方差矩阵与相关系数矩阵得到的最由于原始数据的协方差矩阵与相关系数矩阵得到的最大特征值对应的特征向量不是正向量,所以,我们采大特征值对应的特征向量不是正向量,所以,我们采用用R矩阵进行主成分分析矩阵进行主成分分析.76/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第5章章 主成分与典型相关分析主成分与典型相关分
50、析 实对称矩阵实对称矩阵R的特征值与对应的特征向量如表的特征值与对应的特征向量如表5.8 所示所示表表5.8 特征值、特征向量及贡献率特征值、特征向量及贡献率特征特征值值特征向量特征向量贡贡献率献率累累积贡积贡献率献率4.8329(0.3489,0.3814,0.3851,0.4044,0.4195,0.3813,0.3155)0.69040.69041.6629(0.4923,-0.3728,0.3452,-0.3326,-0.2681,-0.2095,0.5244)0.23760.93800.3132(0.0880,0.3900,-0.2488,0.2245,0.1326,-0.8063,