《典型相关部分精.ppt》由会员分享,可在线阅读,更多相关《典型相关部分精.ppt(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、典型相关部分第1页,本讲稿共50页典型相关分析概述 在一元统计分析中,研究两个随机变量之间的线性相关关系,可用相关系数(成为简单相关系数);研究一个随机变量与一组随机变量之间的线性相关关系,可用复相关系数(称为全相关系数);那么研究两组随机变量之间的线性相关关系呢?典型相关分析是研究两组变量之间相关关系的一种统计分析方法,它能够有效地揭示两组变量之间的相互线性依赖关系,是由Hotelling首先提出的。第2页,本讲稿共50页 在实际应用中,两组变量之间具有相关关系的问题很多。例如:几种主要产品如猪肉、牛肉和鸡蛋的价格(作为第一组变量)和相应这些产品的销售量(作为第二组变量)有相关关系;投资性变
2、量(如劳动者人数、货物周转量、生产建设投资等)与国民收入变量(如工农业国民收入、运输业国民收入、建筑业国民收入等)具有相关关系。第3页,本讲稿共50页 设两组变量 和 ,要研究两组变量的相关关系,一种方法是分别研究 和 之间的相关关系,然后列出相关系数表进行分析,当两组变量较多时,这一做法不仅繁琐,也不易抓住问题的实际;另一种方法采用类似主成分分析的做法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),要求它们之间具有最大相关性,通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系,这种方法就是典型相关分析方法。第4页,本讲稿共50页典型相关分析的基本思想 首先在每组变
3、量中找出变量的线性组合,使其具有最大的相关性,然后再在每组变量中找出第二对线性组合,使其分别于第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止。有了这样线性组合的最大相关,则讨论两组变量之间的相关,就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数。第5页,本讲稿共50页总体典型相关 设 和 是两组随机变量,且 ,即有 其中 。典型相关分析需要研究x的线性组合 和 之间的相关关系,其中 和 第6页,本讲稿共50页 现在来计算u与v的相关系数所以,u与v的相关系数第7页,本讲稿共50页 由于对任意非零常数 和 ,有因此,为避免不必
4、要的结果重复,常常限定u与v均为标准化的变量,即附加约束条件也就是第8页,本讲稿共50页于是,我们的问题归结为在上述约束条件下,求 和 ,使得 达到最大。设m为 的秩,则可证明 、秩均为m,且都具有相同的非零特征值 ,而为 相应于 的特征向量,为 相应于 的特征向量。第9页,本讲稿共50页取 ,可知 达到最大值,故称 为第一对典型相关变量第一对典型相关变量,称 为第一个典型第一个典型相关系数相关系数。第一对典型相关变量 提取了原始变量x与y之间相关的主要部分,如果这一部分还显得不够,可以在剩余相关中再求出第二对典型相关变量 ,且 ,,以此类推,取第k对典型相关变量为且 。第10页,本讲稿共50
5、页典型相关变量的性质1.同一组的典型变量互不相关 设x,y的第i对典型变量为 ,则有表明由x组成的第一组典型变量 互不相关,且均有相同的方差1;同样,由y组成的第二组典型变量 也互不相关,且也均有相同方差1第11页,本讲稿共50页2.不同组的典型变量之间的相关性表明不同组的任意两个典型变量,当 时,相关系数为 ;当 时是彼此不相关的。第12页,本讲稿共50页 记 ,则上述性质可用矩阵表示为或其中 。第13页,本讲稿共50页3.原始变量与典型变量之间的相关系数 记 第14页,本讲稿共50页第15页,本讲稿共50页所以,有第16页,本讲稿共50页且第17页,本讲稿共50页4.简单相关、复相关和典型
6、相关之间的关系 当p=q=1时,x与y之间的(惟一)典型相关就是它们之间的简单相关;当p=1或q=1时,x与y之间的(惟一)典型相关就是它们之间的复相关。因此,复相关是典型相关的一个特例,而简单相关是复相关的一个特例。第18页,本讲稿共50页 从第一个典型相关的定义可以看出,第一个典型相关系数至少同x(同y)的任一分量与y(或x)的复相关系数一样大,即使这些复相关系数都很小,第一个典型相关系数仍可能很大。、同样,从复相关的定义也可以看出,当p=1(或q=1)时,x(或y)与y(或x)之间的复相关系数也不会小于x(或y)与y(或x)的任一分量之间的相关系数,即使所有这些相关系数都很小,复相关系数
7、仍可能很大。第19页,本讲稿共50页从相关矩阵出发计算典型相关 有时,x和y的各分量的单位不全相同,我们希望在对各分量作标准化变换之后再作典型相关分析。记 ,为 的相关矩阵。第20页,本讲稿共50页对x和y的各分量作标准化变换,即令现在来求 和 的典型相关变量 。第21页,本讲稿共50页于是,由矩阵 和 具有相同的非零特征值 ,且 分别为 相应于 的特征向量,而 分别为 相应于 的特征向量,则 为 和 的第i对典型变量,他们的第i个典型相关系数仍为 ,其中 ,为x和y的第i对典型系数。由此可见,典型相关系数在标准化变换下具有不变性,这一点与主成分分析有所不同。第22页,本讲稿共50页 和 的第
8、i对典型变量 具有零均值,且与x和y的第i对典型变量 只相差一个常数。这是因为及第23页,本讲稿共50页样本典型相关 在实际应用中,的协方差矩阵或相关矩阵 一般是未知的,应根据样本来进行估计。第24页,本讲稿共50页设数据矩阵为第25页,本讲稿共50页则样本协方差矩阵为式中第26页,本讲稿共50页第27页,本讲稿共50页S可用来作为 的估计。当np+q时,在一般情况下,S是正定矩阵,故一般可认为 ,存在。和 可分别作为和 的估计;它们的非零特征值 可用来估计 ;相应的特征向量 作为 的估计,作为 的估计。的正平方根 称为样本的第j个典型相关系数,和 称为样本的第j对典型相关变量,。第28页,本
9、讲稿共50页将样本 经中心化后代入m对典型变量,即令 ,则称 为第i个样品 的第j个样本典型变量值,称 为第i个样品 的第j个样本典型变量值。由约束条件 可得 同理第29页,本讲稿共50页对每个j,可画出 的散点图,该图也可用来检查是否有异常值出现。第30页,本讲稿共50页典型相关系数的显著性检验 设 。又设S为样本协方差矩阵,且np+q。1.全部总体典型相关系数均为零的检验 考虑假设检验问题:其中 。若检验接受 ,则认为讨论两组变量之间的相关性没有意义;若检验拒绝 ,则认为第一对典型变量是显著的。第31页,本讲稿共50页上述假设检验实际上等价于假设检验问题 成立表明x与y互不相关。似然比检验
10、统计量为对于充分大的n,当 成立时,统计量近似服从自由度为pq的 分布。第32页,本讲稿共50页在给定的显著性水平 下,若 ,则拒绝原假设 ,认为典型变量 和 之间的相关性是显著的;否则,则认为第一个典型相关系数不显著。第33页,本讲稿共50页2.部分总体典型相关系数为零的检验 对两组变量x与y进行典型相关分析,采用的也是一种降维技术。我们希望使用尽可能少的典型变量对数,为此需要对一些较小的典型相关系数是否为零进行假设检验。若上述假设检验 经检验被拒绝,则应进一步检验假设第34页,本讲稿共50页 若原假设 被接受,则认为只有第一对典型变量是有用的;若原假设 被拒绝,则认为第二对典型变量也是有用
11、的,并进一步检验假设如此进行下去,直至对某个k,假设被接受,这时可认为只有前k对典型变量是显著的。第35页,本讲稿共50页对于假设检验问题:其检验统计量为第36页,本讲稿共50页对于充分大的n,当 为真时,统计量近似服从自由度为 的 分布。给定显著性水平 ,若 ,则拒绝原假设 ,认为第k+1个典型相关系数 是显著的,即第k+1对典型变量显著相关。第37页,本讲稿共50页 以上的一系列检验实际上是一个序贯检验,检验直到对某个k值 未被拒绝为止。事实上,检验的总显著性水平已不是 了,且难以确定。还有,检验的结果易受样本容量大小的影响。因此,检验的结果只宜作为确定典型变量个数的重要参考依据,而不宜作
12、为惟一的依据。第38页,本讲稿共50页小结1.典型相关是研究两组变量之间相关性的一种统计分析方法,它也是一种降维技术。复相关是典型相关的一个特例,而简单相关是复相关的一个特例。2.第一对典型相关包含有最多的有关两组变量间相关的信息,第二对其次,其他对依次递减。各对典型相关变量所含的信息互不重复。3.经标准化的两组变量间的典型相关系数与原始的两组变量间的相应的典型相关系数是相通的。4.典型相关变量的对数取决于上述两个假设检验结果。第39页,本讲稿共50页SAS实现 CANCORR过程是SAS/STAT软件中进行典型相关分析的过程,CANCORR过程完成典型相关,偏典型相关和典型冗余相关分析。该过
13、程还可以产生包含典型系数和典型变量得分的输出数据集。第40页,本讲稿共50页CANCORR过程的功能(1)完成两组变量间典型相关分析。用户可根据实际问题的需要规定哪些变量构成第一组,哪些是第二组。典型变量的名字用户也可以自己规定。(2)CANCORR过程可以检验一些假设,如在总体中,每个典型相关及所有较小的典型相关为0。进行检验时CANCORR过程使用F近似统计量,在小样本情况下,F近似给出比使用 近似较好的结果。进行检验时要求两组变量中至少有一组近似正态分布,以便得到的显著性概率值(p值)有效。第41页,本讲稿共50页(3)该过程可以计算标准化和没有标准化的典型系数,典型变量和原始变量的所有
14、相关;同时也可以进行典型冗余分析。(4)CANCORR过程可以对这两组变量作回归分析。哪些变量是因变量,哪些是回归量用户可以自己决定。还可以要求输出一些特殊的回归结果。多元回归的结果可以帮助解释典型相关分析。第42页,本讲稿共50页(5)该过程可以生成许多计算结果,包括简单统计量、相关阵、典型相关;建议典型相关系数为0的检验统计量,典型结构等;还有用一组变量预测另一组变量的回归结果。该过程还可以生成两个输出数据集:一个包含每个观测在典型变量上得分的数据集;另一个包含有关统计量的输出集。(6)CANCORR过程可以在偏相关阵基础上进行典型相关分析。第43页,本讲稿共50页CANCORR过程语句p
15、roc cancorr;with variables;var variables;partial variables;freq variable;weight variable;by variables;通常只有var和with语句经常同proc cancorr语句一起使用,且with语句是必需的,其余为可选择语句。第44页,本讲稿共50页1.proc cancorr语句的选项(1)data=SAS-data-set:给出cancorr过程分析的SAS集名字。它可以使原始SAS数据集或type=corr、cov、factor、sscp、ucorr或ucov的数据集。(2)out=SAS-dat
16、a-set:生成包含原始数据和典型变量得分的输出SAS数据集。当DATA=数据集是类型type=corr、cov、factor、sscp、ucorr或Ucov时,不能使用此项选择。第45页,本讲稿共50页(3)outstat=SAS-data-set:生成包含各种统计量的SAS数据集,它包括典型相关变量和系数,以及你要求的多元回归统计量。(4)vname=label|VN=label:在输出时对var语句中的变量规定最多40个字符长的字符长舒作为变量的标签,必须用单引号把字符常数引起来。若省略,这些变量的标签为varvariables。第46页,本讲稿共50页(5)vprefix=name|v
17、p=name:规定来自var语句的典型变量名字的前缀。缺省时这些典型变量命名为V1,V2等。若规定vprefix=ABC,则典型变量的名字为ABC1,ABC2等。前缀加上要求的数字为数的字符总个数不能超过8个。(6)wname=label|wn=label:在输出时对with语句中的变量规定最多40个字符长的字符常数作为该变量的标签。必须用单引号把字符常数引起来。省略时这些变量的标签为withvariables。第47页,本讲稿共50页(7)wprefix=name|wp=name:规定来自with语句的典型变量名字的前缀。缺省时典型变量命名为W1,W2等,若规定wprefix=XYZ,则名字
18、为XYZ1,XYZ2等。(8)控制打印输出的选项有:all:打印所有可选择的输出;corr:输出原始变量之间的相关系数;ncan=n:规定要求输出的典型变量个数,其中n必须 小于或等于两组变量中较小一组的变量个数。第48页,本讲稿共50页noprint:不输出结果;short:除典型相关和多元统计列表外,不显示典型相关分析所有缺省时的输出;simple|s:输出均值和标准差。第49页,本讲稿共50页2.with语句 with语句用来列出被分析的两组变量中的第二组变量。这些变量必须是数值变量。with语句不能省略。3.var语句 var语句用来列出被分析的两组变量中的第一组变量。这些变量必须是数值变量。若省略var语句,则在其他语句中没有涉及到的所有数值变量组成第一组变量集。第50页,本讲稿共50页