《主成分分析和典型相关分析.pptx》由会员分享,可在线阅读,更多相关《主成分分析和典型相关分析.pptx(126页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、4.1 主成分分析主要目的:对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低变量的维数,即用较少的“新变量”代替原来的各变量。第2页/共126页第1页/共126页第3页/共126页第2页/共126页4.1.2 4.1.2 总体主成分总体主成分设 为某实际问题所涉及的 个随机变量。记 ,其协方差矩阵为 它是一个 阶非负定矩阵。设 为 个常数向量,考虑如下线性组合:第4页/共126页第3页/共126页总体主成分总体主成分易知有 我们希望用 代替原来 个变量 ,这就要求 尽可能地反映原来 个变量的信息。这里用方差来度量。即要求 达到最大。对任意常数 ,若取 ,则 。第5页/共126
2、页第4页/共126页总体主成分总体主成分 因此,必须对 加以限制,否则 无界。最方便的限制是要求 具有单位长度,即我们在约束条件 之下,求 使 达到最大,由此 所确定的随机变量 称为 的第一主成分。第6页/共126页第5页/共126页总体主成分总体主成分如果第一主成分 还不足以反映原变量的信息,进一步求 。为了使 和 反映原变量的信息不相重叠,要求二者不相关,在约束条件 求 使 达到最大。第二主成分第二主成分:依次类推 第7页/共126页第6页/共126页总体主成分总体主成分一般地,在约束条件 及 下,求 使 达到最大,由此 所确定的 称为 的第 个主成分。第8页/共126页第7页/共126页
3、总体主成分的求法总体主成分的求法设 是 的协方差矩阵,的特征值及相应的正交单位化特征向量分别为 及 ,则 的第 个主成分为 其中 。易见:事实上,令 ,则 为一正交矩阵,且第9页/共126页第8页/共126页总体主成分的求法总体主成分的求法设 为X的第一主成分,其中 。令 则 并且当 时,等号成立。这时 第10页/共126页第9页/共126页总体主成分的求法总体主成分的求法在约束条件 下,当 时,达到最大,且 设 为X的第二主成分,则有 即有 且 第11页/共126页第10页/共126页总体主成分的求法总体主成分的求法令 则有 从而 并且当 ,即 时,。由此知,当 时,满足 ,且使 达到最大。
4、依此类推.第12页/共126页第11页/共126页总体主成分的求法总体主成分的求法以上结果告诉我们,求X的各主成分,等价于求它的协方差矩阵的各特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的 的线性组合分别为X的第一、第二、直至第p个主成分,而各主成分的方差等于相应的特征值。第13页/共126页第12页/共126页总体主成分的性质总体主成分的性质主成分的协方差矩阵及总方差 记 为主成分向量,则 ,其中 ,Y的协方差矩阵为 由此得主成分的总方差为第14页/共126页第13页/共126页总体主成分的性质总体主成分的性质主成分分析是把p个原始变量 的总方差分解
5、成p个不相关变量 的方差之和。第 个主成分 的贡献率:描述了第k个主成分提取的信息占总信息的份额。第15页/共126页第14页/共126页总体主成分的性质总体主成分的性质前 个主成分的累计贡献率:表明前m个主成分综合提供信息的能力。实际应用中,通常选取mp,使前m个主成分的累计贡献率达到较高的比例(如80%到90%)。这样用前m个主成分代替原始变量不但是变量维数降低,而且也不致于损失原始变量中的太多信息。第16页/共126页第15页/共126页总体主成分的性质总体主成分的性质主成分 与变量 的相关系数 由于 ,故 ,从而 由此可得 与 的相关系数为 它给出了主成分 与原始变量 的关联性的度量。
6、第17页/共126页第16页/共126页各主成分与原始变量间的相关系数各主成分与原始变量间的相关系数原变量主成分第18页/共126页第17页/共126页实际应用中,一般只对前m个主成分感兴趣,因此只关心 与 的相关系数,即表中前m行的各个值。第19页/共126页第18页/共126页例例4.14.1设随机变量 的协方差矩阵为 求 的各主成分。解解 易求得 的特征值及相应的正交单位化特征向量分别为第20页/共126页第19页/共126页例例4.14.1因此 的主成分为 如果我们只取第一主成分,则贡献率为 若取前两个主成分,则累计贡献率为第21页/共126页第20页/共126页例例 4.14.1进一
7、步可求得前两个主成分与各原始变量的相关系数 同理,可求得 即 与 ,高度相关而与 不相关;与 以概率1呈完全线性关系。第22页/共126页第21页/共126页标准化变量的主成分标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。若用 求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同带来的影响,常采用变量标准化的方法,即令 其中 。第23页/共126页第22页/共126页标准化变量的主成分标准化变量的主成分这时,的协方差矩阵便是 的相关矩阵 ,其中 利用 的相关
8、矩阵 作主成分分析,可以得到如下结论:第24页/共126页第23页/共126页标准化变量的主成分标准化变量的主成分设 为标准化的随机向量,其协方差矩阵(即 的相关矩阵)为 ,则 的第 个主成分为 并且 其中 为 的特征值,为相应于特征值 的正交单位化特征向量 。这时,第 个主成分的贡献率为 ,前 个主成分的累计贡献率为 ,与 的相关系数为第25页/共126页第24页/共126页例例 4.24.2设 的协方差矩阵为 相应的相关矩阵为 分别从 和 出发,作主成分分析。第26页/共126页第25页/共126页例例 4.24.2解解 如果从 出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为
9、 的两个主成分分别为 第一主成分的贡献率为第27页/共126页第26页/共126页例例 4.24.2 与 ,的相关系数分别是 我们可以看到,由于 的方差很大,它完全控制了提取信息量占99.2的第一主成分(在 中的系数为0.999),淹没了变量 的作用。如果从 出发求主成分,可求得其特征值和相应的正交单位化特征向量为第28页/共126页第27页/共126页例例 4.24.2 的两个主成分分别为 此时,第一个主成分的贡献率有所下降,为 注:当涉及的各变量的变化范围差异较大时,从 出发求主成分比较合理。第29页/共126页第28页/共126页4.1.3 4.1.3 样本主成分样本主成分设 为取自 的
10、一个容量为 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为 其中第30页/共126页第29页/共126页样本主成分样本主成分设 是样本协方差矩阵,其特征值为 相应的正交单位化特征向量 这里 ,则第 个样本主成分为 其中 为X的任一观测值。当依次代入X的n个观测值 时,便得到第i个样本主成分 的n个观测值 ,我们称为第i个主成分的得分得分。第31页/共126页第30页/共126页样本主成分样本主成分第 个样本主成分的贡献率为 ,前 个样本主成分的累计贡献率为 。第32页/共126页第31页/共126页样本主成分样本主成分同样,为了消除量纲的影响,我们可以对样本进行标准化,即令 则标准化数据
11、的样本协方差矩阵即为原数据的样本相关矩阵 。由 出发所求得的样本主成分称为标准化样本主成分。只要求出 的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本总方差为 。第33页/共126页第32页/共126页样本主成分样本主成分实际应用中,将样本 代入各主成分 中,可得到各样本主成分的观测值 原变量主成分12序号 第34页/共126页第33页/共126页样本主成分样本主成分实际应用中,选取前m(m简单相关系数简单相关系数简单相关系数简单相关系数一个随机变量Y与一组随机变量X1,X2,Xp;-多重相关多重相关多重相关多重相关(复相关系数复相关系数复相关系数复相关系
12、数)一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp;-典型相关系数典型相关系数典型相关系数典型相关系数第70页/共126页第69页/共126页CCACCA典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。着眼于识别和量化两组随机变量之间的相关性,是两个随机变量之间的相关性在两组变量之下的推广。第71页/共126页第70页/共126页简单相关系数简单相关系数描述两组变量的相关关系的缺点描述两组变量的相关关系的缺点只是孤立考虑单个X与单个Y间的相关,没有考虑X、Y变量组内部各变量间的相关。两组间有许多简单相关系数,使问题显得复杂,难以从整体描述。
13、(复相关系数也如此)第72页/共126页第71页/共126页典型相关分析的思想典型相关分析的思想采用主成分思想寻找第i对典型典型(相关相关)变量变量(Ui,Vi):第73页/共126页第72页/共126页典型相关分析的思想典型相关分析的思想X1Y1Y2Y3Y4X2X3X4X5U1U2U3U4V1V2V3V4将两组变量间的相关性凝结为少数几对典型变量间的相关性,通过对相关性较大的少数几对典型变量的研究来了解原来的两组变量相关性。第74页/共126页第73页/共126页4.2.2 总体的典型变量与典型相关总体的典型变量的定义 第75页/共126页第74页/共126页第一对典型变量第76页/共126
14、页第75页/共126页第二对典型变量第77页/共126页第76页/共126页一般情况第78页/共126页第77页/共126页求法总体典型相关变量与典型相关系数的求法第79页/共126页第78页/共126页第80页/共126页第79页/共126页第81页/共126页第80页/共126页第82页/共126页第81页/共126页从标准化变量出发第83页/共126页第82页/共126页第84页/共126页第83页/共126页备注第85页/共126页第84页/共126页例4.7第86页/共126页第85页/共126页例4.7第87页/共126页第86页/共126页4.2.3样本的典型变量与典型相关第88
15、页/共126页第87页/共126页4.2.3 4.2.3 样本典型变量样本典型变量 第89页/共126页第88页/共126页第90页/共126页第89页/共126页同样可以求标准化样本的样本典型变量与样本典型相关系数。这等价于从观测数据的样本相关系数R出发作典型相关分析。在实际应用中,通常从R出发进行典型相关分析,选择样本典型相关系数较大的少数几对典型变量,以反映原来两组变量间的相关性。第91页/共126页第90页/共126页4.2.4典型相关系数的显著性检验第92页/共126页第91页/共126页第93页/共126页第92页/共126页检验统计量第94页/共126页第93页/共126页第95
16、页/共126页第94页/共126页第96页/共126页第95页/共126页例4.8第97页/共126页第96页/共126页例4.8第98页/共126页第97页/共126页例4.8第99页/共126页第98页/共126页例4.8第100页/共126页第99页/共126页PROC CANCORR过程PROC CANCORR 选项;VAR 变量名称串;WITH 变量名称串;RUN;第101页/共126页第100页/共126页VAR语句 列出要进行典型相关分析的第一组变量,变量必须是数值型的。WITH语句 列举第二组变量,变量必须是数值型的。第102页/共126页第101页/共126页应用举例例1.现
17、有某地区春播面积(X1)、化肥施用量(X2)、水稻抽穗花期降水量(X3)、肥猪头数(Y1)、春粮产量(Y2)的观测数据。试分析投入因素X和产出因素Y之间的关系。第103页/共126页第102页/共126页第104页/共126页第103页/共126页第105页/共126页第104页/共126页第106页/共126页第105页/共126页第107页/共126页第106页/共126页第108页/共126页第107页/共126页第109页/共126页第108页/共126页第110页/共126页第109页/共126页第111页/共126页第110页/共126页第111页/共126页第113页/共126页
18、第112页/共126页第114页/共126页第113页/共126页专业结论第115页/共126页第114页/共126页应用举例例2.对172个儿童测试8项感情指标得到相关矩阵,X1为合群性,X2为忧郁性,X3为温柔性,X4为友谊,X5为惊讶,X6为憎恶,X7为焦虑,X8为恐惧。第一组(X1,X2,X3,X4);第二组(X5,X6,X7,X8),对这两组变量进行典型相关分析。第116页/共126页第115页/共126页第117页/共126页第116页/共126页第118页/共126页第117页/共126页典型相关系数与显著性检验第119页/共126页第118页/共126页典型变量的系数矩阵第120页/共126页第119页/共126页标准化指标第121页/共126页第120页/共126页第122页/共126页第121页/共126页典型结构矩阵第123页/共126页第122页/共126页第124页/共126页第123页/共126页备注 对典型变量的合理解释同样需要具体问题的实际背景和相关的专业知识。一般说来,典型变量的意义主要由那些系数绝对值较大的变量来决定。第125页/共126页第124页/共126页作业P137.练习4.4P140.练习4.8第126页/共126页第125页/共126页感谢您的观看。第126页/共126页