《多元统计分析教案0.doc》由会员分享,可在线阅读,更多相关《多元统计分析教案0.doc(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、如有侵权,请联系网站删除,仅供学习与交流多元统计分析教案0【精品文档】第 20 页第一章 绪论1 多元统计分析的概念多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。利用多元分析中不同的方法还可以对研究对象进行分类和简化。多元分析是实现做定量分析的有效工具。2 多元分析的起源和发展1)1928年,Wishart发表 多元正态总体样本协差阵的精确分布,是多元统计分析的开端;2)20世纪30年代多元分析在理论上得到迅速发展;3)20世纪40年代应用于心理、 教育 、生物等方面;但由于计算量太大,其发展
2、受到影响;4)50年代中期,由于电子计算机的出现和发展,使多元分析方法得到广泛应用;5)60年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大;6) 多元统计在我国发展较晚,70年代初在我国才受到各个领域的极大关注,应用日益广泛。3 多元分析能解决的实际问题 多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。4 多元分析课程讲授的主要内容本课程重点介绍多元分析中常用的六种方法: 聚类分析;判别分析;主成分分析;因子分析;对应分析;典型相关分析我们这门课重点在于应用,参考课本中的公
3、式推导为次要内容,大致了解即可,对每一种分析方法我们要清楚掌握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用SAS、SPSS等数学软件实现上述过程,对所研究的问题能做出合理推断和科学评价。 5 原始资料阵及其标准化1)原始资料阵:设有个样品,项指标(变量),组成矩阵2)第项指标均值,3)指标的协方差阵,其中4)原始指标(变量)的标准化第二章 聚类分析1 什么是聚类分析1.1 聚类分析的概念聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。其中类指相似元素的集合。1.2 聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性,根据一批
4、样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。2 距离与相似系数聚类分析的目的是将研究对象进行分类。它是在事先不知类别的情况下对数据进行分类的分析方法。分类的依据有两类:距离与相似系数。2.1 变量的类型1)间隔尺度变量:连续量,如速度,重量等。2)间隔尺度变量:等级,有次序关系,如一级品、二级品等。3)间隔尺度变量:无等级也无数量关系,如性别,产品型号。2.2 常用的距离有以下几种:1)明考夫斯基距离:2)绝对距离:3)欧氏距离:4)切比雪夫距离:5
5、)马氏距离:,其中,为协方差阵6)兰氏距离:2.3 常用的相似系数有以下几种:1)夹角余弦:2)相关系数:聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等;根据分类对象不同又分为对样品聚类(又称Q型聚类分析)以及对变量进行聚类(又称R型聚类分析)。对前者聚类多用距离,而后者聚类时多用相似系数。3 系统聚类法3.1 系统聚类法的基本思路就近原则:首先,将n个样品看成n类,定义各样品之间的距离(此时其亦为类间距离);其次,按照某种原则将最接近的两类合并为一个新类,于是得到n-1类,定义并计算各类间距离,然后再从中找出最接近的两类合并成一个新类,重复以上步骤,直到
6、全部样品合并成一类为止,将上述合并过程画成聚类谱系图,据此图可将全部样品分类。3.2 八种系统聚类方法正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法,系统聚类方法包括最短距离法最长距离法类平均法重心法WARD法等八种不同的方法,但这些方法聚类的步骤是完全一样的。当采用欧氏距离时,八种并类方法可归结为统一的递推公式。设,,1)最短距离法:;2)最长距离法:;3)类平均法:;4)WARD法(离差平方和):;3.3 谱系图及利用谱系图进行分类根据谱系图确定分类个数的准则:Bemirmen于1972年提出了应根据研究
7、的目的来确定适当的分类方法,并提出了一些根据谱系图来分析的准则。准则A:各类重心之间的距离必须很大;准则B:确定的类中,各类所包含的元素都不要太多;准则C:类的个数必须符合实用目的;准则D:若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。应该指出,关于类的个数如何确定的问题,至今还没有一个合适的标准,也就是说对任何观测数据都没有唯一正确的分类方法。3.4 分类个数的确定(统计量法)总离差平方和:,组内离差平方和:,统计量;,越大聚类效果越好。当在第类时迅速下降时,确定为类。第三章 判别分析1 什么是判别分析1.1 判别分析的基本思想判别分析是用于判断个体所属类别的一种统计方法。
8、根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。其前提是总体均值有显著差异,否则错分率大,判别分析无意义。1.2 判别分析与聚类分析的关系1.2.1区别判别分析是在研究对象分类已知的情况下,根据样本数据推导出一个或一组判别函数,同时指定一种判别准则,用于确定待判样品的所属类别,使错判率最小。 聚类分析预先不知道分类,它要解决的问题,正是对给定的未知分类的样品进行分类,它是一种纯统计技术,只要有多指标存在,就能
9、根据各观测的变量值近似程度排序,只是描述性的统计,而判别分析能对未知分类观测判别分类,带有预测性质。1.2.2 联系两者都是研究分类问题,两种方法往往联合起来使用。样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。2 距离判别法2.1 距离判别法的基本思想如果事先已有m类的先验知识,将每一类视为一个总体,计算各样品与各总体之间的距离,将各样品分别归入与其距离最近的类。2.2 两总体距离判别设有两个总体、为一样品,定义到两总体的距离分别为和判别准则为:判别准则的直观表述即样品离哪个总体最近,则判该样品属于哪个总体。与上述准则等价的想法,就是算出样品到各总体间距离的差,根据差值
10、来判断样品的归属。2.3 多总体距离判别设有个总体(组)、它们的均值它们的协方差阵(均为正定),为一样品,到总体的距离.判别准则为:分为协方差阵相同和协方差阵不同两种情况,它们的判别函数有差异,而判别准则无差异。3费歇判别法3.1 费歇判别法的基本思想从类总体中抽取具有个指标的样品的观测数据,的原始资料阵,.其第个样品的观测值借助于方差分析的思想构造一个判别函数,即,其中系数,的确定原则是使两组间的区别达到最大,而使两组内部的离差达到最小。组间离差平方和:,,其中和依次为组内平均和总平均组内离差平方和:选择,使,由代数知的最大值,就是取的最大特征值所对应的特征向量.3.2 判别函数费歇准则下的
11、线性判别函数其中,.的解应为方程的特征根所对应的(单位)特征向量.,累计贡献率第一判别式第二判别式.第判别式3.3 判别准则其中为第判别式在的样本均值.为到前判别式在的样本均值的(欧氏)距离平方.3.4 两个总体(组)的判别1)判别函数,称为联合协方差阵。2)判别规则,其中;3.5 误判概率与误判代价来自而误判为的概率记为;误判概率的估计,其中为的个数;为把的元素误判为的元素的个数.来自而误判为的代价记为;特别的.4 贝叶斯判别法4.1 贝叶斯判别法的基本思想贝叶斯判别法是源于贝叶斯统计思想的一种判别分析法 。这种方法先假定对研究对象已有一定的认识,这种认识以先验概率来描述,然后取得一个样本,
12、用样本来修正已有的认识,得到后验概率分布,利用后验概率分布进行统计推断。4.2 判别规则4.2.1 后验概率最大设有个总体(组),的概率密度;来自的(先验)概率为.后验概率:判别准则为:4.2.2 错判的平均损失最小判别准则为:5 逐步判别法从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献大的变量加入到模型中去,同时也检验在模型中是否存在由于新变量的引入而对判别贡献不太显著的变量,如果有,将其从模型中删除,直到模型中的所有变量都符合引入模型的条件,而模型外的变量都不符合引入模型的条件为止,整个过程结束。整个筛选过程实质就是作假设检验,通过检验引入显著性变量,剔除不显著
13、变量。反映在输出结果上,通常可以用F值的大小作为变量引入模型的标准,即一个变量是否能进入模型主要取决于协方差分析的F检验的显著水平。逐步判别过程本身并不建立判别函数,筛选出重要变量后,可用前面所讲的方法建立判别函数和判别准则,对新样品进行判别归类。第四章 主成分分析1 主成分分析及基本思想1.1主成分分析的概念主成分分析的工作对象是样本点*定量变量类型的数据表。主成分分析的工作目标,就是要对这种多变量的平面数据表进行最佳综合简化。也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。很显然,在一个低维空间分析问题要比在一个高维空间中分析容易的多。英国统计学家斯格特(scott
14、)在1961年对157个英国城镇发展水平进行调查时,原始测量的变量有57个。通过主成分分析发现,只需5个新的综合变量(他们是原变量的线性组合),就可以95%的精度表示原数据的变异情况,这样,对问题的研究一下子从57维降到了5维。可以想象,在5维空间对系统进行任何分析,都比在57维中更加快捷和有效。另一项十分著名的工作是美国的统计学家斯通(STONE)在1947年关于国民经济的研究。他曾利用美国1929-1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴消费资料和生产资料纯公共支出净增库存股息利息和外贸平衡等。在进行主成分分析后,竟以97.4%的精度,用3个新变量就取代
15、了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入总收入变化率和经济发展或衰退的趋势。这样,用3个综合变量取代了原来的17个变量,问题得到了极大的简化。一个多变量的高维系统如何进行降维处理,可以用几个最直观的例子来说明主成分分析的工作思路。假设有一个二维数据表,表中数据点的分布如图所示,重心为g,很显然,在长轴方向上,数据的离差最大,因此,所反映的数据信息也最多,这个方向被称为数据变异的最大方向。如果将原点平移到g,并且做旋转变换,便得到一个正交坐标系。可以看出,若省略短轴,将数据点在长轴上投影,就会得到一个简化的一维数据系统。因此,降维处理的核心思想,就是省却变异不大的变量方
16、向。又如,一个三维数据群点的分布是球形的,假若这个球是饼状的,其变异较大的方向为u1和u2,而u3方向的变异很小,即在该方向上各样本点取值没有很大的差别,就可以不考虑u3方向,三维空间的数据点就可以在二维平面图上得以显示。达到降维的目的。从中也可以看出主成分分析从几何上看是寻找p维空间中椭球体的主轴问题。主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。它是研究如何通过少数几个主成分来解释多变量的方差协方差结构,其功能在于简化原有的变量群。具体地说,就是设法将原来多个指标重新组合成一组新的相互无关的综合指标,来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多的反映
17、原来指标的信息。这些综合指标是原来指标的线性组合,我们称之为主成分。通过这种方法可以降低数据维数,消除原始变量之间的相关性以便进一步利用其他方法对数据进行分析。1.2 主成分分析的基本思想各指标间既然有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵内部结构关系的研究,找出影响某一过程的几个综合指标,使综合指标为原来变量的线性组合,并使其尽可能多的反映原来指标的信息,综合指标反映的信息量用其方差来表达,即综合指标的方差越大,表示其包含的信息越多。在所有的线性组合中方差最大的称为第一主成分,如果第一主成分不足以代表原来P个指标的信息,再选取第二个线性组合作为第二
18、主成分,第一主成分已有的信息就不需要再出现在第二主成分中,依次可造出P个主成分。这些主成分之间不仅不相关,而且它们的方差依次递减。在解决实际问题时,一般不是取P个主成分,而是根据累计贡献率的大小取前几个最大主成分,既保留了原指标大部分的信息,又达到降维的目的。2 主成分分析模型及几何解释2.1 主成分分析的数学模型设原始变量为考虑它们的线性变换(或),即其中满足以下条件:(1)c;(2)即是的一切线性组合中方差最大者,2是方差次大者,依此类推,称为的第一主成分,为第二主成分,为第个主成分。2.2 主成分的几何意义主成分分析从几何上看是寻找维空间中椭球体的主轴问题。3 主成分的计算3.1主成分的
19、概念主成分其实就是原来指标的一些特殊的线性组合,这些线性组合的系数就是原指标协方差矩阵特征值所对应的特征向量。3.2 主成分的确定用数学语言来描述即:设,的特征根,所对应的(单位)特征向量.则随机向量的第个主成分,(),即为的第大特征根对应的单位特征向量。求主成分关键在于求出协方差阵V的特征向量,但实际中V是未知的,一般可用S作为V的估计求出S的特征值和特征向量作为V的特征值和特征向量的估计。通常,在进行数据分析之前,为了消除量纲影响要先将数据进行标准化,而对于标准化数据来说,其S与R相同,故在实际中常由样本相关阵去估计V的特征值和特征向量。3.2 贡献率和累计贡献率第个主成分的贡献率为在特征
20、值总和中所占的比重,即;前个主成分的累计贡献率为前个特征值在特征值总和中所占的比重,即。累计贡献率表达了前个主成分对原始变量的信息提取率。通常取使得前个主成分的累计贡献率达到70至80即可。4 主成分分析计算步骤1)将原始数据标准化,仍记为2)求相关系数阵,(或)3)求相关系数阵的特征根,所对应的(单位)特征向量.4)求第个主成分即根据累计贡献率确定个主成分个数,选择前个主成分第五章 因子分析1 因子分析及基本思想1.1 因子分析的概念因子分析是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法。因子分析从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因
21、子,以再现原始变量和因子之间的相关关系。它是多元分析中一种降维和分析、简化数据结构的方法。因子分析的形成和早期发展一般认为是从Charles Spearman在1904年发表的文章对智力测验得分进行统计分析开始的。因子分析的形成和发展有相当长的历史,最早用于研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。目前因子分析在心理学社会学经济学等学科都有成功的应用。 1.2 因子分析的基本思想根据相关性大小把变量分组,使得同组内的变量间相关关系强,不
22、同组的变量间相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子,可用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一变量。1.3 因子分析与主成分分析的区别与联系区别:主成分分析不能作为一个模型来描述,它只是通常的变量变换,因子分析可构造因子模型;主成分分析中主成分的个数和变量个数相同,它是将一组具有相关性的变量变换为一组独立的变量(实际应用时一般只取前m个主成分),而因子分析的目的是要用尽可能少的公共因子,以构造一个结构简单的因子模型;主成分表示为原变量的线性组合,而因子分析中是将原变量表示为公共因子和特殊因子的线性组合。联系:都为降维的方法;可用主成分
23、法来提取因子。2 因子分析的数学模型2.1 数学模型设为维随机向量,其均值为,协方差阵为 ,若能表示成为,其中为随机向量,称为公共因子,为随机向量,称为特殊因子,未知常数矩阵,称为因子载荷阵.通常假定1) ,2) ,3 2.2 因子载荷阵的统计意义设因子载荷阵,称为因子载荷,是连接观测变量和公共因子之间的纽带,其统计意义就是第个变量与第个公共因子的相关系数,即表示变量依赖公共因子的分量,反映了第个变量在第个公共因子上的相对重要性。3 因子载荷矩阵的求解建立因子模型的关键是要求出因子载荷矩阵,估计因子载荷矩阵的方法很多,有主成分法,极大似然法等,其中主成分法的使用较普遍。计算因子载荷阵可以从样本
24、的协方差阵出发,也可以从样本相关阵出发。当相关变量所取单位不同时,先对变量进行标准化。标准化变量的样本协差阵就是原始变量的样本相关阵.3.1 主成分法设为维随机向量,(可假设已作了标准化变换)1)均值为与协方差阵 (即为相关系数阵)的估计分别为2)因子载荷阵的估计,称为第个变量在第个因子上的载荷取,的特征根,所对应的正交(单位)特征向量.取较小的因子数,使累计贡献率较大.则 3)特殊方差阵的估计:,4)共性方差当已了标准化则3.2 主因子法 主因子法是主成分法的修正,取.以下同主成分法.4 因子模型的旋转在因子分析模型中,公共因子与因子载荷阵的解不是唯一的。进行因子分析的目的不仅是找出主因子,
25、更重要的是知道每个主因子的意义,以利于对公共因子命名和解释结果。若每个公共因子的涵义不清,难以找到合理的解释,可对因子载荷矩阵实行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其他公共因子上的载荷较小。最常用的旋转变换是正交旋转变换。1)时,对因子轴进行旋转,取旋转变换,则旋转后的因子载荷阵,由决定,其中,.,其2个列元素平方的相对方差,2)时,对因子轴进行旋转,共进行次旋转,即完成第一轮旋转.记旋转后的因子载荷阵记为,相应的相对方差为如此继续旋转得到一系列因子载荷阵记为相应的.有极限.实际中当变化不大时,可停止.5 因子命名利用在同一个因子有较大荷阵的几个变量的共同特性对该因子进行命名
26、,即如果个因子在有较大的载荷,可用的特性对进行命名.6 因子得分在得到因子载荷阵和公共因子后,反过来要考察每个样品的因子表现,即通过已知的样品观察值来计算相应的公因子值,称之为因子得分。利用因子得分可对各个样品进行评价。5.1 加权最小二乘法因子分析模型即寻找使公共因子的得分,用的估计及代人,则第个公共因子的得分,5.2 回归法公共因子的得分用的估计(当已标准化时)代替,则第个公共因子的得分,.7 因子分析计算步骤1)将原始数据标准化,仍记为2)求相关系数阵,(或)3)求相关系数阵的特征根,所对应的(单位)特征向量.4)求因子载荷阵:根据累计贡献率确定因子数,则5)对因子载荷阵进行旋转得到新的
27、载荷阵,根据载荷阵的数据对因子进行命名.6)计算因子的得分,表5 旋转后的因子载荷阵指标因子1234学习态度X10.05441-0.383120.754850.46323实践能力X2-0.169600.399830.77292-0.10509创新能力X30.102360.90720-0.02515-0.31875社会责任X40.63835-0.090900.59393-0.19913身心健康X50.13237-0.260540.002290.92050集体观念X60.66756-0.66036-0.226380.09516人际关系X70.905720.09767-0.053670.19432第
28、一个因子中指标X4, X6 , X7有较大的载荷,这些是从社会责任,集体观念,人际关系三个方面反映学生的素质的,因此称为道德因子第二个因子中指标X3有较大的载荷,这是从创新能力反映学生的素质的,因此称为创新因子第三个因子中指标X1 , X2有较大的载荷,这是从学习态度和实践能力这两方面反映学生的素质的,因此称为学习与实践因子第四个因子中指标X5有较大的载荷,这是从身心健康方面反映学生素质的,因此称为身心健康因子第六章 对应分析1对应分析及其基本思想1.1对应分析的概念型对指标的统计分析;型对样品的统计分析对应分析是主成分分析的拓广,其特征是它所研究的变量可以是定性变量。通常意义下的对应分析,是
29、指对两个定性变量的多种状态进行对应性研究。对多维定性变量的研究,称为多元对应分析。对应分析问题在1933年就由希查德松(Richardson)和居代(Kuder)提出。但直到1973年,才由法国统计学家本泽柯瑞(Benzecri)给予圆满的解决。对应分析依靠主成分分析中的降维手段,可以更直观明了的观察和分析定性变量多种状态间的相互关系。它在社会调查和专家评议调查中的使用最为广泛。对应分析又称为相应分析,是在型和型因子分析基础上发展起来的一种多元统计方法,它从型因子分析出发,而直接获得型因子分析的结果。根据型和型因子分析的内在联系,可将指标(变量)和样品同时反映到相同坐标轴(因子轴)的一张图形上
30、,便于对问题的分析。对应分析可提供三方面的信息即指标之间的关系,样品之间的关系,指标与样品之间的关系。对应分析(Correspondence analysis) 是一种在低维度空间(Low-dimensional Space)中描述两个变量之间相对关系的分析方法,是一种研究定性变量间相互关系的有效方法,通过对由两个定性或类别变量构成的交互表进行分析,揭示同一变量的各个类别之间的差异、不同变量的各个类别之间的对应关系。用对应分析法,可将两两指标不同分类间的关系在二维坐标图上给出直观、形象的表达。对应分析的优点:(1)提供了将定性资料进行定量分析的途径,从数量的角度揭示了交叉列表行列间的关系;(2
31、)对应分析图将不同属性的指标反映在同一坐标系下,有利于研究不同属性指标间的关系。1.2 对应分析的基本思想通过一个过渡矩阵将型因子分析和型因子分析有机地结合起来。首先给出变量点的协差阵和样品点的协差阵,由于和有相同的非零特征根,这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类。2对应分析的基本原理由原始资料阵出发,计算规格化的概率矩阵,使变量与样品具有相同比例大小,在空间定义两两样品点或两两变量点之间的距离,定义样品点和变量点的协差阵分别为和。和的非0特征根相同,而特征
32、根又表示各个公共因子所提供的方差,因此变量空间中的公共因子与样品空间中对应的各个公共因子在总方差中所占的百分比完全相同,从几何意义来看,即诸样品点与样品空间中各因子轴的距离和诸变量点与变量空间中相对应的各因子轴的距离完全相同,因此,可以把变量点和样品点同时反映在同一个因子轴所确定的平面上(即取同一个坐标系),根据接近的程度,将变量点与样品点一起考虑进行分类。3 对应分析的计算步骤1) 由原始资料阵出发,计算规格化的概率矩阵;相当于改变了测度尺度,使变量与样品具有相同比例大小;2) 计算过渡矩阵;3) 进行因子分析:型因子分析;的特征根累计贡献率确定因子个数,因子载荷阵型因子分析:因子载荷阵,(
33、)4)当时在同一个平面上画出个指标点,及个样品点观察并确定它们之间的关系.第七章 典型相关分析1 典型相关分析及基本思想1.1 典型相关分析的概念典型相关分析是研究两组变量之间相关关系的一种多元统计方法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组综合指标之间的关系来反映两组变量之间的相关关系。1.2 典型相关分析的基本思想首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,直到两组变量之间的相关性被提取完毕为止。这样,讨论两组变量之间的相关就转化为只研究这些
34、线性组合的最大相关,从而减少研究变量的个数。2 典型相关分析的数学描述 对于任意的两组系数:构造线性组合,在满足 的约束条件下,寻找和使综合变量和相关最大。同理除去和之外,构造第二对变量,使和的相关最大,但与第一对变量不相关。3 总体的典型相关系数和典型变量3.1 典型相关系数和典型变量的求法在满足 的约束条件下,两组随机变量的协方差阵求解典型相关系数和典型变量可以转化为求的特征根和特征向量。3.2典型变量的性质1)每个典型变量与本组的所有其他典型变量都不相关;2)每个典型变量与另一组的对应典型变量相关,与另一组中其他典型变量不相关。不同对的典型变量不相关。4 样本的典型相关系数和典型变量当总
35、体的均值向量和协方差未知时,无法求总体的典型相关系数和典型变量,可以用样本的协方差估计值代替总体的协方差来计算典型相关系数和典型变量。计算时也可以用样本的相关矩阵来求典型相关系数和典型变量。5 典型相关系数的显著性检验作典型相关分析之前,首先检验两组变量是否相关,如果不相关,则讨论典型相关就毫无意义。但确定典型相关显著程度,还需要进行相关系数的检验,以决定典型变量的取舍。第对典型变量的相关系数,要对是否为0进行检验6典型相关的计算步骤1) 由原始资料阵,(不妨设)计算相关系数阵2)求 的特征根对应的特征向量,的特征根对应的特征向量,3) 确定典型系数:,写出样本的典型变量4)显著性检验,假设统计量若拒绝,则至少再检验假设直至检验假设,未被拒绝为止一般的统计量第八章 回归分析3 对应分析的计算步骤1) 2) 最小二乘法,求;的,中心化模型3)显著性检验,假设统计量假设统计量