《2022年多元统计分析教案0.pdf》由会员分享,可在线阅读,更多相关《2022年多元统计分析教案0.pdf(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一章绪论1 多元统计分析的概念多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。利用多元分析中不同的方法还可以对研究对象进行分类和简化。多元分析是实现做定量分析的有效工具。2 多元分析的起源和发展1)1928 年, Wishart 发表多元正态总体样本协差阵的精确分布,是多元统计分析的开端;2)20 世纪 30 年代多元分析在理论上得到迅速发展;3)20 世纪 40 年代应用于心理、教育、生物等方面 ;但由于计算量太大,其发展受到影响;4)50 年代中期 ,由于电子计算机的出现和发展,使多元分析
2、方法得到广泛应用;5)60 年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大;6) 多元统计在我国发展较晚,70 年代初在我国才受到各个领域的极大关注,应用日益广泛。3 多元分析能解决的实际问题多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。4 多元分析课程讲授的主要内容本课程重点介绍多元分析中常用的六种方法:聚类分析; 判别分析; 主成分分析; 因子分析;对应分析;典型相关分析我们这门课重点在于应用,参考课本中的公式推导为次要内容,大致了解即可,对每一种分析方法我们要清楚掌
3、握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用 SAS 、SPSS 等数学软件实现上述过程,对所研究的问题能做出合理推断和科学评价。5 原始资料阵及其标准化1)原始资料阵:设有n个样品,p项指标(变量),组成矩阵11121212221212(,)pppnnnpxxxxxxXx xxxxxLLLMMOML,2)第j项指标均值11njijixxn,3)指标的协方差阵()ijppSs,其中11()()1nijiijjsxxxxn精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共
4、22 页 - - - - - - - - - - 4)原始指标(变量)的标准化ijjijjjxxxs第二章聚类分析1 什么是聚类分析聚类分析的概念聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。其中类指相似元素的集合。聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性,根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。2 距离与相似系数聚类分析的目的是将研究对象进行分类。它是在事先不知类别的情况下对数据
5、进行分类的分析方法。分类的依据有两类:距离与相似系数。变量的类型1)间隔尺度变量:连续量,如速度,重量等。2)间隔尺度变量:等级,有次序关系,如一级品、二级品等。3)间隔尺度变量:无等级也无数量关系,如性别,产品型号。常用的距离有以下几种:1)明考夫斯基距离:11( )qpqijikjkkdqxx2)绝对距离:(1)ijd3)欧氏距离:(2)ijd4)切比雪夫距离:1()maxijikjkkpdxx5)马氏距离:1()()()ijijijdMxxSxx,其中12(,)iiiipxxxxL,()ijp pSs为协方差阵6)兰氏距离:1( )pikjkijkikjkxxdLxx常用的相似系数有以下
6、几种:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 2 页,共 22 页 - - - - - - - - - - 1)夹角余弦 :12211(1)nkikjkijnnkikjkkx xcxx2)相关系数 :12211()()(2)()()nkiikjjkijnnkiikjjkkxxxxcxxxx聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等;根据分类对象不同又分为对样品聚类(又称Q 型聚类分析)以及对变量进行聚类(又称R 型聚类分析)。对前者聚类多用距离,而后者聚类
7、时多用相似系数。3 系统聚类法系统聚类法的基本思路就近原则 :首先,将n 个样品看成n 类,定义各样品之间的距离(此时其亦为类间距离);其次,按照某种原则将最接近的两类合并为一个新类,于是得到n-1 类,定义并计算各类间距离,然后再从中找出最接近的两类合并成一个新类,重复以上步骤,直到全部样品合并成一类为止,将上述合并过程画成聚类谱系图,据此图可将全部样品分类。八种系统聚类方法正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法,系统聚类方法包括最短距离法最长距离法类平均法重心法WARD 法等八种不同的方法,但这些
8、方法聚类的步骤是完全一样的。当采用欧氏距离时,八种并类方法可归结为统一的递推公式。设KG,LG,MKLGGG,JG1)最短距离法 :,minKLiji KjLDd;min.MJKJLJDDD2)最长距离法 :,maxKLiji KjLDd;max.MJKJLJDDD3)类平均法:22,1,KLiji Kj LKLDdn n;222.KLMJKJLJMMnnDDDnn4)WARD 法(离差平方和):2() (),KLKLKLKLMn nDxxxxn;2222.JKJLJMJKJLJKLJMJMJMnnnnnDDDDnnnnnn谱系图及利用谱系图进行分类精品资料 - - - 欢迎下载 - - -
9、- - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 22 页 - - - - - - - - - - 根据谱系图确定分类个数的准则:Bemirmen 于 1972 年提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分析的准则。准则 A:各类重心之间的距离必须很大;准则 B:确定的类中,各类所包含的元素都不要太多;准则 C:类的个数必须符合实用目的;准则 D:若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。应该指出,关于类的个数如何确定的问题,至今还没有一个合适的标准,也就是说对任何观测数据都没有唯一正确的
10、分类方法。分类个数的确定(2R统计量法)总离差平方和 :1() ()njjjWxxxx,组内离差平方和:() ()iijijijGWxxxx,2R统计量;211kiiRW W,2(0,1)R,2R越大聚类效果越好。当2R在第1m类时迅速下降时,确定为m类。第三章判别分析1 什么是判别分析判别分析的基本思想判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。其前提是总体
11、均值有显着差异,否则错分率大,判别分析无意义。判别分析与聚类分析的关系1.2.1 区别判别分析是在研究对象分类已知的情况下,根据样本数据推导出一个或一组判别函数,同时指定一种判别准则,用于确定待判样品的所属类别,使错判率最小。聚类分析预先不知道分类,它要解决的问题, 正是对给定的未知分类的样品进行分类,它是一种纯统计技术,只要有多指标存在,就能根据各观测的变量值近似程度排序,只是描述性的统计,而判别分析能对未知分类观测判别分类,带有预测性质。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 4 页,共 22
12、 页 - - - - - - - - - - 1.2.2 联系两者都是研究分类问题,两种方法往往联合起来使用。样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。2 距离判别法距离判别法的基本思想如果事先已有m 类的先验知识,将每一类视为一个总体,计算各样品与各总体之间的距离,将各样品分别归入与其距离最近的类。两总体距离判别设有两个总体1G、2G、x为一样品,定义x到两总体的距离分别为1( ,)d x G和2( ,)d x G判别准则为:11221212, ( ,)( ,), ( ,)( ,)( ,)( ,).xG d x Gd x GxG d x Gd x Gd x Gd
13、x G;待判,判别准则的直观表述即样品离哪个总体最近,则判该样品属于哪个总体。与上述准则等价的想法,就是算出样品到各总体间距离的差,根据差值来判断样品的归属。多总体距离判别设有k个总体(组)12,kG GGL、 它们的均值12,kL它们的协方差阵12,kL(均为正定),x为一样品,x到总体iG的距离1( ,)()()ijiiiidx Gxx.判别准则为:1,( ,)min( ,)llii kxGd x Gd x G ;分为协方差阵相同和协方差阵不同两种情况,它们的判别函数有差异,而判别准则无差异。3 费歇判别法费歇判别法的基本思想从k类总体中抽取具有p个指标的样品的观测数据,iG的原始资料阵1
14、11122221212iiiiiiniiinpppiiinxxxxxxxxxLLMMOML,1,2,ikL.其第j个样品的观测值12(,) ,1,2,1,2, .pijijijijixxxxjn ikLLL借助于方差分析的思想构造一个判别函数,即ijijya x,其中系数12(,)paa aaL,的确定原则是使两组间的区别达到最大,而使两组内部的离差达到最小。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 5 页,共 22 页 - - - - - - - - - - 组间离差平方和:2211()()kki
15、iiiiiSSTRn yyn a xa xa Ba,1()()kiiiiBn xxxx,其中ix和x依次为iG组内平均和总平均组内离差平方和:221111()()iiknknijiijiijijSSEyya xa xa Ea,111(1),()()(1)ikniiiijiijiijiEnS Sxxxxn选择a,使( )maxSSTRa BaaSSEa Ea,由代数知( )a的最大值,就是a取1E B的最大特征值所对应的特征向量.判别函数费歇准则下的线性判别函数1,piiiya xa x其中12(,)paa aaL,12(,)pxx xxL.的解应为方程()0iBE t1E B的特征根120sL
16、所对应的(单位)特征向量12,stttL.min(1,)skp,累计贡献率1,.(0.750.95).rpiiiicc第一判别式11,yt x第二判别式22,yt x .第r判别式,rryt x判别准则22111,()min()rrjjljjijjjikxGyyyy,其中11,inijjiijjiyt xxn为第j判别式在iG的样本均值 .21()rjljjyy为y到前r判别式在iG的样本均值12(,)iiiiryyyyL的(欧氏)距离平方.两个总体(组)12,G G的判别1)判别函数112()pyxxS x,1212pSEnn称为联合协方差阵。2)判别规则112212,() 2,() 2.x
17、G yyyxGyyy;,其中11121()pyxxS x;12122()pyxxS x精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 6 页,共 22 页 - - - - - - - - - - 误判概率与误判代价x来自jG而误判为iG的概率记为()P i j;误判概率的估计?()i jjnP i jn,其中jn为jG的个数;i jn为把jG的元素误判为iG的元素的个数 .x来自jG而误判为iG的代价记为()c i j;特别的()0c i i.4 贝叶斯判别法贝叶斯判别法的基本思想贝叶斯判别法是源于贝叶斯
18、统计思想的一种判别分析法。这种方法先假定对研究对象已有一定的认识,这种认识以先验概率来描述,然后取得一个样本,用样本来修正已有的认识,得到后验概率分布,利用后验概率分布进行统计推断。判别规则4.2.1 后验概率最大设有k个总体(组)12,kG GGL,iG的概率密度( )ifx;x来自iG的(先验)概率为(),iiP xGp11kiip.后验概率 :1( )(),( )iiikjjjp fxP G xp fx判别准则为:1,()max()llii kxG P G xP G x ;4.2.2 错判的平均损失最小判别准则为:111,( ) ()min( ) ()kkljjjji kjjj lj i
19、xGp fx c l jp fx c i j5 逐步判别法从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献大的变量加入到模型中去,同时也检验在模型中是否存在由于新变量的引入而对判别贡献不太显着的变量,如果有,将其从模型中删除,直到模型中的所有变量都符合引入模型的条件,而模型外的变量都不符合引入模型的条件为止,整个过程结束。整个筛选过程实质就是作假设检验,通过检验引入显着性变量,剔除不显着变量。反映在输出结果上,通常可以用F值的大小作为变量引入模型的标准,即一个变量是否能进入模型主要取决于协方差分析的F 检验的显着水平。 逐步判别过程本身并不建精品资料 - - - 欢迎
20、下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 7 页,共 22 页 - - - - - - - - - - 立判别函数,筛选出重要变量后,可用前面所讲的方法建立判别函数和判别准则,对新样品进行判别归类。第四章主成分分析1 主成分分析及基本思想主成分分析的概念主成分分析的工作对象是样本点 *定量变量类型的数据表。 主成分分析的工作目标,就是要对这种多变量的平面数据表进行最佳综合简化。也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。很显然, 在一个低维空间分析问题要比在一个高维空间中分析容易的多。英国统计学家
21、斯格特( scott)在 1961 年对 157 个英国城镇发展水平进行调查时,原始测量的变量有57 个。通过主成分分析发现,只需5 个新的综合变量(他们是原变量的线性组合),就可以95%的精度表示原数据的变异情况,这样,对问题的研究一下子从57 维降到了 5 维。可以想象,在5 维空间对系统进行任何分析,都比在 57 维中更加快捷和有效。另一项十分着名的工作是美国的统计学家斯通( STONE )在 1947 年关于国民经济的研究。他曾利用美国1929-1938 年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴消费资料和生产资料纯公共支出净增库存股息利息和外贸平衡等。在进行
22、主成分分析后,竟以%的精度,用3 个新变量就取代了原17 个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入总收入变化率和经济发展或衰退的趋势。这样,用3 个综合变量取代了原来的17 个变量,问题得到了极大的简化。一个多变量的高维系统如何进行降维处理,可以用几个最直观的例子来说明主成分分析的工作思路。假设有一个二维数据表,表中数据点的分布如图所示,重心为g,很显然,在长轴方向上,数据的离差最大,因此,所反映的数据信息也最多,这个方向被称为数据变异的最大方向。如果将原点平移到g,并且做旋转变换,便得到一个正交坐标系。可以看出,若省略短轴,将数据点在长轴上投影,就会得到一个简化的一维数据系
23、统。因此,降维处理的核心思想,就是省却变异不大的变量方向。又如,一个三维数据群点的分布是球形的,假若这个球是饼状的,其变异较大的方向为u1 和u2,而 u3 方向的变异很小,即在该方向上各样本点取值没有很大的差别,就可以不考虑u3 方向,三维空间的数据点就可以在二维平面图上得以显示。达到降维的目的。从中也可以看出主成分分析从几何上看是寻找p 维空间中椭球体的主轴问题。主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。它是研究如何通过少数几个主成分来解释多变量的方差协方差结构,其功能在于简化原有的变量群。具体地说,就是设法将原来多个指标重新组合成一组新的相互无关的综合指标,来代替原
24、来指标,同时根据实际需精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 8 页,共 22 页 - - - - - - - - - - 要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。这些综合指标是原来指标的线性组合,我们称之为主成分。通过这种方法可以降低数据维数,消除原始变量之间的相关性以便进一步利用其他方法对数据进行分析。主成分分析的基本思想各指标间既然有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵内部结构关系的研究,找出影响某一过程的几个综合指标,使综合指
25、标为原来变量的线性组合,并使其尽可能多的反映原来指标的信息,综合指标反映的信息量用其方差来表达,即综合指标的方差越大,表示其包含的信息越多。在所有的线性组合中方差最大的称为第一主成分,如果第一主成分不足以代表原来P 个指标的信息,再选取第二个线性组合作为第二主成分,第一主成分已有的信息就不需要再出现在第二主成分中,依次可造出P 个主成分。这些主成分之间不仅不相关,而且它们的方差依次递减。在解决实际问题时,一般不是取P 个主成分,而是根据累计贡献率的大小取前几个最大主成分,既保留了原指标大部分的信息,又达到降维的目的。2 主成分分析模型及几何解释主成分分析的数学模型设原始变量为12(,)pXx
26、xxL考虑它们的线性变换,YAX(或1212(,)(,)ppyyyA xxxLL),即1,1,2, .piiiya xa X ipL其中12,pyyyL满足以下条件:( 1)cov(,)0,ijyyijc;( 2)12.pDyDyDyL即1y是12,px xxL的一切线性组合中方差最大者,2y2是方差次大者,依此类推,称1y为12,px xxL的第一主成分,2y为第二主成分,py为第p个主成分。主成分的几何意义主成分分析从几何上看是寻找p维空间中椭球体的主轴问题。3 主成分的计算主成分的概念主成分其实就是原来指标的一些特殊的线性组合,这些线性组合的系数就是原指标协方差矩阵特征值所对应的特征向量
27、。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 9 页,共 22 页 - - - - - - - - - - 主成分的确定用数学语言来描述即:设DXV,的特征根120pL,所对应的(单位)特征向量12,paaaL.则随机向量12(,)pXx xxL的第i个主成分.iiiya Xt X, (1,2,ipL),即ia为V的第i大特征根i对应的单位特征向量。求主成分关键在于求出协方差阵V 的特征向量,但实际中V 是未知的,一般可用S作为 V的估计求出 S的特征值和特征向量作为V 的特征值和特征向量的估计。通常
28、,在进行数据分析之前,为了消除量纲影响要先将数据进行标准化,而对于标准化数据来说,其S与 R 相同,故在实际中常由样本相关阵去估计V 的特征值和特征向量。贡献率和累计贡献率第个k主成分的贡献率为k在特征值总和中所占的比重,即1.pkii;前m个 主 成 分 的 累 计 贡 献 率 为 前m个 特 征 值 在 特 征 值 总 和 中 所 占 的 比 重 , 即1,.mpiiiimp。累计贡献率表达了前m个主成分对原始变量12,px xxL的信息提取率。通常取m使得前m个主成分的累计贡献率达到70至 80即可。4 主成分分析计算步骤1)将原始数据标准化,仍记为,()ijijn pxXx2)求相关系
29、数阵()ijppRr,11nijijrx xn,(或RX X)111211112111211212222122212222121212pnppnppppppppnnnpnrrrxxxxxxrrrxxxxxxrrrxxxxxxLLLLLLMMOMMMOMMMOMLLL3 ) 求 相 关 系 数 阵R的 特 征 根120pL, 所 对 应 的 ( 单 位 ) 特 征 向 量12,ptttL.11121212221212( ,)pppppppttttttTt tttttLLLMMOML4)求第i个主成分,iiiya Xt X即1122.iiipipyt xt xt xL1,2,.ipL精品资料 -
30、- - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 10 页,共 22 页 - - - - - - - - - - 根据累计贡献率1.mpiiiic确定个主成分个数m,选择前m个主成分1122.iiipipyt xt xt xL1,2,.imL().mp第五章因子分析1因子分析及基本思想因子分析的概念因子分析是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法。因子分析从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子,以再现原始变量和因子之间的相关关系。它是多元分析中一种降维和分
31、析、简化数据结构的方法。因子分析的形成和早期发展一般认为是从Charles Spearman 在 1904 年发表的文章 对智力测验得分进行统计分析开始的。因子分析的形成和发展有相当长的历史,最早用于研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。目前因子分析在心理学社会学经济学等学科都有成功的应用。因子分析的基本思想根据相关性大小把变量分组,使得同组内的变量间相关关系强,不同组的变量间相关性较低,每组变量代表一个基本结构,这个基本结构称为公
32、共因子,可用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一变量。因子分析与主成分分析的区别与联系区别: 主成分分析不能作为一个模型来描述,它只是通常的变量变换,因子分析可构造因子模型;主成分分析中主成分的个数和变量个数相同,它是将一组具有相关性的变量变换为一组独立的变量(实际应用时一般只取前m 个主成分),而因子分析的目的是要用尽可能少的公共因子,以构造一个结构简单的因子模型;主成分表示为原变量的线性组合,而因子分析中是将原变量表示为公共因子和特殊因子的线性组合。联系: 都为降维的方法;可用主成分法来提取因子。2 因子分析的数学模型数学模型精品资料 - - - 欢迎
33、下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 11 页,共 22 页 - - - - - - - - - - 设12(,)pxx xxL为p维 随 机 向 量 ,其 均 值 为12(,)pExL,协 方 差 阵 为()ijp pDx ,若x能表示成为xf,其中12(,)mffffL为随机向量,称为公共因子,12(,)pL为随机向量,称为特殊因子,()ijp m未知常数矩阵,称为因子载荷阵.通常假定1)0Ef,DfI2)0E,22212(,)pDdiagDL3( , )0Cov f因子载荷阵的统计意义设因子载荷阵()ijp m,i
34、j称为因子载荷,是连接观测变量和公共因子之间的纽带,其统计意义就是第i个变量与第j个公共因子的相关系数,即表示变量ix依赖公共因子jf的分量,反映了第i个变量在第j个公共因子上的相对重要性。3 因子载荷矩阵的求解建立因子模型的关键是要求出因子载荷矩阵,估计因子载荷矩阵的方法很多,有主成分法,极大似然法等,其中主成分法的使用较普遍。计算因子载荷阵可以从样本的协方差阵出发,也可以从样本相关阵出发。当相关变量所取单位不同时,先对变量进行标准化。标准化变量的样本协差阵就是原始变量的样本相关阵R.主成分法设12(,)pxxxxL为p维随机向量 ,(可假设已作了标准化变换)1)均值为与协方差阵(即为相关系
35、数阵R)的估计分别为1111,()()1nniiiiixx Sxxxxnn2)因子载荷阵()ijp m的估计,ij称为第i个变量ix在第个j因子jf上的载荷精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 12 页,共 22 页 - - - - - - - - - - 取RS,的特征根120pL,所对应的正交(单位)特征向量12,ptttL.取较小的因子数m,使累计贡献率1.mpiiii较大,mp.则1 122()(,)ijm mtttL3)特殊方差阵22212(,)pDdiagL的估计:221miiiij
36、js,4)共性方差221,1,2, .miijjhipL当x已了标准化则221.iih主因子法主因子法是主成分法的修正,取RRD.以下同主成分法.4 因子模型的旋转在因子分析模型中,公共因子与因子载荷阵的解不是唯一的。进行因子分析的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以利于对公共因子命名和解释结果。若每个公共因子的涵义不清,难以找到合理的解释,可对因子载荷矩阵实行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其他公共因子上的载荷较小。最常用的旋转变换是正交旋转变换。1)2m时,对因子轴12,ff进行旋转,2()ijp,取旋转变换cossinsincosT,则旋转后的因子
37、载荷阵2()ijpT,由4122231224()cc cptgcccp决定,其中11piicu,21piicv,2231()piiicuv,412piiicu v,2212()()iiiiiuhh,2122iiiivh.2()ijp,其 2 个列元素平方的相对方差12VVV,2211() ,pjijiiVddp221111()ppijijiiddhpp,1,2.j2)2m时,对因子轴,lkff进行旋转,共进行1(1)22mm m次旋转,即完成第一轮旋转.记旋转后的因子载荷阵记为(1),相应的相对方差为(1).V如此继续旋转得到一系列因子载荷阵记为(1)(2)( ),sLL相应的(1)(2)(
38、)sVVVLL.有极限 .实际中当( )sV变化不大时,可停止.精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 13 页,共 22 页 - - - - - - - - - - 5 因子命名利用在同一个因子有较大荷阵的几个变量的共同特性对该因子进行命名,即如果qi个因子12,qiiixxxL在jf有较大的载荷,可用12,qiiixxxL的特性对jf进行命名 .6 因子得分在得到因子载荷阵和公共因子后,反过来要考察每个样品的因子表现,即通过已知的样品观察值来计算相应的公因子值,称之为因子得分。利用因子得分可对
39、各个样品进行评价。加权最小二乘法因子分析模型xfxf即111111221122211222221122mmmmpppppmmpxa fa fafxafafafxafafafLLML寻找12,mfffL使21min,piiiD112221()()min,piiiiimmiixa fafafL1()()minxfDxf公共因子的得分11()()fDDx,用的估计?x及ix代人,则第i个公共因子的得分11?()()iifDDxx,1,2,imL回归法公共因子的得分1()()fDxD用的估计?S(当x已标准化时?R)代替 ,则第i个公共因子的得分1?()iifRxx,1,2,imL.7 因子分析计算步
40、骤1)将原始数据标准化,仍记为,()ijijn pxXx精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 14 页,共 22 页 - - - - - - - - - - 2)求相关系数阵()ijppRr,11nijijrx xn,(或RX X)3)求相关系数阵R的特征根120pL,所对应的(单位)特征向量12,ptttL.4)求因子载荷阵:根据累计贡献率1.mpiiiic确定因子数m,则11121212221212(,)mmmpppmttttttdiagtttLLLMMOML1111221211222211
41、22mmmmpppmmtttttttttLLMMOML5) 对因子载荷阵进行旋转得到新的载荷阵( )12ssTTTL, 根据载荷阵的数据对因子进行命名.6)计算因子的得分,( )1?()siifRxx,1,2,imL表 5 旋转后的因子载荷阵指标因子1234学习态度 X1实践能力 X2创新能力 X3社会责任 X4身心健康 X5集体观念 X6人际关系 X7第一个因子中指标X4, X6 , X7有较大的载荷,这些是从社会责任,集体观念,人际关系三个方面反映学生的素质的,因此称为道德因子 第二个因子中指标X3有较大的载荷,这是从创新能力反映学生的素质的,因此称为创新因子第三个因子中指标X1, X2有
42、较大的载荷,这是从学习态度和实践能力这两方面反映学生的素质的,因此称为学习与实践因子 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 15 页,共 22 页 - - - - - - - - - - 第四个因子中指标X5有较大的载荷,这是从身心健康方面反映学生素质的,因此称为身心健康因子 第六章对应分析1 对应分析及其基本思想对应分析的概念R型 对指标的统计分析;Q型对样品的统计分析对应分析是主成分分析的拓广,其特征是它所研究的变量可以是定性变量。通常意义下的对应分析,是指对两个定性变量的多种状态进行对应性
43、研究。对多维定性变量的研究,称为多元对应分析。对应分析问题在1933 年就由希查德松(Richardson)和居代( Kuder)提出。但直到1973 年,才由法国统计学家本泽柯瑞(Benzecri)给予圆满的解决。对应分析依靠主成分分析中的降维手段,可以更直观明了的观察和分析定性变量多种状态间的相互关系。它在社会调查和专家评议调查中的使用最为广泛。对应分析又称为相应分析,是在R型和Q型因子分析基础上发展起来的一种多元统计方法,它从R型因子分析出发,而直接获得Q型因子分析的结果。根据R型和Q型因子分析的内在联系,可将指标(变量)和样品同时反映到相同坐标轴(因子轴)的一张图形上,便于对问题的分析
44、。对应分析可提供三方面的信息即指标之间的关系,样品之间的关系,指标与样品之间的关系。对应分析 (Correspondence analysis) 是一种在低维度空间(Low-dimensional Space)中描述两个变量之间相对关系的分析方法,是一种研究定性变量间相互关系的有效方法,通过对由两个定性或类别变量构成的交互表进行分析,揭示同一变量的各个类别之间的差异、不同变量的各个类别之间的对应关系。用对应分析法,可将两两指标不同分类间的关系在二维坐标图上给出直观、形象的表达。对应分析的优点:(1)提供了将定性资料进行定量分析的途径,从数量的角度揭示了交叉列表行列间的关系;(2)对应分析图将不
45、同属性的指标反映在同一坐标系下,有利于研究不同属性指标间的关系。对应分析的基本思想精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 16 页,共 22 页 - - - - - - - - - - 通过一个过渡矩阵Z将R型因子分析和Q型因子分析有机地结合起来。首先给出变量点的协差阵A和样品点的协差阵B,由于A和B有相同的非零特征根,这些特征根又正是各个公共因子的方差, 因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类。2
46、 对应分析的基本原理由原始资料阵X出发,计算规格化的概率矩阵P,使变量与样品具有相同比例大小,在空间定义两两样品点或两两变量点之间的距离,定义样品点和变量点的协差阵分别为B和A。A和B的非 0 特征根相同, 而特征根又表示各个公共因子所提供的方差,因此变量空间中的公共因子与样品空间中对应的各个公共因子在总方差中所占的百分比完全相同,从几何意义来看,即诸样品点与样品空间中各因子轴的距离和诸变量点与变量空间中相对应的各因子轴的距离完全相同,因此, 可以把变量点和样品点同时反映在同一个因子轴所确定的平面上(即取同一个坐标系),根据接近的程度,将变量点与样品点一起考虑进行分类。3 对应分析的计算步骤1
47、) 由原始资料阵X出发,计算规格化的概率矩阵P;相当于改变了测度尺度,使变量与样品具有相同比例大小;111212122212ppppppxxxxxxXxxxLLMMOML1112112122221212ppppppppxxxxxxxxxxxxxxxxLLMMOMMLL()ijn pPp,ijijxpx2) 计算过渡矩阵(),ijijijijijxx xxZzzx x;3) 进行因子分析:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 17 页,共 22 页 - - - - - - - - - - R型因子
48、分析;AZ Z的特征根12pL累计贡献率1.mpiiiic确定因子个数m,因子载荷阵111122121122221122mmmmp mpppmmuuuuuuFuuuLLMMOMLQ型因子分析:因子载荷阵111122121122221122mmmmn mnnnmmvvvvvvGvvvLLMMOML, (VZU)4)当2.m时在同一个平面上画出p个指标点1122(,),1,2, .iiuuipL,及n个样品点1122(,),1,2, .iivvinL观察并确定它们之间的关系.第七章典型相关分析1 典型相关分析及基本思想典型相关分析的概念典型相关分析是研究两组变量之间相关关系的一种多元统计方法,在每
49、一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组综合指标之间的关系来反映两组变量之间的相关关系。典型相关分析的基本思想首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,直到两组变量之间的相关性被提取完毕为止。这样,讨论两组变量之间的相关就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数。2 典型相关分析的数学描述对于任意的两组系数:12(,)pxx xxL,12(,)qyyyyL构造线性组合12121(,)(,)pppiiiua xa aax xxa xL
50、L,1qiiivb yb y在满足( )1,Var u( )1,Var v的约束条件下,寻找a和b使综合变量1u和1v相关最大。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 18 页,共 22 页 - - - - - - - - - - 同理除去1u和1v之外,构造第二对变量,使2u和2v的相关最大,但与第一对变量不相关。3 总体的典型相关系数和典型变量典型相关系数和典型变量的求法在 满 足( )1,Var u( )1,Var v的 约 束 条 件 下 , 两 组 随 机 变 量xy的 协 方 差 阵1