《SAS多元统计分析》PPT课件.ppt-淘文阁

资源描述

《《SAS多元统计分析》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《SAS多元统计分析》PPT课件.ppt（84页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Chapter7Chapter7 SASSAS多元统计分析多元统计分析Chapter7 SASChapter7 SAS多元统计分析多元统计分析多元统计分析是统计学的重要应用工具，多元统计分析是统计学的重要应用工具，SASSAS实现了许实现了许多常用的多元统计分析方法。多常用的多元统计分析方法。SASSAS用于多变量分析的过程有用于多变量分析的过程有PRINCOMPPRINCOMP（主成分分析）、（主成分分析）、FACTORFACTOR（因子分析）、（因子分析）、CANCORRCANCORR（典型相关分析）、（典型相关分析）、MDSMDS（多维标度过程）、（多维标度过程）、MULTTESTMU

2、LTTEST（多重检验）、（多重检验）、PRINQUALPRINQUAL（定性数据的主分量分（定性数据的主分量分析）、析）、CORRESPCORRESP（对应分析），用于判别分析的过程有（对应分析），用于判别分析的过程有DISCRIMDISCRIM（判别分析）、（判别分析）、CANDISCCANDISC（典型判别）、（典型判别）、STEPDISCSTEPDISC（逐步判别），用于聚类分析的过程有（逐步判别），用于聚类分析的过程有CLUSTERCLUSTER（谱系聚类）、（谱系聚类）、FASTCLUSFASTCLUS（K K均值快速聚类）、均值快速聚类）、MODECLUSMODECLUS（非参数

3、聚类）、（非参数聚类）、VARCLUSVARCLUS（变量聚类）、（变量聚类）、TREETREE（画谱系聚（画谱系聚类的结果谱系图并给出分类结果）。类的结果谱系图并给出分类结果）。下一页返回本节首页Chapter7 SASChapter7 SAS多元统计分析多元统计分析一、主成分分析一、主成分分析二、因子分析二、因子分析三、聚类分析三、聚类分析四、判别分析四、判别分析下一页返回本节首页上一页一、一、主成分分析主成分分析主成分分析简介主成分分析简介数学模型与几何解释数学模型与几何解释PRINCOMP PRINCOMP 过程过程菜单操作方法菜单操作方法主成分的应用主成分的应用主成分回归：解决多重

4、共线性问题主成分回归：解决多重共线性问题综合评价综合评价下一页返回本节首页上一页主成分分析简介在实际经济工作中，我们经常碰到多变量或多指标问在实际经济工作中，我们经常碰到多变量或多指标问题，比如，企业经济效益的评价、地区经济发展情况比较题，比如，企业经济效益的评价、地区经济发展情况比较等问题。这些问题的研究一般都先要设定研究的指标，也等问题。这些问题的研究一般都先要设定研究的指标，也就是设定评价企业经济效益与评价地区经济发展情况的指就是设定评价企业经济效益与评价地区经济发展情况的指标体系。由于变量或指标较多，分析问题具有相当的复杂标体系。由于变量或指标较多，分析问题具有相当的复杂性。然而，

5、在多数情况下，这些不同的变量或指标之间，性。然而，在多数情况下，这些不同的变量或指标之间，存在一定的相关性。这样，人们自然希望用较少的变量或存在一定的相关性。这样，人们自然希望用较少的变量或指标来代替原来较多的变量或指标，而这些较少的变量或指标来代替原来较多的变量或指标，而这些较少的变量或信息涵盖了原来变量或指标的信息。利用这种降维的思想，信息涵盖了原来变量或指标的信息。利用这种降维的思想，产生了主成分分析方法。产生了主成分分析方法。下一页上一页主成分分析，就是设法将原来变量或指标重新组合成一组主成分分析，就是设法将原来变量或指标重新组合成一组新的、互不相关的几个综合变量或指标，同时根据实际

6、需要从新的、互不相关的几个综合变量或指标，同时根据实际需要从中选取几个较少的综合变量或指标来尽可能多地反映原变量或中选取几个较少的综合变量或指标来尽可能多地反映原变量或指标的信息。这种将多变量或多指标转化成少数几个互不相关指标的信息。这种将多变量或多指标转化成少数几个互不相关的综合变量或综合指标的统计方法叫做主成分分析或称主分量的综合变量或综合指标的统计方法叫做主成分分析或称主分量分析。分析。需要注意的是，主成分分析往往不是目的，而是达到目的需要注意的是，主成分分析往往不是目的，而是达到目的的一种手段。因此，它常常用在大型研究项目的某个中间环节的一种手段。因此，它常常用在大型研究项目的某个中间

7、环节中。例如，将它用到多重回归中，便产生了主成分回归，它可中。例如，将它用到多重回归中，便产生了主成分回归，它可以克服回归问题中由于自变量之间的高度相关而产生的分析困以克服回归问题中由于自变量之间的高度相关而产生的分析困难。另外，主成分分析还可以用于典型相关分析、聚类分析和难。另外，主成分分析还可以用于典型相关分析、聚类分析和因子分析中。因子分析中。下一页返回本节首页上一页数学模型与几何解释数学模型与几何解释假设我们所讨论的实际问题中，有假设我们所讨论的实际问题中，有p p个指标，个指标，我们把这我们把这p p个指标看作个指标看作p p个随机变量，记为个随机变量，记为X X1 1，X X2

8、2，X Xp p，主成分分析就是要把这主成分分析就是要把这p p个指标的问题，个指标的问题，转变为讨论转变为讨论p p个指标的线性组合的问题，而这些个指标的线性组合的问题，而这些新的指标新的指标F F1 1，F F2 2，F Fk k(kp(kp），），按照保留主要按照保留主要信息量的原则充分反映原指标的信息，并且相互信息量的原则充分反映原指标的信息，并且相互独立。独立。这种由讨论多个指标降为少数几个综合指这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通标的过程在数学上就叫做降维。主成分分析通常的做法是，寻求原指标的线性组合常的做法是，寻求原指标的线性组合Fi。满足

9、如下的条件：满足如下的条件：主成分之间相互独立，即无重叠的信息。即主成分之间相互独立，即无重叠的信息。即主成分的方差依次递减，重要性依次递减，即主成分的方差依次递减，重要性依次递减，即每个主成分的系数平方和为每个主成分的系数平方和为1。即。即主成分分析的几何解释平移、旋转坐标轴为了方便，我们在二维空间中讨论主成分的几何意为了方便，我们在二维空间中讨论主成分的几何意义。义。设有设有n个样品，每个样品有两个观测变量个样品，每个样品有两个观测变量xl和和x2，在由变量在由变量xl和和x2 所确定的二维平面中，所确定的二维平面中，n个样本点所散个样本点所散布的情况如椭圆状。由图可以看出这布的情况如椭

10、圆状。由图可以看出这n个样本点无论是个样本点无论是沿着沿着xl 轴方向或轴方向或x2轴方向都具有较大的离散性，其离轴方向都具有较大的离散性，其离散的程度可以分别用观测变量散的程度可以分别用观测变量xl 的方差和的方差和x2 的方差定的方差定量地表示。显然，如果只考虑量地表示。显然，如果只考虑xl和和x2 中的任何一个，中的任何一个，那么包含在原始数据中的经济信息将会有较大的损失。那么包含在原始数据中的经济信息将会有较大的损失。如果我们将如果我们将xl xl 轴和轴和x2x2轴先平移，再同时按逆时针轴先平移，再同时按逆时针方向旋转方向旋转角度，得到新坐标轴角度，得到新坐标轴FlFl和和F2F2

11、。FlFl和和F2F2是两是两个新变量。个新变量。根据旋转变换的公式：根据旋转变换的公式：旋转变换的目的是为了使得旋转变换的目的是为了使得n n个样品点在个样品点在F Fl l轴方轴方向上的离向上的离散程度最大，即散程度最大，即F Fl l的方差最大。变量的方差最大。变量F Fl l代代表了原始数据的绝大表了原始数据的绝大部分信息，在研究某经济问题部分信息，在研究某经济问题时，即使不考虑变量时，即使不考虑变量F F2 2也无损大局。经过上述旋转也无损大局。经过上述旋转变换原始数据的大部分信息集中到变换原始数据的大部分信息集中到F Fl l轴上，对数据轴上，对数据中包含的信息起到了浓缩作用。

12、中包含的信息起到了浓缩作用。F Fl l，F F2 2除了可以对包含在除了可以对包含在X Xl l，X X2 2中的信息起着浓缩作用中的信息起着浓缩作用之外，还具有不相关的性质，这就使得在研究复杂的问题之外，还具有不相关的性质，这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在方差大部分都归结在F Fl l轴上，而轴上，而F F2 2轴上的方差很小。轴上的方差很小。F Fl l和和F F2 2称为原始变量称为原始变量x x1 1和和x x2 2的综合变量。的综合变量。F F简化了系统结构，抓住简化了系统

13、结构，抓住了主要矛盾。了主要矛盾。PRINCOMP PRINCOMP 过程进行主成份分析过程进行主成份分析PRINCOMPPRINCOMP过程的一般格式：过程的一般格式：Proc Proc PrincompPrincomp DATA=DATA=数据集数据集/;VarVar 变量列表变量列表；Partial Partial 变量列表变量列表；Weight Weight 变量变量；Freq Freq 变量变量；By By 变量变量；Run Run；下一页上一页 PROC PRINCOMPPROC PRINCOMP语句语句/TYPETYPECOVCOV或或TYPETYPECORRCORR指明数据集类

14、型，例如：指明数据集类型，例如：DATADATAnew TYPEnew TYPECORRCORR：表明：表明newnew为一相关系数为一相关系数CORRCORR数据集。数据集。OUTOUT输出数据集输出数据集存储原始数据和主分量得分等。存储原始数据和主分量得分等。OUTSTATOUTSTAT输出数据集输出数据集存储变量的平均数、标准差、相关系数、特征存储变量的平均数、标准差、相关系数、特征值、特征向量等。值、特征向量等。另外，另外，COVCOV指定由协方差矩阵计算（一般由相关系数矩阵进行）；指定由协方差矩阵计算（一般由相关系数矩阵进行）；N N个数个数指定主分量个数。指定主分量个数。STDST

15、D将输出标准化的主分量得分。将输出标准化的主分量得分。NOINTNOINT不含截距。不含截距。NOPRINTNOPRINT不输出分析结果。不输出分析结果。PROC PRINCOMPPROC PRINCOMP过程中的主要语句过程中的主要语句VARVAR语句语句指明分析的数值变量。指明分析的数值变量。PARTIALPARTIAL语句语句指明对偏相关或协方差矩阵进行分析的数值变量。指明对偏相关或协方差矩阵进行分析的数值变量。下一页上一页例：对我国上市公司的经济效益水平进行主成例：对我国上市公司的经济效益水平进行主成分分析，选择的主要经济效益指标共有以下几个：分分析，选择的主要经济效益指标共有以下几

16、个：资金利税率，产值利税率，百元销售成本实现的利资金利税率，产值利税率，百元销售成本实现的利润，百元销售收入实现的利税，流动资金周转次数，润，百元销售收入实现的利税，流动资金周转次数，主营业务利润增长率等主营业务利润增长率等6 6个。试分析经济效益的主个。试分析经济效益的主要影响因素。要影响因素。下一页上一页Data Data sasuser.jjxysasuser.jjxy;infileinfile“x:jjxy.txtx:jjxy.txt”;”;input name$x1-x6;input name$x1-x6;run;run;proc proc princompprincomp data

17、=data=sasuser.jjxysasuser.jjxy n=6 out=n=6 out=prinprin;varvar X1-x6;X1-x6;run;run;proc print data=proc print data=prinprin;varvar prin1-prin6;prin1-prin6;run;run;下一页上一页第一、第二主成分的表达式为：第一、第二主成分的表达式为：PRIN1PRIN1=0.469779 X1+0.440631 X2+0.371196=0.469779 X1+0.440631 X2+0.371196 X3+0.472717 X4+0.122706 X5

18、+0.456998 X6X3+0.472717 X4+0.122706 X5+0.456998 X6PRIN2PRIN2=0.008123 X1-0.272433 X2+0.442503 X3-=0.008123 X1-0.272433 X2+0.442503 X3-0.012902 X4+0.797595 X5-0.305909 X60.012902 X4+0.797595 X5-0.305909 X6下一页上一页如果要对特征值大的第一、第二主成分得分按照从小到大的顺序排序并进行打印，如果要对特征值大的第一、第二主成分得分按照从小到大的顺序排序并进行打印，进而对各上市公司的经济效益进行分类，

19、那么可编写如下语句：进而对各上市公司的经济效益进行分类，那么可编写如下语句：Proc sort data=Proc sort data=prinprin;By descending prin1;By descending prin1;Run;Run;proc print data=proc print data=prinprin;VarVar prin1 x1 x2 x3 x4 x5 x6;prin1 x1 x2 x3 x4 x5 x6;Title Title 用第一主成分反映的经济效益情况依次列出各公司名单用第一主成分反映的经济效益情况依次列出各公司名单;Run;Run;Proc sort

20、data=Proc sort data=prinprin;By descending prin2;By descending prin2;Run;Run;Proc print data=Proc print data=prinprin;VarVar prin2 x1 x2 x3 x4 x5 x6;prin2 x1 x2 x3 x4 x5 x6;Title Title 用第二主成分反映的经济效益情况依次列出各公司名单用第二主成分反映的经济效益情况依次列出各公司名单;Run;Run;下一页返回本节首页上一页菜单操作方法单击单击solutions=analysis=analystsolutions=

21、analysis=analyst(在这里选择需要分析的数据集在这里选择需要分析的数据集)=statistics=MULTIVARIATE =PRINCIPAL=statistics=MULTIVARIATE =PRINCIPAL COMPONENT(COMPONENT(主成份分析主成份分析)下一页返回本节首页上一页主成分在主成分在综合评价中的应用综合评价中的应用例：例：主成分分析在企业经济效益综合评价中的应用主成分分析在企业经济效益综合评价中的应用综合评价值综合评价值其中其中下一页上一页Rank Rank 语句语句(有序变量转换成名次变量有序变量转换成名次变量)proc rank data=输

22、入数据名输入数据名选项串选项串;/*/*选项包括选项包括:ties=high(:ties=high(或或=low)=low)相等数据取高相等数据取高(或低或低)名次名次(内设为均值内设为均值)；descending descending 数据由大到小排成名次数据由大到小排成名次1,2,1,2,；out=out=输出文件名输出文件名*/var 被排序数值变量名串被排序数值变量名串;ranks 名次变量名串名次变量名串;run;下一页上一页计算综合得分及名次计算综合得分及名次data new;data new;set set prinprin;z=prin1*0.6824/(0.6824+0.2

23、093)+prin2*0.2093/(0.6824+0.z=prin1*0.6824/(0.6824+0.2093)+prin2*0.2093/(0.6824+0.2093);2093);run;run;Proc rank data=new;Proc rank data=new;VarVar z;z;Ranks Ranks zrankzrank;Run;Run;说明：说明：1.1.主成分分析是通过降维技术用少数几个综合变量来代替原始多个变量的一主成分分析是通过降维技术用少数几个综合变量来代替原始多个变量的一种统计分析方法。这些综合变量集中了原始变量的大部分信息。种统计分析方法。这些综合变量集中

24、了原始变量的大部分信息。2 2、第一主成分所包含的信息量最大，第二主成分其次，其它主成分依次递、第一主成分所包含的信息量最大，第二主成分其次，其它主成分依次递减，各主成分之间互不相关，这就保证了各主成分所含的信息互不重复。减，各主成分之间互不相关，这就保证了各主成分所含的信息互不重复。3.3.取多少个主成分，既要考虑至（前几个主成分的累计贡献率达到一定比例，取多少个主成分，既要考虑至（前几个主成分的累计贡献率达到一定比例，也要考虑到应选取尽可能少的主成分以较好地达到降维的目的。也要考虑到应选取尽可能少的主成分以较好地达到降维的目的。4.4.当各变量的单位不相同时，应从相关矩阵出发进行主成分分析

25、。当各变量的单位不相同时，应从相关矩阵出发进行主成分分析。5.5.计算出主成分之后，应对要使用的前若干个主成分作出符合实际背景和意计算出主成分之后，应对要使用的前若干个主成分作出符合实际背景和意义的解释。义的解释。下一页返回本节首页上一页二、因子分析二、因子分析因子分析简介因子分析简介因子分析因子分析数学模型数学模型FACTOR FACTOR 过程过程因子分析应用因子分析应用下一页返回本节首页上一页因子分析因子分析(factor analysis)(factor analysis)是一种数据简化的技术。是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据它通过研究众多变量

26、之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。观测的潜在变量，称为因子。例如，在企业形象或品牌形象的研究中，消费者可以例如，在企业形象或品牌形象的研究中，消费者可以通过一个有通过一个有2424个指标构成的评价体系，评价百货商场的个指标构成的评价体系，评价百货商场的2424个方面的优劣。个

27、方面的优劣。因子分析简介因子分析简介下一页上一页但消费者主要关心的是三个方面，即商店的环境、但消费者主要关心的是三个方面，即商店的环境、商店的服务和商品的价格。因子分析方法可以通过商店的服务和商品的价格。因子分析方法可以通过2424个个变量，找出反映商店环境、商店服务水平和商品价格的变量，找出反映商店环境、商店服务水平和商品价格的三个潜在的因子，对商店进行综合评价。三个潜在的因子，对商店进行综合评价。而这三个公共而这三个公共因子可以表示为：因子可以表示为：称称是是不不可可观观测测的的潜潜在在因因子子。2424个个变变量量共共享享这这三三个个因因子子，但但是是每每个个变变量量又又有有自自己己

28、的的个个性性，不被不被包含的部分包含的部分，称为特殊因子。，称为特殊因子。下一页上一页因子分析数学模型因子分析数学模型设设个变量，如果表示为个变量，如果表示为下一页上一页称称为为公公共共因因子子，是是不不可可观观测测的的变变量量，他他们们的的系系数数称称为为因因子子载载荷荷。是是特特殊殊因因子子，是是不不能能被被前前m m个公共因子包含的部分。并且满足：个公共因子包含的部分。并且满足：即不相关；即不相关；即即互不相关，方差为互不相关，方差为1 1。下一页上一页即互不相关，方差不一定相等，即互不相关，方差不一定相等，。下一页上一页因子载荷矩阵的估计方法因子载荷矩阵的估计方法因子载荷矩

29、阵的估计方法因子载荷矩阵的估计方法:主成分分析法主成分分析法主因子法主因子法极大似然估计法极大似然估计法下一页返回本节首页上一页FACTOR FACTOR 过程过程 SAS/STAT SAS/STAT 模块中的模块中的 FACTOR FACTOR 过程可以过程可以用来进行因子分析、分量分析、因子旋转。用来进行因子分析、分量分析、因子旋转。对因子模型可以使用正交旋转和斜交旋转，对因子模型可以使用正交旋转和斜交旋转，可以用回归法计算得分系数，同时也可以把可以用回归法计算得分系数，同时也可以把因子得分的估计值存储在输出数据集中。因子得分的估计值存储在输出数据集中。FACTOR FACTOR 过程的结

30、构如下：过程的结构如下：下一页上一页FACTOR FACTOR 过程格式：过程格式：PROC FACTOR DATA=PROC FACTOR DATA=数据集数据集；PRIORS PRIORS 公因子方差；公因子方差；VAR VAR 变量表；变量表；PARTIAL PARTIAL 变量表；变量表；FREQ FREQ 变量；变量；WEIGHT WEIGHT 变量；变量；RUN;RUN;下一页上一页PROC FACTORPROC FACTOR语句的语句的 OUTSTAT=OUTSTAT=输出数据集输出数据集用于存储因子分析的结果。用于存储因子分析的结果。METHOD=METHOD=因子选择方法因

31、子选择方法包括包括PRINCIPALPRINCIPAL，PRINITPRINIT，USLUSL，ALPHAALPHA，MLML，HARRISHARRIS，IMAGEIMAGE，PATTERNPATTERN。常用方法为。常用方法为PRINCIPALPRINCIPAL（主成份法）、（主成份法）、MLML（极（极大似然法）和大似然法）和PRINITPRINIT（迭代主因子法）。（迭代主因子法）。SCORESCORE表示要求算出因子得分模型中的系数。表示要求算出因子得分模型中的系数。NORMNORMKAlSERKAlSER|RAW|WEIGHT|COV|NONE,|RAW|WEIGHT|COV|NON

32、E,为因子旋转指定因子模型中为因子旋转指定因子模型中列的标准化方法。列的标准化方法。PRIORS=PRIORS=指定计算共性方差初始估计值的方法。指定计算共性方差初始估计值的方法。包括包括ONEONE，MAXMAX，SMCSMC，ASMCASMC，INPUTINPUT，RANDOMRANDOM。其中。其中ONEONE（等于（等于1.01.0），），SMCSMC（多元平方相关系数），（多元平方相关系数），RANDOMRANDOM（0 0与与1 1之间的随机数）。之间的随机数）。ROTATEROTATE因子转轴方式因子转轴方式包括包括NONENONE，VARIMAXVARIMAX，QUARTMAX

33、QUARTMAX，EQUAMAXEQUAMAX，ORTHOMAXORTHOMAX，HKHK，PROMAXPROMAX，PROCRUSTE5PROCRUSTE5。常用的有。常用的有VARIMAXVARIMAX（最大方差转轴（最大方差转轴法）、法）、ORTHOMAXORTHOMAX（正交最大方差转轴法）和（正交最大方差转轴法）和PROMAXPROMAX（在正交最大方差转（在正交最大方差转轴的基础上进行斜交旋转）。轴的基础上进行斜交旋转）。SIMPLESIMPLE结果输出包括简单统计数。结果输出包括简单统计数。CORRCORR结果输出包括相关系数。结果输出包括相关系数。NFACTOR=nNFACTO

34、R=n要求保留要求保留n n个公因子，否则只保留特征值大于个公因子，否则只保留特征值大于1 1的那些公因子。的那些公因子。下一页返回本节首页上一页因子分析应用因子分析应用计算因子得分，计算因子得分，求出各样本的因子得分，有了求出各样本的因子得分，有了因子得分值，则可以在许多分析中使用这些因子，因子得分值，则可以在许多分析中使用这些因子，例如以因子的得分做聚类分析的变量，做回归分析例如以因子的得分做聚类分析的变量，做回归分析中的回归因子。中的回归因子。下一页上一页实例分析：实例分析：80-90 80-90 年代我国经济发展情况分析年代我国经济发展情况分析为分析我国为分析我国8080年代（年代

35、（1980-19911980-1991年）经济发展情况，采年）经济发展情况，采用用8 8 个指标个指标:x1x1：社会总产值；：社会总产值；x2x2：国民收入；：国民收入；x3x3：一次性能源生产总量；：一次性能源生产总量；x4x4：货物周转量；：货物周转量；x5x5：固有的固定资产投资额；：固有的固定资产投资额；x6x6：职工工资总额；：职工工资总额；x7x7：社会商品零售额；：社会商品零售额；x8x8：财政收入。：财政收入。考虑经济逐年增长，以每年值对上年的比为随机变量考虑经济逐年增长，以每年值对上年的比为随机变量的观测值，的观测值，(见程序中数据表见程序中数据表)对其做因子分析并分析因子

36、对其做因子分析并分析因子含义。含义。下一页上一页data sasuser.ecm1;data sasuser.ecm1;input y x1-x8;input y x1-x8;cards;cards;198019801.11671.11671.10091.10090.98720.98721.05631.05631.06651.06651.19441.19441.18891.18890.98350.9835198119811.06341.06341.06861.06860.99250.99251.00971.00970.89490.89491.06161.06161.09811.09811.00

37、411.0041198219821.09821.09821.08041.08041.05621.05621.07461.07461.26641.26641.07561.07561.09361.09361.03161.0316198319831.11691.11691.11231.11231.06731.06731.0771.0771.12621.12621.05961.05961.10871.10871.11121.1112198419841.11831.11831.19341.19341.09241.09241.11671.11671.2451.2451.21271.21271.1851.1

38、851.20251.2025198519851.26051.26051.2421.2421.09881.09881.1151.1151.41791.41791.22021.22021.2751.2751.24271.2427198619861.14961.14961.11951.11951.03011.03011.11161.11161.17731.17731.20011.20011.14981.14981.2111.211198719871.20941.20941.1851.1851.03571.03571.10321.10321.16151.16151.13341.13341.17581.

39、17581.04851.0485198819881.29311.29311.26041.26041.04971.04971.07181.07181.20231.20231.23131.23131.27841.27841.10941.1094198919891.15651.15651.11251.11251.06091.06091.07411.07410.91770.91771.13051.13051.08991.08991.12171.1217199019901.10191.10191.09171.09171.02251.02251.02411.02411.15511.15511.1271.1

40、271.02451.02451.12371.1237199119911.15161.15161.12051.12051.00891.00891.06791.06791.24311.24311.12631.12631.13441.13441.09011.0901;run;run;下一页上一页proc factor data=proc factor data=sasuser.sasuser.ecm1 ecm1 outstatoutstat=ecfactecfact;varvar x1-x8;x1-x8;run;run;proc print data=proc print data=ecfactec

41、fact;run;run;proc factor data=sasuser.ecm1 priors=max n=2 proc factor data=sasuser.ecm1 priors=max n=2 outstatoutstat=ecfact2 rotate=v;=ecfact2 rotate=v;varvar X1-X8;X1-X8;Run;Run;proc print data=ecfact2;run;proc print data=ecfact2;run;第一个第一个 proc factor proc factor 语句用来调用因子分析过程，处理的数语句用来调用因子分析过程，处理的

42、数据是据是ecm1ecm1，方法是主成份分析，方法是主成份分析,outstatoutstat=输出比输出比out=out=更详尽更详尽,包包括描述统计量、括描述统计量、corr(orcorr(or covcov)、特征根、主因子等、特征根、主因子等；第二个第二个proc factor proc factor 规定了先验公因子方差估计，取相关变规定了先验公因子方差估计，取相关变量的最大值，执行主因子分析；同时要求提取两个因子量的最大值，执行主因子分析；同时要求提取两个因子n=2n=2并并产生方差最大旋转。产生方差最大旋转。下一页返回本节首页上一页说明说明1 1：建建立立了了因因子子分分析析数数

43、学学目目的的不不仅仅仅仅要要找找出出公公共共因因子子以以及及对对变变量量进进行行分分组组，更更重重要要的的要要知知道道每每个个公公共共因因子子的的意意义义，以以便便进进行行进进一一步步的的分分析析，如如果果每每个个公公共共因因子子的的含含义义不不清清，则则不不便便于于进进行行实实际际背背景景的的解解释释。由由于于因因子子载载荷荷阵阵是是不不惟惟一一的的，所所以以应应该该对对因因子子载载荷荷阵阵进进行行旋旋转转。目目的的是是使使因因子子载载荷荷阵阵的的结结构构简简化化，使使载载荷荷矩矩阵阵每每列列或或行行的的元元素素平平方方值值向向0 0和和1 1两两极极分分化化。有有三三种种主主要要的的正正交

44、交旋旋转转法法：四四次方最大法、次方最大法、方差最大法方差最大法和等量最大法。和等量最大法。说明说明2：因子分析与回归分析不同，因子分析中的因因子分析与回归分析不同，因子分析中的因子是一个比较抽象的概念，而回归因子有非常明子是一个比较抽象的概念，而回归因子有非常明确的实际意义；确的实际意义；主成分分析分析与因子分析也有不同，主成主成分分析分析与因子分析也有不同，主成分分析仅仅是变量变换，而因子分析需要构造因分分析仅仅是变量变换，而因子分析需要构造因子模型。子模型。主成分分析主成分分析:原始变量的线性组合表示新的综原始变量的线性组合表示新的综合变量，即主成分；合变量，即主成分；因子分析：潜在的假

45、想变量和随机影响变量因子分析：潜在的假想变量和随机影响变量的线性组合表示原始变量。的线性组合表示原始变量。下一页返回本节首页上一页三、三、聚类分析聚类分析聚类分析简介聚类分析简介聚类分析种类聚类分析种类Q Q型聚类型聚类系统聚类分析：系统聚类分析：直观，易懂；直观，易懂；快速聚类：快速，动态；快速聚类：快速，动态；有序聚类：保序有序聚类：保序(时间顺序或大小顺序时间顺序或大小顺序)；R R型聚类型聚类 CLUSTERCLUSTER过程的一般格式过程的一般格式聚类分析应用聚类分析应用下一页返回本节首页上一页聚类分析简介聚类分析简介俗话说：俗话说：“物以类聚，人以群分物以类聚，人以群分”，在自然

46、科学和社会，在自然科学和社会科学等各领域中，存在着大量的分类问题。例如在档案学中，科学等各领域中，存在着大量的分类问题。例如在档案学中，人们根据档案文件的不同内容把各种文件分别归类存放。在人们根据档案文件的不同内容把各种文件分别归类存放。在营销学中，营销人员根据消费者的消费特征把消费者分成不营销学中，营销人员根据消费者的消费特征把消费者分成不同类型。在生物学中，根据动物的不同习性把动物分成不同同类型。在生物学中，根据动物的不同习性把动物分成不同种类。在经济学中，根据居民家庭生活消费支出结构，把来种类。在经济学中，根据居民家庭生活消费支出结构，把来自不同地区的消费者分成不同的消费层次。在投资学中

47、，根自不同地区的消费者分成不同的消费层次。在投资学中，根据投资者的投资行为把投资者分成风险厌恶型、风险中性和据投资者的投资行为把投资者分成风险厌恶型、风险中性和风险爱好型等等。所有这些涉及根据已知现象的某些风险爱好型等等。所有这些涉及根据已知现象的某些“相似相似”特征进行分类的问题都可归结为统计学中的聚类分析。特征进行分类的问题都可归结为统计学中的聚类分析。下一页上一页所谓聚类分析就是根据样品或指标的所谓聚类分析就是根据样品或指标的“相似相似”特征进行分类的一特征进行分类的一种多元统计分析方法，这里的类就是种多元统计分析方法，这里的类就是“相似相似”元素的集合。聚类分析起元素的集合。聚类分析

48、起源于分类学，只不过早期对现象的分类，由于技术上的落后和对分类要源于分类学，只不过早期对现象的分类，由于技术上的落后和对分类要求不高，人们主要依靠经验和专业知识来进行，很少利用数学工具进行求不高，人们主要依靠经验和专业知识来进行，很少利用数学工具进行定量的研究。随着人类科学技术的发展，对分类的要求越来越高，以致定量的研究。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识难以确切地进行分类，于是人们逐渐地把数学有时仅凭经验和专业知识难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，这便形成了数值分类学这一学科，之后又将多工具引用到了分类学中，这便形成了数值分类

49、学这一学科，之后又将多元分析的技术引入到数值分类学，便又从数值分类学中分离出一个重要元分析的技术引入到数值分类学，便又从数值分类学中分离出一个重要分支分支聚类分析，也称为群分析。与多元分析的其他方法相比，聚类聚类分析，也称为群分析。与多元分析的其他方法相比，聚类分析方法较为粗糙，理论上还不够完善，正处于发展阶段。但是由于该分析方法较为粗糙，理论上还不够完善，正处于发展阶段。但是由于该方法应用方便，分类效果较好，因此越来越为人们所重视。近些年来聚方法应用方便，分类效果较好，因此越来越为人们所重视。近些年来聚类分析的方法发展较快，内容越来越丰富。类分析的方法发展较快，内容越来越丰富。下一页上一页聚

50、类分析的主要步骤聚类分析的主要步骤:根据研究的目的选择合适的聚类变量；根据研究的目的选择合适的聚类变量；计算相似性测度；计算相似性测度；选定聚类方法进行聚类；选定聚类方法进行聚类；对结果进行解释和验证。对结果进行解释和验证。下一页上一页系统聚类分析方法系统聚类分析方法:设有设有N N个样品，每个样品有个样品，每个样品有P P项指标。系统聚类的基本思项指标。系统聚类的基本思想是：首先定义样品间（变量间）的距离（或相似系数）想是：首先定义样品间（变量间）的距离（或相似系数）和类与类之间的距离。一开始将每个样品各自自成一类，和类与类之间的距离。一开始将每个样品各自自成一类，这时类间的距离与样品间的距

展开阅读全文