《算法大全第29章多元分析.pdf》由会员分享,可在线阅读,更多相关《算法大全第29章多元分析.pdf(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-443-第二十九章多元分析多元分析(multivariate analyses)是多变量的统计分析方法,是数理统计中应用广泛的一个重要分支,其内容庞杂,视角独特,方法多样,深受工程技术人员的青睐和广泛使用,并在使用中不断完善和创新。由于变量的相关性,不能简单地把每个变量的结果进行汇总,这是多变量统计分析的基本出发点。1 聚类分析将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程的研究,就形成了历史学,也有关世界空间地域的研究,则形成了地理学。又如在生物学中,为了研究生物的演变,需要对生物进行分类,生物学家根据各种生物的特征,将它们归属于不同的界、门、纲、目、科、属、种之中
2、。事实上,分门别类地对事物进行研究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具有更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。因为无论一个企业多么庞大和成功,它也无法满足整个市场的各种需求。而市场细分,可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点开发目标。通常,人们可以凭经验和专业知识来实现分类。而聚类分析(cluster analyses)作为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。1.1 相似性度量1.1.1 样本的相似性度量要用数量化的方法对事物进行分类,就必须用数量化的方
3、法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用p个变量描述,则每个样本点可以看成是pR空间中的一个点。因此,很自然地想到可以用距离来度量样本点间的相似程度。记是样本点集,距离),(?d是+R的一个函数,满足条件:1)0),(yxd,yx,;2)0),(=yxd当且仅当yx=;3)),(),(xydyxd=,yx,;4)),(),(),(yxdzxdyxd+,zyx,。这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类分析中,对于定量变量,最常用的是Minkowski 距离-444-qpkqkkqyxyxd11),(?-=,0q当
4、2,1=q或+q时,则分别得到1)绝对值距离=-=qkkkyxyxd11),(,(1)2)欧氏距离21122),(?-=pkkkyxyxd,(2)3)Chebyshev 距离kkpkyxyxd-=1max),(。(3)在 Minkowski距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。值得注意的是在采用Minkowski距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算 距 离。在 采 用Minkowsk
5、i距 离 时,还 应 尽 可 能 地 避 免 变 量 的 多 重 相 关 性(multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。由于 Minkowski距离的这些缺点,一种改进的距离就是马氏距离,定义如下4)马氏(Mahalanobis)距离)()(),(1yxyxyxdT-=-(4)其中yx,为来自p维总体Z的样本观测值,为Z的协方差矩阵,实际中往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年来随着数据挖掘研究的深入,这方面的新方法
6、层出不穷。1.1.2 类与类间的相似性度量如果有两个样本类1G和2G,我们可以用下面的一系列方法度量它们间的距离:1)最短距离法(nearest neighbor or single linkage method)-445-),(min),(2121jiGyGxyxdGGDji=,(5)它的直观意义为两个类中最近两点间的距离。2)最长距离法(farthest neighbor or complete linkage method)),(max),(2121jiGyGxyxdGGDji=,(6)它的直观意义为两个类中最远两点间的距离。3)重心法(centroid method)),(),(21y
7、xdGGD=,(7)其中yx,分别为21,GG的重心。4)类平均法(group average method)=12),(1),(2121GxGxjiijxxdnnGGD,(8)它等于21,GG中两两样本点距离的平均,式中21,nn分别为21,GG中的样本点个数。5)离差平方和法(sum of squares method)若记-=1)()(111GxiTiixxxxD,-=2)()(222GxjTjjxxxxD,-=21)()(12GGxkTkkxxxxD,其中=1111Gxiixnx,=2221Gxjjxnx,+=21211GGxkkxnnx则定义211221),(DDDGGD-=(9)事
8、实上,若21,GG内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类又能够充分分离(即12D很大),这时必然有2112DDDD-=很大。因此,按定义可以认为,两类21,GG之间的距离很大。离差平方和法最初是由Ward 在 1936 年提出,-446-后经 Orloci 等人 1976 年发展起来的,故又称为Ward 方法。1.2 系统聚类法 1.2.1 系统聚类法的功能与特点系统聚类法是聚类分析方法中最常用的一种方法。它的优点在于可以指出由粗到细的多种分类情况,典型的系统聚类结果可由一个聚类图展示出来。例如,在平面上有7 个点721,www(如图 1(a),可以用聚类图(如图 1(b)
9、来表示聚类结果。图 1 聚类方法示意图记,721www=,聚类结果如下:当距离值为5f时,分为一类,76543211wwwwwwwG=;距离值为4f分为两类:,3211wwwG=,,76542wwwwG=;距离值为3f分为三类:,3211wwwG=,,6542wwwG=,73wG=;距离值为2f分为四类:,3211wwwG=,,542wwG=,63wG=,74wG=距离值为1f分为六类:,541wwG=,12wG=,23wG=,34wG=,65wG=,76wG=距离小于1f分为七类,每一个点自成一类。-447-怎样才能生成这样的聚类图呢?步骤如下:设,721www=,1)计算n个样本点两两之间
10、的距离ijd,记为矩阵nnijdD=)(;2)首先构造n个类,每一个类中只包含一个样本点,每一类的平台高度均为零;3)合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高度;4)计算新类与当前各类的距离,若类的个数已经等于1,转入步骤5),否则,回到步骤 3);5)画聚类图;6)决定类的个数和类。显而易见,这种系统归类过程与计算类和类之间的距离有关,采用不同的距离定义,有可能得出不同的聚类结果。1.2.2 最短距离法与最长距离法如果使用最短距离法来测量类与类之间的距离,即称其为系统聚类法中的最短距离法(又称最近邻法),最先由Florek 等人 1951 年和 Sneath195
11、7 年引入。下面举例说明最短距离法的计算步骤。例 1 设有 5个销售员54321,wwwww,他们的销售业绩由二维变量),(21vv描述,见表 1。表 1 销售员业绩表销售员1v(销售量)百件2v(回收款项)万元1w1 0 2w1 1 3w3 2 4w4 3 5w2 5 记销售员)5,4,3,2,1(=iwi的销售业绩为),(21iivv。如果使用绝对值距离来测量点与点之间的距离,使用最短距离法来测量类与类之间的距离,即=-=21),(kjkikjivvwwd,),(min),(jiGwGwqpwwdGGDqjpi=-448-由距离公式),(?d,可以算出距离矩阵。?4404205530664
12、105432154321wwwwwwwwww第一步,所有的元素自成一类,543211wwwwwH=。每一个类的平台高度为零,即)5,4,3,2,1(0)(=iwfi。显然,这时),(),(qpqpwwdGGD=。第二步,取新类的平台高度为1,把21,ww合成一个新类6h,此时的分类情况是,54362wwwhH=第三步,取新类的平台高度为2,把43,ww合成一个新类7h,此时的分类情况是,5763whhH=第四步,取新类的平台高度为3,把76,hh合成一个新类8h,此时的分类情况是,584whH=第五步,取新类的平台高度为4,把8h和5w合成一个新类9h,此时的分类情况是95hH=图 2 最短距
13、离法这样,9h已把所有的样本点聚为一类,因此,可以转到画聚类图步骤。画出聚类-449-图(如图2(a)。这是一颗二叉树,如图2(b)。有了聚类图,就可以按要求进行分类。可以看出,在这五个推销员中5w的工作成绩最佳,43,ww的工作成绩最好,而21,ww的工作成绩较差。完全类似于以上步骤,但以最长距离法来计算类间距离,就称为系统聚类法中的最长距离法。计算的 MATLAB程序如下:clc,clear a=1,0;1,1;3,2;4,3;2,5;m,n=size(a);d=zeros(m,m);for i=1:m for j=i+1:m d(i,j)=mandist(a(i,:),a(j,:);en
14、d end d nd=nonzeros(d);nd=union(nd,nd)for i=1:m-1 nd_min=min(nd);row,col=find(d=nd_min);tm=union(row,col);tm=reshape(tm,1,length(tm);s(i)=char(第,int2str(i),次合成,平台高度为,num2str(nd_min),时的分类结果为:,int2str(tm);%上面大括号 代表建立数组 nd(find(nd=nd_min)=;if length(nd)=0 break end end s(:)或者使用 MATLAB统计工具箱的相关命令,编写如下程序:
15、clc,cleara=1,0;1,1;3,2;4,3;2,5;y=pdist(a,cityblock);yc=squareform(y)z=linkage(y)h,t=dendrogram(z)-450-MATLAB中相关命令的使用说明如下:1)pdist Y=pdist(X)计算nm矩阵X(被看作m个大小为n的向量)中两两对象间的欧氏距离。对于有m个对象组成的数据集,共有2/)1(mm?-个两两对象组合。输出Y是包含距离信息的长度为2/)1(mm?-的向量。可用 squareform 函数将此向量转换为方阵,这样可使矩阵中的元素(i,j)对应原始数据集中对象i 和j 间的距离。Y=pdist
16、(X,metric)中用 metric 指定的方法计算矩阵 X中对象间的距离。metric 可取表 2中特征字符串值。表2 metric 取值及含义 字符串 含 义 Euclid 欧氏距离(缺省)SEuclid 标准欧氏距离 Mahal 马氏距离(Mahalanobis距离)CityBlock 绝对值距离 Minkowski 闵氏距离(Minkowski距离)Y=pdist(X,minkowski,p)用闵氏距离计算矩阵 X中对象间的距离。P为闵氏距离计算用到的指数值,缺省为2。2)linkage Z=linkage(Y)使用最短距离算法生成具层次结构的聚类树。输入矩阵 Y为pdist 函数输
17、出的2/)1(mm?-维距离行向量。Z=linkage(Y,method)使用由 method指定的算法计算生成聚类树。method可取表 3中特征字符串值。表3 method取值及含义 字符串 含 义 single 最短距离(缺省)complete 最大距离 average 平均距离 centroid 重心距离 ward 离差平方和方法(Ward 方法)输出Z为包含聚类树信息的3)1(-m矩阵。聚类树上的叶节点为原始数据集中的对象,由 1到m。它们是单元素的类,级别更高的类都由它们生成。对应于Z中行j每个新生成的类,其索引为jm+,其中m为初始叶节点的数量。-451-第1列和第 2列,即Z(
18、i,1:2)包含了被两两连接生成一个新类的所有对象的索引。生成的新类索引为jm+。共有1-m个级别更高的类,它们对应于聚类树中的内部节点。第三列,Z(i,3)包含了相应的在类中的两两对象间的连接距离。3)cluster T=cluster(Z,cutoff)从连接输出(linkage)中创建聚类。cutoff 为定义 cluster函数如何生成聚类的阈值,其不同的值含义如表4所示。表4 cutoff取值及含义 cutoff 取值 含 义 0cutoff2 cutoff 作为不一致系数的阈值。不一致系数对聚类树中对象间的差异进行了量化。如果一个连接的不一致系数大于阈值,则cluster函数将其作
19、为聚类分组的边界。2=cutoff cutoff 作为包含在聚类树中的最大分类数 T=cluster(Z,cutoff,depth,flag)从连接输出(linkage)中创建聚类。参数 depth指定了聚类数中的层数,进行不一致系数计算时要用到。不一致系数将聚类树中两对象的连接与相邻的连接进行比较。详细说明见函数 inconsistent。当参数 depth被指定时,cutoff 通常作为不一致系数阈值。参数flag 重载参数 cutoff 的缺省含义。如flag 为inconsistent,则cutoff 作为不一致系数的阈值。如 flag 为cluster,则 cutoff 作为分类的最
20、大数目。输出T为大小为m的向量,它用数字对每个对象所属的类进行标识。为了找到包含在类i 中的来自原始数据集的对象,可用find(T=i)。4)zsore(X)对数据矩阵进行标准化处理,处理方式为 jjijijsxxx-=其中矩阵nmijxX=)(看作是m个大小为n的向量,jjsx,是每一列的均值和标准差。5)Hdendrogram(Z,P)由linkage 产生的数据矩阵 Z画聚类树状图。P是结点数,默认值是 30。6)T=clusterdata(X,cutoff)将矩阵 X的数据分类。X为nm矩阵,被看作m个大小为n的向量。它与以下几个命令等价:Y=pdist(X,euclid)Z=link
21、age(Y,single)T=cluster(Z,cutoff)7)squareform 将pdist 的输出转换为方阵。-452-8)cophenet c=cophenet(Z,Y)计算相干系数,它是将 Z中的距离信息(由 linkage()函数产生)和Y中的距离信息(由 pdist())函数产生进行比较。Z为3)1(-m矩阵,距离信息包含在第三列。Y是2/)1(mm?-维的行向量。例如,给定距离为 Y的一组对象,2,1m,函数linkage()生成聚类树。cophenet()函数用来度量这种分类的失真程度,即由分类所确定的结构与数据间的拟合程度。输出值 c为相干系数。对于要求很高的解,该值
22、的幅度应非常接近 1。它也可用来比较两种由不同算法所生成的分类解。Z(:,3)和Y之间的相干系数定义为-=jiijjiijjiijijzzyyzzyyc22)()()(其中ijy为Y中对象i和j间的距离;ijz为Z(:,3)中对象i和j间的距离;y和z分别为Y和Z(:,3)的平均距离。1.3 变量聚类法 在实际工作中,变量聚类法的应用也是十分重要的。在系统分析或评估过程中,为避免遗漏某些重要因素,往往在一开始选取指标时,尽可能多地考虑所有的相关因素。而这样做的结果,则是变量过多,变量间的相关度高,给系统分析与建模带来很大的不便。因此,人们常常希望能研究变量间的相似关系,按照变量的相似关系把它们
23、聚合成若干类,进而找出影响系统的主要因素。1.3.1 变量相似性度量 在对变量进行聚类分析时,首先要确定变量的相似性度量,常用的变量相似性度量有两种。1)相关系数 记变量jx的取值),2,1(),(21mjRxxxnTnjjj=。则可以用两变量jx与kx的样本相关系数作为它们的相似性度量 2111221)()()(?-=ninikikjijnikikjijjkxxxxxxxxr,(10)在对变量进行聚类分析时,利用相关系数矩阵是最多的。-453-2)夹角余弦 也可以直接利用两变量jx与kx的夹角余弦jkr来定义它们的相似性度量,有 2112121?=niikniijniikijjkxxxxr(
24、11)各种定义的相似度量均应具有以下两个性质:a)1jkr,对于一切kj,;b)kjjkrr=,对于一切kj,。jkr越接近 1,jx与kx越相关或越相似。jkr越接近零,jx与kx的相似性越弱。1.3.2 变量聚类法 类似于样本集合聚类分析中最常用的最短距离法、最长距离法等,变量聚类法采用了与系统聚类法相同的思路和过程。在变量聚类问题中,常用的有最大系数法、最小系数法等。1)最大系数法 在最大系数法中,定义两类变量的距离为 max),(2121jkGxGxrGGRkj=,(12)这时,),(21GGR等于两类中最相似的两变量间的相似性度量值。2)最小系数法 在最小系数法中,定义两类变量的距离
25、为 min),(2121jkGxGxrGGRkj=,(13)这时,),(21GGR等于两类中相似性最小的两个变量间的相似性度量值。例2 服装标准制定中的变量聚类法。在服装标准制定中,对某地成年女子的各部位尺寸进行了统计,通过14个部位的测量资料,获得各因素之间的相关系数表(见表2)。表5 成年女子各部位相关系数 1x2x3x4x5x6x7x8x9x10 x11x12x13x14x-454-1x1 2x0.366 1 3x0.242 0.233 1 4x0.28 0.194 0.59 1 5x0.36 0.324 0.476 0.435 1 6x0.282 0.262 0.483 0.47 0.
26、4521 7x0.245 0.265 0.54 0.478 0.5350.6631 8x0.448 0.345 0.452 0.404 0.4310.3220.2661 9x0.486 0.367 0.365 0.357 0.4290.2830.2870.82 1 10 x0.648 0.662 0.216 0.032 0.4290.2830.2630.5270.5471 11x0.689 0.671 0.243 0.313 0.43 0.3020.2940.52 0.5580.9571 12x0.486 0.636 0.174 0.243 0.3750.2960.2550.4030.4170
27、.8570.852 1 13x0.133 0.153 0.732 0.477 0.3390.3920.4460.2660.2410.0540.099 0.055 1 14x0.376 0.252 0.676 0.581 0.4410.4470.44 0.4240.3720.3630.376 0.321 0.627 1 其中-1x上体长,-2x手臂长,-3x胸围,-4x颈围,-5x总肩围,-6x总胸宽,-7x后背宽,-8x前腰节高,-9x后腰节高,-10 x总体长,-11x身高,-12x下体长,-13x腰围,-14x臀围。用最大系数法对这14个变量进行系统聚类,分类结果如图3。101112 2
28、1 8 9 31314 4 5 6 700.10.20.30.40.50.60.70.80.91图3 成年女子 14个部位指标的聚类图-455-计算的 MATLAB程序如下:%把下三角相关系数矩阵粘贴到纯文本文件ch.txt中 a=textread(ch.txt);for i=1:14 a(i,i)=0;end b=a(:);b=nonzeros(b);b=b;b=1-b;z=linkage(b,complete);y=cluster(z,2)dendrogram(z)ind1=find(y=2);ind1=ind1 ind2=find(y=1);ind2=ind2 可以看出,人体的变量大体可
29、以分为两类:一类反映人高、矮的变量,如上体长,手臂长,前腰节高,后腰节高,总体长,身高,下体长;另一类是反映人体胖瘦的变量,如胸围,颈围,总肩围,总胸宽,后背宽,腰围,臀围。2 聚类分析案例我国各地区普通高等教育发展状况分析聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。本案例运用 Q型和 R型聚类分析方法对我国各地区普通高等教育的发展状况进行分析。1案例研究背景 近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。但由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展
30、的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特点。对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育发展状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体发展现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。2案例研究过程(1)建立综合评价指标体系 高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相关方面。遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体如图4。(2)数据资料 指标的原始数据取自中国统计年鉴,1995和中国教育统计年鉴,1995除以各地区相应的人口数
31、得到十项指标值见表6。其中:1x为每百万人口高等院校数;2x为每十万人口高等院校毕业生数;3x为每十万人口高等院校招生数;4x为每十万人口高等院校在校生数;5x为每十万人口高等院校教职工数;6x为每十万人口高等院校专职-456-教师数;7x为高级职称占专职教师的比例;8x为平均每所高等院校的在校生数;9x为国家财政预算内普通高教经费占国内生产总值的比重;10 x为生均教育经费。图4 高等教育的十项评价指标 表6 我国各地区普通高等教育发展状况数据地区 1x2x3x4x5x6x7x8x9x10 x北京 5.96 310 461 1557 931 319 44.36 2615 2.20 13631
32、 上海 3.39 234 308 1035 498 161 35.02 3052.90 12665 天津 2.35 157 229 713 295 109 38.40 3031.86 9385 陕西 1.35 81 111 364 150 58 30.45 2699 1.22 7881 辽宁 1.50 88 128 421 144 58 34.30 2808.54 7733 吉林 1.67 86 120 370 153 58 33.53 2215.76 7480 黑龙江 1.17 63 93 296 117 44 35.22 2528.58 8570 湖北 1.05 67 92 297 115
33、 43 32.89 2835.66 7262 江苏.95 64 94 287 102 39 31.54 3008.39 7786 广东.69 39 71 205 61 24 34.50 2988.37 11355 四川.56 40 57 177 61 23 32.62 3149.55 7693 山东.57 58 64 181 57 22 32.95 3202.28 6805 甘肃.71 42 62 190 66 26 28.13 2657.73 7282 湖南.74 42 61 194 61 24 33.06 2618.47 6477 浙江.86 42 71 204 66 26 29.94 2
34、363.25 7704 新疆 1.29 47 73 265 114 46 25.93 2060.37 5719 福建 1.04 53 71 218 63 26 29.01 2099.29 7106 山西.85 53 65 218 76 30 25.63 2555.43 5580 河北.81 43 66 188 61 23 29.82 2313.31 5704 -457-安徽.59 35 47 146 46 20 32.83 2488.33 5628 云南.66 36 40 130 44 19 28.55 1974.48 9106 江西.77 43 63 194 67 23 28.81 2515
35、.34 4085 海南.70 33 51 165 47 18 27.34 2344.28 7928 内蒙古.84 43 48 171 65 29 27.65 2032.32 5581 西藏 1.69 26 45 137 75 33 12.10 810 1.00 14199 河南.55 32 46 130 44 17 28.41 2341.30 5714 广西.60 28 43 129 39 17 31.93 2146.24 5139 宁夏 1.39 48 62 208 77 34 22.70 1500.42 5377 贵州.64 23 32 93 37 16 28.12 1469.34 541
36、5 青海 1.48 38 46 151 63 30 17.87 1024.38 7368 (3)R 型聚类分析 定性考察反映高等教育发展状况的五个方面十项评价指标,可以看出,某些指标之间可能存在较强的相关性。比如每十万人口高等院校毕业生数、每十万人口高等院校招生数与每十万人口高等院校在校生数之间可能存在较强的相关性,每十万人口高等院校教职工数和每十万人口高等院校专职教师数之间可能存在较强的相关性。为了验证这种想法,运用MATLAB 软件计算十个指标之间的相关系数,相关系数矩阵如表6所示。表6 相关系数矩阵1x2x3x4x5x6x7x8x9x10 x1x1.0000 0.9434 0.9528
37、0.95910.97460.97980.40650.0663 0.8680 0.66092x0.9434 1.0000 0.9946 0.99460.97430.97020.61360.3500 0.8039 0.59983x0.9528 0.9946 1.0000 0.99870.98310.98070.62610.3445 0.8231 0.61714x0.9591 0.9946 0.9987 1.00000.98780.98560.60960.3256 0.8276 0.61245x0.9746 0.9743 0.9831 0.98781.00000.99860.55990.2411 0
38、.8590 0.61746x0.9798 0.9702 0.9807 0.98560.99861.00000.55000.2222 0.8691 0.61647x0.4065 0.6136 0.6261 0.60960.55990.55001.00000.7789 0.3655 0.15108x0.0663 0.3500 0.3445 0.32560.24110.22220.77891.0000 0.1122 0.04829x0.8680 0.8039 0.8231 0.82760.85900.86910.36550.1122 1.0000 0.683310 x0.6609 0.5998 0.
39、6171 0.61240.61740.61640.15100.0482 0.6833 1.0000可以看出某些指标之间确实存在很强的相关性,因此可以考虑从这些指标中选取-458-几个有代表性的指标进行聚类分析。为此,把十个指标根据其相关性进行R型聚类,再从每个类中选取代表性的指标。首先对每个变量(指标)的数据分别进行标准化处理。变量间相近性度量采用相关系数,类间相近性度量的计算选用类平均法。聚类树型图见图5。3 4 2 5 6 1 910 7 800.050.10.150.20.250.30.35图 5 指标聚类树型图计算的 MATLAB程序如下:load gj.txt%把原始数据保存在纯文本
40、文件gj.txt 中r=corrcoef(gj);%计算相关系数矩阵d=tril(r);%取出相关系数矩阵的下三角元素for i=1:10%对角线元素化成零 d(i,i)=0;end d=d(:);d=nonzeros(d);%取出非零元素d=d;d=1-d;z=linkage(d)dendrogram(z)从聚类图中可以看出,每十万人口高等院校招生数、每十万人口高等院校在校生数、每十万人口高等院校教职工数、每十万人口高等院校专职教师数、每十万人口高等院校毕业生数5个指标之间有较大的相关性,最先被聚到一起。如果将 10 个指标分为6 类,其它 5 个指标各自为一类。这样就从十个指标中选定了六个
41、分析指标:1x:每百万人口高等院校数;2x:每十万人口高等院校毕业生数;7x:高级职称占专职教师的比例;8x:平均每所高等院校的在校生数;-459-9x:国家财政预算内普通高教经费占国内生产总值的比重;10 x:生均教育经费。可以根据这六个指标对30 个地区进行聚类分析。(4)Q 型聚类分析根据这六个指标对30个地区进行聚类分析。首先对每个变量的数据分别进行标准化处理,样本间相近性采用欧氏距离度量,类间距离的计算选用类平均法。聚类树型图见图6。19262722142016241815231721 5 8 7 6 912111310 4282930 2 325 1012345678图6 各地区聚
42、类树型图 计算的 MATLAB程序如下:load gj.txt%把原始数据保存在纯文本文件gj.txt中gj(:,3:6)=;gj=zscore(gj);y=pdist(gj);z=linkage(y)dendrogram(z,average)4案例研究结果 各地区高等教育发展状况存在较大的差异,高教资源的地区分布很不均衡。如果根据各地区高等教育发展状况把30 个地区分为三类,结果为:第一类:北京;第二类:西藏;第三类:其他地区。如果根据各地区高等教育发展状况把30个地区分为四类,结果为:第一类:北京;第二类:西藏;第三类:上海天津;第四类:其他地区。如果根据各地区高等教育发展状况把30个地区
43、分为五类,结果为:第一类:北京;第二类:西藏;第三类:上海天津;第四类:宁夏、贵州、青海;第五类:其他地区。从以上结果结合聚类图中的合并距离可以看出,北京的高等教育状况与其它地区相比有非常大的不同,主要表现在每百万人口的学校数量和每十万人口的学生数量以及国-460-家财政预算内普通高教经费占国内生产总值的比重等方面远远高于其他地区,这与北京作为全国的政治、经济与文化中心的地位是吻合的。上海和天津作为另外两个较早的直辖市,高等教育状况和北京是类似的状况。宁夏、贵州和青海的高等教育状况极为类似,高等教育资源相对匮乏。西藏作为一个非常特殊的民族地区,其高等教育状况具有和其他地区不同的情形,被单独聚为
44、一类,主要表现在每百万人口高等院校数比较高,国家财政预算内普通高教经费占国内生产总值的比重和生均教育经费也相对较高,而高级职称占专职教师的比例与平均每所高等院校的在校生数又都是全国最低的。这正是西藏高等教育状况的特殊之处:人口相对较少,经费比较充足,高等院校规模较小,师资力量薄弱。其他地区的高等教育状况较为类似,共同被聚为一类。针对这种情况,有关部门可以采取相应措施对宁夏、贵州、青海和西藏地区进行扶持,促进当地高等教育事业的发展。3 主成分分析 主成分分析(principal component analysis)是1901年Pearson对非随机变量引入的,1933年Hotelling将此方
45、法推广到随机向量的情形,主成分分析和聚类分析有很大的不同,它有严格的数学理论作基础。主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。3.1 基本思想及方法 如果用pxxx,21表示p门课程,pccc,21表示各门课程的权重,那么加权之和就是 ppxcxcxcs+=2211 (14)我们希望选择适当的权重能更好地区分学生的成绩。每个学生都对应一个这样的综合成绩,记为
46、nsss,21,n为学生人数。如果这些值很分散,表明区分得好,即是说,需要寻找这样的加权,能使nsss,21尽可能的分散,下面来看它的统计定义。设pXXX,21表示以pxxx,21为样本观测值的随机变量,如果能找到pccc,21,使得)(Var2211ppXcXcXc+(15)的值达到最大,则由于方差反映了数据差异的程度,因此也就表明我们抓住了这p个变量的最大变异。当然,(15)式必须加上某种限制,否则权值可选择无穷大而没有意-461-义,通常规定 122221=+pccc(16)在此约束下,求(15)式的最优解。由于这个解是-p维空间的一个单位向量,它代表一个“方向”,它就是常说的主成分方向
47、。一个主成分不足以代表原来的p个变量,因此需要寻找第二个乃至第三、第四主成分,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主成分的协方差为零,几何上就是这两个主成分的方向正交。具体确定各个主成分的方法如下。设iZ表示第i个主成分,pi,2,1=,可设?+=+=+=ppppppppppXcXcXcZXcXcXcZXcXcXcZ22112222121212121111(17)其中对每一个i,均有122221=+ipiiccc,且),(11211pccc使得)(Var1Z的值达到最大;),(22221pccc不仅垂直于),(11211pccc,而且使)(Var2Z的值达到最大
48、;),(33231pccc同时垂直于),(11211pccc和),(22221pccc,并使)(Var3Z的值达到最大;以此类推可得全部p个主成分,这项工作用手做是很繁琐的,但借助于计算机很容易完成。剩下的是如何确定主成分的个数,我们总结在下面几个注意事项中。1)主成分分析的结果受量纲的影响,由于各变量的单位可能不一样,如果各自改变量纲,结果会不一样,这是主成分分析的最大问题,回归分析是不存在这种情况的,所以实际中可以先把各变量的数据标准化,然后使用协方差矩阵或相关系数矩阵进行分析。2)为使方差达到最大的主成分分析,所以不用转轴(由于统计软件常把主成分分析和因子分析放在一起,后者往往需要转轴,
49、使用时应注意)。3)主成分的保留。用相关系数矩阵求主成分时,Kaiser 主张将特征值小于 1的主成分予以放弃(这也是 SPSS 软件的默认值)。4)在实际研究中,由于主成分的目的是为了降维,减少变量的个数,故一般选取少量的主成分(不超过 5或6个),只要它们能解释变异的7080(称累积贡献率)就行了。下面我们直接通过主成分估计(principle estimate)进一步阐述主成分分析的基本思想和相关概念。3.2 主成分估计-462-主成分估计(principal component estimate)是Massy 在1965年提出的,它是回归系数参数的一种线性有偏估计(biased est
50、imate),同其它有偏估计,如岭估计(ridge estimate)等一样,是为了克服最小二乘(LS)估计在设计阵病态(即存在多重共线性)时表现出的不稳定性而提出的。主成分估计采用的方法是将原来的回归自变量变换到另另一组变量,即主成分,选择其中一部分重要的主成分作为新的自变量(此时丢弃了一部分,影响不大的自变量,这实际达到了降维的目的),然后用最小二乘法对选取主成分后的模型参数进行估计,最后再变换回原来的模型求出参数的估计。设有p个回归(自)变量pxxx,21,它在第i次试验中的取值为 ipiixxx,21(ni,2,1=)将它们写成矩阵形式?=npnnpppxxxxxxxxxxxxX212