《应用统计学经济与管理中的数据分析12.pdf》由会员分享,可在线阅读,更多相关《应用统计学经济与管理中的数据分析12.pdf(113页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十二章第十二章 聚类分析和判别分析聚类分析和判别分析 聚类分析聚类分析 判别分析判别分析 统计软件应用统计软件应用 12.1 聚类分析聚类分析 一、聚类分析概述一、聚类分析概述 二、距离和相似系数二、距离和相似系数 三、系统聚类法三、系统聚类法 四、动态聚类法四、动态聚类法 一、聚类分析概述一、聚类分析概述 将分析对象进行分类的最常用的多元统计方法是聚类分析聚类分析(cluster analysis)。定义定义:聚类分析是将个体或对象分类,使得同一类的对象之间的相似性比与其他类的对象之间的相似性更强。目的:目的:使同类间对象的同质性最大化和类与类间对象的异质性最大化。功能:功能:将样品或变量
2、,按照它们在性质上的亲疏、相似程度进行分类。分类:分类:根据分类对象的不同又分为R型聚类(R-type cluster)和Q型聚类(Q-type cluster)两大类,R型聚类是对变量(指标)进行分类,Q型聚类是对样品进行分类。聚类方法:聚类方法:最常用的聚类方法是系统聚类法和K-均值聚类法。此外,还有模糊聚类法、有序样品聚类法、分解法和加入法等。本节重点介绍在实际中应用最广泛的系统聚类法和K-均值聚类法,且主要讨论Q型聚类分析问题。聚类分析聚类分析是将一批样品或变量按照它们在性质上的亲疏程度或相似程度来进行分类。研究样品或变量的亲疏程度的数量指标有以下两种:距离:距离:将每一个样品看作p维
3、空间的一个点,并用某种度量测量点与点之间的距离,距离较近的点归为一类,距离较远的点应属于不同的类;相似系数:相似系数:性质越接近的变量或样品,它们的相似系数越接近于1或-l,而彼此无关的变量或样品,它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。样品样品之间的聚类,常用距离距离来测度样品之间的亲疏程度。而变量变量之间的聚类,常用相似系数相似系数来测度变量之间的亲疏程度。数据变换:数据变换:将原始数据矩阵中的每个元素,按照某种特定的运算把它变成为一个新值,而且数值的变化不依赖于原始数据集合中其他数据的新值。设有n个样品X1,X2,Xn,对每个样品就其p个指标(变量)x1,x2,xp进
4、行观测,可得 ,其中xij表示第i个样品的第j个指标,如数据矩阵所示。12(,)iiiipxxxX二、距离和相似系数二、距离和相似系数 (一)数据的变换处理数据的变换处理 变量 样品 1x 2x px 1X 11x 12x 1px 2X 21x 22x 2px nX 1nx 2nx npx 数据矩阵数据矩阵 中心化变换:中心化变换:先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据,即:中心化变换的结果是使每列数据之和均为0,即每个变量的均值为0,而且每列数据的平方和是该列变量样本方差的(n-1)倍,任何不同两列数据的交叉乘积是这两列变量样本协方差的(n-1)
5、倍。*ijijjxxx,1,2,1,2,injp;1.中心化变换中心化变换 规格化变换:规格化变换:数据矩阵每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。即:变换后的数据矩阵中每列的最大数值为1,最小数值为0,其余数据在01之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。1,2,*min()ijijinijjxxxR,1,2,in;1,2,jp 1,2,1,2,max()min()jijijininRxx,*01ijx 2.极差规格化变换极差规格化变换 标准化变换:标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即:标准化变
6、换处理后的每个变量的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。变换后,数据矩阵中任何两列数据乘积之和是两个变量相关系数的(n-1)倍。*ijjijjxxxs,1,2,1,2,)injp;3.标准化变换标准化变换 用dij表示样品Xi与Xj之间的距离,一般要求:(1),对一切i,j;当 ,即每个样品的每个指标值都相等。(2)dij=dji,对一切i,j。(3),对一切i,j,k(三角不等式)。0ijd 0ijijd XX ijikkjddd(二二)定义距离的准则定义距离的准则 对于定量变量,闵可夫斯基距离(Minkowski distance)最常用,样品Xi与Xj之
7、间的闵可夫斯基距离(简称闵氏距离)定义为:其中,q为某一自然数。11()|pqqijikjkkdqxx (三三)常用的距离常用的距离 1.闵可夫斯基距离闵可夫斯基距离 闵氏距离有以下三种特殊形式:(1)当q=1时,称为绝对值距离,常被形象地称为“城市街区”距离(block distance)。(2)当q=2时,称为欧氏距离(Euclidean distance),这是聚类分析中最常用的一个距离。(3)当q=时,称为切比雪夫距离(Chebychev distance)。1(1)|pijikjkkdxx 1221(2)|pijikjkkdxx 1()max|ijikjkkpdxx 闵可夫斯基距离主
8、要有以下两个缺点:两个缺点:(1)闵可夫斯基距离的数值依赖于各变量计量依赖于各变量计量单位单位的选择。因此,当各变量的单位不同或测量值范围相差很大时,应该先对各变量的数据进行标准化处理,再计算距离。(2)闵可夫斯基距离的定义没有考虑各个变量没有考虑各个变量之间的相关性和重要性之间的相关性和重要性。设X,Y为取自均值为,协方差为 的总体G中的任意两个样品,定义X与Y的马氏距离为马氏距离为:定义样品X与总体G的马氏距离为X与 的马氏距离,即:若总体协方差矩阵 未知,则可用样本协方差矩阵作为估计代替计算。(0)112(,)()()pdX YXYXY 112(,)()()pdGXXX 2.马氏距离马氏
9、距离 马氏距离又称为广义欧氏距离,与闵氏距离相比,马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离也考虑到了各个观测指标取值的差异程度。马氏距离不受变量单位的影响,是一个无单位的数值。兰氏距离(Lance distance)的定义为:此距离仅适用于 的情况,其有助于克服各变量计量单位的影响,但没有考虑变量之间的相关性。这是一个自身标准化的量,由于它对大的奇异值不敏感,这样使得它特别适合于高度偏倚的数据。1|1()ijpikjkkikjkxxdLpxx,,1,
10、2,i jn 0ijx 3.兰氏距离兰氏距离 设有n个样品X1,X2,Xn,对每个样品就其p个指标(变量)x1,x2,xp进行观测,得到 ,其中xij表示第i个样品的第j个指标。变量之间的相关系数为:其中,。12(,)iiiipxxxX 12211()()|1()()nkiikjjkijijnnkiikjjkkxxxxrrxxxx,11nikikxxn 11njkjkxxn(四四)相似系数相似系数 1.相关系数相关系数 夹角余弦(Cosine)的计算式为:把两列列间相似系数算出来后,排成矩阵为:其中,根据 对p个变量进行分类。12211cosnkikjkijnnkikjkkx xxx 1112
11、12122212coscoscoscoscoscos coscoscospppppp 1122coscoscos=1pp 2.夹角余弦夹角余弦 系 统 聚 类 法系 统 聚 类 法 又 称 层 次 聚 类 法(hierarchical cluster method),在实际应用中使用最多,是将类由多变少的一种方法。主要思想:主要思想:开始将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。三、系统聚类法三、系统聚类法 用dij表示样品Xi和样品Xj之间的距离
12、,用G1,G2表示类,用Dpq表示Gp和Gq两类间的距离。所有方法一开始每个样品自成一类,类与类之间的距离与样品之间的距离相等(除离差平方和法外),即Dpq=dpq,所以起初的距离矩阵全部相同,记为D(0)=(dpq)。本节将介绍八种常用的系统聚类方法,其区别在于类与类之间距离的计算方法的不同。最短距离法:最短距离法:类与类之间的距离为两类中距离最近的样品之间的距离,即:最短距离法聚类的步骤:最短距离法聚类的步骤:(1)定义样品之间的距离,计算n个样品的距离矩阵D(0),它是一个的对称矩阵。开始每个样品自成一类,这时Dij=dij。,minmin,ipjqpqijijipjqGGDddGGXX
13、XX(一一)最短距离法最短距离法(nearest neighbor method)(2)找出D(0)中非对角最小元素,记为Dpq,将Gp和Gq合并成一新类,记为Gr,Gr=Gp,Gq。(3)计算新类与其他类之间的距离,有:将D(0)中p,q行和p,q列用上面公式并成一个新行新列,得到的矩阵记为D(1)。(4)对D(1)像D(0)那样重复(2)、(3)两步得到的矩阵记为D(2)。如此进行下去直到全部并成一类。注:注:如果某一步D(k)中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。,minminmin,minmin,irjkipjkiqjkrkijijijpkqkGGGGGGD
14、dddDDXXXXXX 【例例12-1】某保险公司5个保险推销员的保险销售量x1和受教育水平得分x2如下表所示,试用最短距离法将他们进行聚类。保险销售量和受教育水平得分 保险推销员 1x 2x 1 1 0 2 1 1 3 4 2 4 6 2 5 7 4 解解:样本间采用绝对值距离,计算样品间的距离矩阵D(0)(对称阵),如下表所示。距离矩阵(0)D 1G 2G 3G 4G 5G 1G 0 2G 1 0 3G 5 4 0 4G 7 6 2 0 5G 10 9 5 3 0 D(0)中的最小元素为D12=1,于是将G1和G2合并成新类G6,计算G6与其他类的距离得到D(1),如下表所示。距离矩阵(1
15、)D 6G 3G 4G 5G 6G 0 3G 4 0 4G 6 2 0 5G 9 5 3 0 D(1)中的最小元素为D34=2,于是将G3和G4合并成新类G7,计算G7与其他类的距离得到D(2),如下表所示。距离矩阵(2)D 6G 7G 5G 6G 0 7G 4 0 5G 9 3 0 距离矩阵(3)D 6G 8G 6G 0 8G 4 0 D(2)中的最小元素为D57=3,于是将G5和G7合并成新类G8,计算G8与其他类的距离得到D(3),如下表所示。最后将G6和G8合并成新类G9,到此为止,所有样品均合并为一类,聚类过程终止。上述过程可以画成谱系图,如下图所示,横坐标为聚类的距离。可以看出,将
16、5个保险推销员分成两类1,2及3,4,5比较合适。0 1 2 3 4 G1 G2 G6 4 G9 2 G7 3 G8 1 G5 G3 G4 最短距离法谱系图 最长距离法:最长距离法:类与类之间的距离为两类中相距最远的样品间的距离,即:最长距离法的并类步骤与最短距离法一致,区别在于:(1)距离定义不同;(2)计算新类与其他类的距离的公式不同。这也是各聚类方法之间的区别。最长距离法经常会受到异常值的影响,可将这些异常值删除后再进行聚类。,maxmaxmax,maxmax,ikjrikjpikjqkrijijijkpkqGGGGGGDdddDDXXXXXX(二二)最长距离法最长距离法(furthes
17、t neighbor method)中间距离法:中间距离法:类与类之间的距离为最近距离与最远距离之间的距离,即:以Dkq,Dkp,Dpq为边作三角形。若用最短距离法,则Dkr=Dkp;若用最长距离法,则Dkr=Dkq;若用中间距离法,则Dkr就是三角形的中线。2222111224krkpkqpqDDDD pG qG kpD pqD krD kqD kG(三三)中间距离法中间距离法(median clustering method)重心法:重心法:两类之间的距离为它们重心(均值)之间的距离。设Gp与Gq的重心分别是 (即该类样品的均值),则Gp与Gq之间的距离是 。设Gp与Gq分别有样品np,n
18、q个,将Gp与Gq合并为Gr的样品数为nr=np+nq,重心为 。Gk的重心是 ,采用欧氏距离,则它与Gr的距离为:重心法能较有效地处理异常值。pq和XX pqpqDdX X 1()rppqqrnnnXXX kX2222+pqpqkrkpkqpqrrrrnnn nDDDDnnn n(四四)重心法重心法(centroid clustering method)类平均法:类平均法:两类之间的距离平方为这两类样品两两之间距离平方的平均,即:式中,np,nq 分别为类Gp与Gq 的样品个数;dij为Gp中的样品i与Gq中的样品j之间的距离。将Gp和Gq合并为Gr后,任一类Gk与Gr的距离为:221ipj
19、qpqijGGpqDdn n XX 22222211ikjrikjpikjqpqkrijijijkpkqGGGGGGkrkrrrnnDdddDDn nn nnn XXXXXX(五五)类平均法类平均法(group average method)现对例12-1采用类平均法进行聚类,具体步骤如下。将原数据表中各数取平方,计算得到 ,如下表所示。2(0)D2(0)D 2(0)D 1G 2G 3G 4G 5G 1G 0 2G 1 0 3G 25 16 0 4G 49 36 4 0 5G 100 81 25 9 0 为 中的非对角线最小元素,于是将G1和G2合并成新类G6,并分别计算G6与其他类的距离,这
20、里n1=n2=1,n6=2,计算得 ,同理计算 和 ,得到 ,如下表所示。2121D 2(0)D 2223613231120.522DDD 246D256D2(1)D2(1)D 2(1)D 6G 3G 4G 5G 6G 0 3G 20.5 0 4G 42.5 4 0 5G 90.5 25 9 0 对 重复上述步骤,将和合并成新类,将G3和G4合并成新类G7,再将G5和G7合并成新类G8,最后将G6和G8合并成新类G9,聚类过程结束,得到谱系图,如下图所示。2(1)D 0 2 4 6 8 3G 4G 5G 8G G7 1G 2G 6G 9G 类平均法谱系图 可变类平均法:可变类平均法:两类之间的
21、距离同类平均法两点之间距离,只是将任一类Gk与新类Gr的距离改为:式中,是可变的,且 1。2222(1)(1)pqkrkpkqpqrrnnDDDDnn(六六)可变类平均法可变类平均法 可变法:可变法:两类之间的距离同类平均法两点之间距离,只是新类Gr与任一类Gk的距离公式为:式中,是可变的,且 1。显然在可变类平均法中取 ,即为上式。22221()2krkpkqpqDDDD 12pqrrnnnn(七七)可变法可变法 离差平方和法:离差平方和法:若分类正确,同类样品的离差平方和应当较小,不同类样品之间的离差平方和应当较大。nt表示Gt中的样品个数,是Gt的重心,则Gt中样品的离差平方和为:k个类
22、的类内离差平方和为:()tX()()()()1()()tntttttiiiSXXXX()()()()111()()tnkktttttiittiSSXXXX(八八)离差平方和法离差平方和法(Wards method)步骤:步骤:先将n个样品各自成一类,然后每次缩小一类,选择使S增加最小的两类合并,直到所有的样品归为一类为止。如果将Gp与Gq的距离定义为:其中GrGpGq,就可以使离差平方和法和前七种系统聚类方法统一起来,且可证明离差平方和法合并类的距离公式为:2pqrpqDSSS 2222kpkqkkrkpkqpqrkrqrknnnnnDDDDnnnnnn 当采用欧氏距离时,八种方法有统一形式的
23、递推公式:其中,参数p、q、对不同的方法有不同的取值,下表给出了上述八种方法中参数的取值。一般情况下,用不同的方法聚类的结果是不会完全一致的。222222krpkpqkqpqkpkqDDDDDD(九九)系统聚类方法的统一系统聚类方法的统一 聚类方法参数取值 方法 p q 最短距离法 1/2 1/2 0-1/2 最长距离法 1/2 1/2 0 1/2 中间距离法 1/2 1/2-1/4 0 重心法 np/nr nq/nr-pq 0 类平均法 np/nr nq/nr 0 0 可变类平均法(1-)np/nr(1-)nq/nr 1 0 可变法(1-)/2(1-)/2 0,则运用马氏距离的距离判别函数为
24、 ,其中 ,相应的判别准则为:当 ,判别 ;当 ,判别 ;当 ,待判。在实际问题中,各总体的均值向量 ,和共同的协方差矩阵 通常是未知的。解决方法如下:设 是来自 的样本(i=1,2),则有:1G2G 12,112()()()YXX 122 ()0YX()0YX()0YX 1GX2GX 1 2 ()()()12,iiiinXXX iG1(1)(1)1111niinXX,2(2)(2)2121 niinXX,线性判别函数为 ,有 ;时,待判。(1)(2)1211=()()22XXX,()()()()1()()iniiiiitttSXXXX(1,2i),12121()2nnSS (1)(2)1()
25、()()YXXXXX 1()0YGXX 2()0YGXX()0YX 2.时的判别时的判别 一种方式是采用距离判别法作为判别规则。另一种方式是,选择判别函数为:判别规则为:均值向量和协方差位置时,采用 ,的估计值 和 ,和 的估计值为 和 。12 221112111222()(,)(,)=()()()()ppYdGdGXXXXXXX 12()0()0()0GYGYY,当,当待判,当XXXXX 1 2 (1)X(2)X 1 2 11111nS 22211nS 设有k个总体 ,对任一样品X,可将其判归为距离X最近的那个类。即:当采用马氏距离,且有 时,可得:其中,则判别规则为:判别规则为:12,kG
26、 GG 221,2,(,)min(,)ljjkdGdGXX 12k21(,)()()jjjdGXXX111122jjjXXX =12()jfXXX ()jfX1112jjjX 221,2,(,)min(,)lljjkGdGdG=XXX21,2,max()ljjkdGf(,)XX(三)多个总体的距离判别 当各总体的的均值和协方差未知时,均值向量的估计值为:协方差的估计,分以下两种情况考虑:(1)当 时,的联合无偏估计为 ,其中 ,。(2)当 不全相等时,可估计为 。()()11iniiittinXX,1,2,ik 12k 11kpiinkSS 12knnnn()()()()1()()iniiii
27、itttSXXXX 12,k i ()1(1,)1iiiiknS 【例例12-2】某电子产品厂家生产出一款新式的笔记本电脑,其将新产品的样品分寄给九个城市的专营店,并附寄调查意见表征求对新产品的评价。评价分为质量、性能、外观三个方面,以十分制评分,评价表的结果如下表所示。如果一个顾客对产品的质量、性能、外观的评价分别为6、8、8,判别其属于哪一类别。评价表结果表 组 别 样 本 点 质量1x 性能2x 外观3x 喜欢者组 1 8 9.5 7 2 9 8.5 6 3 7 8.0 9 4 10 7.5 8.5 5 8 6.5 7 喜欢者组平均值(1)X 8.4 8.0 7.5 不喜欢者组 1 6
28、3 5.5 2 3 4 3.5 3 4 2 5 4 3 5 4 不喜欢者组平均值(2)X 4.0 3.5 4.5 8.4483.57.54.5,=(6.2,5.75,6)222X(1)(2)12(8.44,83.5,7.54.5)(4.4,4.5,3)XX 125.20.51633.50.551.25352.511.2563.52.52.5 ,SS 1211.23.52.511()3.5101.2554272.51.258.5SS 解:解:(1)(2)1()()()YXXXXX 1230.770.280.284.4=(6.25.756)0.280.840.214.50.280.210.913x
29、xx 123=3.8084.3820.55352.124xxx 可得:所以,通过距离判别法可以判定这位顾客属于喜欢组。0()3.808 64.382 80.553 8 52.12462.328 52.1240Y X三、三、Bayes判别法判别法 Bayes判别法判别法(Bayesian discriminant method)既考虑到了各个总体出现的先验概率,又考虑到了错判造成的损失。k个总体 ,分布密度函数为 且互不相同,各自出现的先验概率为 ,其中,。最大后验概率准则是将样品 判别到后验概率最大的那一类,即:12,kG GG 12(),(),()kf xfxfx 12,kq qq 0iq
30、11kiiq 0 x0001()(|)()lllkjjjq f xP Gxq fx00101()max()iilki kjjjq f xxGq fx (一)最大后验概率准则 【例12-3】设有G1、G2和G3三个组,已知q1=0.05,q2=0.65,q3=0.30,f1(x0)=0.10,f2(x0)=0.63,f3(x0)=2.4。现欲判断某样品x0属于何组。解:解:现计算x0属于各个总体的后验概率如下:所以,应将x0判归为G3。11010301()(|)0.004()jjjq f xP Gxq fx22020301()(|)0.361()jjjq fxP Gxq fx33030301()
31、(|)0.635()jjjq fxP Gxq fx 将本来属于 总体的样品错判到总体 时造成的损失为 ,其中,。设k个总体相应的p维样本空间为 ,是 上互不相交的子集,并满足 ,即 为 的一个划分,记判别规则为:。在规则R下,将属于 的样品错判为 的概率为:样品错判后所造成的平均损失为:iGjG(),1,2,C j ii jk,(|)0C i i,(|)0C j i 12,kR RR pR 1kpiiRR 12,kR RR pR 12(,)kRR RR iGjG(|,)(|)()d ,1,2,jjiiRP j i RP xRxGf xxi jk ij,1(|)(|)(|,)1,2,(|)0kj
32、r i RC j i P j i Rik C i i,(二)最小平均误判损失准则 在Bayes规则下,造成的总平均损失为:Bayes判别法则就是选择 ,使得总平均损失达到极小,即:在两总体下,平均损失为:判别规则为:111()(|)(|)(|,)kkkiiiijg Rqr i RqC j i P j i R 12,kR RR 111()(|)min()(|)kkljjjjikjjj lj ixGq fx C l jq fx C i j,若12()(2|1)(2|1)(1|2)(1|2)g RCPqCPq 12121122211221()(1|2)()(2|1)()(1|2)()(2|1)()(
33、1|2)()(2|1)f xCqxGfxCqf xCqxGfxCqf xCqfxCq,若,若待判,若 【例12-4】设有G1、G2和G3三个组,已知q1=0.05,q2=0.65,q3=0.30,f1(x0)=0.10,f2(x0)=0.63,f3(x0)=2.4。假设误判损失矩阵如下表所示。误判损失矩阵 判别为 实属组 1G 2G 3G 1G(11)0C(21)10C(31)200C 2G(12)20C(2 2)0C(3 2)100C 3G(13)60C(2 3)50C(33)0C 解:解:采用判别准则公式进行判别,计算如下。l=1时,有:l=2时,有:l=3时,有:由于l=2时,36.05
34、最小,所以将x0判为G2。220330()(1|2)()(1|3)0.65 0.63 200.30 2.4 6051.39q fx Cq f x C 110330()(2|1)()(2|3)0.05 0.10 100.30 2.4 5036.05q f x Cq f x C 110220()(3|1)()(3|2)0.05 0.10 2000.65 0.63 10041.95q f x Cq fx C 1()(|)kjjjj lq fx C lj四、四、Fisher判别法判别法 Fisher判别:判别:从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个判别函数 。其中,系数
35、 确定的原则是使组间的区别最大,而使得每个组内部的离差最小。对于一个新的样品,将它的p个指标值带入判别式中求出判别函数值,然后与判别临界值进行比较,就可以判别它应该属于哪一个总体。1 122()ppuu xu xu xX 12,pu uu(一)Fisher判别的基本思想 设从k个总体 分别取得p元样本如下:第i个总体的样本均值向量为:,合并的样本均值向量为:,。()()11iniittinXX()11kiiinnXX 12knnnn 12,kG GG1(1)(1)(1)112:,nGXXX ()()()12:,kkkkknGXXX(二)Fisher判别准则 令 为p维空间的任一向量,为X向以u
36、为法线方向上的投影。则k个总体中的p元数据的投影后为:组间离差平方和为:其中,B为组间离差阵:12(,)ku uu u()uXuX11(1)(1)(1)(1)11111:,nnttGnu Xu Xu Xu X ()()()()111:,kknkkkkknttkGnu Xu Xu Xu X ()2()()011()()()kkiiiiiiiBnnu Xu XuXXXXuu Bu()()1()()kiiiinBXXXX 合并的组内离差平方和为:其中,。Fisher判别准则判别准则就是求投影方向u,即要寻找判别函数u(X),使组内离差平方和W0最小,而组间离差平方和B0最大,即使u(X)的判别效率
37、达到最大。()()20()11()inkiititWu Xu X()()()()11()()inkiiiittituXXXXuu Wu ()()()()11()()inkiiiittitWXXXX 00()BWu 定理:定理:Fisher准则下的线性判别函数 的解u为方程 的最大特征根 所对应的特征向量u1,且相应的判别效率为 。但是,单个线性判别函数有时不能很好区分各个总体,这就需要两个甚至多个判别函数。定义特征根 对应的判别函数 的贡献率为:。11()u|0BW()uXuX 1i iu X 1/siii(三)Fisher线性判别函数的确定 对于判别函数u(X),我们只考虑线性判别函数:当u
38、(X)是Fisher准则下的判别函数时,它的线性函数 亦为Fisher准则下的判别函数。1 122()ppuu xu xu xXuX()(0)u X 通常情况下,判别函数的累积贡献率应达到85%以上。为B相对于W的特征根,则:以m个线性判别函数得到的函数值为新的变量,再进行距离判别。判别规则如下:判别规则如下:设 为第i个线性判别函数(i=1,2,m),距离为 ,若 ,则判定 。()iu X()21(,)()()mjjiiidGuuXXX 1(,)min(,)ljjkdGdG XX lGX 12k 121285%kp12.3 统计软件应用统计软件应用 (一一)利用利用SPSS进行系统聚类进行系
39、统聚类 具体操作步骤:(1)将要分析的数据输入到SPSS数据文件中。(2)在SPSS窗口中选择Analyze|Classify|Hierachical Cluster命令,调出系统聚类分析的主界面,将要分析的变量移入Variables框中,并将所要聚类的样品移入Label Cases by当中。在Cluster选项组中有Cases和Variables两个选项,分别表示对样品和对变量进行聚类。Display选项组中的Statistics和Plots选项分别表示聚类结果统计量和聚类统计图,通常同时选中二者。一、聚类分析一、聚类分析 (3)单击Statistics按钮,可以设置在结果输出窗口中给出的
40、聚类分析统计量,Agglomeration schedule表示每一阶段的聚类结果,Proximity matrix表示样品间的相关矩阵。Cluster membership可以指定聚类个数,None选项不指定类的个数,Single solution指定一个确定类的个数,Range of solution指定类的个数的范围。(4)单击Plot按钮,可设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram可以输出谱系聚类图,选中Icicle输出冰柱图,Orientation指冰柱图的方向,可以选择水平方向和垂直方向。通常选择只输出谱系聚类图。(5)单击Method按钮,可设置系统聚类的
41、方法。Cluster Method下拉列表框用于指定聚类的方法,Measure中可以选择计算的距离。(6)单击Save按钮,可指定保存在数据文件中的用于表明聚类结果的新变量。(7)单击OK按钮后,运行系统聚类的过程,可以得到谱系聚类图。【例例12-5】下表是我国31个省市自治区2007年的6项主要经济指标数据,根据这些数据对我国31个省市自治区进行聚类分析。我国 31 省市自治区 2007 年的 6 项主要经济指标数据 序号 地 区 人均地区生产总值/元 财政收入/万元 固定资产投资/亿元 年末总人口/万人 居民消费水平/(元/人)社会消费品零售总额/亿元 1 北 京 58204 149263
42、80 3907.2 1633 18911 3800.2 2 天 津 46122 5404390 2353.1 1115 11957 1603.7 3 河 北 19877 7891198 6884.7 6943 5674 3986.2 4 山 西 16945 5978870 2861.5 3393 5525 1914.1 5 内蒙古 25393 4923615 4372.9 2405 7062 1904.1 6 辽 宁 25729 10826948 7435.2 4298 7965 4030.1 7 吉 林 19383 3206892 3651.4 2730 6675 1999.2 8 黑龙江
43、18478 4404689 2833.5 3824 5986 2331.1 9 上 海 66367 20744792 4420.4 1858 24260 3847.8 10 江 苏 33928 22377276 12268.1 7625 9659 7838.1 11 浙 江 37411 16494981 8420.4 5060 12569 6214 12 安 徽 12045 5436973 5087.5 6118 5278 2403.7 13 福 建 25908 6994577 4287.8 3581 8772 3187.9 14 江 西 12633 3898510 3301.9 4368 4
44、702 1683.1 15 山 东 27807 16753980 12537.7 9367 8075 8438.8 16 河 南 16012 8620804 8010.1 9360 5141 4597.5 续表 序号 地 区 人均地区生产总值/元 财政收入/万元 固定资产投资/亿元 年末总人口/万人 居民消费水平/(元/人)社会消费品零售总额/亿元 17 湖 北 16206 5903552 4330.4 5699 6513 4028.5 18 湖 南 14492 6065508 4154.8 6355 6240 3356.5 19 广 东 33151 27858007 9294.3 9449
45、12663 10598.1 20 广 西 12555 4188265 2939.7 4768 4987 1897.9 21 海 南 14555 1082935 502.4 845 5552 362 22 重 庆 14660 4427000 3127.7 2816 6545 1661.2 23 四 川 12893 8508606 5639.8 8127 5259 4015.6 24 贵 州 6915 2851375 1488.8 3762 4057 821.8 25 云 南 10540 4867146 2759.0 4514 4553 1394.6 26 西 藏 12109 201412 270
46、.3 284 3215 112 27 陕 西 14607 4752398 3415.0 3748 5272 1800.9 28 甘 肃 10346 1909107 1304.2 2617 4274 833.3 29 青 海 14257 567083 482.8 552 4978 208.3 30 宁 夏 14649 800312 599.8 610 5816 233.3 31 新 疆 16999 2858600 1850.8 2095 4890 847.7 (数据来源:国家统计局网站,)解解 根据聚类分析的步骤,在Cluster Method中选择类间距离为Wards method;在Meas
47、ure下选择点间距离Squared Euclidean distance;在Transform Values的Standardize框中选择对原始数据进行Z scores标准化处理。运行系统聚类的过程,可以得到谱系聚类图。从图中可以直观地观察整个聚类过程和结果。图中的第1行是聚类方法,即“层次聚类分析”;第2行是计算类间距离的方法,即“Wards method”;第3行是类别合并的相对距离,它是把类别间的最大距离作为相对距离25,其余的距离都换算成与之相比的相对距离大小。图中左边一列是参加聚类的对象(这里是地区);第2列是地区的编号;图中线的长短表示类别之间的相对距离远近。该图提供了1631个
48、类别的所有分类结果,想要分成几类可根据实际情况而定。比如,要分成两类,把右边最长的两条横线纵向“切断”;想要分成四类,就把右边的4条横线“切断”;等等。就本例而言,根据谱系图,可以分成两类,也可以分成四类。分成四类似乎比较合适,每一类别中包括的地区如下表所示。31 个地区分成四类时的层次聚类结果 类 别 地 区 地区个数 第一类 北京,上海 2 第二类 江苏,山东,广东,浙江 4 第三类 河北,辽宁,安徽,福建,河南,湖北,湖南,四川,天津,内蒙古 10 第四类 山西,吉林,黑龙江,江西,广西,海南,重庆,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆 15 *H I E R A R C H
49、I C A L C L U S T E R A N A L Y S I S*Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+谱系聚类图 第一类中的2个地区的人均GDP和居民消费水平的平均值远远高于其他类别的地区,属于经济发达、高生活水平的地区。第二类中的4个地区的人均GDP和居民消费水平虽然不如第一类中的地区,但高于第三和第四类地区,并且平均人口较多,因而属于人口较多、经济较发达、生活水平较高的地区。第三类中的10个地区各项经济
50、指标的平均值都高于第四类地区,但低于第一类和第二类地区,属于中下等经济发展水平和中等生活水平的地区。第四类中的15个地区各项经济指标都偏低,人口也相对较少,属于经济发展水平和生活水平较低的地区。(二二)利用利用SPSS进行进行K-均值聚类均值聚类 具体操作步骤:(1)在SPSS窗口中选择Analyze|Classify|K-Means Cluster命令,调出K-均值聚类分析的主界面。(2)将要分析的变量进行标准化以后移入Variables框中,并将所要聚类的样品移入Label Cases by当中。在Numbers of Clusters中输入想要分类的数目。在Method中选择两种方法中的