《系统聚类分析方法幻灯片.ppt》由会员分享,可在线阅读,更多相关《系统聚类分析方法幻灯片.ppt(47页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、系统聚类分析方法第1页,共47页,编辑于2022年,星期一一、聚类要素的数据处理 在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。在地理分类和分区研究中,被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。第2页,共47页,编辑于2022年,星期一 假设有m 个聚类的对象,每一个聚类对象都有个要素构成。它们所对应的要素数据可用3.4.1给出。表表3.4.1 3.4.1 聚类对象与要素数据聚类对象与要素数据 第3页
2、,共47页,编辑于2022年,星期一在聚类分析中,常用的聚类要素的数据处理方法有如下几种:总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足(3.4.1)第4页,共47页,编辑于2022年,星期一 标准差标准化,即 由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有(3.4.2)第5页,共47页,编辑于2022年,星期一 极大值标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。极差的标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之
3、间。(3.4.3)(3.4.4)第6页,共47页,编辑于2022年,星期一例题例题:表3.4.2给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表3.4.3所示。表表3.4.2 3.4.2 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 区代号人均耕地X1(hm2/人)劳均耕地X2(hm2/个)水田比重X3(%)复种指数x4(%)粮食亩产x5(kg/hm2)人均粮食x6(kg/人)稻谷占粮食比重x7(%)G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.12
4、30.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17第7页,共47页,编辑于2022年,星期一表表3.4.3 极差标准化处理后的数据极差标准化处理后的数据x1x2x3x4X
5、5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00第8页,共47页,编辑于2022年,星期一二、距离
6、的计算 常见的距离有 绝对值距离 欧氏距离 明科夫斯基距离(3.4.5)(3.4.6)(3.4.7)第9页,共47页,编辑于2022年,星期一 切比雪夫距离。当明科夫斯基距 时,有 据表3.4.3中的数据,用公式(3.4.5)式计算可 得九个农业区之间的绝对值距离矩阵如下:(3.4.8)(3.4.9)第10页,共47页,编辑于2022年,星期一 三、直接聚类法 原理:原理:先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在
7、的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。第11页,共47页,编辑于2022年,星期一例:例:根据距离矩阵式(3.4.9),用直接聚类法对某地区的九个农业区进行聚类分析,步骤如下:在距离矩阵D中,除去对角线元素以外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第9列;在余下的元素中,除对角线元素以外,d75=d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第7列;第12页,共47页,编辑于2022年,星期一 在第二步之后余下的元素之中,除对角线元素以外,d82=d28=0.88为最小
8、者,故将第2区与第8区并为一类,划去第8行和第8列;在第三步之后余下的元素中,除对角线元素以外,d43=d34=1.23为最小者,故将第3区与第4区并为一类,划去第4行和第4列,此时,第3、4、9区已归并为一类;第13页,共47页,编辑于2022年,星期一 在第四步之后余下的元素中,除对角线元素以外,d21=d12=1.52为最小者,故将第1区与第2区并为一类,划去第2行和第2列,此时,第1、2、8区已归并为一类;在第五步之后余下的元素中,除对角线元素以外,d65=d56=1.78为最小者,故将第5区与第6区并为一类,划去第6行和第6列,此时,第5、6、7区已归并为一类;第14页,共47页,编
9、辑于2022年,星期一 在第六步之后余下的元素中,除对角线元素以外,d31=d13=3.10为最小者,故将第1区与第3区并为一类,划去第3行和第3列,此时,第1、2、3、4、8、9区已归并为一类;在第七步之后余下的元素中,除去对角线元素以外,只有d51=d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9、区均归并为一类;根据上述步骤,可以作出聚类过程的谱系图(图3.4.1)。第15页,共47页,编辑于2022年,星期一图图3.4.1 3.4.1 直接聚类谱系图直接聚类谱系图 第16页,共47页,编辑于2022年,星期一四、最短距离聚类法
10、 n原理:最短距离聚类法,是在原来的mm距离矩阵的非对角元素中找出 ,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。(3.3.10)第17页,共47页,编辑于2022年,星期一n例题:例题:以下根据式(3.3.9)中的距离矩阵,用最短距离聚类法对某地区的九个农业区进行聚类分析。第18页,共47页,编辑于2022年,星期一 在99阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4
11、区与第9区并为一类,记为即G10=G4,G9。按照公式(3.3.10)式分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得:d1,10=mind14,d19=min2.19,2.62=2.19d2,10=mind24,d29=min1.47,1.66=1.47d3,10=mind34,d39=min1.23,1.20=1.20第19页,共47页,编辑于2022年,星期一d5,10=mind54,d59=min4.77,4.84=4.77d6,10=mind64,d69=min2.99,3.06=2.99d7,10=mind74,d79=min4.06,3.32=3.32d8,
12、10=mind84,d89=min1.29,1.40=1.29 这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的88阶距离矩阵:第20页,共47页,编辑于2022年,星期一第21页,共47页,编辑于2022年,星期一 在上一步骤中所得到的88阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。按照公式(3.3.10)式计分别算G1,G2,G3,G6,G8,G10与G11之间的距离,可得到一个新的77阶距离矩阵:第22页,共47页,编辑于2022年,星期一 在第二步所得到的77阶距离矩阵中,非对角元素中最小者为d2
13、8=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。再按照公式(3.3.10)式分别计算G1,G3,G6,G10,G11与G12之间的距离,可得到一个新的66阶距离矩阵:第23页,共47页,编辑于2022年,星期一 在第三步中所得的66阶距离矩阵中,非对角元素中最小者为d6,11=1.07,故将G6与G11归并为一类,记为G13,即G13=G6,G11=G6,(G5,G7)。再按照公式(3.3.10)式计算G1,G3,G10,G12与G13之间的距离,可得到一个新的55阶距离矩阵:第24页,共47页,编辑于2022年,星期一 在第四步中所得的55阶距离矩阵中,非对角线元素
14、中最小者为d3,10=1.20,故将G3与G10归并为一类,记为G14,即G14=G3,G10=G3,(G4,G9)。再按照公式(3.3.10)式计算G1,G12,G13与G14之间的距离,可得一个新的44阶距离矩阵:第25页,共47页,编辑于2022年,星期一 在第五步所得到的44阶距离矩阵中,非对角线元素中最小者为d12,14=1.29,故将G12与G14归并为一类,记为G15,即G15=G12,G14=(G2,G8),(G3,(G4,G9)。再按照公式(3.3.10)式计算G1,G13与G15之间的距离,可得一个新的33阶距离矩阵:第26页,共47页,编辑于2022年,星期一 在第六步所
15、得的33阶距离矩阵中,非对角线元素中最小者为d1,15=1.32,故将G1与G15归并为一类,记为G16,即G16=G1,G15=(G1,(G2,G8),(G3,(G4,G9)。再按照公式(3.3.10)式计算G13与G16之间的距离,可得一个新的22阶距离矩阵:第27页,共47页,编辑于2022年,星期一 将G13与G16归并为一类。此时,所有分类对象均被归并为一类。综合上述聚类过程,可以作出最短距离聚类谱系图(如图3.4.2所示)。第28页,共47页,编辑于2022年,星期一图图3.4.2 3.4.2 最短距离聚类谱系图最短距离聚类谱系图第29页,共47页,编辑于2022年,星期一五、最远
16、距离聚类法 n最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。n最远距离聚类法的计算公式是:(3.3.11)第30页,共47页,编辑于2022年,星期一n例子:例子:对于前面的例子,最远距离聚类法的聚类过程如下:在99阶距离矩阵中,非对角元素中最小者是d94=0.51,将第4区与第9区并为一类,记为G10,即G10=G4,G9。按照公式(3.3.11)分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的88阶距离矩阵:第31页,共47页,编辑于2022年,星期一第32页,共47页,编辑于2022年,星期一 在第一步所得到的88阶距离矩
17、阵中,非对角线元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。按照公式(3.3.11)式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的77阶距离矩阵如下:第33页,共47页,编辑于2022年,星期一 在第二步中所得到的77阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。再按照公式(3.3.11)式分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的66阶距离矩阵如下:第34页,共47页,编辑于2022年,星期一 在第三步中所得的66阶距
18、离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13=G3,G10=G3,(G4,G9)。再按照公式(3.3.11)式计算G1,G6,G11,G12与G13之间的距离,得到一个新的55阶距离矩阵如下:第35页,共47页,编辑于2022年,星期一 在第四步所得的55阶距离矩阵中,非对角线元素中最小者为d1,12=1.52,故将G1与G12归并为一类,记为G14,即G14=G1,G12=G1,(G2,G8)。再按照公式(3.3.11)式分别计算G6,G11,G13与G14之间的距离,得到一个新的44阶距离矩阵如下:第36页,共47页,编辑于2022年
19、,星期一 在第五步所得的44阶距离矩阵中,非对角线元素中最小者为d6,11=1.78,故将G6与G11归并为一类,记为G15,即G15=G6,G11=G6,(G5,G7)。再按照公式(3.3.11)式分别计算G13,G14和G15之间的距离,得到一个新的33阶距离矩阵如下:第37页,共47页,编辑于2022年,星期一 在第六步中所得的33阶距离矩阵中,非对角线元素中最小者为d13,14=3.10,故将G13与G14归并为一类,记为G16,即G16=G13,G14=(G3,(G4,G9),(G1,(G2,G8)。再按照公式(3.3.11)式计算G15与G16之间的距离,可得一个新的22阶距离矩阵
20、如下:第38页,共47页,编辑于2022年,星期一 将G15与G16归并为一类。此时,各个分类对象均已归并为一类。综合上述聚类过程,可以作出最远距离聚类谱系图(如图3.4.3所示)。图图3.4.3 最远距离聚类谱系图最远距离聚类谱系图G1G2G8G3G4G9G5G7G6第39页,共47页,编辑于2022年,星期一六、计算类之间距离的统一公式n最短距离和最远距离:可以用一个公式表示 用下图表示二者关系:(3.3.12)最短距离最远距离图图3.4.4 两种不同的空间距离两种不同的空间距离a1a2Ab1b2B第40页,共47页,编辑于2022年,星期一当、三个参数取不同的值时,就形成了不同的聚类方法
21、(见表3.3.4),在表3.3.4中,np是p类中单元的个数,nq是q类中单元的个数,nr=np+nq;一般取负值。系统聚类其他方法的公式:(3.3.13)第41页,共47页,编辑于2022年,星期一方法名称参 数D矩阵要求空间性质apaq 最短距离1/21/20-1/2各种D压缩最远距离1/21/201/2各种D扩张中线法1/21/2-1/400欧氏距离保持重心法0欧氏距离保持组平均法 00各种D保持距离平方和法0欧氏距离压缩可变数平均法10各种D不定可变法 1 0各种D扩张八八种种系系统统聚聚类类方方法法的的距距离离参参数数值值 表表3.4.43.4.4第42页,共47页,编辑于2022年
22、,星期一七、实例分析 表3.4.5给出了某农业生态经济系统各个区域单元的有关数据,下面我们运用系统聚类法,对该农业生态经济系统进行聚类分析,步骤如下:用标准差标准化方法,对9项指标的原始数据进行处理;采用欧氏距离测度21个区域单元之间的距离;选用组平均法,计算类间的距离,依据不同的聚类标准(距离),对各样本(各区域单元)进行聚类,并作出聚类谱系图。第43页,共47页,编辑于2022年,星期一表表3.4.5 3.4.5 某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据 第44页,共47页,编辑于2022年,星期一第45页,共47页,编辑于2022年,星期一图图3.4.
23、5 3.4.5 某农业生态经济系统区域单元的系统聚类某农业生态经济系统区域单元的系统聚类(组平均法)谱系图(组平均法)谱系图 第46页,共47页,编辑于2022年,星期一 从聚类分析谱系图(图3.4.5)可以看出,在不同的聚类标准(距离)下,聚类结果不同,当距离标准逐渐放大到时,21个区域单元被依次聚类。n当距离为0时,每个样本为单独的一类;n当距离为5,则21个区域单元被聚为16类;n当距离为10,则21个区域单元被聚为9类;n当距离为15,则21个区域单元被聚为5类;n当距离为20,则21个区域单元被聚为3类;n最终,当聚类标准(距离)扩大到25时,21个区域单元被聚为1类。第47页,共47页,编辑于2022年,星期一