《第四节聚类分析方法精选文档.ppt》由会员分享,可在线阅读,更多相关《第四节聚类分析方法精选文档.ppt(75页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四节 聚类分析方法本讲稿第一页,共七十五页什么叫聚类分析什么叫聚类分析聚类(聚类(Clustering)就是将数据分组成为)就是将数据分组成为多个类(多个类(Cluster)。在同一个类内对象)。在同一个类内对象之间具有较高的相似度,不同类之间的之间具有较高的相似度,不同类之间的对象差别较大。对象差别较大。本讲稿第二页,共七十五页聚类的应用领域聚类的应用领域经济领域:经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?谁
2、喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机对住宅区进行聚类,确定自动提款机ATM的安放位置的安放位置股票市场板块分析,找出最具活力的板块龙头股股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类企业信用等级分类生物学领域生物学领域推导植物和动物的分类;推导植物和动物的分类;对基因分类,获得对种群的认识对基因分类,获得对种群的认识数据挖掘领域数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究定的类做进一步的研究本讲稿第三页,共七十五页聚类分析中聚类分析中“类类”的特征的
3、特征:A、聚类所说的类不是事先给定的,而是根据数据的相、聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分似性和距离来划分B、聚类的数目和结构都没有事先假定、聚类的数目和结构都没有事先假定聚类方法的目的是寻找数据中:聚类方法的目的是寻找数据中:潜在的自然分组结构潜在的自然分组结构a structure of“natural”grouping感兴趣的关系感兴趣的关系relationship聚类分析原理介绍聚类分析原理介绍本讲稿第四页,共七十五页一一 聚类分析原理聚类分析原理研究研究多要素多要素事物分类问题的数事物分类问题的数量方法,是量方法,是定量定量地研究地理地研究地理事物事物分类分
4、类问题和问题和地理分区地理分区问题的重要问题的重要方法。方法。聚类分析聚类分析本讲稿第五页,共七十五页基本原理基本原理:根据样本自身属性,用数学方法按照某根据样本自身属性,用数学方法按照某种种相似性或差异性相似性或差异性指标,定量地确定样本之间的指标,定量地确定样本之间的亲疏亲疏关系关系,并按照这种,并按照这种亲疏关系程度亲疏关系程度对样本进行聚类。对样本进行聚类。常见的聚类分析方法常见的聚类分析方法:系统聚类法、动态聚类法、模糊聚类法等。系统聚类法、动态聚类法、模糊聚类法等。本讲稿第六页,共七十五页 又称又称聚类因子聚类因子,它是聚类分析对象的,它是聚类分析对象的各特征值各特征值,直接影响,
5、直接影响分类结果的准确性和可靠性(例:班级的优劣的评定)。分类结果的准确性和可靠性(例:班级的优劣的评定)。在土地利用规划分区中,为了使分区更加合理可行,必须首先在土地利用规划分区中,为了使分区更加合理可行,必须首先建立起土地利用规划分区指标体系建立起土地利用规划分区指标体系。二、系统聚类法二、系统聚类法1、聚类分析对象的确定、聚类分析对象的确定聚类单元的选择应合理和具有可操作性聚类单元的选择应合理和具有可操作性2、聚类要素的选择、聚类要素的选择本讲稿第七页,共七十五页土地利用规划分区指标体系分土地利用规划分区指标体系分三三大类:大类:(1)土地开发利用程度:土地开发利用程度:土地利用率、垦殖
6、指数、园土地利用率、垦殖指数、园地指数、林地指数、牧草地指数、居民点及工矿用地指地指数、林地指数、牧草地指数、居民点及工矿用地指数、交通用地指数、水域指数。数、交通用地指数、水域指数。(2)土地集约经营程度:土地集约经营程度:人口密度、人均耕地、人口城镇人口密度、人均耕地、人口城镇化水平。化水平。(3)土地利用效果:土地利用效果:人均粮食、粮食单产、单位土地人均粮食、粮食单产、单位土地农业社会总产值、单位土地工业总产值农业社会总产值、单位土地工业总产值。本讲稿第八页,共七十五页 被聚类对象常常是多个要素构成的,不同要被聚类对象常常是多个要素构成的,不同要素的数据往往具有不同的单位和量纲。因此在
7、素的数据往往具有不同的单位和量纲。因此在进行聚类分析之前,首先要对聚类要素进行进行聚类分析之前,首先要对聚类要素进行标标准化处理准化处理。3 3、聚类要素的数据处理、聚类要素的数据处理本讲稿第九页,共七十五页例例4 4:下表给出了某地区九个农业:下表给出了某地区九个农业区的七项指标区的七项指标区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1)水田比重X3/%复种指数x4/%粮食单产x5/(kghm-2)人均粮食x6/(kg人-1)稻谷占粮食比重x7/%G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773
8、.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.5270.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.15194.710 689634.380.17G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17本讲稿第十页,共七十五页聚聚类对类对象象要要 素素x1 x2 xj xn
9、12i imx11 x12 x1j x1nx21 x22 x2j x2n xi1 xi2 xij xin xm1 xm2 xmj xmn 假设有假设有m m个聚类对象,每一个聚类对象都个聚类对象,每一个聚类对象都有有x x1 1,x x2 2,x xn n个要素构成,它们所对应的个要素构成,它们所对应的要素数据用下表给出:要素数据用下表给出:本讲稿第十一页,共七十五页(2)标准差标准化)标准差标准化(1)总和标准化总和标准化 分别求出各聚类要素所对应的数据分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,的总和,以各要素的数据除以该要素的数据的总和,即即本讲稿第十二页
10、,共七十五页(3)极大值标准化极大值标准化(4)极差标准化极差标准化本讲稿第十三页,共七十五页例例4 4:下表给出了某地区九个农业区的七项指标:下表给出了某地区九个农业区的七项指标区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1)水田比重X3/%复种指数x4/%粮食单产x5/(kghm-2)人均粮食x6/(kg人-1)稻谷占粮食比重x7/%G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.
11、5270.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.15194.710 689634.380.17G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17本讲稿第十四页,共七十五页用极差标准化处理后得用极差标准化处理后得 区代号区代号 x1 x2 x3 x4 x5 x6 x7 G1G2G3G4G5G6G7G8G9 0.91 1.00 0.
12、07 0.15 0.18 1.00 0.14 1.00 0.87 0.00 0.00 0.00 0.24 0.00 0.20 0.15 0.07 0.44 0.44 0.08 0.07 0.44 0.38 0.00 0.13 0.18 0.13 0.00 0.03 0.03 1.00 1.00 1.00 0.45 1.00 0.03 0.03 0.61 0.69 0.65 0.13 0.59 0.00 0.00 0.90 0.81 0.84 0.13 1.00 0.91 0.53 0.07 0.00 0.10 0.43 0.09 0.38 0.26 0.04 0.00 0.15 0.00 0.
13、00 本讲稿第十五页,共七十五页4、距离的计算、距离的计算 距离是事物之间差异性的测度,是系统聚类分析的依据距离是事物之间差异性的测度,是系统聚类分析的依据和基础,常见的距离包括和基础,常见的距离包括(1)绝对值距离)绝对值距离 式中,式中,dij代表第代表第i个对象与第个对象与第j个对象之间的距离;个对象之间的距离;xik代表第代表第i个对象第个对象第k个要素的特征;个要素的特征;xjk代表第代表第j个对象第个对象第k个要素的个要素的特征值;特征值;k代表要素个数。代表要素个数。本讲稿第十六页,共七十五页 (2 2)欧氏距离)欧氏距离(3 3)明科夫斯基距离)明科夫斯基距离(4)切比雪夫斯基
14、距离)切比雪夫斯基距离 当明科夫斯基距当明科夫斯基距 离离P时,有时,有本讲稿第十七页,共七十五页 根据例根据例4的数据,用绝对值距离计算出九个农业区之间的绝对值距离的数据,用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:矩阵如下:本讲稿第十八页,共七十五页5 5、聚类分析、聚类分析 如何选取类间相似度量或距离是非常重要,它是两如何选取类间相似度量或距离是非常重要,它是两类聚合为一类的依据。常用的方法有直接聚类法、最短类聚合为一类的依据。常用的方法有直接聚类法、最短距离法、最大距离法、类平均距离法等。距离法、最大距离法、类平均距离法等。(1)直接聚类法)直接聚类法 直接聚类法直接聚类法,
15、是根据距离矩阵的结构一次并类得到结,是根据距离矩阵的结构一次并类得到结果,是一种简便的聚类方法。果,是一种简便的聚类方法。本讲稿第十九页,共七十五页 具体方法具体方法先把先把各个各个分类对象单独视为分类对象单独视为一类一类,然后根据,然后根据距离最小距离最小的原的原则,依次选出一对对象,并成则,依次选出一对对象,并成新类新类。如果其中一个分类对象。如果其中一个分类对象已归于一类、则把另一个也归入该类;如果一对分类对象正已归于一类、则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列和与
16、列序相同的行。经过划去该对象所在的列和与列序相同的行。经过m-1m-1次次就可以就可以把分类对象归为一类。这样就可以根据归并的先后顺序作出聚把分类对象归为一类。这样就可以根据归并的先后顺序作出聚类谱系图。类谱系图。本讲稿第二十页,共七十五页 根据例根据例4的距离矩阵,用直接聚类法对该地区九个区进的距离矩阵,用直接聚类法对该地区九个区进行聚类分析行聚类分析 step1 在距离矩阵在距离矩阵D中,除对角线元素外,中,除对角线元素外,d49=d94=0.51为为最小最小,故将第,故将第四四区和第区和第九九区并为一类,划区并为一类,划去第九行和第九列去第九行和第九列 step2 在余下的元素中。除对角
17、线元素外,在余下的元素中。除对角线元素外,d75=d57=0.83为为最小最小。将第。将第五五区和第区和第七七区并为一类,区并为一类,划去第七行和第七列划去第七行和第七列本讲稿第二十一页,共七十五页用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:本讲稿第二十二页,共七十五页 step3 在第二步之后余下的元素中,除对角线元在第二步之后余下的元素中,除对角线元素外,素外,d82=d28=0.88最小最小,将第,将第二二区和第区和第八八区并为一类,区并为一类,划去第八行和第八列划去第八行和第八列 step4 在第三步之后余下的元素中,除对
18、角线元在第三步之后余下的元素中,除对角线元素外,素外,d43=d34=1.23为为最小最小,将第,将第三三区和第区和第四四区并为区并为一类,划去第四行和第四列,此时第一类,划去第四行和第四列,此时第3、4、9区已并为区已并为一类一类本讲稿第二十三页,共七十五页 step6 在在第第五五步步之之后后余余下下的的元元素素中中,除除对对角角线线元元素素外外,d65=d56=1.78为为最最小小,将将第第五五区区和和第第六六区区并并为为一一类类,划划去去第第六六行行和和第第六六列列,此此时时5、6、7区区已并为一类。已并为一类。step5 在第四步之后余下的元素中,除对角线在第四步之后余下的元素中,除
19、对角线元素外,元素外,d21=d12=1.52为为最小最小,将,将1、2区并为一类,区并为一类,划去第二行和第二列,此时第划去第二行和第二列,此时第1、2、8区已并为一区已并为一类。类。本讲稿第二十四页,共七十五页 step8 在在第第七七步步之之后后余余下下的的元元素素中中除除对对角角线线元元素素外外d51=d15=5.86为为最最小小,将将第第一一区区和和第第五五区区并并为为一一类类,划划去去第第五五行行和和第第五五列列。此此时时第第1、2、3、4、5、6、7、8、9区已并为一类。区已并为一类。step7 在在第第六六步步之之后后余余下下的的元元素素中中,除除对对角角线线元元素素外外,d3
20、1=d13=3.10为为最最小小,将将第第一一区区和和第第三三区区并并为为一一类类,划划去去第第三三行行和和第第三三列列。此此时时第第1、2、3、4、8、9区已并为一类。区已并为一类。本讲稿第二十五页,共七十五页直接聚类谱系图直接聚类谱系图得出聚类谱系图得出聚类谱系图G1G2G8G3G4G9G5G7G612345678本讲稿第二十六页,共七十五页 计算计算原来各类原来各类与与新类新类之间的距离,这样就得到一个之间的距离,这样就得到一个新新的的(m-1)阶的距离矩阵阶的距离矩阵;再从新的距离矩阵中选出再从新的距离矩阵中选出最小者最小者dij,把,把Gi和和Gj归并成新类;再计算各类与新类的距离,
21、这样一直下归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归并为去,直至各分类对象被归并为一类一类。(2)最短距离法)最短距离法 最短距离法最短距离法,是在原来的是在原来的mm距离矩阵的非对角距离矩阵的非对角线元素中找出线元素中找出dpq=mindij,把分类对象,把分类对象Gp和和Gq归并为归并为新的一类新的一类Gr,然后按计算公式,然后按计算公式drk=mindpk,dqk (kp,q)本讲稿第二十七页,共七十五页 根据例根据例4的距离矩阵,用最短距离法的距离矩阵,用最短距离法对该地区九个区进行聚类分析对该地区九个区进行聚类分析 第一步,在第一步,在99阶距离矩阵阶距离矩
22、阵D中,中,非对角线非对角线元素元素中最小者是中最小者是d94=0.51,故先将第,故先将第四四区和第区和第九九区区并为一类,记为并为一类,记为G10,即即G10=G4,G9。按照上。按照上述公式分别计算述公式分别计算G1,G2、G3、G5、G6、G7、G8与与G10之间的距离:之间的距离:本讲稿第二十八页,共七十五页本讲稿第二十九页,共七十五页d1,10=mind14,d19=min2.19,2.62=2.19d2,10=mind24,d29=min1.47,1.66=1.47d3,10=mind34,d39=min1.23,1.20=1.20d5,10=mind54,d59=min4.77
23、,4.84=4.77d6,10=mind64,d69=min2.99,3.06=2.99d7,10=mind74,d79=min4.06,3.32=3.32d8,10=mind84,d89=min1.29,1.40=1.29本讲稿第三十页,共七十五页这样就得到一个新的这样就得到一个新的88阶距离矩阵:阶距离矩阵:本讲稿第三十一页,共七十五页 第第二二步步,在在上上一一步步所所得得到到的的8888阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为d d5757=0.83=0.83,故故将将G G5 5与与G G7 7归归并并为为一一类类,记记为为G G1111,即即G G111
24、1=G=G5 5,G G7 7。按按照照最最短短距距离离公公式式分分别别计计算算G G1 1、G G2 2、G G3 3、G G6 6、G G8 8、G G1010与与G G1111之之间的距离间的距离,得到一个新的得到一个新的7777阶距离矩阵:阶距离矩阵:本讲稿第三十二页,共七十五页本讲稿第三十三页,共七十五页 第第三三步步,在在第第二二步步所所得得到到的的77阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为d28=0.88,故故将将G2与与G8归归并并为为一一类类,记记为为G12,即即G12=G2,G8。按按照照最最短短距距离离公公式式分分别别计计算算G1、G3、G6
25、、G10、G11与与G12之之间间的的距距离离,得得到到一一个个新新的的66阶阶距距离离矩阵:矩阵:本讲稿第三十四页,共七十五页本讲稿第三十五页,共七十五页 第第四四步步,在在第第三三步步所所得得到到的的66阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为d6,11=1.07,故故将将G6与与G11归归并并为为一一类类,记记为为G13,即即G13=G6,G11=G6,(G5,G7)。按按照照最最短短距距离离公公式式分分别别计计算算G1、G3、G10、G12与与G13之之间间的的距距离离,得得到到一一个个新新的的55阶阶距距离离矩阵:矩阵:本讲稿第三十六页,共七十五页本讲稿第
26、三十七页,共七十五页 第第五五步步,在在第第四四步步所所得得到到的的55阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为d3,10=1.20,故故将将G3与与G10归归并并为为一一类类,记记为为G14,即即G14=G3,G10=G3,(G4,G9)。按按照照最最短短距距离离公公式式分分别别计计算算G1、G12、G13与与G14之之间间的的距距离离,得得到到一一个个新新的的44阶阶距距离矩阵:离矩阵:本讲稿第三十八页,共七十五页本讲稿第三十九页,共七十五页 第第六六步步,在在第第五五步步所所得得到到的的44阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为d
27、12,14=1.29,故故将将G12与与G14归归并并为为一一类类,记记为为G15,即即G15=G12,G14=(G2,G8),(G3,(G4,G9)。按按照照最最短短距距离离公公式式分分别别计计算算G1、G13与与G15之之间间的的距距离离,得得到到一一个个新新的的33阶阶距距离矩阵:离矩阵:本讲稿第四十页,共七十五页 第第七七步步,在在第第六六步步所所得得到到的的33阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为d1,15=1.32,故故将将G1与与G15归归并并为为一一类类,记记为为G16,即即G16=G1,G15=G1,(G2,G8),(G3,(G4,G9)。按按
28、照照最最短短距距离离公公式式分分别别计计算算G13与与G16之间的距离之间的距离,得到一个新的得到一个新的22阶距离矩阵:阶距离矩阵:本讲稿第四十一页,共七十五页 第八步,将第八步,将G13与与G16归并为一类。此时,所有分类对象均被归并为一类。归并为一类。此时,所有分类对象均被归并为一类。综合上述过程,可以作出最短距离聚类谱系图:综合上述过程,可以作出最短距离聚类谱系图:G6G5G7G3G4G9G8G2G1 最短距离聚类谱系图最短距离聚类谱系图 24513678本讲稿第四十二页,共七十五页6、计算类之间距离的统一公式 本讲稿第四十三页,共七十五页本讲稿第四十四页,共七十五页当、三个参数取不同
29、的值时,就形成了不同的聚类方法(见表3.3.4),在表3.3.4中,np是p类中单元的个数,nq是q类中单元的个数,nr=np+nq;一般取负值。系统聚类其他方法的公式系统聚类其他方法的公式:(3.3.13)本讲稿第四十五页,共七十五页方法名称参 数D矩阵要求空间性质apaq 最短距离1/21/20-1/2各种D压缩最远距离1/21/201/2各种D扩张中线法1/21/2-1/400欧氏距离保持重心法0欧氏距离保持组平均法00各种D保持距离平方和法0欧氏距离压缩可变数平均法10各种D不定可变法 1 0各种D扩张本讲稿第四十六页,共七十五页七、实例分析 表3.4.5给出了某农业生态经济系统各个区
30、域单元的有关数据,下面我们运用系统聚类法,对该农业生态经济系统进行聚类分析,步骤如下:用标准差标准化方法,对9项指标的原始数据进行处理;采用欧氏距离测度21个区域单元之间的距离;选用组平均法,计算类间的距离,依据不同的聚类标准(距离),对各样本(各区域单元)进行聚类,并作出聚类谱系图。本讲稿第四十七页,共七十五页1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.1218
31、.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.68314.4010.30322.932668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.90
32、4897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.1104.4840.0025.7901477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.948
33、1.02268.0011255.42211.5511.1023.1330.0103.4251699.2650.65460.7021251.03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7
34、890.0488.461样本序号x1:人口密度(人/km2)x 2:人均耕地面积(ha)x 3:森林覆盖率(%)x 4:农民人均纯收入(元/人)x 5:人均粮食产量(kg/人)x 6:经济作物占农作物播面比例()x 7:耕地占土地面积比率()x 8:果园与林地面积之比()x 9:灌溉田占耕地面积之比()21122.7810.73149.1021313.11236.2926.7247.1620.09210.078本讲稿第四十八页,共七十五页 从从聚聚类类分分析析谱谱系系图图(图图3.4.5)可可以以看看出出,在在不不同同的的聚聚类类标标准准(距距离离)下下,聚聚类类结结果果不不同同,当当距距离离
35、标标准准逐逐渐渐放放大大到到时时,21个区域单元被依次聚类。个区域单元被依次聚类。当距离为当距离为0时,每个样本为单独的一类;时,每个样本为单独的一类;当距离为当距离为5,则,则21个区域单元被聚为个区域单元被聚为16类;类;当距离为当距离为10,则,则21个区域单元被聚为个区域单元被聚为9类;类;当距离为当距离为15,则,则21个区域单元被聚为个区域单元被聚为5类;类;当距离为当距离为20,则,则21个区域单元被聚为个区域单元被聚为3类;类;最最终终,当当聚聚类类标标准准(距距离离)扩扩大大到到25时时,21个个区区域域单单元元被聚为被聚为1类。类。本讲稿第四十九页,共七十五页图3.4.5
36、某农业生态经济系统区域单元的系统聚类(组平均法)谱系图 本讲稿第五十页,共七十五页三、系统聚类分析的三、系统聚类分析的SPSS实现实现1、导入数据、导入数据本讲稿第五十一页,共七十五页2、从菜单选择、从菜单选择analyzeclassify hierarchical cluster选择参与聚类的变量选择参与聚类的变量设定标记的变量设定标记的变量输出选项输出选项本讲稿第五十二页,共七十五页以区代号作为标记,对九个区进行个案聚类以区代号作为标记,对九个区进行个案聚类统计量统计量聚类图聚类图方法方法存为新变量存为新变量本讲稿第五十三页,共七十五页选择统计量选择统计量凝聚过程表,显示凝聚过程表,显示聚
37、类距离,以及某聚类距离,以及某一观察单位或变量一观察单位或变量最终的归类水平最终的归类水平观察单位或变量间的距离观察单位或变量间的距离或相似形矩阵或相似形矩阵观察单位或变量的归类观察单位或变量的归类不显示归类不显示归类显示拉一定类数显示拉一定类数聚类的归类聚类的归类显示按某一区间类数聚类的归类本讲稿第五十四页,共七十五页聚类图聚类图树型图树型图冰柱图冰柱图显示所有聚类过显示所有聚类过程的冰柱图程的冰柱图显示一定范围聚类显示一定范围聚类过程的冰柱图过程的冰柱图冰柱图的方位冰柱图的方位本讲稿第五十五页,共七十五页方法方法聚类方法聚类方法距离测度距离测度方法方法连续型变量连续型变量离散型变量离散型变
38、量二值变量二值变量数据的标准数据的标准化转换化转换测度转换方测度转换方法法本讲稿第五十六页,共七十五页3、输出结果、输出结果本讲稿第五十七页,共七十五页距离矩阵距离矩阵本讲稿第五十八页,共七十五页聚类进程表聚类进程表本讲稿第五十九页,共七十五页冰柱图冰柱图本讲稿第六十页,共七十五页树型图树型图本讲稿第六十一页,共七十五页(1)最小距离法(single linkage method)极小异常值在实际中不多出现,避免极大值的影响 本讲稿第六十二页,共七十五页本讲稿第六十三页,共七十五页本讲稿第六十四页,共七十五页本讲稿第六十五页,共七十五页本讲稿第六十六页,共七十五页本讲稿第六十七页,共七十五页本讲稿第六十八页,共七十五页2、最大距离法(complete linkage method)可能被极大值扭曲,删除这些值之后再聚类本讲稿第六十九页,共七十五页本讲稿第七十页,共七十五页本讲稿第七十一页,共七十五页本讲稿第七十二页,共七十五页本讲稿第七十三页,共七十五页3、类平均距离法(average linkage method)类间所有样本点的平均距离该法利用了所有样本的信息,被认为是较好的系统聚类法本讲稿第七十四页,共七十五页本讲稿第七十五页,共七十五页