《第四节聚类分析方法优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第四节聚类分析方法优秀PPT.ppt(75页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四节 聚类分析方法第一页,本课件共有75页什么叫聚类分析什么叫聚类分析聚类(聚类(Clustering)就是将数据分组成)就是将数据分组成为多个类(为多个类(Cluster)。在同一个类内)。在同一个类内对象之间具有较高的相似度,不同类对象之间具有较高的相似度,不同类之间的对象差别较大。之间的对象差别较大。第二页,本课件共有75页聚类的应用领域聚类的应用领域经济领域:经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?谁
2、喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机对住宅区进行聚类,确定自动提款机ATM的安放位置的安放位置股票市场板块分析,找出最具活力的板块龙头股股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类企业信用等级分类生物学领域生物学领域推导植物和动物的分类;推导植物和动物的分类;对基因分类,获得对种群的认识对基因分类,获得对种群的认识数据挖掘领域数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究特定的类做进一步的研究第三页,本课件共有75页聚类分析中聚类分析中“类类”的特征的
3、特征:A、聚类所说的类不是事先给定的,而是根据数据的相、聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分似性和距离来划分B、聚类的数目和结构都没有事先假定、聚类的数目和结构都没有事先假定聚类方法的目的是寻找数据中:聚类方法的目的是寻找数据中:潜在的自然分组结构潜在的自然分组结构a structure of“natural”grouping感兴趣的关系感兴趣的关系relationship聚类分析原理介绍聚类分析原理介绍第四页,本课件共有75页一一 聚类分析原理聚类分析原理研究研究多要素多要素事物分类问题的数量事物分类问题的数量方法,是方法,是定量定量地研究地理地研究地理事物分事物分类
4、类问题和问题和地理分区地理分区问题的重要问题的重要方法。方法。聚类分析聚类分析第五页,本课件共有75页基本原理基本原理:根据样本自身属性,用数学方法按照根据样本自身属性,用数学方法按照某种某种相似性或差异性相似性或差异性指标,定量地确定样本之间的指标,定量地确定样本之间的亲疏亲疏关系关系,并按照这种,并按照这种亲疏关系程度亲疏关系程度对样本进行聚类。对样本进行聚类。常见的聚类分析方法常见的聚类分析方法:系统聚类法、动态聚类法、模糊聚类法等。系统聚类法、动态聚类法、模糊聚类法等。第六页,本课件共有75页 又称又称聚类因子聚类因子,它是聚类分析对象的,它是聚类分析对象的各特征值各特征值,直接影响,
5、直接影响分类结果的准确性和可靠性(例:班级的优劣的评定)。分类结果的准确性和可靠性(例:班级的优劣的评定)。在土地利用规划分区中,为了使分区更加合理可行,必须在土地利用规划分区中,为了使分区更加合理可行,必须首先建立起土地利用规划分区指标体系首先建立起土地利用规划分区指标体系。二、系统聚类法二、系统聚类法1、聚类分析对象的确定、聚类分析对象的确定聚类单元的选择应合理和具有可操作性聚类单元的选择应合理和具有可操作性2、聚类要素的选择、聚类要素的选择第七页,本课件共有75页土地利用规划分区指标体系分土地利用规划分区指标体系分三三大类:大类:(1)土地开发利用程度:土地开发利用程度:土地利用率、垦殖
6、指数、园土地利用率、垦殖指数、园地指数、林地指数、牧草地指数、居民点及工矿用地指地指数、林地指数、牧草地指数、居民点及工矿用地指数、交通用地指数、水域指数。数、交通用地指数、水域指数。(2)土地集约经营程度:土地集约经营程度:人口密度、人均耕地、人口城镇人口密度、人均耕地、人口城镇化水平。化水平。(3)土地利用效果:土地利用效果:人均粮食、粮食单产、单位土地农人均粮食、粮食单产、单位土地农业社会总产值、单位土地工业总产值业社会总产值、单位土地工业总产值。第八页,本课件共有75页 被聚类对象常常是多个要素构成的,不被聚类对象常常是多个要素构成的,不同要素的数据往往具有不同的单位和量纲。同要素的数
7、据往往具有不同的单位和量纲。因此在进行聚类分析之前,首先要对聚类因此在进行聚类分析之前,首先要对聚类要素进行要素进行标准化处理标准化处理。3 3、聚类要素的数据处理、聚类要素的数据处理第九页,本课件共有75页例例4 4:下表给出了某地区九个农业:下表给出了某地区九个农业区的七项指标区的七项指标区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1)水田比重X3/%复种指数x4/%粮食单产x5/(kghm-2)人均粮食x6/(kg人-1)稻谷占粮食比重x7/%G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773
8、.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.5270.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.15194.710 689634.380.17G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17第十页,本课件共有75页聚聚类对类对象象要要 素素x1 x2 xj xn
9、12i imx11 x12 x1j x1nx21 x22 x2j x2n xi1 xi2 xij xin xm1 xm2 xmj xmn 假设有假设有m m个聚类对象,每一个聚类对象都个聚类对象,每一个聚类对象都有有x x1 1,x x2 2,x xn n个要素构成,它们所对应的个要素构成,它们所对应的要素数据用下表给出:要素数据用下表给出:第十一页,本课件共有75页(2)标准差标准化)标准差标准化(1)总和标准化总和标准化 分别求出各聚类要素所对应的数据分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,的总和,以各要素的数据除以该要素的数据的总和,即即第十二页,本课
10、件共有75页(3)极大值标准化极大值标准化(4)极差标准化极差标准化第十三页,本课件共有75页例例4 4:下表给出了某地区九个农业区的七项指标:下表给出了某地区九个农业区的七项指标区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1)水田比重X3/%复种指数x4/%粮食单产x5/(kghm-2)人均粮食x6/(kg人-1)稻谷占粮食比重x7/%G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.
11、5270.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.15194.710 689634.380.17G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17第十四页,本课件共有75页用极差标准化处理后得用极差标准化处理后得 区代号区代号 x1 x2 x3 x4 x5 x6 x7 G1G2G3G4G5G6G7G8G9 0.91 1.00 0.
12、07 0.15 0.18 1.00 0.14 1.00 0.87 0.00 0.00 0.00 0.24 0.00 0.20 0.15 0.07 0.44 0.44 0.08 0.07 0.44 0.38 0.00 0.13 0.18 0.13 0.00 0.03 0.03 1.00 1.00 1.00 0.45 1.00 0.03 0.03 0.61 0.69 0.65 0.13 0.59 0.00 0.00 0.90 0.81 0.84 0.13 1.00 0.91 0.53 0.07 0.00 0.10 0.43 0.09 0.38 0.26 0.04 0.00 0.15 0.00 0.
13、00 第十五页,本课件共有75页4、距离的计算、距离的计算 距离是事物之间差异性的测度,是系统聚类分析的依据距离是事物之间差异性的测度,是系统聚类分析的依据和基础,常见的距离包括和基础,常见的距离包括(1)绝对值距离)绝对值距离 式中,式中,dij代表第代表第i个对象与第个对象与第j个对象之间的距离;个对象之间的距离;xik代代表第表第i个对象第个对象第k个要素的特征;个要素的特征;xjk代表第代表第j个对象第个对象第k个要个要素的特征值;素的特征值;k代表要素个数。代表要素个数。第十六页,本课件共有75页 (2 2)欧氏距离)欧氏距离(3 3)明科夫斯基距离)明科夫斯基距离(4)切比雪夫斯基
14、距离)切比雪夫斯基距离 当明科夫斯基距当明科夫斯基距 离离P时,有时,有第十七页,本课件共有75页 根据例根据例4的数据,用绝对值距离计算出九个农业区之间的绝对的数据,用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:值距离矩阵如下:第十八页,本课件共有75页5 5、聚类分析、聚类分析 如何选取类间相似度量或距离是非常重要,它是两如何选取类间相似度量或距离是非常重要,它是两类聚合为一类的依据。常用的方法有直接聚类法、最类聚合为一类的依据。常用的方法有直接聚类法、最短距离法、最大距离法、类平均距离法等。短距离法、最大距离法、类平均距离法等。(1)直接聚类法)直接聚类法 直接聚类法直接聚类法,
15、是根据距离矩阵的结构一次并类,是根据距离矩阵的结构一次并类得到结果,是一种简便的聚类方法。得到结果,是一种简便的聚类方法。第十九页,本课件共有75页 具体方法具体方法先把先把各个各个分类对象单独视为分类对象单独视为一类一类,然后根据,然后根据距离最小距离最小的的原则,依次选出一对对象,并成原则,依次选出一对对象,并成新类新类。如果其中一个分类。如果其中一个分类对象已归于一类、则把另一个也归入该类;如果一对分类对象已归于一类、则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列和与列序相同
16、的行。经过归并,都划去该对象所在的列和与列序相同的行。经过m-m-1 1次次就可以把分类对象归为一类。这样就可以根据归并就可以把分类对象归为一类。这样就可以根据归并的先后顺序作出聚类谱系图。的先后顺序作出聚类谱系图。第二十页,本课件共有75页 根据例根据例4的距离矩阵,用直接聚类法对该地区九个区进的距离矩阵,用直接聚类法对该地区九个区进行聚类分析行聚类分析 step1 在距离矩阵在距离矩阵D中,除对角线元素外,中,除对角线元素外,d49=d94=0.51为为最小最小,故将第,故将第四四区和第区和第九九区并为一区并为一类,划去第九行和第九列类,划去第九行和第九列 step2 在余下的元素中。除对
17、角线元素外,在余下的元素中。除对角线元素外,d75=d57=0.83为为最小最小。将第。将第五五区和第区和第七七区并为一类,区并为一类,划去第七行和第七列划去第七行和第七列第二十一页,本课件共有75页用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:用绝对值距离计算出九个农业区之间的绝对值距离矩阵如下:第二十二页,本课件共有75页 step3 在第二步之后余下的元素中,除对角线元素在第二步之后余下的元素中,除对角线元素外,外,d82=d28=0.88最小最小,将第,将第二二区和第区和第八八区并为一类,区并为一类,划去第八行和第八列划去第八行和第八列 step4 在第三步之后余下的元素中,除
18、对角在第三步之后余下的元素中,除对角线元素外,线元素外,d43=d34=1.23为为最小最小,将第,将第三三区和第区和第四四区并为一类,划去第四行和第四列,此时第区并为一类,划去第四行和第四列,此时第3、4、9区已并为一类区已并为一类第二十三页,本课件共有75页 step6 在在第第五五步步之之后后余余下下的的元元素素中中,除除对对角角线线元元素素外外,d65=d56=1.78为为最最小小,将将第第五五区区和和第第六六区区并并为为一一类类,划划去去第第六六行行和和第第六六列列,此此时时5、6、7区已并为一类。区已并为一类。step5 在第四步之后余下的元素中,除对在第四步之后余下的元素中,除对
19、角线元素外,角线元素外,d21=d12=1.52为为最小最小,将,将1、2区并区并为一类,划去第二行和第二列,此时第为一类,划去第二行和第二列,此时第1、2、8区已并为一类。区已并为一类。第二十四页,本课件共有75页 step8 在在第第七七步步之之后后余余下下的的元元素素中中除除对对角角线线元元素素外外d51=d15=5.86为为最最小小,将将第第一一区区和和第第五五区区并并为为一一类类,划划去去第第五五行行和和第第五五列列。此此时时第第1、2、3、4、5、6、7、8、9区已并为一类。区已并为一类。step7 在在第第六六步步之之后后余余下下的的元元素素中中,除除对对角角线线元元素素外外,d
20、31=d13=3.10为为最最小小,将将第第一一区区和和第第三三区区并并为为一一类类,划划去去第第三三行行和和第第三三列列。此此时时第第1、2、3、4、8、9区已并为一类。区已并为一类。第二十五页,本课件共有75页直接聚类谱系图直接聚类谱系图得出聚类谱系图得出聚类谱系图G1G2G8G3G4G9G5G7G612345678第二十六页,本课件共有75页 计算计算原来各类原来各类与与新类新类之间的距离,这样就得到一个之间的距离,这样就得到一个新新的的(m-1)阶的距离矩阵阶的距离矩阵;再从新的距离矩阵中选出再从新的距离矩阵中选出最小者最小者dij,把,把Gi和和Gj归并成新类;再计算各类与新类的距离
21、,这样归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归并为一直下去,直至各分类对象被归并为一类一类。(2)最短距离法)最短距离法 最短距离法最短距离法,是在原来的是在原来的mm距离矩阵的非对距离矩阵的非对角线元素中找出角线元素中找出dpq=mindij,把分类对象,把分类对象Gp和和Gq归归并为新的一类并为新的一类Gr,然后按计算公式,然后按计算公式drk=mindpk,dqk (kp,q)第二十七页,本课件共有75页 根据例根据例4的距离矩阵,用最短距离法的距离矩阵,用最短距离法对该地区九个区进行聚类分析对该地区九个区进行聚类分析 第一步,在第一步,在99阶距离矩阵阶距离
22、矩阵D中,中,非对角线元非对角线元素素中最小者是中最小者是d94=0.51,故先将第,故先将第四四区和第区和第九九区区并为一类,记为并为一类,记为G10,即即G10=G4,G9。按照上。按照上述公式分别计算述公式分别计算G1,G2、G3、G5、G6、G7、G8与与G10之间的距离:之间的距离:第二十八页,本课件共有75页第二十九页,本课件共有75页d1,10=mind14,d19=min2.19,2.62=2.19d2,10=mind24,d29=min1.47,1.66=1.47d3,10=mind34,d39=min1.23,1.20=1.20d5,10=mind54,d59=min4.7
23、7,4.84=4.77d6,10=mind64,d69=min2.99,3.06=2.99d7,10=mind74,d79=min4.06,3.32=3.32d8,10=mind84,d89=min1.29,1.40=1.29第三十页,本课件共有75页这样就得到一个新的这样就得到一个新的88阶距离矩阵:阶距离矩阵:第三十一页,本课件共有75页 第第二二步步,在在上上一一步步所所得得到到的的8888阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为d d5757=0.83=0.83,故故将将G G5 5与与G G7 7归归并并为为一一类类,记记为为G G1111,即即G G11
24、11=G=G5 5,G G7 7。按按照照最最短短距距离离公公式式分分别别计计算算G G1 1、G G2 2、G G3 3、G G6 6、G G8 8、G G1010与与G G1111之之间的距离间的距离,得到一个新的得到一个新的7777阶距离矩阵:阶距离矩阵:第三十二页,本课件共有75页第三十三页,本课件共有75页 第第三三步步,在在第第二二步步所所得得到到的的77阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为d28=0.88,故故将将G2与与G8归归并并为为一一类类,记记为为G12,即即G12=G2,G8。按按照照最最短短距距离离公公式式分分别别计计算算G1、G3、G
25、6、G10、G11与与G12之之间间的的距距离离,得得到到一一个个新新的的66阶距离矩阵:阶距离矩阵:第三十四页,本课件共有75页第三十五页,本课件共有75页 第第四四步步,在在第第三三步步所所得得到到的的66阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为d6,11=1.07,故故将将G6与与G11归归并并为为一一类类,记记为为G13,即即G13=G6,G11=G6,(G5,G7)。按按照照最最短短距距离离公公式式分分别别计计算算G1、G3、G10、G12与与G13之之间间的的距距离离,得得到到一一个个新新的的55阶距离矩阵:阶距离矩阵:第三十六页,本课件共有75页第三十
26、七页,本课件共有75页 第第五五步步,在在第第四四步步所所得得到到的的55阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为d3,10=1.20,故故将将G3与与G10归归并并为为一一类类,记记为为G14,即即G14=G3,G10=G3,(G4,G9)。按按照照最最短短距距离离公公式式分分别别计计算算G1、G12、G13与与G14之之间间的的距距离离,得得到一个新的到一个新的44阶距离矩阵:阶距离矩阵:第三十八页,本课件共有75页第三十九页,本课件共有75页 第第六六步步,在在第第五五步步所所得得到到的的44阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为
27、d12,14=1.29,故故将将G12与与G14归归并并为为一一类类,记记为为G15,即即G15=G12,G14=(G2,G8),(G3,(G4,G9)。按按照照最最短短距距离离公公式式分分别别计计算算G1、G13与与G15之之间间的的距距离离,得得到到一一个个新新的的33阶距离矩阵:阶距离矩阵:第四十页,本课件共有75页 第第七七步步,在在第第六六步步所所得得到到的的33阶阶距距离离矩矩阵阵中中非非对对角角线线元元素素中中最最小小者者为为d1,15=1.32,故故将将G1与与G15归归并并为为一一类类,记记为为G16,即即G16=G1,G15=G1,(G2,G8),(G3,(G4,G9)。按
28、按照照最最短短距距离离公公式式分分别别计计算算G13与与G16之间的距离之间的距离,得到一个新的得到一个新的22阶距离矩阵:阶距离矩阵:第四十一页,本课件共有75页 第八步,将第八步,将G13与与G16归并为一类。此时,所有分类对象均被归并为一类。归并为一类。此时,所有分类对象均被归并为一类。综合上述过程,可以作出最短距离聚类谱系图:综合上述过程,可以作出最短距离聚类谱系图:G6G5G7G3G4G9G8G2G1 最短距离聚类谱系图最短距离聚类谱系图 24513678第四十二页,本课件共有75页6、计算类之间距离的统一公式 第四十三页,本课件共有75页第四十四页,本课件共有75页当、三个参数取不
29、同的值时,就形成了不同的聚类方法(见表3.3.4),在表3.3.4中,np是p类中单元的个数,nq是q类中单元的个数,nr=np+nq;一般取负值。系统聚类其他方法的公式系统聚类其他方法的公式:(3.3.13)第四十五页,本课件共有75页方法名称参 数D矩阵要求空间性质apaq 最短距离1/21/20-1/2各种D压缩最远距离1/21/201/2各种D扩张中线法1/21/2-1/400欧氏距离保持重心法0欧氏距离保持组平均法00各种D保持距离平方和法0欧氏距离压缩可变数平均法10各种D不定可变法 1 0各种D扩张第四十六页,本课件共有75页七、实例分析 表3.4.5给出了某农业生态经济系统各个
30、区域单元的有关数据,下面我们运用系统聚类法,对该农业生态经济系统进行聚类分析,步骤如下:用标准差标准化方法,对9项指标的原始数据进行处理;采用欧氏距离测度21个区域单元之间的距离;选用组平均法,计算类间的距离,依据不同的聚类标准(距离),对各样本(各区域单元)进行聚类,并作出聚类谱系图。第四十七页,本课件共有75页1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.121
31、8.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071405.09586.5940.68314.4010.30322.932668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.9
32、04897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.1104.4840.0025.7901477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.94
33、81.02268.0011255.42211.5511.1023.1330.0103.4251699.2650.65460.7021251.03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.
34、7890.0488.461样本序号x1:人口密度(人/km2)x 2:人均耕地面积(ha)x 3:森林覆盖率(%)x 4:农民人均纯收入(元/人)x 5:人均粮食产量(kg/人)x 6:经济作物占农作物播面比例()x 7:耕地占土地面积比率()x 8:果园与林地面积之比()x 9:灌溉田占耕地面积之比()21122.7810.73149.1021313.11236.2926.7247.1620.09210.078第四十八页,本课件共有75页 从从聚聚类类分分析析谱谱系系图图(图图3.4.5)可可以以看看出出,在在不不同同的的聚聚类类标标准准(距距离离)下下,聚聚类类结结果果不不同同,当当距距离
35、离标标准准逐逐渐渐放放大到时,大到时,21个区域单元被依次聚类。个区域单元被依次聚类。当距离为当距离为0时,每个样本为单独的一类;时,每个样本为单独的一类;当距离为当距离为5,则,则21个区域单元被聚为个区域单元被聚为16类;类;当距离为当距离为10,则,则21个区域单元被聚为个区域单元被聚为9类;类;当距离为当距离为15,则,则21个区域单元被聚为个区域单元被聚为5类;类;当距离为当距离为20,则,则21个区域单元被聚为个区域单元被聚为3类;类;最最终终,当当聚聚类类标标准准(距距离离)扩扩大大到到25时时,21个个区区域域单单元元被聚为被聚为1类。类。第四十九页,本课件共有75页图3.4.
36、5 某农业生态经济系统区域单元的系统聚类(组平均法)谱系图 第五十页,本课件共有75页三、系统聚类分析的三、系统聚类分析的SPSS实现实现1、导入数据、导入数据第五十一页,本课件共有75页2、从菜单选择、从菜单选择analyzeclassify hierarchical cluster选择参与聚类的变量选择参与聚类的变量设定标记的变量设定标记的变量输出选项输出选项第五十二页,本课件共有75页以区代号作为标记,对九个区进行个案聚类以区代号作为标记,对九个区进行个案聚类统计量统计量聚类图聚类图方法方法存为新变量存为新变量第五十三页,本课件共有75页选择统计量选择统计量凝聚过程表,显示凝聚过程表,显
37、示聚类距离,以及某聚类距离,以及某一观察单位或变量一观察单位或变量最终的归类水平最终的归类水平观察单位或变量间的观察单位或变量间的距离或相似形矩阵距离或相似形矩阵观察单位或变量的归类观察单位或变量的归类不显示归类不显示归类显示拉一定类显示拉一定类数聚类的归类数聚类的归类显示按某一区间类数聚类的归类第五十四页,本课件共有75页聚类图聚类图树型图树型图冰柱图冰柱图显示所有聚类显示所有聚类过程的冰柱图过程的冰柱图显示一定范围聚显示一定范围聚类过程的冰柱图类过程的冰柱图冰柱图的方位冰柱图的方位第五十五页,本课件共有75页方法方法聚类方法聚类方法距离测度距离测度方法方法连续型变量连续型变量离散型变量离散
38、型变量二值变量二值变量数据的标准数据的标准化转换化转换测度转换方测度转换方法法第五十六页,本课件共有75页3、输出结果、输出结果第五十七页,本课件共有75页距离矩阵距离矩阵第五十八页,本课件共有75页聚类进程表聚类进程表第五十九页,本课件共有75页冰柱图冰柱图第六十页,本课件共有75页树型图树型图第六十一页,本课件共有75页(1)最小距离法(single linkage method)极小异常值在实际中不多出现,避免极大值的影响 第六十二页,本课件共有75页第六十三页,本课件共有75页第六十四页,本课件共有75页第六十五页,本课件共有75页第六十六页,本课件共有75页第六十七页,本课件共有75页第六十八页,本课件共有75页2、最大距离法(complete linkage method)可能被极大值扭曲,删除这些值之后再聚类第六十九页,本课件共有75页第七十页,本课件共有75页第七十一页,本课件共有75页第七十二页,本课件共有75页第七十三页,本课件共有75页3、类平均距离法(average linkage method)类间所有样本点的平均距离该法利用了所有样本的信息,被认为是较好的系统聚类法第七十四页,本课件共有75页第七十五页,本课件共有75页