《模糊聚类分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《模糊聚类分析ppt课件.ppt(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 模糊聚类分析模糊聚类分析物以类聚物以类聚 对事物按一定要求进行分类的数学方法,叫对事物按一定要求进行分类的数学方法,叫做聚类分析。现实的分类问题,大多伴随着模糊做聚类分析。现实的分类问题,大多伴随着模糊性。如地质上水油层之间的边界是不分明的,对性。如地质上水油层之间的边界是不分明的,对农业区划的分界、土壤的分类、空气污染等级、农业区划的分界、土壤的分类、空气污染等级、公司竞争力也是模糊的等等。利用模糊聚类分析公司竞争力也是模糊的等等。利用模糊聚类分析法去对地质分类,进行农业区划就更合理。法去对地质分类,进行农业区划就更合理。 一、基本概念及定理一、基本概念及定理求传递闭包:平方法求传递闭包:
2、平方法1.1.确定聚类单元确定聚类单元 这是第一步工作。在确定聚类单元时,主要根据研究这是第一步工作。在确定聚类单元时,主要根据研究对象和聚类的目的进行综合分析来确定。如研究的对象是对象和聚类的目的进行综合分析来确定。如研究的对象是三江平原大系统,则聚类单元以县为单位较妥;如研究对三江平原大系统,则聚类单元以县为单位较妥;如研究对象是某个县,则以乡为单元较妥;如研究的目的是将耕地象是某个县,则以乡为单元较妥;如研究的目的是将耕地按肥力不同分成不同的类别,则以地块作为聚类单元。这按肥力不同分成不同的类别,则以地块作为聚类单元。这里有一点需要注意,不管单元如何划定,保证行政区划的里有一点需要注意,
3、不管单元如何划定,保证行政区划的完整性是必要的,只有如此,才能确保把聚类结果应用到完整性是必要的,只有如此,才能确保把聚类结果应用到实际生产中去。实际生产中去。二、模糊聚类的一般步骤二、模糊聚类的一般步骤 2. 确定聚类准则和聚类因子确定聚类准则和聚类因子 聚类准则又叫聚类原则,是对聚类目的性的概括描述,聚类准则又叫聚类原则,是对聚类目的性的概括描述,也是筛选聚类因子的基本依据。如气候条件准则、经济发展水也是筛选聚类因子的基本依据。如气候条件准则、经济发展水平准则、土壤肥力准则等。不难看出,这三个准则将指导把聚平准则、土壤肥力准则等。不难看出,这三个准则将指导把聚类单元分成不同气候区、经济发展
4、区和土壤肥力分类等。类单元分成不同气候区、经济发展区和土壤肥力分类等。 根据聚类准则要进一步确定聚类因子,这项工作应请有关根据聚类准则要进一步确定聚类因子,这项工作应请有关专家参与,以便把握住与准则密切相关的特征参数,确保聚类专家参与,以便把握住与准则密切相关的特征参数,确保聚类的精确性。的精确性。 根据需要可同时选择不同准则分别进行聚类分析,然后通根据需要可同时选择不同准则分别进行聚类分析,然后通过综合取交的方法,以做到兼顾多目标,使分类结果更科学。过综合取交的方法,以做到兼顾多目标,使分类结果更科学。3、建立数据矩阵、建立数据矩阵(1)标准差标准化)标准差标准化(2)极差正规化)极差正规化
5、minmaxminijijijijijxxxxx (3)极差标准化)极差标准化minmaxijijiijijxxxxx (4)最大值规格化)最大值规格化jijijMxx 其中:其中:),max(21njjjjxxxM 4、建立模糊相似矩阵、建立模糊相似矩阵(1)相似系数法)相似系数法夹角余弦法夹角余弦法 mkjkmkikmkjkikijxxxxr12121相关系数法相关系数法 mkjjkmkiikmkjjkiikijxxxxxxxxr12121)()((2)距离法)距离法Hamming距离距离 mkjkikjixxxxd1),(Euclid距离距离 mkjkikjixxxxd12)(),(Ch
6、ebyshev距离距离jkiknkjixxxxd 1max),(海明海明欧式欧式切比雪夫切比雪夫(3)贴近度法)贴近度法最大最小法最大最小法 mkjkikmkjkikijxxxxr11)()(算术平均最小法算术平均最小法 mkjkikmkjkikijxxxxr11)(21)(几何平均最小法几何平均最小法 mkjkikmkjkikijxxxxr11.)( 5. 求模糊等价矩阵求模糊等价矩阵 用上述方法建立起来的模糊矩阵用上述方法建立起来的模糊矩阵 ,一般说来,一般说来只满足自反性和对称性,不一定满足传递性,即只满足自反性和对称性,不一定满足传递性,即 不不一定是模糊等价关系,需要将一定是模糊等价
7、关系,需要将 改造成模糊等价矩改造成模糊等价矩阵阵 ,然后再在适当的阈值上进行截取,便可得所需,然后再在适当的阈值上进行截取,便可得所需分类。分类。 改造的方法是将改造的方法是将 自乘得自乘得 ,再自,再自乘乘 ,如此继续下去,得,如此继续下去,得 ,至某,至某一步出现一步出现 为止。则为止。则 便是一个模糊等价关系。便是一个模糊等价关系。这个方法是由所谓这个方法是由所谓“传递闭包传递闭包”理论而来,我们在此理论而来,我们在此拿来直接应用,不再作详细介绍。拿来直接应用,不再作详细介绍。RRR2R RR224RRR816,RR2kkRRkRRR 6. 截取等价类截取等价类 模糊等价关系矩阵为系统
8、聚类奠定了基础,要想在此基础模糊等价关系矩阵为系统聚类奠定了基础,要想在此基础上进行分类,还必须将模糊等价关系转变成非模糊的等价关系。上进行分类,还必须将模糊等价关系转变成非模糊的等价关系。为此定义模糊等价关系矩阵的为此定义模糊等价关系矩阵的 截矩阵如下:截矩阵如下: 设设 为为U U上的一个模糊等价关系矩阵,且上的一个模糊等价关系矩阵,且 ,则,则对任意一个对任意一个 ,定义,定义 则称则称 为为 的一个的一个 截矩阵。截矩阵。 很显然,取不同的很显然,取不同的 值就对应不同的分类结果,从而可以值就对应不同的分类结果,从而可以根据实际情况进行分类根据实际情况进行分类。R( )ijn nRr
9、1 , 0 nnijrR )( ijijijrrr当当当当01 RR 根据根据 结果可知,结果可知, 取值越大,分类就越细,这无疑对取值越大,分类就越细,这无疑对更精确地研究问题是有利的。但如果一个单元划为一类,不更精确地研究问题是有利的。但如果一个单元划为一类,不仅工作量巨大,而且失去了聚类的意义。相反,仅工作量巨大,而且失去了聚类的意义。相反, 取值越小,取值越小,分的类就越少(粗),同样这对研究问题也是不可取的。当分的类就越少(粗),同样这对研究问题也是不可取的。当然,究竞将系统划分为几类,还应结合具体情况作具体分析,然,究竞将系统划分为几类,还应结合具体情况作具体分析,特别是要注意征询
10、有关专家的意见,在多数专家认可的情况特别是要注意征询有关专家的意见,在多数专家认可的情况下,才做为最终的结果输下,才做为最终的结果输出。出。 R 7. 撰写聚类分析报告撰写聚类分析报告 聚类分析是一项独立的研究工作,这项工作完成的好坏聚类分析是一项独立的研究工作,这项工作完成的好坏关系全局。作为聚类分析报告一般应包括以下几部分内容:关系全局。作为聚类分析报告一般应包括以下几部分内容: 聚类分析的目的和意义。聚类分析的目的和意义。 聚类分析所采用的方法和研究结果。聚类分析所采用的方法和研究结果。 结果分析。这部分的主要工作是将不同类上的基本结果分析。这部分的主要工作是将不同类上的基本情况和特征参
11、数进行综合分析,指出不同类的特点,发展优情况和特征参数进行综合分析,指出不同类的特点,发展优势和问题等。势和问题等。解:解:由题设知特性指标矩阵为由题设知特性指标矩阵为X*80106250164906464057310124 采用采用最大值规格化法最大值规格化法将数据规格化为将数据规格化为X0.8910.860.330.560.100.860.6710.600.5710.440.510.50.110.100.290.67 jijijMxx ),max(21njjjjxxxM 用用最大最小法最大最小法构造构造模糊相似矩阵得到模糊相似矩阵得到 138. 037. 053. 024. 038. 01
12、56. 070. 063. 037. 056. 0155. 062. 053. 070. 055. 0154. 024. 063. 062. 054. 01R 153. 053. 053. 053. 053. 0162. 070. 063. 053. 062. 0162. 062. 053. 070. 062. 0163. 053. 063. 062. 063. 01)(4RRt用平方法合用平方法合成传递闭包成传递闭包11()()mikjkkijmikjkkxxrxx取取 ,得,得1 1000001000001000001000001)(1Rt取取 ,得,得7 . 0 100000101000
13、1000101000001)(7 . 0Rt取取 ,得,得63. 0 1000001011001000101101011)(63. 0Rt取取 ,得,得62. 0 1000001111011110111101111)(62. 0Rt取取 ,得,得53. 0 1111111111111111111111111)(53. 0Rt画出动态聚类图如下:画出动态聚类图如下:54321 xxxxx0.70.630.620.531总体样本的中心向量总体样本的中心向量 对样本空间对样本空间 ( 为样本总为样本总数数), ,其中,其中 为分类特征个数,为分类特征个数, 为为 的第的第 个特征。设个特征。设 为对
14、应为对应 值的类数,值的类数, 为第为第 类的样本数,第类的样本数,第 类样本为类样本为 。第第 类的聚类中心为向量类的聚类中心为向量其中,其中, 为该类样本第为该类样本第 个特征的平均值,即个特征的平均值,即,21nxxxX n,21jmjjjxxxx mjkxjxkr inii1,.,iiinxxi 12(,.,)iiiimxxxx ikx 11,1,2,.,iniikjkjixxkmnk总体样本的中心向量为总体样本的中心向量为 ,其中,其中构造下列形式的构造下列形式的F统计量统计量,其中,其中, 为为 与与 的距离,的距离, 为第为第 类中样本类中样本 与与 的距离。的距离。12 ,.,
15、mxx xx11,1,2,.,nkjkjxxkmn12121/(1)/()iriiinriijij nn xxrFxxnr21()miikkkxxxxixx iijxxiijxix 统计量分子表征类与类之间的距离,统计量分子表征类与类之间的距离,分母表示类内样本间距离,因此分母表示类内样本间距离,因此 值越大,说值越大,说明类与类之间的距离大,表明类与类间的差异明类与类之间的距离大,表明类与类间的差异大,分类就越合理。对应于大,分类就越合理。对应于 统计量最大的水统计量最大的水平平 即为最佳阈值。即为最佳阈值。FFF模糊聚类分析的简要流程模糊聚类分析的简要流程:YN企业综合竞争力评价分类企业综合竞争力评价分类 5个公司个公司6个指标的样品数据如下,试根个指标的样品数据如下,试根据以下数据评价据以下数据评价5个公司的综合竞争力。个公司的综合竞争力。