数据挖掘聚类分析第六章.ppt

上传人:石*** 文档编号:47952975 上传时间:2022-10-04 格式:PPT 页数:19 大小:2.16MB
返回 下载 相关 举报
数据挖掘聚类分析第六章.ppt_第1页
第1页 / 共19页
数据挖掘聚类分析第六章.ppt_第2页
第2页 / 共19页
点击查看更多>>
资源描述

《数据挖掘聚类分析第六章.ppt》由会员分享,可在线阅读,更多相关《数据挖掘聚类分析第六章.ppt(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据挖掘聚类分析第六章现在学习的是第1页,共19页 例 某公司下属30个企业,公司为了考核下属企业的经济效益,设计了8个指标。为了避免重复,需要对这8个指标进行筛选,建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离,数据是1-r2。得如下表:x1x1x2x2x3x3x4x4x5x5x6x6x7x7x8x8 x1x10 00.600.600 00.430.430.460.460 00.470.470.450.450.120.120 00.570.570.450.450.230.230.220.220 00.380.380.400.400.210.210.290.290.2

2、20.220 00.310.310.790.790.650.650.700.700.800.800.660.660 00.450.450.450.450.270.270.230.230.140.140.190.190.770.770 0 试用将它们聚类。x2x2x3x3x4x4x5x5x6x6x7x7x8x8现在学习的是第2页,共19页现在学习的是第3页,共19页确定类的个数确定类的个数 在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。给定阈值通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。

3、例如我们给定T=2.2,当聚类时,类间的距离已经超过了2.2,则聚类结束。现在学习的是第4页,共19页什么是好的聚类方法?v一个好的聚类方法可以产生高质量的聚类:类的内部具有较高的相似度类间具有较低的相似度v聚类结果的质量依赖于相似度评价方法以及它们的应用;v聚类结果的质量也取决于它发现隐藏模式的能力。.现在学习的是第5页,共19页K-均值聚类vK-均值聚类方法是最简单、最常用的使用使用准则的方法。vK-均值聚类是属于划分方法中的基于质心是属于划分方法中的基于质心技术的一种方法。划分的思路是以技术的一种方法。划分的思路是以k为参为参数,把数,把n个对象分为个对象分为k 个类,以使类内具有个类,

4、以使类内具有较高的相似度,而类间的相似度较低。相似较高的相似度,而类间的相似度较低。相似度的计算根据一个类中对象的平均值度的计算根据一个类中对象的平均值(被看被看作类的重心作类的重心)来进行。来进行。现在学习的是第6页,共19页 v K-均值聚类的处理流程如下。首先,随均值聚类的处理流程如下。首先,随机选择机选择k个对象,每个对象都初始地代表一个个对象,每个对象都初始地代表一个类的平均值或中心。对剩余的对象,根据其类的平均值或中心。对剩余的对象,根据其与各自类中心的距离,将它赋给最近的类。与各自类中心的距离,将它赋给最近的类。然后重新计算每个类的平均值。这个过程不然后重新计算每个类的平均值。这

5、个过程不断重复,直到准则函数收敛。断重复,直到准则函数收敛。现在学习的是第7页,共19页 v注意:类均值的初始值是任意分配的,可以随机分配也可以直接使用前K个成员的属性值。现在学习的是第8页,共19页K-均值聚类实例均值聚类实例v假设给定如下要进行聚类的元组:假设给定如下要进行聚类的元组:2,4,10,12,3,20,30,11,25,并假设,并假设k=2.初始初始时用前两个数值作为类的均值;时用前两个数值作为类的均值;m=2 和和 m=4.利用欧几里德距离,可得利用欧几里德距离,可得K1=2,3和和K2=4,10,12,20,30,11,25。数值。数值3与两个均与两个均值的距离相等,所以任

6、意地选择值的距离相等,所以任意地选择K1作为其所作为其所属类。在这种情况下,可以进行任意指派。属类。在这种情况下,可以进行任意指派。计算均值可得计算均值可得m1=2.5 和和 m2=16。重新对类。重新对类中的成员进行分配,不断重复上述过程,直中的成员进行分配,不断重复上述过程,直至均值不再变化。至均值不再变化。现在学习的是第9页,共19页 v具体过程如表:具体过程如表:m1m2K1K2242,34,10,12,20,30,11,252.5162,3,410,12,20,30,11,253182,3,4,1012,20,30,11,254.7519.62,3,4,10,11,1220,30,2

7、57252,3,4,10,11,1220,30,25现在学习的是第10页,共19页 v注意在最后两步中类的成员是一致的,由于均值不再变化,所以均值已经收敛了。因此,该问题的答案为:K1=2,3,4,10,11,12 和 K2=20,30,25 K-均值法要求定义的类均值存在,并且要以期均值法要求定义的类均值存在,并且要以期望的类的数目望的类的数目k作为输入。作为输入。要求用户必须事先给出要求用户必须事先给出k(要生成的类的数目)(要生成的类的数目)可以算是该方法的一个缺点。而且,它对于可以算是该方法的一个缺点。而且,它对于“噪声噪声”和孤立点数据是敏感的,少量的该类数和孤立点数据是敏感的,少量

8、的该类数据能够对平均值产生极大的影响。据能够对平均值产生极大的影响。现在学习的是第11页,共19页K-MeansK-Means聚类示例聚类示例v 现在学习的是第12页,共19页 增量聚类v 在越来越多的应用中,必须对收集来的大量数据进行聚类。“大量”的定义随着技术的改变而不同。在六十年代,“大量”意味着几千个聚类的样本。现在,有些应用涉及到成千上万个高维样本的聚类。v增量聚类方法是最流行的,我们将解释它的基本原理,下面是增量聚类方法的所有步骤:现在学习的是第13页,共19页 v1、对样本排序后,把第一个数据项分配到第一个类里。v2、考虑下一个数据项,把它分配到目前某个类中或一个新类中。给分配是

9、基于一些准则的,例如新数据项到目前类的重心的距离。在这种情况下,每次添加一个新数据项到一个目前的类中时,需要重新计算重心的值。v3、重复步骤2,直到所有的数据样本都被聚类完毕。现在学习的是第14页,共19页 v例如:设 x1=(0,2),x2=(0,0),x3=(1.5,0),x4=(5,0),X5=(5,2)假定样本的顺序是:X1,X2,X3,X4,X5,类间相似度的阈值水平是s=3。1、第一个样本X1将变成第一个类C1=x1.x1的坐标就是重心坐标M1=0,2。2、开始分析其他样本。a)把第2个样本x2和M1比较,距离d为:d(x2,M1)=2.03现在学习的是第15页,共19页 v因此,

10、x2属于类C1,新的重心是:M1=(0,1)b)第3个样本x3和重心M1(仍是仅有的重心)比较:d(x3,M1)=C)第4个样本X4和重心M1比较:现在学习的是第16页,共19页 v d(x4,M1)=v因为样本到重心M1的距离比阈值s大,因此该样本将生成一个自己的类C2=X4,其相应的重心为M2=5,0。d)第5个样本和这两个类的重心相比较:d(x5,M1)=d(x5,M2)=现在学习的是第17页,共19页 v故 C2=X4,X5得到 M2=5,13、分析完所有的样本,最终的聚类解决方案是获得两个类:C1=X1,X2,X3 C2=X4,X5现在学习的是第18页,共19页 v缺点:依赖数据项的顺序。增量聚类对样本的顺序非常敏感。对于不同的顺序,该方法会生成完全不同的类。现在学习的是第19页,共19页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁