《《无监督学习》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《无监督学习》PPT课件.ppt(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、无监督学习基本概念基本概念聚聚类:组织数据的技术形成的相似相似组也叫聚聚类聚聚类中心:中心:聚类中所有数据点的均值,用来表示这个聚类聚聚类的的类型:型:划分聚类、层次聚类(一个聚类包含子聚类)相似相似组:处于相同聚类的数据彼此相似数据的数据的维度:度:在一定前提下描述一个数学对象所需的参数个数,完整表述应为“对象X基于前提A是n维”。即数据的属性个数聚聚类树:用于层次聚类如何表示聚类?(1)聚类中心高维球体、椭球体形状半径、标准差-伸展度(2)分类模型把每个聚类当作一个类别(3)聚类中最为常见的值:范畴属性任意形状的聚类:K均值算法不能发现任意形状的聚类,对于不规则形状的聚类定义聚类中心没有意
2、义表示法:一般分别输出每个聚类中的数据点如何如何计算相似度算相似度距离函数距离函数针对数字属性的距离函数:(r维空间中的两个数据点xi、xj)1、闵可夫斯基可夫斯基距离:Dist(xi,xj)=2、欧几里德欧几里德距离取h=2;Dist(xi,xj)=加加权欧几里德欧几里德距离:Dist(xi,xj)=平方欧几里德平方欧几里德距离:Dist(xi,xj)=如何如何计算相似度算相似度距离函数距离函数针对无序范畴属性(布尔属性和名词性属性)的距离函数混合矩阵:简单匹配距离:1)对称属性:两个状态同等重要Dist(xi,xj)=加权:Dist(xi,xj)=2)非对称属性:一个状态比另一个状态更重要
3、Jaccard距离Dist(xi,xj)=(加权)如何如何计算相似度算相似度距离函数距离函数数据点xi数据点xj101ab0cd对于具有多个状态或值的名词性属性简单匹配距离:设数据属性数目为r属性值匹配数目为qDist(xi,xj)=对于文本文档:向量夹角余弦相似度如何如何计算相似度算相似度距离函数距离函数K-K-均均值算法算法D=x1,x2xnXi=xi1,xi2xik选取m(要获得的聚类个数)个数据点作为“种子”聚类中心doforeachdatapointx inDcomputethedistancefromxtoeachcentroidassignxtotheclosestcentero
4、idre-computetheclustercenteroidwhile(Thestopcriterionisnotmet)收敛条件(stopcriterion)(1)没有(或最小数目)数据点被重新分配给不同的聚类(2)没有(或最小数目)聚类中心发生变化(3)SSE局部最小SSE=Cj:thejthclustermj:theclustercentroidofCjK-K-均均值算法算法选取k(要获得的聚类个数)个数据点作为“种子”聚类中心,记作mj(j=1,2,3,k)向量Sj:第j个聚类的加和nj:第j个聚类中数据点的个数dofor(j=0;j cluster j;x;nj+=1;mj=Sj/
5、nj;(j=1,2,3,k)while(thestopcriterionisnotmet)K-K-均均值算法的硬算法的硬盘版本版本数据需要扫描t次,t是在终止条件满足之前的循环次数。k-均值算法的优势与劣势层次聚类方法:聚类树(树状图)合并聚类:从下而上,合并最相似的聚类分裂聚类:从上而下,从包含全部数据点的根节点开始分裂合并算法:foreachdatapointxinsetDmakexacluster;dofind2clustersthatarenearesttoeachother;mergethetwoclusterC;findthedistancefromCtootherclusters
6、;(单连结和全连结、平均连结)while(thenumberofcluster1)单连结方法方法:两个聚类之间的距离=两个聚类中距离最近的两个点(来自不同聚类)之间的距离合并具有“最短最近”距离的两个聚类(对于数据噪音?很敏感)全全连结方法方法:两个聚类之间的距离=两个聚类中距离最远的两个点(来自不同聚类)之间的距离 合并具有“最短最远”距离的两个聚类平均平均连结方法方法:两个聚类之间的距离=两个聚类中多对数据点(来自不同聚类)之间的距离的均值聚聚类中心方法中心方法:两个聚类之间的距离=两个聚类中心的距离ward方法:方法:两个聚类之间的距离=SSE(A+B)-(SSE(A)+SSE(B)=A
7、、B表示两个聚类,A+B表示合并后的聚类优势和劣和劣势1、适用于任何形式的距离或相似度函数2、相对于k均值算法的给出k个聚类的特征,可以提供对于聚类的任何粒度的浏览3、可以发现一些任意形状的聚类(例如采用单连接方法)4、时空复杂度:相对于k均值算法是低效的选择聚聚类算法算法聚聚类的的评估估选择聚类算法聚类的评估查准率与查全率:查准率=(检索出的相关信息量/检索出的信息总量)x100%查全率=(检索出的相关信息量/系统中的相关信息总量)x100%间接评估:数据数据标准化准化区区间度量属性度量属性:数字/连续属性、符合线性标量的实数范围标准化:zscore标准化:均值:标准差比例度量属性比例度量属性:非线性1)按照区间度量属性处理度量刻度上的扭曲2)对属性值进行转换:取对数名名词性(无序范畴)属性性(无序范畴)属性:属性的取值为状态集合中的某一个特例:布尔属性顺序(序(顺序范畴)属性序范畴)属性:类似于名词性属性,但有顺序,常被当作区间度量属性