1 模式识别原理课件-第1、2章 绪论 聚类分析(精品).ppt

上传人:hyn****60 文档编号:82465431 上传时间:2023-03-25 格式:PPT 页数:77 大小:2.11MB
返回 下载 相关 举报
1 模式识别原理课件-第1、2章 绪论 聚类分析(精品).ppt_第1页
第1页 / 共77页
1 模式识别原理课件-第1、2章 绪论 聚类分析(精品).ppt_第2页
第2页 / 共77页
点击查看更多>>
资源描述

《1 模式识别原理课件-第1、2章 绪论 聚类分析(精品).ppt》由会员分享,可在线阅读,更多相关《1 模式识别原理课件-第1、2章 绪论 聚类分析(精品).ppt(77页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第第1章章 绪论绪论1.1 模式和模式识别的概念模式和模式识别的概念1.2 模式识别系统模式识别系统1.3 模式识别概况模式识别概况1.4 模式识别的应用模式识别的应用2.狭义定义狭义定义1)模式:对某些感兴趣的客体的定量的或结构的描述。模式类是具有某些共同特性的模式的集合。2)模式识别:研究一种自动技术,依靠这种技术,计算机将自动地(或人尽量少地干涉)把待别识模式分配到各自的模式类中去。1.广义定义广义定义1)模式(pattern):一个客观事物的描述,一个可用来仿效的完善的例子。2)模式识别(pattern recognition):按哲学的定义是一个“外部信息到达感觉器官,并被转换成有

2、意义的感觉经验”的过程。例:识别热水、字迹等。1.1 模式和模式识别的概念模式和模式识别的概念 注意:注意:狭义的“模式”概念是对客体的描述,不论是待识别客体,还是已知的客体。广义的“模式”概念是指“用于效仿的完善例子”1)目前的计算机建立在诺依曼体系基础之上。1946年:美籍匈牙利数学家冯诺依曼提出了关于计算机组成和工作方式的基本设想:数字计算机的数制采用二进制;计算机按照程序顺序执行,即“程序存储”的概念。1949年:研制出第一台冯诺依曼式计算机。1956年:第一次人工智能(artificial intelligence)研讨会在美国召开。3.相关的计算机技术相关的计算机技术2)第五代人工

3、智能型计算机 本质区别:主要功能将从信息处理上升为知识处理(学习、联想、推理、解释问题),使计算机具有人类的某些智能。研制工作从80年代开始,目前尚未形成一致结论。几种可能的发展方向:神经网络计算机模拟人的大脑思维。生物计算机运用生物工程技术、蛋白分子作芯片。光计算机用光作为信息载体,通过对光的处理来完成 对信息的处理。4.研究和发展模式识别的目的研究和发展模式识别的目的 提高计算机的感知能力,从而大大开拓计算机的应用。1.2 模式识别系统模式识别系统1.2.1 简例:建立感性认识简例:建立感性认识 以癌细胞识别为例,了解机器识别的全过程。1.信息信息输入与数据获取输入与数据获取 将显微细胞图

4、像转换成数字化细胞图像,是计算机分析的原始数据基础。数字化显微细胞图像数字化显微细胞图像 灰度图象灰度图象 经过染色处理过的彩色图象经过染色处理过的彩色图象 核核N浆浆C背景背景B 灰度数字图像的像素值反映光密度的大小。2.数字化细胞图像的预处理与区域划分数字化细胞图像的预处理与区域划分 预处理的目的:(1)去除在数据获取时引入的噪声与干扰。(2)去除所有夹杂在背景上的次要图像,突出主要的待识别 的细胞图像。例:平滑、图像增强等数字图像处理技术。区域划分的目的:找出边界,划分出三个区域,为特征抽取做准备。设灰度阈值为Tc和Tn,图像中某像素的灰度值为Ti,则:Ti Tn的点属于胞核区;Ti T

5、c的点属于背景区;TcTi Tn的点属于胞浆区;检测的边缘 TnTc疑似肿瘤细胞 TcTn核核N浆浆C例:对一个细胞抽取33个特征,建立一个33维的空间X,每个细胞可通过一个33维随机向量表示,记为:即把一个物理实体“细胞”变成了一个数学模型“33维随机向量”,也即33维空间中的一点。3.细胞特征的抽取、选择和提取细胞特征的抽取、选择和提取目的:为了建立各种特征的数学模型,以用于分类。抽取特征:原始采集数据,第一手资料,特征数据量大。是特征选择和提取的依据。特征选择:在原始特征基础上选择一些主要特征作为判别用的特征。特征提取:采用某种变换技术,得出数目上比原来少的综合特征作为分类用,称为特征维

6、数压缩,习惯上亦称特征提取。例:有五个特征 ,以及变换f()、g(),则可有:结果:X 空间中的向量 变成 Y 空间的向量即:特征向量由5维降为2维。4.判别分类判别分类(1)气管细胞97个,识别错误率为7.2%。(2)肺细胞166个,识别错误率为18%。判别的好坏通过错误率给出,不同错误的代价和风险不同。信息输入信息输入细胞涂片制备细胞涂片制备显微细胞图像显微细胞图像数字化细胞图像数字化细胞图像数据获取数据获取图像预处理图像预处理区域划分区域划分预处理预处理决策分析决策分析信息输出信息输出特征抽取特征抽取特征选择特征选择/提取提取细胞图像的细胞图像的 计算机分类系统框图计算机分类系统框图模式

7、识别一般步骤:1.2.2 模式识别系统组成模式识别系统组成学习过程学习过程判决过程判决过程分类规则训练分类规则训练分类决策分类决策数据获取数据获取预预处理处理特征选择特征选择 或提取或提取注意:注意:“处理”与“识别”两个概念的区别具体的羊、猴具体的羊、猴亩产量亩产量1000斤、地形特点斤、地形特点图像、像、语音音 动物动物卫星照片卫星照片图像、像、语音音处理处理识别识别处理:输入与输出是同样的对象,性质不变。识别:输入的是事物,输出的是对它的分类、理解和描述。模式模式识别识别系统框图系统框图 1.3 模式识别概况模式识别概况1929年G.Tauschek发明阅读机;30年代 Fisher提出

8、统计分类理论;50年代Noam Chemsky提出形式语言理论;60年代L.A.Zadeh提出了模糊集理论,较广泛地应用;80年代Hopfield提出神经元网络模型理论;90年代以后小样本学习理论、支持向量机。1.3.1 模试识别发展简介模试识别发展简介基本上:五十、六十年代开始迅速发展,七十年代初奠定理论基础。比较成熟的:四大分支 1.从理论上分类从理论上分类 统计模式识别 以模式集在特征空间中分布的类概率密度函数为基础,对总体特征进行研究。包括判决函数法和聚类 分析法。1.3.2 模式识别分类模式识别分类句法模式识别(结构模式识别)根据识别对象的结构特征,以形式语言理论为基础的一种模式识别

9、方法。把复杂模式分化为较简单的子模式乃至基元,各层次之间的关系通过“结构法”来描述,相当于语言中的语法。用小而简单的基元与语法规则来描述大而复杂的模式。(b)墙壁 f地板 gEDBbadce(c)模糊模式识别 以隶属度 为基础,运用模糊数学中的“关系”概念和运算进行分类。隶属度反映的是某一元素属于某集合的程度。例:元素 a、b、c对正方形的隶属度:a比b更像正方形。说明:神经网络模式识别法 以人工神经元为基础,模拟人脑神经细胞的工作特点。对脑部工作的生理机制进行模拟,实现形象思维的模拟。对比:基于知识的逻辑性推理:对逻辑思维的模拟。监督(有人管理)分类:利用判别函数进行分类判别。需要 有足够的

10、先验知识。非监督(无人管理)分类:用于没有先验知识的情况下,采 用聚类分析的方法。2.从实现方法来分从实现方法来分1.4 模式识别的应用模式识别的应用例1.1 不停车收费系统。1)提取车辆外形几何参数进行处理分析,实现分类。如视频检测方法、红外检测方法。2)测量车辆的其他物理参数(噪声、振动、压重等)实现分类。如动态称重、电磁感应等。3)直接识别车辆身份的方法实现分类。如电子标签、视频牌照识别等。例如第一种方式:交通部的收费标准:按吨位划分 收费站:按车型收费(间接按车辆设计载重量收费)关键:车型的自动分类。几种主要技术:顶长比:车 高:最高最高 居中居中最低最低顶顶高高长长最小最小 最大最大

11、居中居中例1.2 生物识别技术。根据每个人独有的可以采样和测量的生物学特征(生理特征)和行为学特征进行身份识别的技术。1)指纹识别:最早、最成熟的识别技术。2)掌纹识别:研究纹线上某几个点的幅值(灰度值)、线长 与线所对应的角之比等特征。3)人脸识别:4)虹膜识别:5)签名识别6)击键分析 第第2章章 聚类分析聚类分析2.1 距离聚类的概念距离聚类的概念2.2 相似性测度和聚类准则相似性测度和聚类准则2.3 基于距离阈值的聚类算法基于距离阈值的聚类算法2.4 层次聚类法层次聚类法2.5 动态聚类法动态聚类法2.6 聚类结果的评价聚类结果的评价2.1 距离聚类的概念距离聚类的概念 有n个特征值则

12、组成n维向量 ,称为该样本的特征向量。它相当于特征空间中的一个点,以特征空间中,点间的距离函数作为模式相似性的测量,以“距离”作为模式分类的依据,距离越小,越“相似”。1.概念:概念:“物以类聚物以类聚”聚类分析:根据模式之间的相似性对模式进行分类,是一种非监督分类方法。2相似性的含义相似性的含义注意:注意:聚类分析是否有效,与模式特征向量的分布形式有很大关系。选取的特征向量是否合适非常关键。例:酱油与可乐。复习:已知向量 ,则:2.2 相似性测度和聚类准则相似性测度和聚类准则相似性测度:衡量模式之间相似性的一种尺度。如:距离。2.2.1 相似性测度相似性测度1.欧氏距离(欧氏距离(Eucli

13、d,欧几里德)欧几里德)简称距离简称距离 设X1、X2为两个n维模式样本,注意:注意:1)各特征向量对应的维上应当是相同的物理量;注意物理量的单位。(D_Distance)距离越小,越相似。欧氏距离定义为:某些维上物理量采用的单位发生变化,会导致对同样的点集出现不同聚类结果的现象。b(5,0)d(4,5)c(1,4)a(0,1)12345012345(a)2)解决方法:使特征数据标准化,使其与变量的单位无关。d(0.4,5)c(0.1,4)a(0,1)123450123b(0.5,0)(b)b(5,0)c(1,0.4)d(4,0.5)a(0,0.1)123012345(c)对n维向量:,2.马

14、氏距离马氏距离(Maharanobis)平方表达式:式中,X:模式向量;M:均值向量;C:该类模式总体的协方差矩阵。(M_Mean)(C_covariance)表示的概念是各分量上模式样本到均值的距离,也就是在各维上模式的分散情况。越大,离均值越远。优点:排除了模式样本之间的相关影响。当C=I 时,马氏距离为欧氏距离。当m=2时,明氏距离为欧氏距离。n维模式样本向量Xi、Xj间的明氏距离表示为:式中,xik、xjk分别表示Xi和Xj的第k个分量。街坊欧氏3.明氏距离明氏距离(Minkowaki)当m=1时:称为“街坊”距离(“City block”distance)。当k=2时:图示4汉明汉明

15、(Hamming)距离距离 设Xi、Xj 为n维二值(1或1)模式样本向量,则两个模式向量的各分量取值均不同:Dh(Xi,Xj)=n;全相同:Dh(Xi,Xj)=0式中,xik、xjk分别表示Xi和Xj的第k个分量。汉明距离:5角度相似性函数角度相似性函数是模式向量Xi,Xj之间夹角的余弦。6Tanimoto测度测度用于0,1二值特征的情况,相似性测度函数的共同点都涉及到把两个相比较的向量Xi,Xj的分量值组合起来,但怎样组合并无普遍有效的方法,对具体的模式分类,需视情况作适当选择。聚类准则:聚类准则:根据相似性测度确定的,衡量模式之间是否相似的标 准。即把不同模式聚为一类还是归为不同类的准则

16、。确定聚类准则的两种方式:1.阈值准则:根据规定的距离阈值进行分类的准则。2.函数准则:利用聚类准则函数进行分类的准则。聚类准则函数:在聚类分析中,表示模式类间相似或差异性的函数。它应是模式样本集X 和模式类别 的函数。可使聚类分析转化为寻找准则函数极值的最优化问题。一种常用的指标是误差平方之和。2.2.2 聚类准则聚类准则聚类准则函数:式中:c为聚类类别的数目,为属于集的样本的均值向量,为 中样本数目。J代表了分属于c个聚类类别的全部模式样本与其相应类别模式均值之间的误差平方和。适用范围:适用于各类样本密集且数目相差不多,而不同类间的样本又明显分开的情况。例1:类内误差平方和很小,类间距离很

17、远。可得到最好的结果。类长轴两端距离中心很远,J值较大,结果不易令人满意。错误分类例2:另一种情况 有时可能把样本数目多的一类分拆为二,造成错误聚类。原因:这样分开,J值会更小。正确分类 2.3 基于距离阈值的聚类算法基于距离阈值的聚类算法1.问题问题:有N个待分类的模式 ,要求按距离阈值T分类到以 为聚类中心的模式类中。2.算法描述算法描述 任取样本Xi 作为第一个聚类中心的初始值,如令Z1=X1。计算样本X2 到Z1 的欧氏距离 ,若 ,定义一新的聚类中心Z2=X2;否则 X2 以Z1为中心的聚类。(T_threshold)2.3.1 近邻聚类法近邻聚类法依此类推,直到将所有的N个样本都进

18、行分类。假设已有聚类中心Z1、Z2,计算 和 ,若 且 ,则建立第三个聚类中心Z3=X3;否则X3离Z1和Z2中最近者(最近邻的聚类中心)。3.算法特点算法特点2)优点:计算简单。(一种虽粗糙但快速的方法)1)局限性:很大程度上依赖于第一个聚类中心的位置选择、待 分类模式样本的排列次序、距离阈值T的大小以及样本分布 的几何性质等。用先验知识指导阈值T 和起始点Z1的选择,可获得合理的聚类结果。否则只能选择不同的初值重复试探,并对聚类结果进行验算,根据一定的评价标准,得出合理的聚类结果。对对结结果果验验算算,类类内内各各样样本点间距离方差之和太大本点间距离方差之和太大减小减小T,修改中心,修改中

19、心Z。4算法讨论算法讨论2.3.2 最大最小距离算法(小中取大距离算法最大最小距离算法(小中取大距离算法)1.问题问题:已知N个待分类的模式 ,分类到聚类中心 对应的类别中。2.算法描述算法描述 选任意一模式样本做为第一聚类中心Z1。选择离Z1距离最远的样本作为第二聚类中心Z2。逐个计算各模式样本与已确定的所有聚类中心之间的距离,并选出其中的最小距离。例当聚类中心数k=2时,计算min(Di1,Di2),i=1,N(N个最小距离)将样本 按最近距离划分到相应聚类中心对应的类别中。重复步骤,直到没有新的聚类中心出现为止。在所有最小距离中选出最大距离,如该最大值达到 的一定分数比值(阈值T)以上,

20、则相应的样本点取为新的聚类中心,返回;否则,寻找聚类中心的工作结束。(:用试探法取为一固定分数,如1/2。)则Z3存在。为使聚类中心更有代表性,可取各类的样本均值作为聚类中心。例k=2时思路总结:先找中心后分类;关键:怎样开新类,聚类中心如何定。例2.1 对图示模式样本用最大最小距离算法进行聚类分析。选选Z1=X1距距Z1最远,选为最远,选为Z2。计算。计算T。对应最小距离对应最小距离中的最大值,中的最大值,且且T,选作,选作Z3。结果:Z1=X1;Z2=X6;Z3=X7。用全体模式对三个聚类中心计算最小距离中的最大值,无T 情况,停止寻找中心。聚类10个最小距离中,X7对应的距离T,2.4

21、层次聚类法层次聚类法(Hierarchical Clustering Method)(系统聚类法、分级聚类法)(系统聚类法、分级聚类法)思路:每个样本先自成一类,然后按距离准则逐步合并,减少类数。1.算法描述算法描述1)N个初始模式样本自成一类,即建立N 类:计算各类之间(即各样本间)的距离,得一NN维距离矩阵D(0)。“0”表示初始状态。(G_Group)2)假设已求得距离矩阵D(n)(n为逐次聚类合并的次数),找出D(n)中的最小元素,将其对应的两类合并为一类。由此建立新的分类:。3)计算合并后新类别之间的距离,得D(n+1)。4)跳至第2步,重复计算及合并。结束条件:结束条件:1)取距离

22、阈值T,当D(n)的最小分量超过给定值 T 时,算法停 止。所得即为聚类结果。2)或不设阈值T,一直将全部样本聚成一类为止,输出聚类的分 级树。2.问题讨论:类间距离计算准则问题讨论:类间距离计算准则HK1)最短距离法)最短距离法 如H、K是两个聚类,则两类间的最短距离定义为:H类中的某个样本XH和K类中的某个样本XK之间 的欧氏距离。DHK:H类中所有样本与K类中所有样本之间的最小距离。如果K类由I和J两类合并而成,则得到递推公式:HKIJ2)最长距离法)最长距离法 若K类由I、J两类合并而成,则有:3)中间距离法)中间距离法 介于最长与最短的距离之间。如果K类由I类和J类合并而成,则H和K

23、类之间的距离为4)重心法)重心法 将每类中包含的样本数考虑进去。若I类中有nI个样本,J类中有nJ个样本,则类与类之间的距离递推式为 定义类间距离的方法不同,分类结果会不太一致。实际问题中常用几种不同的方法,比较分类结果,从而选择一个比较切合实际的分类。5)类平均距离法)类平均距离法:H类任一样本Xi和K类任一样本Xj之间的欧氏距离平方。若K类由I类和J类合并产生,则递推式为例:给出6个五维模式样本如下,按最短距离准则进行系统聚类分类。计算各类间欧氏距离:解:(1)将每一样本看作单独一类,得:,;D D(0)(0)0 00 00 00 00 00 0(2)将最小距离 对应的类 和 合并为1类,

24、得 新的分类。计算聚类后的距离矩阵D(1):由D(0)递推出D(1)。得距离矩阵D(0):D D(0)(0)0 00 00 00 00 00 0 D D(1)(1)0 0 0 0 0 0 0 0 0 0(3)将D(1)中最小值 对应的类合为一类,得D(2)。D D(2)(2)0 0 0 0 0 0 0 0(4)将D(2)中最小值 对应的类合为一类,得D(3)。D D(2)(2)0 0 0 0 0 0 0 0 D D(3)(3)0 0 0 0 0 0若给定的阈值为 ,D(3)中的最小元素 ,聚类结束。若无阈值,继续分下去,最终全部样本归为一类。可给出聚类过程的树状表示图。层次聚类法的树状表示 类

25、间距离类间距离阈值增大,阈值增大,分类变粗。分类变粗。2.5 动态聚类法动态聚类法两种常用算法:*K-均值算法(或C-均值算法)*迭代自组织的数据分析算法(ISODATA,iterative self-organizing data analysis techniques algorithm)判断判断合理性合理性选初始选初始 中心中心聚类聚类合理合理不合理不合理输出输出修改修改K-均值算法的聚类准则:聚类中心的选择应使准则函数J极小,即使Jj的值极小。2.5.1 K-均值算法均值算法 基于使聚类准则函数最小化,准则函数:聚类集中每一样本点到该类中心的距离平方和。对于第j个聚类集,准则函数定义为

26、Sj:第j个聚类集(域),聚类中心为Zj;Nj:第j个聚类集Sj中所包含的样本个数。对所有K个模式类有应有 即 可解得 上式表明,Sj类的聚类中心应选为该类样本的均值。1.算法描述算法描述括号内序号:迭代运算的次序号。(1)任选K个初始聚类中心:Z1(1),Z2(1),ZK(1)(2)按最小距离原则将其余样品分配到K个聚类中心中的某一 个,即:若,则注意:注意:k迭代运算次序号;K聚类中心的个数。Nj:第j类的样本数。(3)计算各个聚类中心的新向量值:(4)如果 ,则回到(2),将模式 样本逐个重新分类,重复迭代计算。这里:分别计算K个聚类中的样本均值向量,故称K-均值算法。,算法收敛,计算完

27、毕。如果聚类过程中,聚类中心位置或个数发生变化。“动态”聚类法?2.算法讨论算法讨论 结果受到所选聚类中心的个数和其初始位置,以及模式样本的几何性质及读入次序等的影响。实际应用中需要试探不同的K值和选择不同的聚类中心起始值。例2.3:已知20个模式样本如下,试用K-均值算法分类。解:取K=2,并选:计算距离,聚类:,可得到:计算新的聚类中:判断:,故返回第步。从新的聚类中心得:有:计算聚类中心:返回第步,以Z1(3),Z2(3)为中心进行聚类。以新的聚类中心分类,求得的分类结果与前一次迭代结果相 同:计算新聚类中心向量值,聚类中心与前一次结果相同,即:,故算法收敛,得聚类中心为结果图示:图2.

28、10 K-均值算法聚类结果X1X4X3X5X8X9X7X10X2X6x1x213579135790X11X12X13X14X15X16X17X18X19X20 上述K-均值算法,其类型数目假定已知为K个。当K未知时,可以令K逐渐增加,此时J j 会单调减少。最初减小速度快,但当K 增加到一定数值时,减小速度会减慢,直到K=总样本数N 时,Jj=0。JjK关系曲线如下图:3、聚类准则函数、聚类准则函数Jj与与K的关系曲线的关系曲线JjA135724608109K 曲线的拐点 A 对应着接近最优的K值(J 值减小量、计算量以及分类效果的权衡)。并非所有的情况都容易找到关系曲线的拐点。迭代自组织的数

29、据分析算法可以确定模式类的个数K。2.5.2 迭代自组织的数据分析算法迭代自组织的数据分析算法(iterative self-organizing data analysis techniques algorithm,ISODATA)算法特点 加入了试探性步骤,组成人机交互的结构;可以通过类的自动合并与分裂得到较合理的类别数。相似:聚类中心的位置均通过样本均值的迭代运算决定。相异:K-均值算法的聚类中心个数不变;ISODATA的聚类中心个数变化。与K-均值算法比较:1算法简介算法简介基本思路:(1)选择初始值包括若干聚类中心及一些指标。可在迭代运 算过程中人为修改,据此将N个模式样本分配到各个

30、聚类中 心去。(3)聚类后的处理:计算各类中的距离函数等指标,按照给定的 要求,将前次获得的聚类集进行分裂或合并处理,以获得新 的聚类中心,即调整聚类中心的个数。(4)判断结果是否符合要求:符合,结束;否则,回到(2)。(2)按最近邻规则进行分类。算法共分十四步:第一 六步:预选参数,进行初始分类。为合并和分裂准备必要的数据。第七步:决定下一步是进行合并还是进行分裂。第八 十步:分裂算法。第十一 十三步:合并算法。第十四步:决定算法是否结束。2算法描述算法描述设有N个模式样本X1,X2,XN。预选参数,进行初始分类。第一步:预选NC个聚类中心 ,NC也是聚类过程 中实际的聚类中心个数。预选指标

31、:K:希望的聚类中心的数目。N:每个聚类中应具有的最少样本数。若样本少于N,则该 类不能作为一个独立的聚类,应删去。S:一个聚类域中样本距离分布的标准差阈值。标准差向量的 每一分量反映样本在特征空间的相应维上,与聚类中心的 位置偏差(分散程度)。要求每一聚类内,其所有分量中 的最大分量应小于S,否则该类将被分裂为两类。C:两聚类中心之间的最小距离。若两类中心之间距离小于 C,则合并为一类。L:在一次迭代中允许合并的聚类中心的最大对数。I:允许迭代的次数。第二步:把N个样本按最近邻规则分配到NC个聚类中。若 则 第三步:若Sj中的样本数NjN,则取消该类,并且NC减去1。第四步:修正各聚类中心值

32、。第五步:计算Sj类的类内平均距离 。第六步:计算总体平均距离 ,即全部样本到各自聚类中心距 离的平均距离。N:每类应具有的 最少样本数。3)如果迭代的次数是偶数,或NC2K,即聚类中心数目大于或 等于希望数的两倍,则跳到第十一步(合并)。否则进入第八步 (分裂)。第七步:判决是进行分裂还是进行合并,决定迭代步骤等。判断分裂还是合并。1)如迭代已达I次(最后一次),置C=0,跳到第十一步(合并)。2)若NCK/2,即聚类中心小于或等于希望数的一半,进入 第八步(分裂)。C:两聚类中心之间的最小距离。NC:预选的聚类中心数。I:允许迭代的次数。K:希望的聚类中心的数目。分裂处理。第八步:计算每个

33、聚类中样本距离的标准差向量。对第Sj类有分量:是聚类数;是维数(特征个数)。第九步:求每个标准差向量的最大分量。j的最大分量记为 jmax,j=1,2,NC。第十步:在最大分量集 中,如有 ,1)和 ,即类内平均距离大于总体平均距离,并且Sj类中样本数很大。说明Sj类样本在对应方向上的标准差大于允许的值。此时,又满足以下两个条件之一:2),即聚类数小于或等于希望数目的一半。则将Zj分裂成两个新的聚类中心 和 ,并且NC加1。其中N:每个聚类中应具有的最少样本数。S:聚类域中样本距离分布的标准差阈值。:分裂系数若完成了分裂运算,迭代次数加1,跳回第二步;否则,继续。按邻近规则聚类合并处理。第十一

34、步:计算所有聚类中心之间的距离。Si类和Sj类中心间 的距离为第十二步:比较所有Dij与C的值,将小于C的Dij按升序排列 第十三步:如果将距离为 的两类合并,得到新的聚类中心 为C:两聚类中心之间的最小距离。每合并一对,NC减1。判断结束。第十四步:若是最后一次运算(迭代次数为I),算法结束。否则,有两种情况:1)需要由操作者修改输入参数时(试探性步骤),跳到第一步;2)输入参数不需改变时,跳到第二步。按邻近规则聚类此时,选择两者之一,迭代次数加1,然后继续进行运算。1、评价的重要性、评价的重要性1)对高维特征向量样本,不能直观看清聚类效果时。2)人机交互系统中,需要迅速地判断中间结果,及时指导输入参数的改变,较快地获得较好的聚类结果。2.6 聚类结果的评价聚类结果的评价2、常用的几个指标、常用的几个指标 1)聚类中心之间的距离。2)诸聚类域中样本数目。3)诸聚类域内样本的标准差向量。聚类域内样本分布近似为超球体。沿第三轴形成长条的(四维)超椭球体分布。各指标综合考虑。例:结束结束

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁