《第五章 非监督学习法精选文档.ppt》由会员分享,可在线阅读,更多相关《第五章 非监督学习法精选文档.ppt(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五章 非监督学习法2022/10/18中国矿业大学 计算机科学与技术学院(20)1本讲稿第一页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)2将数据按它们表现出的共性进行划分有两种基本方法,从大体将数据按它们表现出的共性进行划分有两种基本方法,从大体上去把握这种不同方法的特点。上去把握这种不同方法的特点。在实用中在实用中C均值算法等为代表的动态聚类方法,以及分级聚均值算法等为代表的动态聚类方法,以及分级聚类方法是常用的方法,要重点掌握。类方法是常用的方法,要重点掌握。学习中要掌握从易而难的学习方法,如对数据相似度的度主方学习中要掌握从易而难的学习方法,如对数据相似度
2、的度主方法最容易的是欧氏距离,然后再扩展到种种非欧氏距离的方法。法最容易的是欧氏距离,然后再扩展到种种非欧氏距离的方法。本讲稿第二页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)3本章重点本章重点1、什么叫非监督学习方法,什么叫有监督学习方法?什么叫非监督学习方法,什么叫有监督学习方法?2、非监督学习方法主要的用途。、非监督学习方法主要的用途。3、非监督学习方法的两种基本处理方法:按分布密集程度划分,非监督学习方法的两种基本处理方法:按分布密集程度划分,与按相似度聚类划分。与按相似度聚类划分。4、按分布密度程度划分的基本方法。按分布密度程度划分的基本方法。5、动态聚类
3、方法与分级聚类方法的概念。动态聚类方法与分级聚类方法的概念。6、典型的动态聚类方法典型的动态聚类方法C-均值算法与均值算法与ISODATA算法。算法。7、使用非欧氏距离计算相似度的动态聚类方法。、使用非欧氏距离计算相似度的动态聚类方法。8、分级聚类方法。分级聚类方法。本讲稿第三页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)41、非监督学习方法与监督学习方法概念的区别非监督学习方法与监督学习方法概念的区别。2、按分布密集程度划分的基本方法按分布密集程度划分的基本方法。本章难点本章难点3、动态聚类方法动态聚类方法迭代修正的概念。迭代修正的概念。4、分级聚类方法分级聚类方
4、法。本讲稿第四页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)51、掌握非监督学习方法的概念、用途、掌握非监督学习方法的概念、用途。本章学习目标本章学习目标2、了解非监督学习方法对数据划分有两种基本方法。了解非监督学习方法对数据划分有两种基本方法。3、掌握以掌握以c-均值算法,均值算法,ISODATA算法为代表的动态聚类方法算法为代表的动态聚类方法。本讲稿第五页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)61、如果给机器一维数据,机器能自动地找出其中存在的规、如果给机器一维数据,机器能自动地找出其中存在的规律吗律吗?2、有人把非监督学习方法
5、叫无教师的学习,而把第二章、有人把非监督学习方法叫无教师的学习,而把第二章、第三章讨论的内容成为有监督学习,又称有教师的第三章讨论的内容成为有监督学习,又称有教师的学习,你知道谁是教师吗?教师的作用体现在哪里学习,你知道谁是教师吗?教师的作用体现在哪里?课前思考题课前思考题3、机器能总结数据中存在的哪些规律呢?机器能总结数据中存在的哪些规律呢?本讲稿第六页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)74、机器能总结天气变化的规律,给出天气预报吗?机器能总结天气变化的规律,给出天气预报吗?5、机器能炒股吗?机器能炒股吗?6、非监督学习方法与数据有关系吗?非监督学习方法
6、与数据有关系吗?本讲稿第七页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)85.1 引言有监督的学习方法有监督的学习方法无监督的学习方法无监督的学习方法人们日常生活中经常要观察事物与分析事物,从中寻找其规律人们日常生活中经常要观察事物与分析事物,从中寻找其规律性,这就是非监督学习方法要解决的问题。性,这就是非监督学习方法要解决的问题。本讲稿第八页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)9本讲稿第九页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)10非监督学习与有监督学习方法的以下几种不同点:非监督学习与有监督学
7、习方法的以下几种不同点:1、有监督学习方法必须要有训练集与测试样本。、有监督学习方法必须要有训练集与测试样本。而非监督学习没有训练集这一说,只有一组数据,在而非监督学习没有训练集这一说,只有一组数据,在该组数据集内寻找规律。该组数据集内寻找规律。2、有监督学习方法的目的就是识别事物,识别的结果表现、有监督学习方法的目的就是识别事物,识别的结果表现在给待识别数据加上了标号。在给待识别数据加上了标号。而非监督学习方法只有要分析的数据集本身,预先而非监督学习方法只有要分析的数据集本身,预先没有什么标号。没有什么标号。本讲稿第十页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)
8、113、非监督学习方法在寻找数据集中的规律性,这种规、非监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说律性并不一定要达到划分数据集的目的,也就是说不一定要不一定要“分类分类”。这一点是比有监督学习方法的。这一点是比有监督学习方法的用途要广泛。用途要广泛。4、用非监督学习方法分析数据集的主分量与用、用非监督学习方法分析数据集的主分量与用K-L变变换计算数据集的主分量又有区别。应该说后者从方法换计算数据集的主分量又有区别。应该说后者从方法上讲不是一种学习方法。因此用上讲不是一种学习方法。因此用K-L变换找主分量不变换找主分量不属于非监督学习方法,即方法上不是
9、。而通过学习逐属于非监督学习方法,即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于非监督学习方法。元网络中寻找主分量的方法属于非监督学习方法。本讲稿第十一页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)12无监督学习方法可以分成两大类:无监督学习方法可以分成两大类:1、基于概率密度函数估计的直接方法,指设法找到各类别在特、基于概率密度函数估计的直接方法,指设法找到各类别在特征空间的分布参数再进行分类。征空间的分布参数再进行分类。2、基于样本间相似性度量的间接聚类方法,其原
10、理是设基于样本间相似性度量的间接聚类方法,其原理是设法定出不同类别的核心或初始类核,然后依据样本与法定出不同类别的核心或初始类核,然后依据样本与这些核心之间的相似性度量将样本聚集成不同类别。这些核心之间的相似性度量将样本聚集成不同类别。本讲稿第十二页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)135.2 单峰子类的分离方法 每个单峰区域则被看作不同的决策域。落在同一单峰区域的待每个单峰区域则被看作不同的决策域。落在同一单峰区域的待分类样本就被划分成同一类,称为单峰子类。分类样本就被划分成同一类,称为单峰子类。单峰子集分离示意图单峰子集分离示意图本讲稿第十三页,共二十
11、页2022/10/18中国矿业大学 计算机科学与技术学院(20)145.2.1 投影法本讲稿第十四页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)15使用投影方法有两个组成部分使用投影方法有两个组成部分(1)如何设计合适的坐标系统)如何设计合适的坐标系统(2)如何设计直方图)如何设计直方图本讲稿第十五页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)16投影法的具体算法分以下几个步骤:投影法的具体算法分以下几个步骤:步骤步骤1:计算样本协方差矩阵具有最大特征值的特征向量:计算样本协方差矩阵具有最大特征值的特征向量Uj,把数,把数据投影到据投影到
12、Uj轴上。轴上。步骤步骤2:用直方图方法求数据的边缘概率密度函数。:用直方图方法求数据的边缘概率密度函数。步骤步骤3:在直方图的峰值间求最小值,在这些最小点作垂直于:在直方图的峰值间求最小值,在这些最小点作垂直于Uj的各的各个超平面把数据划分为若干个聚类。个超平面把数据划分为若干个聚类。步骤步骤4:如果在这个轴上没有这样的最小值,则用下一个最大特征值对:如果在这个轴上没有这样的最小值,则用下一个最大特征值对应的特征向量重复以上过程。应的特征向量重复以上过程。步骤步骤5:对每个得到的子集:对每个得到的子集(聚类聚类)重复上述过程,直到每个集不能再重复上述过程,直到每个集不能再分分(为单峰为单峰)
13、为止。为止。本讲稿第十六页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)175.2.2 基于对称集性质的单峰子集分离法多维空间中给单峰区域下严格的定义是困难的。多维空间中给单峰区域下严格的定义是困难的。对称子集的定义:对称子集的定义:如果考虑数据如果考虑数据,其中任何一对点,其中任何一对点y1和和y2之间的距离用之间的距离用(y1,y2)表示,该数据集表示,该数据集还具有以下性质:还具有以下性质:如果如果(yi,y0)()(yj,y0),),则则p(yi)p(yj)则该个区域能确保是单峰区域,该数据集称为对称子集。则该个区域能确保是单峰区域,该数据集称为对称子集。对称
14、子集一定具有单峰性质,但是单峰子集却不一定是对称子集。对称子集一定具有单峰性质,但是单峰子集却不一定是对称子集。本讲稿第十七页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)18对称子集的形成对称子集的形成对称子集的形成过程可以分成两个步骤进行。对称子集的形成过程可以分成两个步骤进行。第一步:先将整个特征空间的数据集形成一个按分布概率下降的第一步:先将整个特征空间的数据集形成一个按分布概率下降的序列序列第二步:利用第二步:利用S是概率分布下降序列的性质,通过逐个序列是概率分布下降序列的性质,通过逐个序列数据的依次分析,形成对称子集。在形成对称子数据的依次分析,形成对称子
15、集。在形成对称子集之前,需要定义另一种序列,称为有序后选点集之前,需要定义另一种序列,称为有序后选点序列序列Qi。本讲稿第十八页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)19形成对称子集的具体做法形成对称子集的具体做法取取S序列首项,由于它是下降序列首项,分布概率值为所有数据之最大序列首项,由于它是下降序列首项,分布概率值为所有数据之最大值,产生第一个有序后选点序列值,产生第一个有序后选点序列Q1。(1)若若yr+1ypj,j=1,i,则,则yr+1开始一个新的序列开始一个新的序列Qr+1,(此处此处ypj表示表示Qj中当前候选点,式中的号表示中当前候选点,式中的
16、号表示yr+1满足满足Qj的定义要求的定义要求)其相应的其相应的集合为集合为i+1(2)若若yr+1=ypj,但,但yr+1ypk,k=1,i,k j,则令,则令yr+1j(3)如有不止一个序列都满足如有不止一个序列都满足yr+1=ypj,则将所有满足这个关系的序列,则将所有满足这个关系的序列yr+1编为一个子集编为一个子集I,并根据,并根据假设假设S序列的前序列的前r个元素已形成了个元素已形成了i个有序后选点序列个有序后选点序列Qe,e=1,i,将,将对应每个对应每个Qe的集合定义为的集合定义为e,则,则S序列的序列的(r+1)项元素按下列规则分项元素按下列规则分配:配:求出求出yk所属序列
17、,把所属序列,把yr+1分配到该序列中,同时撤消子集分配到该序列中,同时撤消子集I。本讲稿第十九页,共二十页2022/10/18中国矿业大学 计算机科学与技术学院(20)20对称子集的合并对称子集的合并判断所形成的每个对称子集的首项是否是原分布中的局部极值,判断所形成的每个对称子集的首项是否是原分布中的局部极值,并将是局部极大值的对称子集作为形成单峰子集的核并将是局部极大值的对称子集作为形成单峰子集的核yj,j=1,c。所剩下的那些对称子集所剩下的那些对称子集i需要逐个地合并到这些核中去。需要逐个地合并到这些核中去。如果如果i的概率密度函数值最大的点表示为的概率密度函数值最大的点表示为yoi,yk是是yi中的某个点,而中的某个点,而则将则将i归并到归并到yj中去。其中中去。其中 是已归至是已归至yj中的对称子集中的对称子集i的并。的并。本讲稿第二十页,共二十页