第五章 非监督学习法PPT讲稿.ppt

上传人:石*** 文档编号:44710100 上传时间:2022-09-22 格式:PPT 页数:20 大小:1.38MB
返回 下载 相关 举报
第五章 非监督学习法PPT讲稿.ppt_第1页
第1页 / 共20页
第五章 非监督学习法PPT讲稿.ppt_第2页
第2页 / 共20页
点击查看更多>>
资源描述

《第五章 非监督学习法PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第五章 非监督学习法PPT讲稿.ppt(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第五章 非监督学习法2022/9/20中国矿业大学 计算机科学与技术学院(20)1第1页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)2将数据按它们表现出的共性进行划分有两种基本方法,从将数据按它们表现出的共性进行划分有两种基本方法,从大体上去把握这种不同方法的特点。大体上去把握这种不同方法的特点。在实用中在实用中C均值算法等为代表的动态聚类方法,以及分级聚均值算法等为代表的动态聚类方法,以及分级聚类方法是常用的方法,要重点掌握。类方法是常用的方法,要重点掌握。学习中要掌握从易而难的学习方法,如对数据相似度的度主方法学习中要掌握从易而难的学习方

2、法,如对数据相似度的度主方法最容易的是欧氏距离,然后再扩展到种种非欧氏距离的方法。最容易的是欧氏距离,然后再扩展到种种非欧氏距离的方法。第2页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)3本章重点本章重点1、什么叫非监督学习方法,什么叫有监督学习方法?什么叫非监督学习方法,什么叫有监督学习方法?2、非监督学习方法主要的用途。非监督学习方法主要的用途。3、非监督学习方法的两种基本处理方法:按分布密集程度划非监督学习方法的两种基本处理方法:按分布密集程度划分,与按相似度聚类划分。分,与按相似度聚类划分。4、按分布密度程度划分的基本方法。按分布密度

3、程度划分的基本方法。5、动态聚类方法与分级聚类方法的概念。动态聚类方法与分级聚类方法的概念。6、典型的动态聚类方法典型的动态聚类方法C-均值算法与均值算法与ISODATA算法。算法。7、使用非欧氏距离计算相似度的动态聚类方法。使用非欧氏距离计算相似度的动态聚类方法。8、分级聚类方法。、分级聚类方法。第3页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)41、非监督学习方法与监督学习方法概念的区别非监督学习方法与监督学习方法概念的区别。2、按分布密集程度划分的基本方法、按分布密集程度划分的基本方法。本章难点本章难点3、动态聚类方法动态聚类方法迭代修

4、正的概念迭代修正的概念。4、分级聚类方法分级聚类方法。第4页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)51、掌握非监督学习方法的概念、用途掌握非监督学习方法的概念、用途。本章学习目标本章学习目标2、了解非监督学习方法对数据划分有两种基本方法了解非监督学习方法对数据划分有两种基本方法。3、掌握以掌握以c-均值算法,均值算法,ISODATA算法为代表的动态聚类方算法为代表的动态聚类方法。法。第5页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)61、如果给机器一维数据,机器能自动地找出其中存在的规

5、律如果给机器一维数据,机器能自动地找出其中存在的规律吗?吗?2、有人把非监督学习方法叫无教师的学习,而把第二章、第三有人把非监督学习方法叫无教师的学习,而把第二章、第三章讨论的内容成为有监督学习,又称有教师的学习,你知章讨论的内容成为有监督学习,又称有教师的学习,你知道谁是教师吗?教师的作用体现在哪里?道谁是教师吗?教师的作用体现在哪里?课前思考题课前思考题3、机器能总结数据中存在的哪些规律呢?机器能总结数据中存在的哪些规律呢?第6页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)74、机器能总结天气变化的规律,给出天气预报吗?机器能总结天气变化

6、的规律,给出天气预报吗?5、机器能炒股吗?机器能炒股吗?6、非监督学习方法与数据有关系吗?非监督学习方法与数据有关系吗?第7页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)85.1 引言有监督的学习方法有监督的学习方法无监督的学习方法无监督的学习方法人们日常生活中经常要观察事物与分析事物,从中寻找其人们日常生活中经常要观察事物与分析事物,从中寻找其规律性,这就是非监督学习方法要解决的问题。规律性,这就是非监督学习方法要解决的问题。第8页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)9第9页,共2

7、0页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)10非监督学习与有监督学习方法的以下几种不同点:非监督学习与有监督学习方法的以下几种不同点:1、有监督学习方法必须要有训练集与测试样本。、有监督学习方法必须要有训练集与测试样本。而非监督学习没有训练集这一说,只有一组数据,在该组而非监督学习没有训练集这一说,只有一组数据,在该组数据集内寻找规律。数据集内寻找规律。2、有监督学习方法的目的就是识别事物,识别的结果表现、有监督学习方法的目的就是识别事物,识别的结果表现在给待识别数据加上了标号。在给待识别数据加上了标号。而非监督学习方法只有要分析的数据集本身,预

8、先没有而非监督学习方法只有要分析的数据集本身,预先没有什么标号。什么标号。第10页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)113、非监督学习方法在寻找数据集中的规律性,这种规律性并、非监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要不一定要达到划分数据集的目的,也就是说不一定要“分分类类”。这一点是比有监督学习方法的用途要广泛。这一点是比有监督学习方法的用途要广泛。4、用非监督学习方法分析数据集的主分量与用、用非监督学习方法分析数据集的主分量与用K-L变换变换计算数据集的主分量又有区别。应该说

9、后者从方法上计算数据集的主分量又有区别。应该说后者从方法上讲不是一种学习方法。因此用讲不是一种学习方法。因此用K-L变换找主分量不属变换找主分量不属于非监督学习方法,即方法上不是。而通过学习逐渐于非监督学习方法,即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于非监督学习方法。网络中寻找主分量的方法属于非监督学习方法。第11页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)12无监督学习方法可以分成两大类:无监督学习方法可以分成两大类:1、基于概率密度

10、函数估计的直接方法,指设法找到各类别基于概率密度函数估计的直接方法,指设法找到各类别在特征空间的分布参数再进行分类。在特征空间的分布参数再进行分类。2、基于样本间相似性度量的间接聚类方法,其原理是基于样本间相似性度量的间接聚类方法,其原理是设法定出不同类别的核心或初始类核,然后依据样设法定出不同类别的核心或初始类核,然后依据样本与这些核心之间的相似性度量将样本聚集成不同本与这些核心之间的相似性度量将样本聚集成不同类别。类别。第12页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)135.2 单峰子类的分离方法 每个单峰区域则被看作不同的决策域。落

11、在同一单峰区域每个单峰区域则被看作不同的决策域。落在同一单峰区域的待分类样本就被划分成同一类,称为单峰子类。的待分类样本就被划分成同一类,称为单峰子类。单峰子集分离示意图单峰子集分离示意图第13页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)145.2.1 投影法第14页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)15使用投影方法有两个组成部分使用投影方法有两个组成部分(1)如何设计合适的坐标系统)如何设计合适的坐标系统(2)如何设计直方图)如何设计直方图第15页,共20页,编辑于2022年,

12、星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)16投影法的具体算法分以下几个步骤:投影法的具体算法分以下几个步骤:步骤步骤1:计算样本协方差矩阵具有最大特征值的特征向量:计算样本协方差矩阵具有最大特征值的特征向量Uj,把数据投影到把数据投影到Uj轴上。轴上。步骤步骤2:用直方图方法求数据的边缘概率密度函数。:用直方图方法求数据的边缘概率密度函数。步骤步骤3:在直方图的峰值间求最小值,在这些最小点作垂直于:在直方图的峰值间求最小值,在这些最小点作垂直于Uj的各的各个超平面把数据划分为若干个聚类。个超平面把数据划分为若干个聚类。步骤步骤4:如果在这个轴上没有这样的最小值,则用下

13、一个最大特征:如果在这个轴上没有这样的最小值,则用下一个最大特征值对应的特征向量重复以上过程。值对应的特征向量重复以上过程。步骤步骤5:对每个得到的子集:对每个得到的子集(聚类聚类)重复上述过程,直到每个集不重复上述过程,直到每个集不能再分能再分(为单峰为单峰)为止。为止。第16页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)175.2.2 基于对称集性质的单峰子集分离法多维空间中给单峰区域下严格的定义是困难的。多维空间中给单峰区域下严格的定义是困难的。对称子集的定义:对称子集的定义:如果考虑数据如果考虑数据,其中任何一对点,其中任何一对点y1

14、和和y2之间的距离用之间的距离用(y1,y2)表表示,该数据集示,该数据集还具有以下性质:还具有以下性质:如果如果(yi,y0)()(yj,y0),),则则p(yi)p(yj)则该个区域能确保是单峰区域,该数据集称为对称子集。则该个区域能确保是单峰区域,该数据集称为对称子集。对称子集一定具有单峰性质,但是单峰子集却不一定是对称子集。对称子集一定具有单峰性质,但是单峰子集却不一定是对称子集。第17页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)18对称子集的形成对称子集的形成对称子集的形成过程可以分成两个步骤进行。对称子集的形成过程可以分成两个步

15、骤进行。第一步:先将整个特征空间的数据集形成一个按分布概率第一步:先将整个特征空间的数据集形成一个按分布概率下降的序列下降的序列第二步:利用第二步:利用S是概率分布下降序列的性质,通过逐个序列数据的是概率分布下降序列的性质,通过逐个序列数据的依次分析,形成对称子集。在形成对称子集之前,需要依次分析,形成对称子集。在形成对称子集之前,需要定义另一种序列,称为有序后选点序列定义另一种序列,称为有序后选点序列Qi。第18页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)19形成对称子集的具体做法形成对称子集的具体做法取取S序列首项,由于它是下降序列首项

16、,分布概率值为所有数据序列首项,由于它是下降序列首项,分布概率值为所有数据之最大值,产生第一个有序后选点序列之最大值,产生第一个有序后选点序列Q1。(1)若若yr+1ypj,j=1,i,则,则yr+1开始一个新的序列开始一个新的序列Qr+1,(此处此处ypj表示表示Qj中当前候选点,式中的号表示中当前候选点,式中的号表示yr+1满足满足Qj的定义要求的定义要求)其相应其相应的集合为的集合为i+1(2)若若yr+1=ypj,但,但yr+1ypk,k=1,i,k j,则令,则令yr+1j(3)如有不止一个序列都满足如有不止一个序列都满足yr+1=ypj,则将所有满足这个关系的,则将所有满足这个关系

17、的序列序列yr+1编为一个子集编为一个子集I,并根据,并根据假设假设S序列的前序列的前r个元素已形成了个元素已形成了i个有序后选点序列个有序后选点序列Qe,e=1,i,将对应每个将对应每个Qe的集合定义为的集合定义为e,则,则S序列的序列的(r+1)项元素按下列规则项元素按下列规则分配:分配:求出求出yk所属序列,把所属序列,把yr+1分配到该序列中,同时撤消子集分配到该序列中,同时撤消子集I。第19页,共20页,编辑于2022年,星期三2022/9/20中国矿业大学 计算机科学与技术学院(20)20对称子集的合并对称子集的合并判断所形成的每个对称子集的首项是否是原分布中的局部极值,并将是局判断所形成的每个对称子集的首项是否是原分布中的局部极值,并将是局部极大值的对称子集作为形成单峰子集的核部极大值的对称子集作为形成单峰子集的核yj,j=1,c。所剩下的那些对称子集所剩下的那些对称子集i需要逐个地合并到这些核中去。需要逐个地合并到这些核中去。如果如果i的概率密度函数值最大的点表示为的概率密度函数值最大的点表示为yoi,yk是是yi中的某个点,而中的某个点,而则将则将i归并到归并到yj中去。其中中去。其中 是已归至是已归至yj中的对称子集中的对称子集i的并。的并。第20页,共20页,编辑于2022年,星期三

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁