《机器学习(MATLAB版)-习题及答案 ch11.docx》由会员分享,可在线阅读,更多相关《机器学习(MATLAB版)-习题及答案 ch11.docx(2页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十一章EM算法与高斯算法聚类一、简述EM算法与高斯法聚类以及高斯混合模型本章介绍EM算法与高斯混合聚类。EM算法即期望最大化算法(Expec就ion Maxi- mization, EM),这一算法可以说是为求解高斯混合模型量身定做的。高斯混合模型(GMM)是 指多个高斯分布模型的加权组合,是一种基于概率分布的生成式模型。实践证明,GMM是 一种强健的聚类算法。采用梯度下降 化问题。从另一个 的均值和协方差时 的均值和协方差所 从所有高斯成分的 这个概率更新每个法或牛顿法进行迭代求解也不合适,因为这是一个具有等式约束的最优 角度来看,由于每个样本属于哪个高斯分布是未知的,而计算高斯分布 需要
2、用到这个信息。反过来,某个样本属于哪个高斯分布又由高斯分布 确定。因此,模型中存在循环依赖,解决的办法是打破这种循环依赖, 一个随机初始权重值开始,计算样本属于每个高斯分布的概率,再根据 高斯分布的均值和协方差,而EM算法的求解正好采用了这种思路。二、对EM算法进行简要推导EM算法是一种迭代算法,它可以同时计算出每个样本所属的簇以及每个簇的概率分 布参数。如果已知要聚类的数据服从它所属簇的概率分布,则可以通过计算每个簇的概率 分 布和每个样本所属的簇来完成聚类。由于计算每个簇概率分布的参数需要知道哪些样本属 于这个簇,而确定每个样本属于哪个簇又需要知道每个簇的概率分布参数,因此EM算法 在每次
3、迭代时交替地执行E步和M步来解决这两类问题。EM算法是一种从“不完全数据”中求解模型参数的极大似然估计方法。“不完全数据” 一般分为两种情况:一种是由于观测过程本身的限制或错误造成观测数据成为错漏的不完 全数据;另一种是参数的似然函数直接优化十分困难,而引入额外的参数(隐含的或 丢失 的)后就比较容易优化,于是定义原始观测数据加上额外数据组成“完全数据”,原始 观测 数据自然就成为“不完全数据气EM算法的目标是求解似然函数或后验概率的极值,而目标函数中具有无法观测的隐 变量。例如,有一批样本分属于三个类,每个类都服从高斯分布,但均值和协方差这两个参 数都是未知的,并且每个样本属于哪个类也是未知
4、的,需要在这种情况下估计出每个高 斯 分布的均值和协方差。那么样本所属的类别就是隐变量,正是这种隐变量的存在导致了用 极大似然估计法求解的困难。三、简述EM算法在近年来的发展EM算法作为一种数据添加算法,在近几十年得到了迅速的发展。这是由于当前科学 研究及各方面实际应用中的数据量越来越大,经常存在数据缺失或不可用的问题,此时如 果直接处理数据一般是比较困难的。虽然数据添加方法有很多种,但EM算法 具有算法简 单、能可靠地找到极大值或局部极大值等优点,所以得到了迅速普及。随着机器学习理论的发展,EM算法已经不再满足于处理缺失数据问题了,它所能处 理的问题越来越广泛。有时候并非真的是数据缺失,而是
5、为了简化问题所采取的策略,这 时算法被称为数据添加技术。一个复杂的问题通过引入恰当的潜在数据往往能够得到有效 的解决。四、简述高斯混合聚类的定义高斯混合模型常被用于聚类。聚类的基本思路是计算每个样本点关于每个高斯成分的 后验概率,然后选择后验概率最大的类别作为这个样本点的类标签。在MATLAB中,用fit- gmdist。对训练样本数据集进行高斯拟合后,可以根据拟合的结果再利用cluster()o函数来 完成聚类的功能。一般情况下,如果将一个样本点只归纳为一个簇(Cluster),那么这种 类型 的高斯混合聚类称为硬聚类(Hard Cluster)o还有一种情况,每个样本点都会针对每个簇计 算一个分数(Score),对于高斯混合模型来说,这个分数就是后验概率。在这种情况下,一个 点可以属于多个类,也就是说它可能具有多个标签,这种聚类称为软聚类(Soft Cluster)。