(11)--第11章 特征选择与稀疏学习机器学习模型与算法.ppt

上传人:奉*** 文档编号:96574741 上传时间:2024-01-06 格式:PPT 页数:40 大小:1.57MB
返回 下载 相关 举报
(11)--第11章 特征选择与稀疏学习机器学习模型与算法.ppt_第1页
第1页 / 共40页
(11)--第11章 特征选择与稀疏学习机器学习模型与算法.ppt_第2页
第2页 / 共40页
点击查看更多>>
资源描述

《(11)--第11章 特征选择与稀疏学习机器学习模型与算法.ppt》由会员分享,可在线阅读,更多相关《(11)--第11章 特征选择与稀疏学习机器学习模型与算法.ppt(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、特征选择与稀疏学习概述2概述3特征n特征u描述物体的属性n特征的分类u相关特征:对当前学习任务当前学习任务有用的属性u无关特征:与当前学习任务当前学习任务无关的属性u冗余特征*:其所包含信息能由其他特征推演出来*为简化讨论,本章暂不涉及冗余特征例子:西瓜的特征西瓜的特征特征颜色纹理触感根蒂声音相关特征相关特征无关特征无关特征好瓜坏瓜当前任务当前任务:西瓜是否是好瓜特征选择n特征选择u从给定的特征集合中选出任务相关任务相关特征子集u必须确保不丢失重要特征n原因u减轻维度灾难:在少量属性上构建模型u降低学习难度:留下关键信息例子:判断是否好瓜时的特征选择西瓜的特征特征颜色纹理触感根蒂声音相关特征相

2、关特征无关特征无关特征好瓜坏瓜当前任务当前任务:西瓜是否是好瓜特征选择:选择当前任务相关特征特征选择的一般方法n遍历所有可能的子集u计算上遭遇组合爆炸,不可行不可行n可行方法产生初始候选子集评价候选子集的好坏基于评价结果产生下一个候选子集两个关键环节:子集搜索和子集评价子集搜索n前向搜索:逐渐增加相关特征n后向搜索:从完整的特征集合开始,逐渐减少特征n双向搜索:每一轮逐渐增加相关特征,同时减少无关特征用贪心策略选择包含重要信息的特征子集特征集合当前最优子集优于上一轮最优子集?YN前向搜索n最优子集初始为空集,特征集合初始时包括所有给定特征结束最优子集子集评价n特征子集确定了对数据集的一个划分u

3、每个划分区域对应着特征子集的某种取值n样本标记对应着对数据集的真实划分通过估算这两个划分的差异,就能对特征子集进行评价;与样本标记对应的划分的差异越小,则说明当前特征子集越好用信息熵进行子集评价常见的特征选择方法常见的特征选择方法大致分为如下三类:n过滤式n包裹式n嵌入式将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法概述14过滤式选择nRelief(Relevant Features)方法 Kira and Rendell,1992u为每个初始特征赋予一个“相关统计量相关统计量”,度量特征的重要性u特征子集的重要性由子集中每个特征所对应的相关统计量之和决定u设计一个阈值,然后选择

4、比阈值大的相关统计量分量所对应的特征u或者指定欲选取的特征个数,然后选择相关统计量分量最大的指定个数特征如何确定相关统计量?先用特征选择过程过滤原始数据,再用过滤后的特征来训练模型;特征选择过程与后续学习器无关Relief方法中相关统计量的确定Relief方法的多类拓展概述18包裹式选择n包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集n包裹式选择方法直接针对给定学习器进行优化,因此从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好n包裹式特征选择过程中需多次训练学习器,计算开销通常比过滤式特征选择大得多包裹式选择直接把最终将要使用的学习器的性能作为特征子集

5、的评价准则LVW包裹式特征选择方法n基本步骤u在循环的每一轮随机产生一个特征子集u在随机产生的特征子集上通过交叉验证推断当前特征子集的误差u进行多次循环,在多个随机产生的特征子集中选择误差最小的特征子集作为最终解*若有运行时间限制,则该算法有可能给不出解LVW(Las Vegas Wrapper)Liu and Setiono,1996 在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差作为特征子集评价准则LVW包裹式特征选择方法nLVW算法u计算开销很大概述22嵌入式选择嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,在学习器训练过程中

6、自动地进行特征选择概述27稀疏表示n将数据集考虑成一个矩阵,每行对应一个样本,每列对应一个特征n矩阵中有很多零元素,且非整行整列出现n稀疏表达的优势:u文本数据线性可分u存储高效能否将稠密表示的数据集转化为“稀疏表示”,使其享受稀疏表达的优势?字典学习n给定数据集:n学习目标是:;样本稀疏表示:;k为字典词汇量,由用户指定,字典优化形式为:为普通稠密表达的样本找到合适的字典字典,将样本转化为稀疏表示,这一过程称为字典学习字典学习字典学习的解法概述31压缩感知n数据传输中,能否利用接收到的压缩、丢包后的数字信号,精确重构出原信号?n压缩感知(compressive sensing)Cndes et al.,2006,Donoho,2006 为解决此类问题提供了新的思路.能否利用部分数据恢复全部数据?压缩感知如傅里叶变换,余弦变换,小波变换等限定等距性压缩感知的优化目标和解法矩阵补全客户对书籍的喜好程度的评分“矩阵补全”技术解决此类问题 能否将表中已经通过读者评价得到的数据当作部分信号部分信号,基于压缩感知的思想恢恢复复出完整信号完整信号从而进行书籍推荐呢?从题材、作者、装帧等角度看(相似题材的书籍有相似的读者),表中反映的信号是稀疏稀疏的,能通过类似压缩感知的思想加以处理。矩阵补全的优化问题和解法矩阵补全的优化问题和解法本章小结End40

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁