机器学习-降维算法ppt课件.pptx

上传人:飞****2 文档编号:70663682 上传时间:2023-01-23 格式:PPTX 页数:29 大小:1.74MB
返回 下载 相关 举报
机器学习-降维算法ppt课件.pptx_第1页
第1页 / 共29页
机器学习-降维算法ppt课件.pptx_第2页
第2页 / 共29页
点击查看更多>>
资源描述

《机器学习-降维算法ppt课件.pptx》由会员分享,可在线阅读,更多相关《机器学习-降维算法ppt课件.pptx(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程讲授人:XXX时间:2017.3.31机器机器学习学习降维算法讲解延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程什么是降维?降维就是这样一个过程,在降低数据集维度的同时,保证其中包含的主要信息是相似的(就是保证有效信息不要丢失)。降维技术最典型的应用就是在机器学习问题中,进行有效的特征选择,以此获得更好的分类、回归效果。延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起

2、不同程度的病理生理过程为什么要降维?延迟符号降维?在机器学习中,如果特征值(也可称之为维度,或feature)过多,会引发维度灾难。维度灾难最直接的后果就是过拟合现象,进而导致分类识别的错误,因此我们需要对所提的特征进行降维处理。图 基本模式识别过程降维后数据应该包含更多的信息?降维后会损失多少信息?降维后对分类识别效果有多大影响?问题病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程降维的好处(1)进行数据压缩,减少数据存储所需空间以及计算所需时间。(2)消除数据间的冗余,以简化数据,提高计算效率。(3)去除噪声,提高模型性能。(4

3、)改善数据的可理解性,提高学习算法的精度。(5)将数据维度减少到2维或者3维,进行可视化。延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程延迟符号Contents降维方法0102特征选择FeatureSelection 选择有效的特征子集,即去掉不相关或冗余的特征。特征选择后留下的特征值的数值在选择前后没有变化。也就是说,特征选择后的特征是原来特征的一个子集。特征抽取是指改变原有的特征空间,并将其映射到一个新的特征空间。也就是说,特征抽取后的新特征是原来特征的一个映射。特征抽取FeatureExtraction*病原体侵入机

4、体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程降维算法可以根据所采用策略的不同而进行不同的分类降维算法分类延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程延迟符号主成分分析(PCA)PCA是principalcomponentanalysis的缩写,即主成分分析。此方法目标是找到数据中最主要的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭露出隐藏在复杂数据背后的简单结构。主成分分析就是试图在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化。这些综合指

5、标就称为主成分,也就是说,对高维变量空间进行降维处理,从线性代数角度来看,PCA目标是找到一组新正交基去重新描述得到的数据空间,这个维度就是主元。病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程向量的表示及基变换A(3,2)000延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程 去中心去中心化化现在问题来了:如果我们必须使用一维来表示这些数据,又希望尽量保留原始的信息,你要如何选择?例题:延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一

6、定部位生长繁殖,引起不同程度的病理生理过程 下面是三维空间中的一组数据,很明显,数据的分布让我们很容易就能看出来主成分的轴(简称主轴)的大致方向。下面的问题就是如何通过数学计算找出主轴的方向。来看这张图:延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程001.给定一组数据:2.将其中心化后表示为:3.中心化后的数据在第一主轴u1方向上分布散的最开,也就是说在u1方向上的投影的绝对值之和最大(也可以说方差最大),计算投影的方法就是将x与u1做内积,由于只需要求u1的方向,所以设u1是单位向量。也就是最大化下式:也即最大化:两个

7、向量做内积可以转化成矩阵乘法:所以目标函数可以表示为:推导过程:延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程所以目标函数最后化为:目标函数和约束条件构成了一个最大化问题:拉格朗日乘数法拉格朗日乘数法延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程构造拉格朗日函数:对u1求导:显然,u1即为XXT特征值对应的特征向量!XXT的所有特征值和特征向量都满足上式,那么将上式代入目标函数表达式即可得到所以,如果取最大的那个特征值 ,那么得到的目标值就最大。延迟符

8、号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程1.去均值,方差归一化(预处理的实质是将坐标原点移到样本点的中心点)2.求特征协方差矩阵3.求协方差矩阵的特征值和特征向量4.将特征值按照从大到小的顺序排序,选择其中最大的 k 个,然后将其对应的 k个特征向量分别作为列向量组成特征向量矩阵5.将样本点投影到选取的特征向量上。假设样例数为 m,特征数为 n,减去均值后的样本矩阵为 DataAdjust(m*n),协方差矩阵是 n*n,选取的 k 个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据 FinalDa

9、ta 为这样,就将原始样例的n 维特征变成了k 维,这k 维就是原始特征在k 维上的投影,代表了原始的n个特征。步骤延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程PCA具体举例 我举个例子来说明一下PCA的算法以及它的流程:第二步:求特征协方差矩阵我们有以下数据:延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程第三步:求协方差的特征值和特征向量,得到 第四步:将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成

10、特征向量矩阵:第五步:将样本点投影到选取的特征向量上。那么投影后的数据FinalData为得到结果延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程PCA在实际中的应用:(自己写一个pca函数,与matlab库函数对比一下)在这块也可以介绍一下库函数用法延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程延迟符号线性判别式分析(LDA)线性判别分析(LinearDiscriminantAnalysis,LDA),也叫做Fisher线性判别(FisherLinea

11、rDiscriminant,FLD),是模式识别的经典算法,1936年由RonaldFisher首次提出,并在1996年由Belhumeur引入模式识别和人工智能领域。R.AFisher(1890-1962)病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程 LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,

12、且在一定部位生长繁殖,引起不同程度的病理生理过程两类的线性判别问题从直观上看,右图的分类效果比较好,同类之间样本聚集,不同类之间相聚较远训练样本集:X=x1.xN,每个样本是d维向量,其中w1类的样本是H1=x11.xN1,w2类的样本是H1=x12.xN2,寻找一个投影方向(d维向量),延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程加上aTa=1的条件(类似于PCA)拓展成多类:延迟符号投影以后样本:原样本均值:投影均值:病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病

13、理生理过程目标函数&约束条件:构造拉格朗日函数:延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程步骤1)计算类内散度矩阵Sw延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程例题:延迟符号计算类间散度病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程LDA用于降维,和PCA有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。首先我们看看相同点:1)两者均可以对数据进行降维。2)两

14、者在降维时均使用了矩阵特征分解的思想。3)两者都假设数据符合高斯分布。LDA vs PCA延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程我们接着看看不同点:1)LDA是有监督的降维方法,而PCA是无监督的降维方法2)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。3)LDA除了可以用于降维,还可以用于分类。4)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。延迟符号病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程 降维工具箱drtool工具箱下载:http:/ 思考题作业假设经过降维处理后,数据的维度变得不同,如何在进一步的分类中将这些数据变得统一?对降维后的数据,利用SVM,KNN等进行分类,观察到底降维到多少时,分类效果最好;在实际中如何确定最后的特征维度。自己编写PCA、LDA程序在软木塞、ROCK数据集上实现特征的降维,并与库函数进行对比。病原体侵入机体,消弱机体防御机能,破坏机体内环境的相对稳定性,且在一定部位生长繁殖,引起不同程度的病理生理过程谢谢!延迟符号PPT模板下载: o

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁