《统计学习方法科普.docx》由会员分享,可在线阅读,更多相关《统计学习方法科普.docx(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学习方法科普1、什么是统计学习?基于数据构建概率模型并运用模型进行统计与预测的方法。2、统计学习的目的是什么?主要用于对数据的预测和分析,特别是对未知数据的预测和分析。即考虑学习什么样的模型和如何学习模型,以使模型能够对数据进行准 确的预测与分析,同时也要尽可能考虑提高学习效率。3、统计学习的方法三要素:方法=模型+策略+算法(1)模型模型就是所要学习的条件概率分布/决策函数。模型的假设空间包含 所有可能的条件概率分布/决策函数。假设空间可以分成参数空间&非参数空间(2)策略有了模型的假设空间,统计学习接着考虑的是按照什么样的准则学习或 选择最优的模型。统计学习的目标在于假设空间中选取最优
2、模型。在监督学习中,对于给定个输入X ,由f(X)给出相应的输出Y ,这个输 出的预测值f(X)与真实值Y也可能一致,也可能不一致,这个时候就需 要用一个炭关酗OR 的蠲来度量预测错误的程度。损失函数的值越小,模型就越好。那我们学习的目标就是让损失函数期 望最小的模型。但由于损失函数期望是基于联合概率分布(后验概率, 即在没有结果的时候不能得到),这个时候就陷入了僵局。那我们为了解决这个事情,引入训练数据集的平均损失一经验损失/ 经验风险。经验风险是模型关于训练样本集的平均损失。当样本容量N 趋于无穷时,经验风险就趋于期望风险。但实际上,我们现实中的训练 样本数目有限,甚至很小,所以我们评估期
3、望风险时需要对经验风险进 行一定矫正。即经验风险最小化一ERM&L结构风险最小化一SRMOERM (经验风险最小化)定义:在假设空间、损失函数以及训练数据集确定的情况下,经验风险 可以确定,目经验风险最小的模型就是最优模型。适用:当样本容量足够大时,经验风险最小化能保证有良好的学习效果问题:当样本容量很小时,经验风险最小化学习的效果未必很好,会产 生过拟合现象。为解决这个问题,从而推出了 SRM2. SRM (结构风险最小化)定义:为防止过拟合的问题而提出。结构风险最小化等价于正则化。即 在经验风险上加上表示模型复杂度的正则化项或罚项,用以权衡经验风 险和模型复杂度。因为模型复杂代表预测准确率
4、会下降。结构风险小需 要经验风险与模型复杂度同时小。适用:结构风险小的模型对于训练数据及未知的测试数据都有较好的预 测。(3 )算法是指学习模型的具体计算方法。基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需 要考虑用什么样的计算方法求解最优模型。统计学习问题其实就是一个最优化问题。统计学习成为求解最优化问题 的算法。如何找到全局最优解,并使求解的过程非常高效,是一个核心 解决的问题。统计学习方法之间的不同,主要来自其模型、策略、算法的不同。确定 了模型、策略、算法,统计学习的方法就确定了。所以称之为三要素。4、统计学习方法的分类一、基本分类:监督学习:是指从标注数据中学习预测模
5、型的机器学习问题。标 注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输 出无监督学习:从无标注数据中学习预测模型的机器学习问题,本 质是在学习数据中的统计规律或潜在结构。无标注数据是自然得到的 数据,预测模型表示数据的类别、转换或概率强化学习:指智能系统在与环境的连续互动中学习最优行为策略 的机器学习问题。半监督学习:利用标注数据和为标注数据学习预测模型的机器学 习问题。通常有少量的标注数据、大量为标注数据,因为构建标注数据 需要人工成本较高,而为标注数据收集成本低。所以半监督学习旨在利 用为标注数据的信息,辅助标注数据进行监督学习,以较低成本达到较 好的学习效果。主动学习:是机
6、器不断主动给出实例让教师进行标注,然后利用 标注数据学习预测模型的机器学习问题。主动学习的目标是找出对学习 最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。二、模型分类方法分类1分类2分类31、决策树概率模型非参数化2、朴素贝叶斯概率模型参数化3、隐马尔可夫模型概率模型4、条件随机场概率模型5、概率潜在语义分析概率模型非参数化6、潜在狄利克雷分配概率模型非参数化7、高斯混合模型概率模型参数化8、感知机非概率模型线性模型参数化9、支持向量机非概率模型非/线性模型非参数化10、K近邻非概率模型线性模型非参数化11、AdaBoost非概率模型非线性模型非参数化12、K均值非概率模型线性模型参数化13、潜在语义分析非概率模型线性模型非参数化14、神经网络非概率模型非线性模型三、按技巧分类1、贝叶斯学习是在概率模型对学习和推理中,利用贝叶斯定理,计算在给定数据条件 下模型的条件概率,即后验概率,并应用这个原理进行的模型估计,以 及对数据的预测。主要包含:朴素贝叶斯学习、潜在狄利克雷分配学习。2、核方法是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监 督学习和无监督学习。主要包含:核函数支持向量机、核PCA、核K均值