统计学习方法科普.docx-淘文阁

资源描述

《统计学习方法科普.docx》由会员分享，可在线阅读，更多相关《统计学习方法科普.docx（4页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、统计学习方法科普1、什么是统计学习？基于数据构建概率模型并运用模型进行统计与预测的方法。2、统计学习的目的是什么？主要用于对数据的预测和分析，特别是对未知数据的预测和分析。即考虑学习什么样的模型和如何学习模型，以使模型能够对数据进行准确的预测与分析，同时也要尽可能考虑提高学习效率。3、统计学习的方法三要素：方法=模型+策略+算法(1)模型模型就是所要学习的条件概率分布/决策函数。模型的假设空间包含所有可能的条件概率分布/决策函数。假设空间可以分成参数空间&非参数空间(2)策略有了模型的假设空间，统计学习接着考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于假设空间中选取最优

2、模型。在监督学习中，对于给定个输入X ,由f(X)给出相应的输出Y ,这个输出的预测值f(X)与真实值Y也可能一致，也可能不一致，这个时候就需要用一个炭关酗OR 的蠲来度量预测错误的程度。损失函数的值越小，模型就越好。那我们学习的目标就是让损失函数期望最小的模型。但由于损失函数期望是基于联合概率分布(后验概率，即在没有结果的时候不能得到)，这个时候就陷入了僵局。那我们为了解决这个事情，引入训练数据集的平均损失一经验损失/ 经验风险。经验风险是模型关于训练样本集的平均损失。当样本容量N 趋于无穷时，经验风险就趋于期望风险。但实际上，我们现实中的训练样本数目有限，甚至很小，所以我们评估期

3、望风险时需要对经验风险进行一定矫正。即经验风险最小化一ERM&L结构风险最小化一SRMOERM (经验风险最小化)定义：在假设空间、损失函数以及训练数据集确定的情况下，经验风险可以确定，目经验风险最小的模型就是最优模型。适用：当样本容量足够大时，经验风险最小化能保证有良好的学习效果问题：当样本容量很小时，经验风险最小化学习的效果未必很好，会产生过拟合现象。为解决这个问题,从而推出了 SRM2. SRM (结构风险最小化)定义：为防止过拟合的问题而提出。结构风险最小化等价于正则化。即在经验风险上加上表示模型复杂度的正则化项或罚项，用以权衡经验风险和模型复杂度。因为模型复杂代表预测准确率

4、会下降。结构风险小需要经验风险与模型复杂度同时小。适用：结构风险小的模型对于训练数据及未知的测试数据都有较好的预测。(3 )算法是指学习模型的具体计算方法。基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型。统计学习问题其实就是一个最优化问题。统计学习成为求解最优化问题的算法。如何找到全局最优解，并使求解的过程非常高效，是一个核心解决的问题。统计学习方法之间的不同，主要来自其模型、策略、算法的不同。确定了模型、策略、算法，统计学习的方法就确定了。所以称之为三要素。4、统计学习方法的分类一、基本分类:监督学习：是指从标注数据中学习预测模

5、型的机器学习问题。标注数据表示输入输出的对应关系，预测模型对给定的输入产生相应的输出无监督学习：从无标注数据中学习预测模型的机器学习问题，本质是在学习数据中的统计规律或潜在结构。无标注数据是自然得到的数据，预测模型表示数据的类别、转换或概率强化学习：指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。半监督学习：利用标注数据和为标注数据学习预测模型的机器学习问题。通常有少量的标注数据、大量为标注数据，因为构建标注数据需要人工成本较高，而为标注数据收集成本低。所以半监督学习旨在利用为标注数据的信息，辅助标注数据进行监督学习，以较低成本达到较好的学习效果。主动学习：是机

6、器不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题。主动学习的目标是找出对学习最有帮助的实例让教师标注，以较小的标注代价，达到较好的学习效果。二、模型分类方法分类1分类2分类31、决策树概率模型非参数化2、朴素贝叶斯概率模型参数化3、隐马尔可夫模型概率模型4、条件随机场概率模型5、概率潜在语义分析概率模型非参数化6、潜在狄利克雷分配概率模型非参数化7、高斯混合模型概率模型参数化8、感知机非概率模型线性模型参数化9、支持向量机非概率模型非/线性模型非参数化10、K近邻非概率模型线性模型非参数化11、AdaBoost非概率模型非线性模型非参数化12、K均值非概率模型线性模型参数化13、潜在语义分析非概率模型线性模型非参数化14、神经网络非概率模型非线性模型三、按技巧分类1、贝叶斯学习是在概率模型对学习和推理中，利用贝叶斯定理，计算在给定数据条件下模型的条件概率，即后验概率，并应用这个原理进行的模型估计，以及对数据的预测。主要包含：朴素贝叶斯学习、潜在狄利克雷分配学习。2、核方法是使用核函数表示和学习非线性模型的一种机器学习方法，可以用于监督学习和无监督学习。主要包含：核函数支持向量机、核PCA、核K均值

展开阅读全文