梯度下降法ppt课件.pptx-淘文阁

资源描述

《梯度下降法ppt课件.pptx》由会员分享，可在线阅读，更多相关《梯度下降法ppt课件.pptx（22页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值梯度下降法阿育王2017.6.13资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值1.引言梯度下降（GD）是最小化风险函数、损失函数的一种常用方法。在应用机器学习算法时，通常采用梯度下降法来对采用的算法进行训练。资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值梯度下降法包含三种不同形式：批量梯度下降BGDBGD（Batch

2、 Gradient Descent）随机梯度下降SGDSGD（Stochastic Gradient Descent）小批量梯度下降法MBGDMBGD(Mini-Batch Gradient Descent)下文将以线性回归算法为例来对三种梯度下降法进行比较资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值2.先导知识一元线性回归(拟合曲线)假设这里存在m=6组数据(x,y)资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值从图上可以看出，大致数据

3、的大致走势是可以用线性模型y=kx+by=kx+b来表示的，为此我们建立一维线性回归模型。假设一维线性模型表达式如下：资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值其中：h h(x)(x)是假设函数，即要拟合的函数为待求解参数，即要迭代求解的值，求解出来了那最终要拟合的函数h(x)就确定了。n表示输入特征数，为方便计算，所有的样本都加入了x x0 0=1=1这个特征，所以维数为n+1n+1维维。资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值

4、对应的损失损失/误差函数误差函数，即估计值与真实值之间的差距，这里用2-范数表示为：其中：mm是训练集的样本个数样本个数1/2是为了后面求导计算方便资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值一个二维参数（0，1）组对应能量函数（描述整个系统的优化程度，随着网络的变化而减小，最终网络稳定时能量达到最小网络稳定时能量达到最小）的可视化图资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值3.批量梯度下降法BGD更新算法的目的：误差误差函数函数尽可

5、能小尽可能小，即求解参数使误差函数尽可能小。主要思想：首先，随机初始化参数随机初始化参数；然后，不断不断反复的反复的更新参数更新参数使得使得误差函数减小，误差函数减小，直到满足要求时停止。资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值梯度下降算法，利用初始化的参数并且反复更新参数：代表代表学习率学习率，表示每次每次向着向着函数函数J J最陡峭最陡峭的方向迈步的的方向迈步的大小（步长？）大小（步长？）资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间

6、价值（1 1）将）将J(J()对对求求偏导，得到偏导，得到每个每个对应对应的的的的梯度梯度当当mm=1=1时，即只有一个样本数据（时，即只有一个样本数据（x x,y,y），），J J对第对第j j个参数个参数j的的偏导数是：偏导数是：资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值对所有mm个样本数据个样本数据，上述损失函数的偏导（累和）为：资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值（2）由于是要最小化风险函数最小化风险函数，所以按每个参

7、数的梯度负方向梯度负方向，来更新每个j(j=0,1,2,n)资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值上例中，利用BGD求得资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值由更新公式可知，批量梯度下降得到的是一个全局最优解全局最优解，每每一次的参数更新都用到了一次的参数更新都用到了所有的训练所有的训练数据数据，如果训练数据非常多的话，执行效率较低。批量梯度下降法的收敛图（迭代迭代的次数相对的次数相对较少较少）：资金是运动的价值，资金的价值

8、是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值4.随机梯度下降法SGD由于批梯度下降每更新一个参数的时候，要用到所有样本所有样本，所以训练速度会随着样本数量的增加而变得非常缓慢。随机梯度下降正是为了解决这个办法而提出的。它是利用单个单个样本样本的损失函数对求偏导得到对应的梯度，来更新。资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值上例中，利用SGD求得资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时

9、间价值随机梯度下降是通过每个样本每个样本来迭代更新一次，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经将参数迭代到最优解。对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。SGD的问题是噪音噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值随机梯度下降收敛图（SGD迭代的次数较多，在解空间的搜索过程看起来很盲目。但是但是大体上是往着最优值方向移动大体上是

10、往着最优值方向移动。）资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值5.小批量梯度下降法MBGD为综合解决BGD的训练速度慢，以及SGD的准确性低的问题，提出MBGD它是利用部分样本的损失函数对求偏导得到对应的梯度，来更新。资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值6.总结方法方法优点点缺点缺点BGD最小化所有训练样本的损失函数，使得最终求解的是全局的最优解如果样本值很大的话，更新速度会很慢。SGD最小化每个样本的损失函数，大大加快更新速度，最终的结果在全局最优解附近。训练数据的噪声较多，导致不是每次迭代得到的损失函数都向着全局最优方向。MBGD训练速度快，参数准确性高不同的问题需要设置不同的小批量值。资金是运动的价值，资金的价值是随时间变化而变化的，是时间的函数，随时间的推移而增值，其增值的这部分资金就是原有资金的时间价值参考文献https:/

展开阅读全文