深度学习入门必须理解这25个概念.docx

上传人:太** 文档编号:46364901 上传时间:2022-09-26 格式:DOCX 页数:9 大小:16.16KB
返回 下载 相关 举报
深度学习入门必须理解这25个概念.docx_第1页
第1页 / 共9页
深度学习入门必须理解这25个概念.docx_第2页
第2页 / 共9页
点击查看更多>>
资源描述

《深度学习入门必须理解这25个概念.docx》由会员分享,可在线阅读,更多相关《深度学习入门必须理解这25个概念.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、深度学习入门必须理解这25个概念1、神经元(Neuron)就像形成我们大脑基本元素的神经元一样,神经元形成神经网络的基本结构。想象一 下,当我们得到新信息时我们该怎么做。当我们获取信息 时,我们一般会处理它,然后生成一个输出。类似地,在 神经网络的情况下,神经元接收输入,处理它并产生输 出,而这个输出被发送到其他神经元用于进一步处理,或 者作为最终输出进行输出。2、权重(Weights) 当输 入进入神经元时,它会乘以一个权重。例如,如果一个神 经元有两个输入,那么每个输入将具有分配给它的一个关联 权重。我们随机初始化权重,并在模型训练过程中更新这 些权重。训练后的神经网络对其输入赋予较高的权

2、重,这 是它认为与不那么重要的输入相比更为重要的输入。为零 的权重那么表示特定的特征是微缺乏道的。让我们假设输入 为a,并且与其相关联的权重为W1,那么在通过节点之 后,输入变为a *W1O 3、偏差(Bias)除了权重之外,另一个被应用于输入的线性分量被称为偏差。它被加 到权重与输入相乘的结果中。基本上添加偏差的目的是来 改变权重与输入相乘所得结果的范围的。添加偏差后,结 果将看起来像a*Wl偏差。这是输入变换的最终线性分 量。4、激活函数(Activation Function)一旦将线性分量应用于输入,将会需要应用一个非线性函数。这通过将 激活函数应用于线性组合来完成。激活函数将输入信号

3、转 换为输出信号。应用激活函数后的输出看起来像f (a *wi+b),其中f就是激活函数。在下列图中,我们将n个输 入给定为XI到Xn而与其相应的权重为Wkl到Wkno 我们有一个给定值为bk的偏差。权重首先乘以与其对应 的输入,然后与偏差加在一起。而这个值叫做Uo U =ZW*X+b激活函数被应用于u,即f(u),并且我们会从神 经元接收最终输出,如yk=f (u)o常用的激活函数最常 用的激活函数就是Sigmoid, ReLU和softmax (a) Sigmoid最常用的激活函数之一是Sigmoid,它被定义为:sigmoid(x)=l/(l+e-x )Sigmoid 变换产生一个值为

4、0 到1之间更平滑的范围。我们可能需要观察在输入值略有 变化时输出值中发生的变化。光滑的曲线使我们能够做到 这一点,因此优于阶跃函数。(b) ReLU (整流线性单位) 与Sigmoid函数不同的是,最近的网络更喜欢使用 ReLu激活函数来处理隐藏层。该函数定义为:f(x)=max(x,0)当X0时,函数的输出值为X ;当X使用 ReLU函数的最主要的好处是对于大于0的所有输入来 说,它都有一个不变的导数值。常数导数值有助于网络训 练进行得更快。(c) SoftmaxSoftmax激活函数通常用于输出层,用于分类问题。它与sigmoid函数是很类似的,唯一的区别就是输出被归一化为总和为lo S

5、igmoid 函数将发挥作用以防我们有一个二进制输出,但是如果我 们有一个多类分类问题,softmax函数使为每个类分配值这 种操作变得相当简单,而这可以将其解释为概率。以这种 方式来操作的话,我们很容易看到假设你正在尝试识 别一个可能看起来像8的6。该函数将为每个数字分配值 如下。我们可以很容易地看出,最高概率被分配给6,而 下一个最高概率分配给8,依此类推5、神经网络(Neural Network)神经网络构成了深度学习的支柱。 神经网络的目标是找到一个未知函数的近似值。它由相互 联系的神经元形成。这些神经元具有权重和在网络训练期 间根据错误来进行更新的偏差。激活函数将非线性变换置 于线性

6、组合,而这个线性组合稍后会生成输出。激活的神 经元的组合会给出输出值。一个很好的神经网络定义神 经网络由许多相互关联的概念化的人造神经元组成,它们 之间传递相互数据,并且具有根据网络经验调整的相关权 重。神经元具有激活阈值,如果通过其相关权重的组合和 传递给他们的数据满足这个阈值的话,其将被解雇;发射神 经元的组合导致学习6、输入/输出/隐藏层(Input/ Output / Hidden Layer)正如它们名字所代表的那样,输入层是接收输入那一层,本质上是网络的第一层。而输 出层是生成输出的那一层,也可以说是网络的最终层。处理层是网络中的隐藏层。这些隐藏层是对传入数据执行特 定任务并将其生

7、成的输出传递到下一层的那些层。输入和 输出层是我们可见的,而中间层那么是隐藏的。7、MLP (多 层感知器)单个神经元将无法执行高度复杂的任务。 因此,我们使用堆栈的神经元来生成我们所需要的输出。 在最简单的网络中,我们将有一个输入层、一个隐藏层和 一个输出层。每个层都有多个神经元,并且每个层中的所 有神经元都连接到下一层的所有神经元。这些网络也可以 被称为完全连接的网络。8、正向传播(Forward Propagation)正向传播是指输入通过隐藏层到输出层的运动。在正向传播中,信息沿着一个单一方向前进。输 入层将输入提供给隐藏层,然后生成输出。这过程中是没 有反向运动的。9、本钱函数(Co

8、st Function)当我们建立一个网络时,网络试图将输出预测得尽可能靠近实际 值。我们使用本钱/损失函数来衡量网络的准确性。而本钱 或损失函数会在发生错误时尝试惩罚网络。我们在运行网 络时的目标是提高我们的预测精度并减少误差,从而最大 限度地降低本钱。最优化的输出是那些本钱或损失函数值 最小的输出。如果我将本钱函数定义为均方误差,那么可以 写为:C= 1/m 2(y-a)A2,其中m是训练输入的数量,a 是预测值,y是该特定例如的实际值。学习过程围绕最小 化本钱来进行。10、梯度下降(Gradient Descent)梯度下降是一种最小化本钱的优化算法。要直观地想一想, 在爬山的时候,你应

9、该会采取小步骤,一步一步走下来, 而不是一下子跳下来。因此,我们所做的就是,如果我们 从一个点X开始,我们向下移动一点,即Ah,并将我们的 位置更新为x-Ah,并且我们继续保持一致,直到到达底 部。考虑最低本钱点。在数学上,为了找到函数的局部最 小值,我们通常采取与函数梯度的负数成比例的步长。11、学习率(Learning Rate) 学习率被定义为每次迭代 中本钱函数中最小化的量。简单来说,我们下降到本钱函 数的最小值的速率是学习率。我们应该非常仔细地选择学 习率,因为它不应该是非常大的,以至于最正确解决方案被 错过,也不应该非常低,以至于网络需要融合。12、反向 传播(Backpropag

10、ation)当我们定义神经网络时,我 们为我们的节点分配随机权重和偏差值。一旦我们收到单 次迭代的输出,我们就可以计算出网络的错误。然后将该 错误与本钱函数的梯度一起反应给网络以更新网络的权 重。最后更新这些权重,以便减少后续迭代中的错误。使用本钱函数的梯度的权重的更新被称为反向传播。在反向 传播中,网络的运动是向后的,错误随着梯度从外层通过 隐藏层流回,权重被更新。13、批次(Batches)在训 练神经网络的同时,不用一次发送整个输入,我们将输入 分成几个随机大小相等的块。与整个数据集一次性馈送到 网络时建立的模型相比,批量训练数据使得模型更加广义 化。14、周期(Epochs) 周期被定

11、义为向前和向后传 播中所有批次的单次训练迭代。这意味着1个周期是整个 输入数据的单次向前和向后传递。你可以选择你用来训练 网络的周期数量,更多的周期将显示出更高的网络准确 性,然而,网络融合也需要更长的时间。另外,你必须注 意,如果周期数太高,网络可能会过度拟合。15、丢弃(Dropout) Dropout是一种正那么化技术,可防止网络过度拟合套。顾名思义,在训练期间,隐藏层中的一定数 量的神经元被随机地丢弃。这意味着训练发生在神经网络 的不同组合的神经网络的几个架构上。你可以将Dropout 视为一种综合技术,然后将多个网络的输出用于产生最终 输出。16、批量归一化(Batch Normal

12、ization)作为一个概念,批量归一化可以被认为是我们在河流中设定为特 定检查点的水坝。这样做是为了确保数据的分发与希望获 得的下一层相同。当我们训练神经网络时,权重在梯度下 降的每个步骤之后都会改变,这会改变数据的形状如何发 送到下一层。但是下一层预期分布类似于之前所看到的分 布。所以我们在将数据发送到下一层之前明确规范化数 据。卷积神经网络17、滤波器(Filters) CNN中的滤 波器与加权矩阵一样,它与输入图像的一局部相乘以产生 一个回旋输出。我们假设有一个大小为28 28的图像,我 们随机分配一个大小为33的滤波器,然后与图像不同的 3*3局部相乘,形成所谓的卷积输出。滤波器尺寸

13、通常小 于原始图像尺寸。在本钱最小化的反向传播期间,滤波器 值被更新为重量值。参考一下下列图,这里filter是一个3* 3矩阵:与图像的每个3*3局部相乘以形成卷积特征。18、卷积神经网络(CNN) 卷积神经网络基本上应用 于图像数据。假设我们有一个输入的大小(2828 3),如果 我们使用正常的神经网络,将有2352 (28 28 3)参数。并 且随着图像的大小增加参数的数量变得非常大。我们卷积 图像以减少参数数量(如上面滤波器定义所示)。当我们将 滤波器滑动到输入体积的宽度和高度时,将产生一个二维 激活图,给出该滤波器在每个位置的输出。我们将沿深度 尺寸堆叠这些激活图,并产生输出量。你可

14、以看到下面的 图,以获得更清晰的印象。19、池化(Pooling) 通常 在卷积层之间定期引入池层。这基本上是为了减少一些参 数,并防止过度拟合。最常见的池化类型是使用MAX操 作的滤波器尺寸(2,2)的池层。它会做的是,它将占用原 始图像的每个4*4矩阵的最大值。你还可以使用其他操 作(如平均池)进行池化,但是最大池数量在实践中表现 更好。20、填充(Padding)填充是指在图像之间添加额外的零层,以使输出图像的大小与输入相同。这被称为 相同的填充。在应用滤波器之后,在相同填充的情况下,卷积层具有等于实际图像的大小。有效填充是指将图像保 持为具有实际或有效的图像的所有像素。在这种情况下,

15、在应用滤波器之后,输出的长度和宽度的大小在每个卷积 层处不断减小。21、数据增强(Data Augmentation)数据增强是指从给定数据导出的新数据的添加,这可能被 证明对预测有益。例如,如果你使光线变亮,可能更容易 在较暗的图像中看到猫,或者例如,数字识别中的9可能 会稍微倾斜或旋转。在这种情况下,旋转将解决问题并提 高我们的模型的准确性。通过旋转或增亮,我们正在提高 数据的质量。这被称为数据增强。循环神经网络22、循环 神经元(Recurrent Neuron)循环神经元是在T时间内将神经元的输出发送回给它。如果你看图,输出将返回 输入t次。展开的神经元看起来像连接在一起的t个不同 的

16、神经元。这个神经元的基本优点是它给出了更广义的输 出。23、循环神经网络(RNN) 循环神经网络特别用 于顺序数据,其中先前的输出用于预测下一个输出。在这 种情况下,网络中有循环。隐藏神经元内的循环使他们能 够存储有关前一个单词的信息一段时间,以便能够预测输 出。隐藏层的输出在t时间戳内再次发送到隐藏层。展开 的神经元看起来像上图。只有在完成所有的时间戳后,循 环神经元的输出才能进入下一层。发送的输出更广泛,以 前的信息保存的时间也较长。然后根据展开的网络将错误反向传播以更新权重。这被称为通过时间的反向传播 (BPTT) o 24、消失梯度问题(Vanishing GradientProble

17、m) 激活函数的梯度非常小的情况下会出现消失 梯度问题。在权重乘以这些低梯度时的反向传播过程中, 它们往往变得非常小,并且随着网络进一步深入而消失 这使得神经网络忘记了长距离依赖。这对循环神经网络来 说是一个问题,长期依赖对于网络来说是非常重要的。这 可以通过使用不具有小梯度的激活函数ReLu来解决。25、激增梯度问题(Exploding Gradient Problem)这与消失的梯度问题完全相反,激活函数的梯度过大。在反 向传播期间,它使特定节点的权重相对于其他节点的权重 非常高,这使得它们不重要。这可以通过剪切梯度来轻松 解决,使其不超过一定值。创投家”已经与IDG、软银中 国、红杉资本、赛富基金、君联资本、晨兴资本、经纬中 国、今日资本、联创永宣、联创策源、凯鹏华盈、达晨创 投、纪源资本、戈壁投资、海纳亚洲、赛伯乐、浙商创 投、东方汇富、联想之星、平安创投、中兴合创、汉理资 本、中路资本、优势资本、景林投资、红点创投、龙腾资 本、五岳资本、高捷资本、蓝驰创投、光速安振、毅达资 本、梅花天使基金、盛大资本、新进创投、麦腾创投、常 州创业投资集团等近百家知名投资机构1000余名专业投资 人建立合作。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁