深度卷积神经网络ppt课件.pptx-淘文阁

资源描述

《深度卷积神经网络ppt课件.pptx》由会员分享，可在线阅读，更多相关《深度卷积神经网络ppt课件.pptx（106页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、目录目录神经网络简要介绍经典深度神经网络模型 LeNet AlexNetVGGNetNetwork in Network (MIN)GoogLeNetResNet 深度学习框架及实例深度学习在计算机视觉中的应用神经网络简要介绍经典深度神经网络模型 LeNet AlexNetVGGNetNetwork in Network (MIN)GoogLeNetResNet 深度学习框架简介在计算机视觉中的应用目录目录神经网络兴衰史神经网络兴衰史神经网络简要介绍神经网络简要介绍第一次兴起（第一次兴起（19581958年）：年）：感知机，由于没有引入非线性，不能求解异或问题。第二次兴起（第二次兴

2、起（19861986年）：年）：将BP(Back Propagation)算法用于ANN的训练过程。第三次兴起（第三次兴起（20122012年）：年）：深度卷积神经网络的兴起，一直到现在。BPBP算法：信号的正向传播算法：信号的正向传播和误差的反向传播。和误差的反向传播。机器学习神经网络深度学习CNN/RNN4机器学习，神经网络，深度学习之间的关系深度卷积神经网络介绍深度卷积神经网络介绍萌芽期萌芽期1940sMP 模型模型阈值加和阈值加和模型模型Hebb学习学习规则规则第一次高潮第一次高潮1960s第二次高潮第二次高潮1980s第三次浪潮第三次浪潮2000s感知器模型感知器模型自适应自适应-线

3、性单元线性单元Hopfield网络网络Boltzman 机机BP算法算法SVMVapnik 95BoostingSchapire 95深度网络深度网络DBNDBMDeep CNN RNNG. E. HintonY. BengioY. LecunAndrew NgRob Fergus人工神经网络发展历程人工神经网络发展历程低谷CNNLeCun 98低谷Deep Learning, Science 2006 (vol. 313, pp. 504-507)Neural networks are coming back!1. 具有多个隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本

4、质的刻画，从而有利于可视化或分类；2. 深度神经网络在训练上的难度，可以通过“逐层初始化”（Layer-wise Pre-training）来有效克服。两个重要的信息：两个重要的信息：人工神经网络发展历程人工神经网络发展历程在语音识别取得重大突破在语音识别取得重大突破百度百度: deep speech2011年以来，错误年以来，错误率降低率降低20 30%!2012年11月，微软在天津的一次活动上公开演示了一个全自动的同声传译系统，讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英中机器翻译，以及中文语音合成，效果非常流畅。人工神经网络发展历程人工神经网络发展历程 Google Br

5、ainGoogle Brain项目（纽约时报项目（纽约时报20122012年年6 6月报道）月报道）2011年开始，年开始，Google Brain 项目采用项目采用16000个个CPU Core的并行计算的并行计算平台训练平台训练“深层神经网络深层神经网络”，在图像识别等领域获取巨大成功！在图像识别等领域获取巨大成功！吴恩达吴恩达人工神经网络发展历程人工神经网络发展历程AlphaGo Master 3:0 柯洁柯洁2017年年1月月AlphaGo Fan 5:0 樊麾樊麾2015年年10月月AlphaGo Lee 4:1 李世石李世石2016年年3月月100:0战胜Lee版本，89:11战胜

6、Master版本！AlphaGo Zero20172017年年1010月月AlphaZero:最大特点是无需人类棋谱，仅利用围棋规则Alpha-FanAlpha-FanAlphaGo-LeeAlphaGo-LeeAlphaMasterAlphaMasterAlphaZeroAlphaZero人工神经网络发展历程人工神经网络发展历程为什么有效为什么有效浅层神经网络可以近似任意函数，为何多层？浅层神经网络可以近似任意函数，为何多层？深层网络结构中，高层可以综合应用低层信息。高层可以综合应用低层信息。低层关注“局部”，高层关注高层关注“全局全局”、更具有语、更具有语义化信息。义化信息。为自适应地

7、学习非线性处理过程自适应地学习非线性处理过程提供了一种可能的一种可能的简洁、普适的结构模型。简洁、普适的结构模型。特征提取与分类器可以一起学习。特征提取与分类器可以一起学习。人工神经网络发展历程人工神经网络发展历程发展基础：发展基础：数据爆炸：数据爆炸：图像数据、文本数据、语音数据、社交网络数据、科学计算等计算性能大幅提高计算性能大幅提高神经网络简要介绍神经网络简要介绍人类视觉机理：人类视觉机理： David Hubel和TorstenWiesel发现了视觉系统的信息处理方式，即视皮层的分级特性，获得1981年诺贝尔生理学或医学奖。Low-level sensingPreprocessi

8、ngFeatureextractionFeatureselectionInference:prediction,recognition本图取自：本图取自：http:/ during the training phase, a neural network is fed thousands of labeled images of various animals, learning to classify them Input: An unlabeled image is shown to the pre-trained networkFirst Layer: the neurons respo

9、nd to different simple shapes, like edgesHigh Layer: the neurons respond to more complex structuresTop Layer: the neurons respond to highly complex, abstract concepts that we would identify as different animalsOutput: The network predicts what the object most likely is, based on its training神经网络简要介绍

10、神经网络简要介绍人工神经网络（人工神经网络（Artificial Neural NetworksArtificial Neural Networks， ANNANN）-通过映射解决分类问题，对网络的训练即对映射函数的学习问题。卷积层（5层）：用于特征提取全连接（3层）:人工神经网络：用于分类神经网络简要介绍神经网络简要介绍输入层（Input）：数据输入隐含层（Hidden layer）：空间变换输出（Output）三层神经三层神经网络模型网络模型曲线上的采样点是线性不可分经空间变换后，曲线上的采样点是线性可分的神经网络简要介绍神经网络简要介绍神经元神经元树突输入神经元接收信号隐含层输入神经元激

11、活轴突发出信号隐含层输出ANNANNANN是对大脑神经元信号传输的模拟神经网络简要介绍神经网络简要介绍感知机（感知机（PerceptronPerceptron）通过查找超平面解决二类分类问题（通过二值函数解决二类分类问题）( )()fsignxw x公式表达：公式表达：可看作对输入的空间变换w x四种空间变换：维度、缩放、旋转、平移感知机中的线性映射限制了模型的表达能力，线性变化的组合仍为线性变化。神经网络简要介绍神经网络简要介绍ANNANN基本构成基本构成：感知机（Perceptron）+激活函数激活函数第五种空间变换：扭曲（非线性）ANNANN每层输出为：每层输出为：( )()fhxw x

12、其中，为激活函数（原来是阈值函数）( )h 常用激活函数： Sigmoid Tanh(反正切函数）感知机：线性变换激活函数：非线性，引入非线性激活函数，提高网络的非线性表达能力神经网络简要介绍神经网络简要介绍输入层隐含层1隐含层N分类输出多层结构的人工神经网络多层结构的ANN，从单层到多层的扩展：进一步提升对非线性的表达，得到更加抽象的特征表述。- 根据问题设计网络深度，一般35层。.1x2xnx1w2wnw1niiix w1()niiihx w人工神经网络单个节点输出神经网络简要介绍神经网络简要介绍ANNANN训练：训练：前向输出计算前向输出计算+反向梯度传播（BP算法）设网络具有层，

13、为层中第个节点输出，表示从到的连接权重。mmiyimmijw1miymjy前向传播1()()mmmmjjijiiyh shw y1、计算每层中每个节点的输出()h为激活函数2、在输出层计算损失()()mmmjjjjh sTyjT为目标参考输出，一般从样本训练中得到。.1mmjy1miymijwmjmloss前向传播过程1神经网络简要介绍神经网络简要介绍ANNANN训练：训练：前向输出计算+反向梯度传播（反向梯度传播（BPBP算法）算法）反向传播3、由输出层开始逐层计算前层误差11()mmmmiiijjjh sw1mmmijjimmmijijijwywww4、修正连接权重.mijwmj

14、梯度反传过程1mi神经网络简要介绍神经网络简要介绍ANNANN训练：训练：前向输出计算+反向梯度传播（反向梯度传播（BPBP算法）算法）神经网络简要介绍神经网络简要介绍深度神经网络深度神经网络(DNN)-(DNN)-用神经网络模拟大脑的识别过程用神经网络模拟大脑的识别过程神经网络神经网络-全连接全连接 or or 卷积？卷积？图：全连接与卷积示意图深度卷积神经网络介绍深度卷积神经网络介绍底层提取初级特征高层对低层特征组合与抽象深度卷积神经网络介绍深度卷积神经网络介绍卷积神经网络（卷积神经网络（CNNCNN）：卷积）：卷积+ +池化池化+ +全连接全连接卷积：卷积：局部特征提取训练中进行

15、参数学习每个卷积核提取特定模式的特征池化（下采样）：池化（下采样）：降低数据维度，避免过拟合增强局部感受野提高平移不变性全连接：全连接：特征提取到分类的桥梁什么是卷积？24右图展示了卷积的过程，和信号处理的卷积有所区别卷积降低了网络模型的复杂度（对于很难学习的深层结构来说，这是非常重要的），减少了权值的数量黄色部分是卷积核深度卷积神经网络介绍深度卷积神经网络介绍什么是池化？25池化层主要的作用是下采样下采样，通过去掉Feature Map中不重要的样本，进一步减少参数数量。池化的方法很多，最常用的是Max Pooling。Max Pooling实际上就是在n*n的样本中取最大值，作为

16、采样后的样本值。右图是2*2 max 深度卷积神经网络介绍深度卷积神经网络介绍底层特征具有局部特性，因此可以利用卷积窗口进行特征提取。图像中不同区域的底层特征（如边界）具有相似性，可以共享一组滤波器。用卷积代替全连接进行特征提取对底层特征组合得到更具语义信息的高层特征。深度卷积神经网络深度卷积神经网络介绍深度卷积神经网络介绍深度卷积神经网络介绍经典深度神经网络模型 LeNet AlexNetVGGNetNetwork in Network (MIN)GoogLeNetResNet 深度学习框架在计算机视觉中的应用目录目录网络模型网络模型LeNetAlexNetNINVGGNetGoogL

17、eNet(Inception)ResNetInception ResNet图3：ILSVRC图像分类竞赛近年结果。网络结构的改进网络深度的增加图2：深度卷积神经网络发展图图4：LeNet网络结构，来源于文献 1。最早的深度卷积神经网络模型，用于字符识别。网络具有如下特点：卷积神经网络使用三个层作为一个系列：卷积，池化，非线性使用卷积提取空间特征使用映射到空间均值的下采样（subsample）双曲线（tanh）或S型（sigmoid）形式的非线性多层神经网络（MLP）作为最后的分类器1 Y. Lecun, L. Bottou, Y. Bengio and P. Haffner. Gradien

18、t-Based Learning Applied to Document Recognition. Proceedings of the IEEE, vol. 86, no. 11, 1998. LeNet提供了利用卷积层堆叠进行特征提取的框架，开启了深度卷积神经网络的发展。LeNetAlexNetAlexNet在LeNet基础上进行了更宽更深的网络设计，首次在CNN中引入了ReLU、Dropout和Local Response Norm (LRN)等技巧。网络的技术特点如下：使用ReLU （Rectified Linear Units）作为CNN的激活函数，并验证其效果在较深的网络超过了S

19、igmoid，成功解决了Sigmoid在网络较深时的梯度弥散问题，提高了网络的训练速率。为避免过拟合，训练时使用Dropout随机忽略一部分神经元。使用重叠的最大池化(max pooling)。最大池化可以避免平均池化的模糊化效果，而采用重叠技巧可以提升特征的丰富性。提出了LRN层（ReLU后进行归一化处理），对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。利用GPU强大的并行计算能力加速网络训练过程，并采用GPU分块训练的方式解决显存对网络规模的限制。ReLUReLU 数据增强。利用随机裁剪和翻转镜像操作增加训练

20、数据量，降低过拟合。Dropoutmax pooling：池化时取最大值2 Alex Krizhevsky, Ilya Sutskever and Geoffrey E. Hinton. ImageNet Classification with Deep ConvolutionalNeural Networks. NIPS, 2012. 图：AlexNet网络结构，来源于文献2。网络包含5个卷积层和3个全连接层，最后为有1000个类别输出的Softmax层。网络在两块GPU上并行训练。AlexNetConv 1111+ReLU/96LRNMax pooling 33Conv 55+ReLU/2

21、56LRNMax pooling 33Conv 33+ReLU/384Conv 33+ReLU/384Conv 33+ReLU/256Max pooling 33FC+ReLU/4096FC+ReLU/4096FC+ReLU/1000网络结构35K307K884K1.3M442K37M16M4M参数图：AlexNet网络配置和参数数量卷积核大小递减，依次为1111、55和33。第一层卷积步长为4，之后保持为1。在前两层卷积之后使用了LRN层。与全连接层相比，卷积层包含较少的参数。因此可通过减少全连接层降低网络参数，提高训练时间，在Network in Network中利用了这一点。Ale

22、xNet在ILSVRC2012图像分类竞赛中将top-5 错误率降至16.4%，掀起了深度卷积神经网络在各个领域的研究热潮。AlexNetVGGNet3 Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. Computer Science, 2014. 结构特点：结构特点：对卷积核和池化大小进行了统一。网络中进行 33的卷积操作和22的最大池化操作。采用卷积层堆叠的策略，将多个连续的卷积层构成卷积层组。图：两个33卷积层堆叠和一个55

23、卷积层具有相同的感受野。和单个卷积层相比，卷积组可以提高感受野范围，增强网络的学习能力和特征表达能力；和具有较大核的卷积层相比，采用多个具有小卷积核的卷积层串联的方式能够减少网络参数；另外，在每层卷积之后进行ReLU非线性操作可以进一步提升网络的特征学习能力。优点：优点：图：VGG不同级别的网络结构和相应的参数数量（单位为百万），来源于文献 3。网络包含5组卷积操作，每组包含14个连续的卷积层，每两个卷积层之间为ReLU层。每组内的卷积层具有相同的结构。不同级别的网络层数逐渐加深，网络的表达能力也逐渐增强。其中，VGGNet-E的网络深度达到了19层。由于网络参数主要集中在

24、全连接层，因此不同级别网络的参数数量相差不大。VGGNetVGGNetVGGNet训练和测试：训练和测试：多尺度策略：训练阶段，将图像缩放到不同尺寸S，并随机裁剪224224的训练样本测试阶段，将图像缩放到尺寸Q，并对网络最后的卷积层使用滑动窗口进行分类预测，对不同窗口的分类结果取平均。图9：VGGNet采用多尺度策略的效果提升，来源于文献 3。上方图像为单尺度分类结果，下方为多尺度结果。多尺度训练在ILSVRC2014图像分类的top-5错误率达到7.5%，通过进一步融合单尺度和多尺度网络，VGGNet将最终结果提升至7.3%。VGGNetNetwork in Network (NIN

25、)3 Min Lin, Qiang Chen and Shuicheng Yan. Network in Network. ICLR, 2014. 研究目的：研究目的：提高网络对非线性特征的描述能力减小网络参数研究策略：研究策略：采用多层感知器（multilayer perceptron, MLP）代替传统的线性卷积层。用全局均值池化（global average pooling）代替全连接层，大大减小了网络复杂度，降低了过拟合。MLPMLP卷积卷积图10：传统卷积层和MLP卷积层示意图，来源于文献3。和传统卷积相比，Mlpconv在卷积之后增加了两个全连接层。传统的卷积+ReLU可表达为：,

26、 ,max(,0)Ti j kki jfw x其中，( , )i j为点的位置，k为通道下标。Mlpconv特征图的计算为：11111, ,1, ,max(,0)max(,0)nnnTi j kki jknn Tni j kki jkfwxbfwfb通过在网络中构建微型网络，Mlpconv对conv特征进行了组合，提高了单个卷积的有效性。而Mlpconv中的全连接可以通过11卷积快速实现。Network in Network (NIN)全局均值池化全局均值池化图11：NIN网络结构，来源于文献 3。全连接层提供特征输出到分类的桥梁，占据了绝大多数的网络参数。NIN移除网络中的全连接层，将每幅特

27、征图像池化为单个输出，用以表示该类的特征输出。例如，对于1000类的分类问题，NIN设置网络最后的卷积输出通道为1000，经过全局均值池化并将结果输入Softmax进行最终的分类。Network in Network (NIN)GoogLeNet4 Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going Deeper with Convolutio

28、ns. CVPR, 2015.与Network in Netwok 类似，GoogLeNet采用子网络堆叠的方式搭建，每个子网络为一个Inception 模块：图：Inception Module，来源于文献4。Inception module 包含四个分支： Shortcut连接：将前一层输入通过11卷积多尺度滤波：输入通过11卷积之后分别连接卷集核大小为3和5的卷积池化分支：相继连接33 pooling和11卷积四个分支的输出经过串联恢复到输入通道大小Inception module 优点一：减少网络参数，降低运算量Inception module对输入输出通道为256的33卷积层，

29、需要的操作次数为：256 256 3 3589824 假设11卷积输出为64，Inception模块的操作次数为：256 64 1 1 4 64 64 3 3 64 64 5 5 +204800因此，11卷积的作用之一是通过降维减少网络开销GoogLeNetInception module 优点二：多尺度、多层次滤波Inception module 多尺度：对输入特征图像分别在33和55的卷集核上滤波，提高了所学特征的多样性，增强了网络对不同尺度的鲁棒性。多层次：符合Hebbian原理，即通过11卷积把具有高度相关性的不同通道的滤波结果进行组合，构建出合理的稀疏结构。因此，11卷积的

30、另一作用是对低层滤波结果进行有效的组合GoogLeNet的网络参数为AlexNet的1/12，ILSVRC 2014 top-5错误率降至6.67%。GoogLeNet残差网络残差网络ResNet是否可以通过简单的层数堆叠学习更好的网络是否可以通过简单的层数堆叠学习更好的网络？梯度消失和爆炸? = 通过Normalized initialization 和 Batch normalization得到解决。网络退化（degradation）: 随着网络的加深，准确率首先达到饱和，然后快速退化。 = 在训练集上的错误率同样增加，因此并非受过拟合的影响。图：不同深度网络在CIFAR-10上的训练

31、和测试错误率变化。来源于文献5。简单的层数堆叠不能提升网络性能，如何利用网络加深带来的优势？5 Kaiming He, Xiangyu Zhang, Shaoqing Ren and Jian Sun. Deep Residual Learning for Image Recognition. CVPR, 2016.InputHidden Output 实验表明，通过添加单位映射不能提高网络准确率，因此，网络对单位映射的逼近存在困难。相比于单位映射，网络对单位映射附近扰动的学习更加简单。残差学习残差网络残差网络ResNetInputHidden Identity mappingIdenti

32、ty mappingOutputInputHidden ResidualmappingResidualmappingOutputX图：残差模块，来源于文献5。残差模块：残差模块：( ,)isFWWyxx输入通过shortcut与输出相加。其中，为残差映射，线性映射用于维度匹配。()FsW优点：优点：没有带来额外的参数和计算开销。便于和具有相同结构的“平常”网络进行对比。残差网络残差网络ResNet图：由上到下为VGG-19网络、34层的平常网络和残差网络。图像来源于文献5。残差网络残差网络ResNet图：更深的残差模块，用于更深的网络结构。左图的浅层模块用于构建ResNet-34，右图

33、的深层模块用于构建ResNet-50/101/152。来源于文献5。更深的残差结构用三层连接代替两层(11, 33, 11 卷积) 11：降维和升维 33：具有较小输入输出维度的卷积。利用深度增加带来的优势，同时减小了网络计算开销。结合了GoogLeNet和ResNet的优点。图： 18层和34层网络在ImageNet上训练结果，来源于文献5。残差网络残差网络ResNet图：ResNet在ILSVRC2014 ImageNet数据集上的结果，来源于文献5。残差网络残差网络ResNet图：ResNet在PASCAL和MS COCO数据集上的目标检测结果，来源于文献5。残差网络残差网络Re

34、sNet 深度卷积神经网络介绍经典深度神经网络模型 LeNet AlexNetVGGNetNetwork in Network (MIN)GoogLeNetResNet 深度学习框架在计算机视觉中的应用目录目录深度学习框架深度学习框架图：主流深度学习框架在Github上的数据统计和各维度评分。TensorFlow具有最高的关注度和评分。Pytorch与其类似，上手难度更低Caffe在目标识别和目标分割领域应用最广主流框架基本都支持PythonBVLC: Berkeley vision and learning center，贾读博士的实验室图：2017年3月提交到arXiv上的论文中出现

35、的深度学习框架比例分布。深度学习框架深度学习框架CaffeCaffe、TensorFlowTensorFlow、MXNetMXNet 比较比较比较项比较项CaffeTensorFlowMXNet主语言C+/cudaC+/cudaC+/cuda从语言Python/MatlabPythonPython/R/Julia/Go硬件CPU/GPUCPU/GPU/MobileCPU/GPU/Mobile分布式NoYesYes速度快中等快灵活性一般好好文档全面中等全面适合模型CNNCNN/RNNCNN/RNN操作系统所有系统Linux, OSX所有系统接口protobufC+/PythonPython/R/

36、Julia/Go网络结构分层方法符号张量图图：Caffe、TensorFlow、MXNet比较深度学习框架深度学习框架CaffeCaffe、TensorFlowTensorFlow、MXNetMXNet 比较比较CaffeCaffe: Blob: Blob 将数据存储为(n, k, h, w)的四维数组，blob中包含分别存储原始数据和后向求导数据的空间。在CPU、GPU上分配内存，通过数据的访问方式（可改变/不可改变）实现通信。基本数据结构：基本数据结构：TensorFlowTensorFlow: Tensor: Tensor N维的array或者list，维数可变，数据类型一旦定义不能改

37、变。MXNetMXNet: : NDArrayNDArray 提供支持CPU、GPU的矩阵和矢量计算。根据指令评估数据间的依赖关系，自动将数据分配到多台CPU和GPU上并行计算。深度学习框架深度学习框架CaffeCaffe、TensorFlowTensorFlow、MXNetMXNet比较比较网络实现：网络实现：CaffeCaffe-功能计算方式功能计算方式定义layer实现具体功能。继承：首先将功能分类（数据层、损失层、可视化等），对每一类的功能划分为子类并采用继承的方式实现。各个层的连接构成网络。TensorFlowTensorFlow-符号计算方式符号计算方式利用数据（Ten

38、sor）和操作（Operation）构造网络图模型。采用Variable进行参数传递。MXNetMXNet-功能计算功能计算+ +符号计算符号计算深度学习框架深度学习框架CaffeCaffe、TensorFlowTensorFlow、MXNetMXNet优缺点比较优缺点比较CaffeCaffe: :优点：容易上手，网络结构以配置文件形式定义，不需要用代码设计网络。训练速度快，能够训练state-of-the-art的模型与大规模的数据，且存在大量训练好的经典模型。组件模块化，可以方便地拓展到新的模型和学习任务上。缺点：对递归网络和语言建模的支持很差。基于层的网络结构，扩展性不好，对

39、于新增加的层，需要自己实现。深度学习框架深度学习框架CaffeCaffe、TensorFlowTensorFlow、MXNetMXNet优缺点比较优缺点比较TensorFlowTensorFlow：优点：理想的RNN（递归神经网络）API和实现。使用了向量运算的符号图方法，使新网络的指定变得相当容易，支持快速开发。支持分布式计算，可移植性强。有功能强大的可视化组件TensorBoard，能可视化网络结构和训练过程。缺点： API发展太快，导致文档和接口不够清晰。内存占用大，默认占用GPU所有内存。深度学习框架深度学习框架CaffeCaffe、TensorFlowTensorFlow、

40、MXNetMXNet优缺点比较优缺点比较MXNetMXNet：优点：训练速度快，占用内存较少。 symbolic接口便于快速构建神经网络和自动求导。支持多种语言接口。缺点：平台较小，没有形成科研社区，文档更新慢等。深度学习框架深度学习框架DCNNs语义分割语义分割实例实例全卷积网络（全卷积网络（Fully convolutional networks, FCNsFully convolutional networks, FCNs）贡献一：贡献一：首次将DCNNs用于语义分割问题分类问题：全连接，类别输出分割问题：全卷积，语义图谱全卷积网络（全卷积网络（Fully convolutio

41、nal networks, FCNsFully convolutional networks, FCNs）贡献二：贡献二：上采样与多特征融合DCNNs下采样之后的输出缺省了大量细节信息。FCNs通过上采样提高特征图像的分辨率，并将不同通道的特征串联，提高特征的丰富性。存在问题：存在问题：上采样的结果仍然比较模糊和平滑，对图像中的细节不敏感。分割中没有采用空间正则化（spatial regularization）, 结果缺乏空间一致性DCNNs语义分割语义分割实例实例反卷积网络（反卷积网络（DeconvolutionalDeconvolutional networks, networks,

42、 DeconvNetDeconvNet）目的目的解决pooling操作带来的特征细节损失图：反卷积网络结构DCNNs语义分割语义分割实例实例解决方法：解决方法：通过逐层Unpooling和反卷积恢复出目标的精细纹理和准确定位深度卷积神经网络介绍经典深度神经网络模型 LeNet AlexNetVGGNetNetwork in Network (MIN)GoogLeNetResNet 深度学习框架在计算机视觉中的应用目录目录深度学习：在计算机视觉中的应用深度学习：在计算机视觉中的应用在计算机视觉领域中的应用在计算机视觉领域中的应用目标检测、目标识别、图像分类图像分割目标跟踪图像

43、标注、图像检索图像句子描述特征特征识别：人脸识别、人脸检测、人脸对齐、人脸再验证行人检测、行人再识别、动作分类、事件分类深度估计、立体匹配、场景解析其它图像处理深度学习：在计算机视觉中的应用深度学习：在计算机视觉中的应用深度学习：在计算机视觉中的应用深度学习：在计算机视觉中的应用深度学习：视觉目标检测深度学习：视觉目标检测任务任务RecognitionWhat?car : 1.000dog : 0.997person : 0.992person : 0.979horse : 0.993LocalizationWhere?VOC2012: 20 classes. The train

44、data has 11,530 images containing 27,450 ROI annotated objects深度学习：视觉目标检测深度学习：视觉目标检测 Object detection frameworkSVMCNNAdaboostImagepersonboatObjectness estimationObject detectorResultsObjectness proposals深度学习：视觉目标检测深度学习：视觉目标检测 Object detection renaissance40%50%60%70%80%2006200720082009201020122013201

45、420152016mean Average Precision (mAP)2011Before deep convnets10%20%30%PASCAL VOC 2007R-CNNSPP-NetFast R-CNNFaster R-CNN+ Accurate-Slow-Inelegant+ Accurate+ Fast+ StreamlinedSegment image into different regions such that each region has the same semantic meaning. Image segmentation is very challengin

46、g task in computer vision.深度学习：图像语义分割深度学习：图像语义分割 Fully Convolutional networks J. Long, E. Shelhamer and T. Darrell, Fully Convolutional networks for Semantic Segmentation, CVPR, 2014深度学习：图像语义分割深度学习：图像语义分割 Deconvolutional NN Hyeonwoo Noh, Seunghoon Hong, Bohyung Han. Learning Deconvolution Network fo

47、r Semantic Segmentation, ICCV, 2015.深度学习：图像语义分割深度学习：图像语义分割深度学习：在计算机视觉中的应用深度学习：在计算机视觉中的应用深度学习：图像句子描述深度学习：图像句子描述 Image caption is very-very challenging task in computer vision. A group of people of Asian descent watch a street performer in a wooded park area. A large crowd of people surround a colorfu

48、lly dressed street entertainer. A crowd of people watching a balloon twister on a beautiful day. A crowd of people are gathered outside watching a performer. A crowd is gathered around a man watching a performance.O. Vinyals, A. Toshev, S. Bengio, and D. Erhan. Show and tell: A neural image caption

49、generator. CVPR, 2015.K. Xu, J. L. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhutdinov, R. Zemel,Y. Bengio. Show, Attend and Tell: Neural Image CaptionGeneration with Visual Attention, arXiv: 1502.03044v2, 2015. Show and TellGoogle Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Sh

50、ow and tell: A neural image caption generator. CVPR, 2015.GoogLeNetS. Hochreiter, and Schmidhuber. Long Short-Term Memory, Neural Computation, 1997深度学习：图像句子描述深度学习：图像句子描述深度学习：图像句子描述深度学习：图像句子描述车辆检测城市典型目标语义分割城市道路提取图像增强在遥感图像处理中的应用在遥感图像处理中的应用城市遥感高分图像车辆目标检测城市遥感高分图像车辆目标检测 G. Cheng, Ying Wang, Shibiao X

展开阅读全文