面向复杂视觉大数据的深度学习方法.docx-淘文阁

资源描述

《面向复杂视觉大数据的深度学习方法.docx》由会员分享，可在线阅读，更多相关《面向复杂视觉大数据的深度学习方法.docx（9页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、面向复杂视觉大数据的深度学习方法面向复杂视觉大数据的深度学习方法中国科学院深圳先进技术研究院导语：伴随着电子信息技术的高速开展以及各类摄像头的广泛应用，全球图像视频数据爆炸式增长，人类社会正在进入视觉信息的大数据时代。海量的图像和视频在方便人们消费与生活的同时，也对智能视觉技术提出了新的挑战。伴随着电子信息技术的高速开展以及各类摄像头的广泛应用，全球图像视频数据爆炸式增长，人类社会正在进入视觉信息的大数据时代。海量的图像和视频在方便人们消费与生活的同时，也对智能视觉技术提出了新的挑战。目前大多数视觉处理系统可以很好地收集、传输和存储图像视频，但是缺乏对其图像视频内容高效准确的分析、识别和挖掘方

2、法。首先，图像视频内容复杂，包含场景多样、物体种类繁多，这就要求处理方法对纷繁复杂的多种对象具有鲁棒的处理才能；其次，非受控条件下，图像和视频的内容受光照、姿态、遮挡等影响变化大，这就要求处理方法对复杂变化具有鲁棒性；最后，图像视频数据量大，特征维度高，局部应用需实时处理，对海量数据的计算效率有较高的要求。近年来深度学习方法的快速开展，为解决上述问题提供了有效的途径。图1视觉大数据的特点、挑战与核心问题深度学习方法的前世今生深度学习方法(Deeplearning)作为传统神经网络的拓展，近年来在语音、图像、自然语言等的语义认知问题上获得宏大的进展，为解决视觉大数据的表示和理解问题提供了通用的框

3、架。深度学习利用包含多个隐层的深层神经网络，解决需要高度抽象特征的人工智能任务。深度学习借鉴了人脑的多层通常以为是8-10层神经细胞处理构造，多层非线性构造使得深度神经网络备对抽象语义特征的抽取才能和对复杂任务的建模才能。传统神经网络受限于过拟合(overfitting)问题，很难训练出泛化才能强的多层网络模型。深度学习通过组合低层特征形成更加抽象的高层表示属性种别的特征，以发现数据的分布式特征表示。建立深度学习的一个动机在于模拟人脑的分析处理机制来解释数据，人脑皮质具有多层的构造，信息在人脑中逐层处理，逐步抽象。深度架构看做一种因子分解，即从复杂的数据中抽取出可复用的表达本质特性的特征。深度

4、学习模型由于其多层非线性构造，具有强大的才能，十分合适大数据的学习图2。这是由于传统浅层模型由于才能有限，在训练数据量增大到一定程度时其才能往往饱和，无法充分利用大规模训练数据所包含的有效信息。与此对应，深度学习方法由于其强大的才能，可以较为充分的利用大规模数据，从中提取有效的特征。图2深度学习方法与非深度学习方法在训练数据量增加时的性能比照深度学习方法在视觉领域的进展目前，深度学习已经在人工智能的多个应用领域如图像分类、语音识别、自然语言理解等获得了打破性的进展。深度学习由于其优异的效果，也引起了工业界的广泛兴趣，以谷歌、脸谱、微软、百度等为代表的互联网企业已经成为深度学习技术创新的重要气力

5、。在语音领域，深度学惯用坚信度网络DBN交换声学模型中的混合高斯模型GaussianMixtureModel，GMM，获得了相对错误率显著的降低(30%左右)，并已经成功的应用于微软、谷歌、讯飞等的语音识别引擎。在机器翻译领域，神经语言模型较传统方法获得了更好的效果。2016年，由谷歌DeepMind开发的AlphaGo围棋程序依靠深度学习和强化学习的强大才能，在围棋人机大战中以3:1战胜了韩国顶级棋手李世乭。物体分类在图像领域，Krizhevsky等利用多层卷积神经网络，在大规模图像分类ImageNetLSVRC-2021竞赛中包含1千个种别，120万图像获得了明显高于传统方法的结果，将To

6、p5错误率由26%大幅降低至15%，该神经网络有7层，包含约65万个神经节点和6千万参数。目前卷积神经网络已经成为该领域的主流方法。在此根底上，研究人员提出了VGGNet、GoogLeNet、残差网络ResidualNet等更深层的网络，并提升了深度学习方法在大规模图像分类领域的性能。深度网络还能准确检测出图像物体的位置，也能预测例如人体部位手、头、足的位置和姿态。图3AlexNet网络构造人像分析在人脸识别方面，深度神经网络在人脸识别领域公认困难的LFW数据库上超过了人眼识别的准确度。图4给出了在人脸识别领域获得优秀性能的DeepID网络构造，该网络根据人脸构造的特殊性，提出了使用部分分享卷

7、积，提升了网络对人脸图像的分类才能。提出面向跨年龄人脸识别的隐因子卷积神经网络，该网络将隐因子学习引入深度网络，将深度网络中全连接层特征分解为身份和年龄两个局部图5，为提升深度网络对年龄变化的鲁棒性提供了一条新途径，实验说明该网络在著名的LFW数据库上获得了99%的正确率，超过了人眼在这一数据库上的表现97%，并在Morph和CACD这两个重要的跨年龄数据库上获得了领先的识别率，分别为88.1%和98.5%，还首次提出面向深度网络的中心损失函数，增强深度特征学习中的聚类效果，实验说明该方法可以提升人脸识别深度网络的性能，在MegaFace百万级人像比对国际测试的FGNet任务中获得了良好的效果

8、。图4DeepID人像分类网络构造9图5面向跨年龄人脸识别的隐因子卷积神经网络场景识别场景识别与理解是计算机视觉的一个根本问题。传统的场景识别方法多依靠于SIFT、HOG、SURF等部分特征。近年来，卷积神经网络也被用于场景分类。早期的方法发现微调Finetune通过大规模物体数据库Imagenet训练的网络，在场景分类中也有较好的效果。但与物体分类相比，场景种别更加抽象同一个场景种别内图像的内容和布局可能包含复杂的变化。麻省理工学院的AI实验室推出PLACE大规模场景数据库，推动深度神经网络在大规模场景分类的应用，使得研究人员可以直接利用场景数据而无需借助Imagenet训练场景分类的深度模

9、型。很多在物体分类中表现优异的网络构造如AlexNet、VGGNet、GoogLeNet、ResidualNet等也在场景分类中获得了良好的效果。研究说明，Dropout和多尺度数据增强等策略有助于深度网络的训练，可以缓解网络过拟合问题；Relaybackpropagation等方法可以提升场景分类深度网络的性能。与传统手工设计的特征相比，深度神经网络学习的场景特征表达才能丰富，语义性更强，因此可以在识别任务中获得更好的效果。图6知识引导卷积神经网络行为识别行为识别是计算机视觉领域的重要问题。近年来，研究人员逐步将深度神经网络引入视频的分析与理解中，使其成为行为识别研究中的一个新的研究方向。K

10、arpathy等提出一个卷积神经网络ConvolutionalNeuralNetwork，CNN，通过不同的时序交融策略，实现对视频中的行为识别。然而，此模型尽管利用海量数据sports-1M进展预训练，行为识别的精准性仍有待进步。另一流行的方法是3DCNN，此类方法通过对标准2DCNN在时间轴上的扩展，实现对视频的时空建模。但是，宏大的训练复杂度需要海量数据的支撑或者3D卷积核的分解。牛津大学提出一个双流CNN框架以防止3DCNN的训练问题。通过外形流Appearancestream与运动流MotionStreamCNN的独立设计，此框架在标准数据库UCF101与HMDB51中实现了精准的行

11、为识别。然而，运动流CNN的输入为叠加光流，这使得此框架只能捕捉住短时运动信息，而忽略视频长时运动信息的理解。为进一步改良此构造的识别精准性，作者团队提出轨迹池化的深度描绘子Trajectory-pooledDeepDescriptors，该方法为交融深度模型与传统轨迹特征提供了一种新机制，实验说明这种深度轨迹特征TDD较传统手工设计的特征和传统深度模型具有更强的表示才能和区分性，可明显进步视频分类的正确率。人们还开发了视频关键域挖掘的深度模型，以及时间分割神经网络，以进步此类框架的时空建模才能。另外，还开发了增强运动向量卷积神经网络EMV-CNN，利用运动向量替换需要大量运算的光流，提速20

12、倍以上。递归神经网络RecurrentNeuralNetwork，RNN，十分是长短时记忆模型LongShort-TermMemory，LSTM在各种序列建模任务中获得的成功，使得基于深度学习的行为识别方法逐步向序列建模方向开展。一种常见的训练方法是利用双流CNN提取的特征作为LSTM的输入进展序列模型的训练。图7轨迹采样的深度卷积视频特征除此之外，深度学习还在图像恢复和超分辨率、图像质量评价、语义分割与解析、图像内容文本生成、医学图像分析等很多任务中获得了较传统方法更好的结果，大大推动了互相领域技术和方法的开展。开展趋势深度学习方法固然获得了重要的进展，但在计算机视觉的很多应用中仍然面临宏大

13、的挑战，这主要表达在以下几个方面：首先，目前的深度学习方法往往依靠大规模数据进展训练。但并非所有的视觉问题都有充足的训练样本，如特定人或者物体的检索，罕见物种的识别、医学图像中的稀有病例等，训练数据可能非常稀少或采集大量样本的代价会很大。于此相对应，人的视觉系统仅需要少量样本就可以识别种别，这很多程度是由于人可以复用在其他领域学习所得知识和经历。近年来小数据样本Smalldataset的学习越来越引起研究人员的关注，怎样利用小数据样本来进展有效的深度学习，是一个有待解决的挑战性问题。其次，深度卷积网络采用误差反向传播算法进展参数学习，这就要求训练数据有明确和丰富的监视信息。但在很多实际问题中，

14、对图像进展具体、准确的标定极为耗时如场景解析中的像素级标签、视频中精细的时空标定等；并且，很多训练数据中监视信息缺失或者监视信息包含噪声如从互联网中采集的照片。怎样利用弱监视、噪声监视、非监视统信息来训练深度网络，对利用大量标定不完全的数据具有重要的实际意义。最后，深度神经网络往往规模宏大、参数诸多。以AlexNet网络为例，固然输入图像已经被缩小到224224，但模型仍包含六千万的参数。这使得深度神经网络较难应用于计算和存储资源受限的场合如挪动终端、嵌入式系统等。同时，也使得人们很难把高分辨率的图像直接作为深度网络的输入。怎样对复杂深度网络模型进展压缩和加速，降低运算和存储消耗，对解决深度学习方法资源受限的难题具有现实意义。

展开阅读全文