《深度学习及其在目标和行为识别中的新进展_郑胤.doc》由会员分享,可在线阅读,更多相关《深度学习及其在目标和行为识别中的新进展_郑胤.doc(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、175 中图法分类 号 : 文献标识 码 : A 文章编 号 : 1006-8961( 2014) 02-0175-10 论文引用格式 : 郑胤 , 陈权崎 , 章毓晋 . 深度学习及其在目标和行为识别中的新进展 J . 中国图象图形学报 , 2014, 19 ( 2 ) : 175-184. DOI: 10. 11834 / jig. 20140202 深度学习及其在目标和行为识别中的新进展 郑胤 , 陈权崎 , 章毓晋 清华大学电子工程系 , 北京 100084 摘 要 : 目的 深度学习是机器学习中的一个新的研究领域 。 通过深度学习的方法构建深度网络来抽取特征是目 前目标和行为识别中得
2、到关注的研究方向 。 为引起更多计算机视觉领域研究者对深度学习进行探索和讨论 , 并推 动目标和行为识别的研究 , 对深度学习及其在目标和行为识别中的新进展给予概述 。 方法 首先介绍深度学习领 域研究的基本状况 、 主要概念和原理 ; 然后介绍 近期利用深度学习在目标和行为识别应用中的一些新进展 。 结 果 阐述了深度学习与神经网络之间的关系 , 深度学习的优缺点 , 以及目前深度学习理论需要解决的主要问题 。 结论 该文对拟将深度学习应用于目标和行为识别的研究人员有所帮助 。 关键词 : 深度学习 ; 目标识别 ; 行为识别 ; 计算机视觉 Deep learning and its ne
3、w progress in object and behavior recognition Zheng Yin, Chen Quanqi, Zhang Yujin Department of Electronic Engineering, Tsinghua University, Beijing 100084, China Abstract: Objective Deep learning is a new research area in machine learning. Currently, extracting features by deep learning for visual
4、object recognition and behavior recognition capture many attentions. To draw more attention from research community about deep learning, and to push forward the research frontier of object and behavior recognition, we give a general progress overview for deep learning and its application to visual o
5、bject and behavior recognition. Method First, we give a general introduction to deep learning, including the basic situation, main concepts and principle. Then, some new progresses on using deep learning in visual object recognition and behavior recognition are presented. esult A discussion about th
6、e differences between deep learning and neural network as well as the advantage and disadvantage of deep learning are given, the main existing problems that should be solved for deep learning theory are pointed. Conclusion This paper should provide some help for the research community on applying th
7、e deep learning to the visual object and behavior recog- nition. Key words: deep learning; object recognition; behavior recognition; computer vision 0 引 言 计算机视觉是指用计算机实现人的视觉功能 , 希望能根据感知到的图像 ( 视频 ) 对实际的目标和 场景内容做出有意义的判断 1 。 如何能正确识别 目标和行为非常关键 , 其中一个最基本的和最核心 的问题是对图像的有效表达 。 如果所选的表达特征 能够有效地反映目标和行为的本质 , 那么对
8、于理 解 图像就会取得事半功倍的效果 。 正因为如此 , 关于 收稿日期 : 2013-06-28; 修回日期 : 2013-11-18 基金项 目 : 国家自然科学基金项 目 ( 61171118) ; 教育部高等学校博士学科点专项科研基金项目 ( S FDP-20110002110057) 第一作者简介 : 郑胤 ( 1986 ) , 男 , 清华大学电子工程系博士研究生 , 主要研究方向为深度学习 、 机器学习 、 模式识别 、 计算机视觉 、 图像 工程 。 E-mail: y-zheng09 mails. tsinghua. edu. cn 176 Vol 19, No 2, Feb
9、. 2014 特征的构建和选取一直得到广泛关注 。 近些年来人 们已构建出许多特征 , 并且得到了广泛的应用 , 例如 SIFT 2 、 HOG 3 、 LBP 4 、 MSE 5 等等 。 设计特征是 一种利用人类的智慧和先验知识 , 并且将这些知识 应用到目标和行为识别技术中的很好的方式 。 但 是 , 如果能通过无监督的方式让机器自动地从样本 中学习到表征这些样本的更加本质的特征则会使得 人们更好地用计算机来实 现人的视觉功能 , 因此也 是近些年人们关注的一个热点方 向 。 深 度 学 习 ( deep learning) 的目的就是通过逐层的构建一个多 层的网络来使得机器能自动地学习
10、到反映隐含在数 据内部的关系 , 从而使得学习到的特征更具有推广 性和表达力 。 本文旨在向读者介绍深度学习的原理及它在目 标和行为识别 中 的最新动 态 , 希望吸引更多的研究 者进行讨 论 , 并 在 这一新兴的具有潜力的视觉领域 做出更好的 成 果 。 首先对深度学习的动 机 、 历史 以 及应用进行了 概 括说 明 ; 主要介绍了基于限制玻尔 兹曼 机 ( BM) 6-7 的深度 学 习 架构和基于自编码器 ( auto-encoder) 8-9 的深度学习架 构 , 以及 深度学 习 近些年的进 展 , 主要 讨 论了去噪自编 码 器 ( denoising autoencoder)
11、 10 , 卷积限制玻 尔兹曼 机 ( convolutional BM) 11 , 三 元 因 子 玻 尔 兹 曼 机 ( 3-way factorized Boltzmann machine) 12-13 , 以及神经 自回归分布估计 器 ( NADE) 等一些新的深度学习单 元 ; 对目前深 度 学习在计算机视觉中的一些应用以及取得的成 果进 行介 绍 ; 最 后 , 对 深度学习与神经网络的关 系 , 深 度 学习的本质等 问 题加以讨 论 , 提出目前深度学习理 论方面需要解决的主要问 题 。 1 深度学习概述 目前在 典 型使用 的技术中是通 过 “ 特征表达 ” +“ 分类 器
12、” 的框架来 进行目标识 别 、 行为识别等 任 务 的 , 如 图 1 所 示 。 图 1 计算机视觉用于识别的框架 Fig. 1 The framework of recognition in computer vision 传统 的 “ 特征表 达 ” 是通过人们手动设计的特 征提取到 的 , 也 就 是说在目前的计算机视觉框架内 存在一个对输入信号 的 一 个 “ 显 式” 的预处理过 程 。 但是最近神经科学关于哺乳动物的信息表达的研究 发 现 14-15 , 哺乳动物 大脑中 关于执行识别任务的大 脑皮层并没有一 个 “ 显 式 ” 的对信号预处理的过 程 , 而是将输入信号在一个
13、大脑的复杂的层次结构中传 播 , 通过每一层 次 对输入信号进行重新的提取和表 达最终让哺乳动物感知世 界 。 这些研究促成了深度 学习这一机器学习子领域 的兴 起 16 , 它试图通过 让 计算机模拟人 脑 感知视觉信号的机 制 , 进而设计 深 层的网络来实现视觉的功 能 。 目前深度学习已经成 为计算机视觉 中 的一个热点方 向 , 每年都有大量的 研究成果出 现 , 产 生了诸多深度学习的新算法和新 方 向 , 而同时深 度 学习算法的性能也逐渐在一些国 际重大评测中超过了其他方 法 17-18 。 2 深度学习原理 传统的随机初始化模型参数然后用反向传播 ( back-propaga
14、tion) 来优化参数的方法对 于深度网 络 来说容易造成陷入局部极值或者产生梯度弥散等问 题 , 因此人们提 出 使用额外的目标函数来对每层的 参数进行预处 理 , 然后对预处理之后的模型进行反 向传播来进一步优化参 数 。 这其中限制玻尔兹曼机 和自编码器是 两 个常用的预处理单 元 , 而基于这 两 个单元的深度模型也成为了当前深 度学习的主流框 架 。 深度学习 的算法体系如 图 2 所 示 , 根据学习单 元 的 不 同 , 深度学习主要包括基于 限制玻尔兹曼机的深 度置信度网 络 ( DBN) 6 和 基于自编码器的深度网络 ( stacked auto-encoder) 8-9
15、两 类 , 另外还有一些其 他 体 系的深度网 络 。 本节 主要 介绍上 面两种主流的深度 图 2 目前深度学习算法体系结构 Fig. 2 The family of deep learning algorithm 177 郑胤 , 陈权崎 , 章毓 晋 / 深度学习及其在目标和行为识别中的新进展 第 19 卷 / 第 2 期 /2014 年 2 月 学习架构的原理以及在实际操纵中经常要用到的稀 疏性约束的原理和做法 。 2. 1 基于限制玻尔兹曼机的深度学习架构 限制玻尔兹曼机是构成深度置信网络的基础单 元 , 其本质是使得学习到的模型产生符合条件的样 本的概率最大 。 2. 1. 1 玻
16、尔兹曼机 玻尔兹曼机 ( Boltzmann machine) 19 本质上是 一种能量模型 。 能量模型是指对于参数空间 ( con- figuration space) 中每一种情况均有一个标量形式的 能量与之对应 。 能量函数就是从参数空间到能量的 映射函数 , 人们希望通过学习使得能量函数有符合 要求的性质 。 从结构上来说 , 玻尔兹曼机是双层 、 无 向 、 全连通图 , 如图 3 所示 。 为了方便起见 , 这里仅 讨论观测变量和隐变量均是 0、 1 变量的 情况 。 图 3 玻尔兹曼机示意图 Fig. 3 The illustration of Boltzmann machin
17、e 玻尔兹曼机的能量函数为 E( x, h) = bx ch hWx xUx hVh ( 1) 式中 , x 表示可见层 , h 表示隐层 , b 0, 1 K , c 0, 1 D 分别表示可见层和隐层单元的偏置 ( off- set) , K、 D 分别表示可见层和隐层单元的数目 。 W、 U、 V 分别表示观测层和隐层之间 , 观 测层变量之 间 , 隐层变量之间的连接权重矩阵 。 在实际中 , 由于计算样本概率密度时归一化因 子的存在 , 需要使用马尔可夫蒙特卡洛方法 ( MC- MC) 20 来对玻尔兹曼机进行优化 。 但是 MCMC 方 法收敛速度很慢 , 因此人们提出限制玻尔兹曼
18、机和 对比散度方法来解决这一问题 。 2. 1. 2 限制玻尔兹曼机 限制玻尔兹曼机 21 是对全连通的玻尔兹曼机 进行简化 , 其限制条件是在给定可见层或者隐层中 的其中一层后 , 另一层的单元彼此独立 , 即式 ( 1) 中 U 和 V 矩 阵中的元素均等于 0。 层间单元独立的条 件是构成高效的训练限制玻尔兹曼机的方法的条件 之 一 6 , 而 BM 也 因 此 成 为 深 度 置 信 网 络 ( DBN) 6 的构成单元 。 限制玻尔兹曼机的图模型 如图 4 所示 。 可见 , 层内单元之间没有连接关系 , 层 间单元是全连接关系 。 图 4 限制玻尔兹曼机示意图 Fig. 4 The
19、 illustration of restricted Boltzmann machine 将式 ( 1) 中层间连接矩阵 U, V 置零 , 得到限制 玻尔兹曼机的能量函数 E( x, h) = bx ch hWx ( 2) 由于限制玻尔兹曼机取消了层内单元之间的连 接 , 所以可以将其条件概率分布进行分解 , 这样就简 化了模型优化过程中的运算 。 但是在其优化过程中 仍然需 要基于 MCMC 方法的吉布斯采样 , 训练过程 仍然十分漫长 , 因此人们提出对比散度方法来加快 模型优化 。 2. 1. 3 对比散度 对比散度 ( contrastive divergence) 是 Hinto
20、n 6 在 2006 年提出来的快速地训练限制玻尔兹曼机的方 法 , 该方法在实践中得到广泛的应用 。 对比散度主 要是将对数似然函数梯度的求解进行了两个近似 : 1) 使用从条件分布中得到的样本来近似替代 计算梯度时的平均求和 。 这是因为在进行随机梯度下降法进行参数优化 时已经有平均的效果 , 而如果每次计算都进 行均值 求和则这些效果会相互抵消 , 而且会造成很大的计 算时间的浪费 。 2) 在进行吉布斯采样 ( Gibbs sampling) 时只采 用一步 , 即仅仅进行一次吉布斯采样 。 这种一次吉布斯采样方法会使得采样得到的样 本分布与真实分布存在一定的误差 。 但是实践发 现
21、, 如果仅作一次迭代的话 , 就已经能得到令人满意 的结果 。 将限制玻尔兹曼机逐层叠加 , 就构成了深度置 信网络 ( DBN) 。 在深度置信网络中底层的输出作 178 Vol 19, No 2, Feb. 2014 j x j 为上一层的输入 , 每层是一个限制玻尔兹曼机 , 使用 对比散度的方法单独训练 。 为了达到更好的识别效 果 , 往往 还要对深度置信网络每层的参数进行微 调 6, 22 。 使用限制玻尔兹曼机构建成深度网络 , 在 一些公开的数据集上取得了非常好的效果 23 。 2. 2 基于自编码器的深度学习架构 另一种主流的构成深度学习架构的单元是自编 码器 8-9 , 其
22、每一层学习单元的目的是使得重建误差 最小 。 自编码器的示意图如图 5 所示 。 自编码器的 核心思想是将输入信号进行编码 , 使用编码之后的 信号重建原始信号 , 目的是让重建信号与原始信号 相比重建误差最小 。 自编码器的思想在计算机视 觉中有广泛的应用 , 通过将信号编码 成为另一种 形式 , 可以有效地提取信号中的主要信息 , 去除冗 余 , 并且能够更加简洁 地表达 。 从某种意义上来 说 , 可以将计算机视觉中经常用到的 K 均值聚类 、 稀疏编码 、 主成分分析等方法均理解 为是一个自 编码器 。 图 5 自编码器示意图 Fig. 5 The illustration of au
23、to-encoder 如果在编码和解码中使用线性函数 , 误差函数 是均方误差 , 则这种自编码器就等价于主成分分析 ; 而如果使用量化编码 , 误差函数是均方误差 , 则这种 自编码器等效于 K 均值聚类 、 稀疏编码等 。 由于自编码器的编解码过程以及目标函数都是 确定性的 , 因此不必像限制玻尔兹曼机一样采用马 尔可夫蒙特卡洛的方法作近似 , 所以它的优化过程 仅需 要使用根据目标函数对于各个参数的导数采用 对参数进行微调 。 这种微调一般通过在顶层增加一 个逻辑回归层 ( logistic regression layer) 来实现 。 2. 3 稀疏性约束 深度置信网络和深度自编码器
24、都是通过逐层学 习来构建深度网络 。 由于经过深度网络处理之后的 信号的维数一般远远高于原始信号 , 而往往这种方 式学习到的关于原始信号的表达不是稀疏的 。 而在 计算机视觉中 , 稀疏性的约束是使得学习到的表达 更有意义的一种重要约束 , 并且在独立成分分析 ( ICA 24 ) , 稀疏编码 ( sparse coding 25 ) 等算法中得 到了验证 。 另一方面 , 由于深度学习中要优化的参 数非常多 , 如果不加入稀疏性的约束往往会使得学 习到的权重矩阵为单位矩阵 , 这样就失去了深度的 意义 。 同时 , 神经科学中也有研究表明 , 人脑在感知 视觉信 号的 时 候各 个 神经
25、 元的 响应 也 是稀 疏 的 25-26 。 因此 , 人们希望在深度学习的优化过程中 加入稀疏约束 。 引入稀疏性约束的方法有两种 : 一是使隐层的 响应稀疏 , 二是使隐层和可见层之间的连接权重矩 阵稀疏 。 这两种稀疏性的约束目前为止还没有明确 的优缺点分析 , 往往需要在 实践当中结合具体的问 题进行试验 。 为了简化起见 , 本节只介绍基于限制 玻尔兹曼机的稀疏性约束 , 而基于自编码器的深度 网络的稀疏性约束可以类似地得到 。 2. 3. 1 隐层响应稀疏约束 由于人脑在感知信号的时候每次只有一部分神 经元被激活 25-26 , 受此启发 , 这种稀疏性约束直接 对隐层的响应 h
26、 建模 。 其核心思想是 : 因为隐层是 二值函数 , 因此使隐层单元的响应稀疏则隐层的所 有单元的响应值的期望会比较小 , 因此 Lee 等人 27 提出在对样本出现概率进行优化的基础上 , 增加对 每个隐层单元响应的约束 , 使得隐 层单元的响应的 L1 范数很小 。 因为每个隐层单元响应值介于 0 和 1 之间 , 这样会使得隐层的响应稀疏 , 其目标函数为 m 随机梯度下降法即可 。 min log P( x( l) , h( l) ) + 将自编码器逐层叠加就构成了深度自编码器 W, c, b K l = 1 h m 2 ( stacked auto-encoder) 。 深度 自编
27、码器的下一层的 j = 1 p 1 m l = 1 E h( l) ( l) ( 3) 输出作为上一层的输入 , 每一层单独进行优化 。 这 样每一层都可以对原始信号作编码表达 , 这样最终 式 中 , p ( 0, 1 ) 表示隐 层单元的响应的期 望 , 一 般 得到隐含在信号内部的深层的数据关系 , 因此可以 数值比较小 , h P( x ( l) , h( l) ) 表示第 l 个样本 x ( l) 出 作为信号的更加本质和有效的表达 。 最后 , 为了充 现的概率 , h( l) 表示隐层的响应 , E h( l) x( l) 表示第 分利用数据中的类别信息 , 还需要使用监督的方法
28、 j 个隐层单元响应的期望 , m 表示样本的数量 。 179 郑胤 , 陈权崎 , 章毓 晋 / 深度学习及其在目标和行为识别中的新进展 第 19 卷 / 第 2 期 /2014 年 2 月 2. 3. 2 连接矩阵稀疏约束 另一种稀疏性的约束是直接对连接权重矩阵 W 作约束 。 其施加约束的方法如下 : 如果某一次迭代 使得权重矩阵 W 中的某一元素 Wij 改变符号 , 那么 将这个元素 Wij 置零 。 这种方法的原理如下 : 希望权 重矩阵 W 尽量稀疏 , 这需要使用 L0 范数 。 但是解 L0 范数是一个 NP-Hard 问题 , 所以人们使用 L1 范 数作近似 , 因为 L
29、1 范数可以被有效地解决同时在满 足一定条件下可以很好地近似 L0 范数 。 但是 L1 范 数是非平滑的 , 它不会令 W 稀疏 , 但是如果在某一 次迭代过程中权重矩阵 W 中的某一元素 Wij 改变符 号, 那么就说明 Wij 足够小 , 则可以将其置零 。 3 深度学习的进展 自从 2006 年 Hinton 等人提出训练限制玻尔兹 曼机的有效算法之后 , 深度学习以其优异的性能成 为人们研究热点 。 这期间产生出诸多优秀的算法 , 进一步推动深度学习领域的发展 。 下面主要介绍近 些年深度学习在计算机视觉中产生的一些有代表性 的新方法 。 3. 1 去噪自编码器 自编码器是以编码之后
30、的重建误差作为优化的 目标 , 使得编码之后的信号捕捉到原信号中的主要 信息 。 但是实际信号往往含有噪声 , 使得学习到的 自编码器的性能有所下降 。 为了使得深度网络对于 噪声更加鲁棒 , Vincent 等人 10 提出了去噪自编码 器 , 并且可以将去噪自编码器替代自编码器来构建 噪声干扰 。 去噪自编码器原理简单 , 但是在实践中 非常有效 , 能够有效解决样本中的噪声干扰问题 。 3. 2 三元因子玻尔兹曼机 传统的限制玻尔兹曼机要求层内单元之间无连 接 。 这种假设使得可以将每层单元的条件概率彼此 独立 , 因此可以有效地计算每层的条件概率 。 但是 对于图像数据来说 , 像素之
31、间是存在相互关系的 , 如 果能将像素之间的关系考虑进来 , 并且能够有效地 计算 , 则理论上 可以更好地表达图像和理解图像 。 三元因子玻尔兹曼机 12-13 就是将像素之间的两两关 系考虑进来 , 使得隐层能够捕捉到可见层单元之间的 关系 。 三元因子玻尔兹曼机的核心思想是通过因子 来作为可见层两两单元和隐层单元之间连接纽带 。 图 7 是三元因子玻尔兹曼机构成单元的示意图 。 图 7 三元因子玻尔兹曼机构成单元示意图 Fig. 7 The illustration of a unit of factored 3-way Boltzmann machine 三元因子玻尔兹曼机的能量函数为
32、 深度网络 。 E( v, h) = i, j, k vi vj hk wi, j, k ( 4) 去噪自编码器的核心思想是在信号上施加噪声 作为训练集 , 将重建信号与未施加噪声的信号作对 比来作为重建误差 , 这样就使得自编码器具有一定 的抗噪声能力 。 如图 6 所示 , x 是原始信号 , x珓 是施 加噪声之后的信号 , y 是对 x珓 进行编码之后的信号 , z 是重建信号 。 而重建误差是用 x 和 z 来计算 。 通过 优化重建误差 , 使得去噪自编码器能够适应一定的 图 6 去噪自编码器示意图 Fig. 6 The illustration of denoising auto
33、-encoder 式中 , vi 、 vj 表示第 i、 j 个可见层单元 , hk 表示第 k 个 隐层单元 , wi, j, k 表示三者之间的连接权重 。 在实际 中可以通过矩阵分解的方法对式 ( 4 ) 进行变形和 优化 。 anzato 等人 在 CIFA -10 图像数 据 库 13, 28 上 进行了实 验 , 结果表 明 , 引入可见层单元之间联系方 式可以更好地 对 图像进行建 模 , 引入可见层单元之 间的两两关 系 , 取得更好的识别效 果 。 3. 3 卷积限制玻尔兹曼机 由于传统的深度学习算法将图像中的每一个像 素作为一个可见单元 , 由于计算量的限制 , 这种处理
34、方式往往只能处理比较小的图像 ( 例如 32 32 像素 的手写体字符 ) 。 但是在计算机视觉中人们希望能 够对通常意义上的图像 ( 100 100 像素以上 ) 进行 180 Vol 19, No 2, Feb. 2014 V 处理 , 这样可见单元的数量会数以万计 , 即使使用 GPU 加速的方法也很难解决 。 另一方面 , 由于计算 机视觉中要处理的图像大小不同 , 长宽比不同 , 也无 法建立一个统一大小的连接权重矩阵 。 因此 Lee 等 人 11 提 出 卷 积 限 制 玻 尔 兹 曼 机 ( Convolutional BM) 的算法来使得深度学习可以处理通常意义下 的图像 ,
35、 并且可以自动地学习到目标的部件结构 。 卷积限制玻尔兹曼机的基本思想是使用卷积的 方式使得图像各个像素共享一组滤波器 ( 类比于链 接权重矩阵 ) Wk , k = 1, 2, K, 通过 Wk 与图像像 素作卷积的方式从图像中抽取特征 , 并且通过概率 最大值汇总 11 的方式使得抽取的特征具有一定的 平移不变性 。 如图 8 所示是卷积限制玻尔兹曼机的 示意图 , V 是输入的图像 , 即可见层 , H 是隐层 , P 是 是深度网络 。 但是使用限制玻尔兹曼机在估计样本 分布的时候需要计算归一化因子 , 这需要穷举所有 可能的观测变量和隐变量的情况 , 因此只能对小规 模隐变量的分布准
36、确地估计 。 为了解决限制玻尔兹曼机在估计多维数据的分 布而计算归一化因子时遇到的问题 , Larochelle 等 人 29 提出神经自回归分布估计器 ( NADE) 。 神经 自回归分布估计器通过将观测变量的联合概率分布 分解成一系列条件概率的乘积 , 并且使用类似于限 制玻尔兹曼机的结构来对每一个条件概率进行建 模 , 从而避免计算归一化因子 而带来的计算复杂度 方面的问题 。 其模型的结构如图 9 所示 。 图 9 中 , W, b, c 表示模型的参 数 , vi 表示输入变 量 , vi 表示 给 定前 i 1 个输入的条件下 , 模型预测的第 i 个输入 汇总层 , Wk 是第
37、k 个滤波器 , 可见层的大小是 N 变量的出现概率 。 hi 表示输入了 i 1 个输入后 , 隐 NV , 滤波器的大小为 NW NW , 这样参数的个数就从 层 ( 只有一层 ) 的响应 。 在文献 29 中 , Larochelle O( N2 ) 变成了 O( KN2 ) , 而 N N , 这样参数的个 等人使用随机梯度下降法对模型参数进行优化 , 并 V W W V 数就大大降低了 , 从而使得进行计算是可行的 。 将卷积限制玻尔兹曼 机逐层叠加 , 就得到深度 模型 , 进而可以学习到不同层次的图像表达 。 卷积 限制玻尔兹曼机可以应用到图像中的目标识别和分 类 , 学习到属于
38、不同层次的语义信息 。 图 8 卷积限制玻尔兹曼机示意图 Fig. 8 The illustration of convolutional BM 3. 4 神经自回归分布估计器 对于多维数据分布的估计是计算机视觉中处理 数据时的一个基本问题 。 事实上 , 如果能够估计出 样本中的分布 , 人们就能够回答关于数据的统计关 系的任何问题 , 例如 , 给定某些观测量 , 推断出其他 观测量出现的概率等等 。 从某种程度上来说 , 限制 玻尔兹曼机可以被理解成为一种通过隐变量 来对样 本的分布作估计的分布估计器 。 通过训练限制玻尔 兹曼机来学习观测到的数据的分布 , 可以得到给定 观测数据后隐变
39、量的分布并以此作为特征 。 当使用 多层的限制玻尔兹曼机时 , 这种分布估计器其实就 且证明该模型的计算复杂度为 O( HD) , 其中 H 为隐 变量的个数 , D 为观测变量的维数 。 实验结果表明 , 神经自回归分布估计器能够比限制玻尔兹曼机更加 有效地对输入样本的分布进行估计 29 。 图 9 神经自回归分布估计器示意图 Fig. 9 The illustration of neural autogressive distribution estimator 4 在目标和行为识别中的应用 由于深度网络可以无监督地从数据中学习到特 征 , 而这种学习方式也符合人类感知世界的机理 , 因
40、此当训练样本足够多的时候通过深度网络学习到的 特征往往具有一定的语义特征 , 并且更适合目标和 行为的识别 。 181 郑胤 , 陈权崎 , 章毓 晋 / 深度学习及其在目标和行为识别中的新进展 第 19 卷 / 第 2 期 /2014 年 2 月 4. 1 谷歌的虚拟人脑 虚拟人脑是谷歌 2012 年研发出来的基于深度 学习的具有自动学习能力的人工智能项目 。 它采用 1 000 台计算机共 16 000 个计算节点 , 利用 Youtube 网站上的视频作为训练集 , 花费 3 天的时间训练出 9 层的深度自编码器 网络 。 其 训练出来的深度神经 网络已经可 以 模拟一些人脑的功 能 。
41、 例 如 , 在完 全 没有标签的情 况下 , 该网络能够自动地从训练集中 学习到某 些概 念 , 例 如 , 当输入 是 “ 猫 ” 的图像时 某 些节点的 响应会很强 烈 , 而当输入的 是“ 人 脸 ” 时 另 外一些节点会 响 应强 烈 , 而且这些节点对于输入图 像的旋 转 , 平移等变化具有一定的不变 性 。 这些结果表明 , 仅仅通过无标签的样本来训练 出某一类别的分类器是可行的 , 同时也说明了通过 训练深度网络是可以让机器具有人一样的自主学习 能力 。 这是人工智能领域的一个里程碑 , 其相关的 研究成果 30 发表在国际机器学习大会 ( ICML2012) 上 , 引起了世
42、界范围内人们的关注 。 4. 2 大规模目标识别 2010 年开始的大规模视觉识别比赛 ( ILSV C) 是在 ImageNet 数据库 17 上进行的有关视觉目标识 别的比赛 。 ImageNet 有超过 10 000 000 幅图像 , 超 过 1 000 个类别 , 是目前公开的最大的视觉数据库 , 因此在这个数据库上进行的比赛反映了目前计算机 识别技术的最高水平 。 前几年该项比赛最好的算法 都是基于词袋模型或者可变部件模型 , 但是 2012 年 基于深度学习的模型取得了最好的效果 。 他们在原 始的 GB 像素空间训练了深度卷积神经网络模型 , 该模型是有 6 000 万个参数
43、, 65 万个神经元构成的 5 层卷积网络 。 为了提高计算效率 , 他们采用 GPU 进行加速 。 该模型在识别和检测两个参赛单元上都 超出了第 2 名至少 10 个百分点 , 这再一次说明了深 度学习强大的学习能力 。 4. 3 图像的同时分类和标注 图像的分类和标注是计算机视觉中的两个重要 问 题 。 图像分 类 指的是对图像内容作整体的描 述 , 例如给定一幅图像判断它属 于 “ 海 滩 ” 、“ 厨 房 ” 、 “ 卧 室 ” 等预 先定义好的类别中的哪一 类 ; 而图像的 标 注指的是对于 图 像中包含的内容作出判 断 , 例如 一 幅图像中是 否 包 含“ 天 空 ” 、 “ 汽
44、 车 ” , “ 树木” 等预 先 定义好的内 容 。 很显 然 , 这两个问题是相关 的 , 虽 然 对于这两 类问 题 , 都有很多方法来解决各自的问 题 , 但 是 却只有很少的工作尝 试 同时解决这两类 问 题 31 。 对于这两类问题 , 目前最流行的方法是使用 LDA( latent dirichlet allocation) 32 来进行建模 。 但 是 LDA 方法由于缺少闭式解而不得不使用变分近 似方法或者马尔可夫蒙特卡洛方法 , 但是这些方法 使用了过多的简化 , 而且计算速度慢 。 给 定一个类 别 , 给出与之联系最紧密的标注单 词和 视 觉单 词 。 可以看 出 ,
45、SupDocNADE 可以学 习 到一定的 语义信 息 : 当给定类 别 “ 街 道 ” 的时 候 , 与 之联系最 为 紧密的标注单词 是 “ 建筑 物” 、 “ 窗 户 ” 、 “ 行 人 ” 和 “天 空 ” , 而联系最密切 的视觉单词都是类 似于建筑物的表面或者窗户 等 。 其他的类别也有相 似的结果 。 最 近 , Zheng 等 人 33 提出 使用基于神经自回归 分布估计 器 ( NADE) 29, 34 的监督性神经自 回归分 布 主题模 型 ( SupDocNADE) 来 同时处理图像分类和标 注问 题 。 SupDocNADE 是一种基 于 NADE 的监督 性 主题模
46、型 , 其中每一个隐变量 表示一 个 “ 主 题” , 而 该 隐 变 量 的 响 应 作 为 该 “ 主 题” 的 权 重 。 SupDoc- NADE 使 用 “ 前 向 反向 ” 两步进行优 化 , 在其优 化 过程中不存 在 像 LDA 一样的难于计算的归一化因 子 , 因此整个 模型可以准确地和有效地求 解 。 文 献 33 表 明 SupDocNADE 在同时解决图像 分类和 标 注问题中优于 其 他主题模 型 , 并且会学习到具有语 义特征 的 “ 主 题 ” , 如 图 10 所 示 。 4. 4 视频中的动作行为识别 正确快速地识别视频中人的动作行为对于视频 搜索和视频监控具有十分重要的意 义 。 目前识别 视 频中动 作 行为的技术基本都 遵循以下几个基本步 骤 : 首先检测时空显著兴趣 点 , 接着在这些兴趣点的 局 部区域内提 取 特征描述 符 , 然后对提取出来的特 征点进行聚类 形 成字 典 , 之后把这些特征进行最近 邻量化并进行直方图向量汇