一种基于深度学习的异构多模态目标识别方法-孟飞.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《一种基于深度学习的异构多模态目标识别方法-孟飞.pdf》由会员分享,可在线阅读,更多相关《一种基于深度学习的异构多模态目标识别方法-孟飞.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 47卷第 5期 中南大学学报 (自然科学版 ) Vol.47 No.5 2016年 5月 Journal of Central South University (Science and Technology) May 2016 DOI: 10.11817/j.issn.1672-7207.2016.05.018 一种基于深度学习的异构多模态目标识别方法 文孟飞 1, 2,胡超 3, 4,刘伟荣 1 (1. 中南大学 信息科学与工程学院,湖南 长沙, 410083; 2. 湖南省教育科学研究院,湖南 长沙, 410005; 3. 中南大学 信息与网络中心,湖南 长沙, 410083; 4.
2、 中南大学 医学信息研究湖南省普通高等学校重点实验室,湖南 长沙, 410083) 摘要: 提出一种基于深度学习的异构多模态目标识别方法。首先针对媒体流中 同时存在音频和视频信息的特征,建立一种异构多模态深度学习结构;结合卷积神经网络和限制波尔兹曼机的算法优点,对音频信息和视频信息分别并行处理,生成基于典型关联分析的共享特征表示,并进一步利用时间相关特性进行参数的优化。分别使用标准语音人脸库和截取的实际电影视频对算法进行实验 。研究结果 表明 : 对于这 2种视频来源,所提出方法在目标识别的精度方面都有显著提高。 关键词: 目标识别 ; 深度学习 ; 卷积神经网络 ; 限制玻尔兹曼机 ; 典型
3、关联分析 中图分类号: TP391.4 文献标志码: A 文章编号 : 16727207(2016)05158008 Heterogeneous multimodal object recognition method based on deep learning WEN Mengfei1, 2, HU Chao3, 4, LIU Weirong1 (1. School of Information Science and Engineering, Central South University, Changsha 410075, China 2. Hunan Provincial Rese
4、arch Institute of Education, Changsha 410005, China; 3. Information and Network Center, Central South University, Changsha 410083, China 4. Key Laboratory of Medical Information Research of Hunan Province, Central South University, Changsha 410083, China) Abstract: The heterogeneous multimodal objec
5、t recognition method was proposed based on deep learning. Firstly, based on the video and audio co-existing feature of media data, a heterogeneous multimodal structure was constructed to incorporate the convolutional neural network(CNN) and the restricted boltzmann machine(RBM). The audio and video
6、information were processed respectively, generating the share characteristic representation by using the canonical correlation analysis(CCA). Then the temporal coherence of video frame was utilized to improve the recognizing accuracy further. The experiments were implemented based on the standard au
7、dio & face library and the actual movie video fragments. The results show that for both the two kinds of video sources, the proposed method improves the accuracy of target recognition significantly. Key words: object recognition; deep learning; restricted boltzmann machine; convolutional neural netw
8、ork; canonical correlation analysis 收稿日期:2015 0817; 修回日期: 20151014 基金项目(Foundation item) : 湖南省教育科学 “ 十二五” 规划重点项目 (XJK014AJC001);国家自然科学基金资助项目 (61379111, 61003233, 61202342);教育部 中国移动科研基金 资助 项目 (MCM20121031) (Project(XJK014AJC001) supported by the Hunan Provincial Education Science Key Foundation durin
9、g 12th Five-Year Plan; Projects(61379111, 61003233, 61202342) supported by the National Natural Science Foundation of China; Project(MCM20121031) supported by the Science Fund of Education DepartmentChina Mobile) 通信作者:胡超,博士,讲师,从事网络管理、机器学习、教育信息化研究; E-mail: 第 5期 文孟飞,等:一种基于深度学习的异构多模态目标识别方法 1581 网络技术的发
10、展使 互联网上各种非结构化的海量媒体数据流业务迅速增长 1。如何建立起一种高效、准确的媒体数据流目标识别方法已成为国内外学者的研究热点 2。现今互联网上 85%以上的数据业务包含了非结构化的图像、音频和视频等媒体数据 3。 迫切需要根据媒体数据流的特性和规律,进行有效的特征提取和目标识别 4。 机器学习是目标识别的主要方法,目前已经从浅层学习 59发展到深度学习。浅层结构需要依靠人工来抽取样本的特征,难以将其扩展到视频的特征提取 10且自纠错能力比较有限 11。而 HINTON等 12提出的深层学习结构,可表征复杂高维函数并提取多重水平的特征 13。深度学习的 2种典型结构为限制波尔兹曼机 (
11、restricted boltzmann machines, RBM)和卷积神经网络 (convolutional neural network,CNN )。RBM在语音识别体现了较好优势 14。而 LECUN等 15使用 CNN 在处理识别图像信息取得了比其他学习方法更好的结果。目前,随着互联网的发展以及视频编解码技术的成熟,视频数据呈现出爆炸式的增长 16。目前已经有将 深度学习方法应用到视频数据目标识别的若干研究成果 1719。但上述的研究成果往往针对视频的视觉信号进行单一模态的处理。而对于一段视频来说,视觉和听觉信号都能够为目标识别提供重要的信息。因此 ,出现了结合各种不同的模态之间的
12、有效信息的多模态学习方法。如 LEONARDI 等 20使用底层的视觉和音频特征来检测足球视频中的进球镜头。NGIAM 等 21使用多模态方法并行处理人物口型和所发出的音节。 目前这 2种多模态学习方法都采用同一中深层结构处理音频和视频信号。但在多模态方法中使用不同深层结构将会取得更好的效果。 如 RBM 对声音的识别具有较好的识别效果。而卷积神经网络对时间相关的动态视觉信号有较强的鲁棒性 22。为此 ,本文作者 提出一种基于深度学习的异构多模态目标识别方法,综合 RBM 的语音识别能力和卷积神经网络的图像处理能力,并建立 RBM 和卷积神经网络的共享关联表示 ,以 便更有效地识别视频中的目标
13、。在对视觉信号进行处理时,进一步利用 视频中相邻两帧的时间相关性,优化神经网络多层结构的参数,提高目标识别的准确度 。 1 异构多模态深度学习的目标识别方法 多媒体数据中目标识别的关键是能够获取数据的主要特征。网络资源中的多 媒体视频数据具有较大的复杂性与多样性。仅仅利用视频数据中单一模态进行处理往往难以得到较好的效果。使用多模态结合的方法提取数据特征能够更有效应用于媒体数据流的特征提取:将视觉图像和音频数据分别作为 2种模态输入,并行进行处理,同时得到 2种模态的高层特征,进而通过最大化 2种模态之间的关联性建立模态间的共享表示。可得到更好的识别效果。 由于视频信息中视觉信息和听觉信息的特点
14、不同,本文建立了多模态的异构深度学习神经网络,分别利用 RBM和卷积神经网络 CNN处理视频数据流的音频信号和视频图像信号。 1.1 基于 RBM的深度学习模型 RBM是一种特殊形式的玻尔兹曼机,可通过输入数据集学习 概率分布 的随机生成神经网络,具有较好的泛化能力。而由多个 RBM 结构堆叠而成的深度信念网络能提取出多层抽象的特征,从而用于分类和目标识别。 本文采用 RBM模型进行音频处理, RBM的结构如图 1所示,整体是一个二分图的结构,分为 2层:一层为可见层 (visible units),也称为输入层 ; 另一层为隐层(hidden units) 。 图 1 RBM的结构图 Fig
15、. 1 Structure of RBM RBM的隐藏变量 h和可见变量 v之间存在对称性的连接( Wi,j),但是隐藏变量之间或者可见变量之间没有连接。该模型通过模拟热力学能量定义了基于 h和v的联合概率分布 (方程 (1)。由于同层变量之间没有连接,因此根据联合概率分布可方便计算出每一个单元的激发概率。 lg ( , ) ( , )PE v h v h T T T T2211 ()2 W v v c v b v h v (1) 根据方程(1) ,可定义隐层和可见层的概率分布: ()1( )= e EP Z vhvh , (2) 其中: ()e EZ vhvh ,, 它代表所有可能的 v和
16、h之和。由于 RBM 是二分的结构,所以可见层单元之间 中南大学学报 (自然科学版) 第 47卷 1582 在给定隐层单元的情况下都是相互独立的,隐层单元之间在给定可见层单元的情况也是相互独立的,假设有 m个可见层单元, n个隐层单元,则有: 1m ii=P | = P v |v h h (3) 1n jj=P | = P h |h v v (4) 每一个单元的激发概率为: 2 111 | sigm oid ni i ij jjP v a w h h (5) 2 111 | sigm oid mj i ij iiP h b w v v (6) 1.2 基于 CNN的深度学习模型 CNN是多层感
17、知机 (MLP)的一个变种模型,是近几年来快速发展并引起广泛重视的一种高效识别方法。它是从生物学概念中演化而来的。 20 世纪 60 年代, HUBEL 等 23在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经 网络的复杂性,继而提出了 CNN。 一般来说, CNN的基本结构包括 2层: 一 层 为特征提取层,每个神经元的输入与前一层的局部 接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其 他特征间的位置关系也随之确定下来; 另一层为 特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。 特
18、征映射结构采用的 sigmoid 函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。其 具体结构图如图 2所示。 上述过程中每个卷积层 lC 对 1lN 层的输入位面111 ll, ,Nz 执行一次线性 llKK 滤波,输入位面为11llDD ,输出为 1ll, ,Nz位面的中任意选取的 lN层, lN 在 thp 位面中位置 (i, j)处的值计算如下: ( ) ( 1 1 )llKKl l l l
19、1p p p,q,s,t qq s= 1 t= 1z i, j = b + w z i + s, j + t (7) 偏置 lpb 和滤波器权重 lp,q,s,tw 通过反向传播算法进行训练。输出层的位面为 11llDD ,其中1l l 1 lD =D K + 。 子抽样层 lS 在每个出入位面上使用 llKK 平滑滤波: 11( ) ( 1 1 )llKKl l 1p p p qstz i, j = b + w z i + s, j + t (8) 1.3 基于深度编码器和关联分析的异构学习 首先将视频模型描述为视听双模态,其中该模型的输入 是视频帧和与视频帧同步的连续声谱。本文采用基于稀疏
20、理论的深度自动编码器异构多模态的深度学习方法。 深度自动编码器是一种利用无监督逐层贪心预训练和系统性参数优化的多层非线性网络,能够从无标签数据中提取高维复杂输入数据的分层特征,并得到原始数据的分布式特征表示的深度学习神经网络结构,其由编码器、解码器和隐含层组成。 基于稀疏理论的深度自动编码器 10对原始自动编码器的隐含层添加了约束条件并增加了隐含层数量,能提取高维数据变量的稀疏解释性因子,保留原始输入的非零特征,增加表示算法的鲁棒性,增强数据的线性可分性,使物体边界变得更加清晰。 该识别模型分为输入层、共享表示层以及输出层。 输入层:为视频资源的 2个模态,即声谱和视频帧,其中声谱采用 RBM
21、训练 ,视频帧采用 CNN训练。 共享表示层:这一层的关键是找到特征模态的转 图 2 卷积神经网络多层卷积运算和采样过程图 Fig. 2 Multilayer convolution operation and sampling process of convolution neural network 第 5期 文孟飞,等:一种基于深度学习的异构多模态目标识别方法 1583 换表示从而最大化模态之间的关联性。本文采用典型关联分析( canonical correlation analysis, CCA, )的方法寻找声谱波和视频帧数据的线性转换从而形成性能优良的共享表示。 CCA是先将较多变
22、量转化为少数几个典型变量,再通过其间的典型相关系数来综合描述两组多元随机变量之间关系的统计方法,有助于综合地描述两组变量之间的典型相关关系。基本过程是从两组变量各自的线性函数中各抽取一个组成一对,它们应是相关系数达到最大值的一对,称为第 1对典型变量,类似地就可以求出第 2对、第 3对等,这些成对变量之间互不相关,各对典型变量的相关系数称为典型相关系数。所得到的典型相关系数的数目不超过原两组变量中任何一组变量的数目。 输出层:这一层为声谱和视频的重构。还原视频信息的同时,识别视频中的物体。 2 基于视频时间相关特性的参数优化 2.1 视频相关性描述 视频是由一系列图像所组成,图像中目标识别的方
此文档不允许下载,在线阅读到最后一页了。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 深度 学习 异构多模态 目标 识别 方法 孟飞
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内