基于深度时空域卷积神经网络的表情识别模型-杨格兰.pdf

上传人:1890****070 文档编号:103126 上传时间:2018-05-12 格式:PDF 页数:9 大小:4.57MB
返回 下载 相关 举报
基于深度时空域卷积神经网络的表情识别模型-杨格兰.pdf_第1页
第1页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于深度时空域卷积神经网络的表情识别模型-杨格兰.pdf》由会员分享,可在线阅读,更多相关《基于深度时空域卷积神经网络的表情识别模型-杨格兰.pdf(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第 47卷 第 7期 中 南 大 学 学 报 (自 然 科 学 版 ) Vol.47 No.72016年 7月 JournalofCentralSouthUniversity(ScienceandTechnology) July2016DOI:10.11817/j.issn.1672-7207.2016.07.019基 于 深 度 时 空 域 卷 积 神 经 网 络 的 表 情 识 别 模 型杨 格 兰 1,2, 邓 晓 军 3, 刘 琮 1(1.同济大学电子与信息工程学院,上海,201804;2.湖南城市学院信息科学与工程学院,湖南益阳,413000;3.湖南工业大学计算机与通信学院,湖南株

2、洲,412007)摘 要 : 基 于 特 征 抽 取 是 表 情 识 别 算 法 中 的 重 要 步 骤 , 但 是 现 有 算 法 依 赖 手 工 设 计 特 征 且 适 应 性 差 等 问 题 , 提 出 基于 深 度 时 空 域 卷 积 神 经 网 络 的 表 情 识 别 模 型 , 采 用 数 据 驱 动 策 略 直 接 从 表 情 视 频 中 自 动 抽 取 时 空 域 中 的 动 静 态 特征 。 使 用 新 颖 的 卷 积 滤 波 器 响 应 积 替 代 权 重 和 , 使 得 模 型 能 同 时 抽 取 到 动 态 特 征 和 静 态 特 征 。 引 入 深 度 学 习 的 多

3、层 设 计 , 使 得 模 型 能 逐 层 学 习 到 更 抽 象 、 更 宏 观 的 特 征 。 采 用 端 对 端 的 有 监 督 学 习 策 略 , 使 得 所 有 参 数 在 同 一 目标 函 数 下 优 化 。 研 究 结 果 表 明 : 训 练 后 的 卷 积 核 类 似 于 Garbor滤 波 器 的 形 态 , 这 与 视 觉 皮 层 细 胞 对 激 励 的 响 应 相似 ; 该 模 型 能 对 表 情 视 频 进 行 更 准 确 分 类 ; 通 过 与 其 他 几 种 近 年 出 现 的 算 法 进 行 比 较 , 验 证 该 算 法 的 优 越 性 。关 键 词 : 情 感

4、 计 算 ; 表 情 识 别 ; 时 空 域 ; 卷 积 神 经 网 络 ; 深 度 学 习中 图 分 类 号 : TP301 文 献 标 志 码 : A 文 章 编 号 : 16727207(2016)07231109FacialexpressionrecognitionmodelbasedondeepspatiotemporalconvolutionalneuralnetworksYANGGelan1,2,DENGXiaojun3,LIUCong1(1.SchoolofElectronicsandInformationEngineering,TongjiUniversity,Shangha

5、i201804,China;2.SchoolofInformationScienceandEngineering,HunanCityUniversity,Yiang413000,China;3.CollegeofComputerandCommunication,HunanUniversityofTechnology,Zhuzhou412007,China)Abstract:Consideringthat thefeatureextractionis crucial phases in theprocess offacial recognition, andit incorporatesmanu

6、al intervention that hinders the development of reliable and accurate algorithms, in order to describe facialexpression in a data-driven fashion, a temporal extension of convolutional neural network was developed to exploitdynamics of facial expressions and improve performance. The model was fundame

7、ntal on the multiplicative interactionsbetween convolutional outputs, instead of summing filter responses, and the responses were multiplied. The developedapproach was capable of extracting features not only relevant to facial motion, but also sensitive to the appearance andtexture of the face. The

8、introduction of hierarchical structure from deep learning makes the approach learn the high-levelandglobal features.Theendtoendtrainingstrategy optimizes alltheparametersundertheuniformobjective.Theresultsshowthattheapproachextractsthetwotypesoffeaturessimultaneouslyasnaturaloutcomeofthedevelopedarc

9、hitecture.Thelearntfittersaresimilartothereceptivefieldareaofvisualcortex.Themodelisprovedtobeeffective.Key words: affect computing; facial expression recognition; spatiotemporal space; convolutional neural networks; deeplearning收 稿 日 期 : 20150712; 修 回 日 期 : 20150922基 金 项 目 (Foundationitem): 湖 南 省 自

10、 然 科 学 基 金 资 助 项 目 (2015JJ2046); 湖 南 省 教 育 厅 优 秀 青 年 项 目 (12B023)(Project(2015JJ2046)supportedbytheNatural Science Foundation of Hunan Province; Project(12B023) supported by Science Research Foundation of Education Department of HunanProvince)通 信 作 者 : 邓 晓 军 , 副 教 授 , 从 事 图 像 处 理 和 参 数 优 化 等 研 究 ; E

11、-mail:little_中 南 大 学 学 报 (自 然 科 学 版 ) 第 47卷2312感 知 表 情 有 别 于 理 性 思 维 和 逻 辑 推 理 , 是 第 三 类人 类 智 能 表 情 1。 表 情 是 人 类 交 往 的 重 要 渠 道 , 是 计算 机 理 解 人 类 行 为 的 前 提 , 也 是 情 感 计 算 的 基 础 。 表情 识 别 被 广 泛 地 应 用 于 商 业 营 销 、 人 机 交 互 、 疲 劳 驾驶 检 测 、 远 程 护 理 和 疼 痛 评 估 等 领 域 。 然 而 , 从 表 情视 频 中 自 动 识 别 人 脸 表 情 是 一 项 极 具 挑

12、 战 的 机 器 视 觉任 务 。 光 照 、 位 置 、 化 妆 、 饰 物 和 遮 挡 等 对 计 算 机 理解 表 情 都 有 影 响 。 表 情 识 别 系 统 的 实 用 化 需 要 鲁 棒 的算 法 才 能 实 现 。 现 有 的 表 情 识 别 算 法 大 致 上 可 以 分 为2 步 : 特 征 抽 取 和 分 类 识 别 。 在 特 征 抽 取 阶 段 , 一 般采 用 手 工 来 显 性 地 设 计 特 征 。 常 用 的 特 征 描 述 子 有Garbor2, DAISY3和 LBP4等 。 在 分 类 识 别 阶 段 , 上一 步 生 成 的 特 征 向 量 被 输 入

13、 SVM、 随 机 森 林 等 浅 层 5分 类 器 中 , 进 行 表 情 归 类 。 这 些 分 类 器 的 设 计 原 则 是分 辨 类 间 变 换 (不 同 类 型 的 表 情 )和 类 内 变 化 (2个 人 的相 同 表 情 )。 现 有 算 法 存 在 一 些 弊 端 。 一 是 在 特 征 抽 取阶 段 , 手 工 特 征 的 通 用 性 不 足 。 虽 然 近 年 来 出 现 了 一些 基 于 学 习 的 (learning-based)、 数 据 驱 动 (data-drive)的 特 征 抽 取 方 法 6, 但 是 它 们 的 优 化 目 标 并 不 直 接 与表 情

14、分 类 相 关 , 抽 取 的 特 征 可 能 引 入 了 与 表 情 无 关 的其 他 信 息 。 更 为 重 要 的 是 , 现 有 算 法 是 先 独 立 地 抽 取视 频 中 的 多 帧 特 征 再 进 行 汇 总 , 没 有 考 虑 多 帧 之 间 的相 关 性 , 可 能 会 丢 失 视 频 时 域 上 的 动 态 特 征 。 而 时 域动 态 特 征 是 视 频 识 别 区 别 于 静 态 图 像 识 别 的 关 键 。 表情 视 频 识 别 本 质 上 是 三 维 数 据 的 分 类 。 视 频 数 据 有 1个 重 要 特 性 , 即 视 频 数 据 在 空 域 (两 维 )

15、和 时 域 (一 维 )上 都 存 在 着 明 显 的 统 计 相 关 性 。 空 域 相 关 性 构 成 了 图像 的 边 缘 、 纹 理 等 特 征 , 时 域 相 关 性 与 表 情 的 动 态 特征 密 切 相 关 。 近 年 来 , 深 度 卷 积 神 经 网 络 (deepconvolutional neural networks)在 静 态 图 像 的 空 域 特 征识 别 方 面 表 现 出 较 明 显 优 势 78, 但 时 域 特 征 在 视 频 识别 中 具 有 更 重 要 的 地 位 。 卷 积 神 经 网 络 是 针 对 静 态 图像 识 别 设 计 的 , 从 设

16、计 之 初9就 缺 乏 对 时 域 特 征 的 考虑 , 这 导 致 深 度 卷 积 神 经 网 络 在 视 频 识 别 方 面 的 效 果较 差 。 人 们 对 有 限 的 研 究 1012集 中 在 : 扩 展 (复 制 )原有 卷 积 神 经 网 络 的 第 1个 卷 积 层 , 使 得 每 帧 都 对 应 1个 卷 积 层 , 期 望 通 过 这 些 并 行 多 个 卷 积 层 来 学 习 到 时域 特 征 。 但 在 实 验 中 发 现 12, 当 使 用 这 种 改 进 卷 积 神经 网 络 来 识 别 人 类 动 作 视 频 时 , 使 用 单 帧 卷 积 层 和 使用 多 帧

17、卷 积 层 的 准 确 率 差 别 不 大 , 也 就 是 说 改 进 后 的卷 积 神 经 网 络 本 质 上 还 是 使 用 空 域 特 征 来 识 别 人 体 动作 的 , 期 望 中 的 时 域 特 征 并 没 有 学 习 。 JI等1011通 过事 先 抽 取 帧 与 帧 之 间 的 光 流 特 征 引 入 时 域 特 征 , 但 是这 种 方 法 分 隔 了 特 征 抽 取 和 分 类 识 别 阶 段 , 破 坏 了 端对 端 的 学 习 结 构 。 在 学 习 时 域 特 征 方 面 , 近 年 来 出 现了 一 些 符 合 深 层 和 端 到 端 神 经 网 络 架 构 的 算

18、 法 1314。这 些 算 法 的 共 同 点 是 : 通 过 计 算 两 帧 之 间 的 逐 元 素 乘积 来 抽 取 时 域 特 征 。 实 际 上 , 这 种 逐 元 素 乘 相 当 于 计算 两 帧 图 像 的 Gabor 滤 波 器 响 应 的 平 方 和 。 实 验 表明 14: 在 视 频 识 别 任 务 中 , 基 于 能 量 感 知 模 型 的 算 法可 以 学 习 到 类 似 于 人 类 大 脑 视 觉 皮 层 V1 区 复 杂 细 胞(complexcell)的 响 应 。 但 是 , 这 些 基 于 能 量 感 知 模 型的 算 法 存 在 1个 明 显 缺 陷 , 即

19、 三 维 视 频 数 据 在 输 入 网络 前 , 必 须 拉 成 一 维 向 量 的 形 式 。 这 破 坏 了 空 域 和 时域 上 的 相 对 位 置 关 系 , 可 能 会 引 起 空 域 和 时 域 相 关 信息 丢 失 , 还 会 造 成 高 维 数 据 所 具 有 的 维 度 灾 难 问 题 。针 对 以 上 算 法 不 足 , 本 文 作 者 结 合 深 度 卷 积 网 络 和 能量 感 知 模 型 的 优 势 , 提 出 一 种 新 的 表 情 识 别 模 型 。 新模 型 使 用 多 个 并 行 卷 积 层 从 多 帧 中 抽 取 特 征 (类 似 文献 12中 的 扩 展

20、 卷 积 层 ), 再 计 算 这 些 特 征 的 两 两 逐 元素 乘 (类 似 能 量 感 知 模 型 )。 这 种 神 经 元 间 的 乘 法 交 互(multiplicative interactions)模 型 可 以 显 性 地 学 习 到 时域 动 态 特 征 。 同 时 , 新 模 型 保 留 了 卷 积 神 经 网 络 在 处理 空 域 特 征 上 的 优 势 , 即 直 接 处 理 二 维 图 像 而 不 用 事先 拉 成 一 维 向 量 , 这 避 免 了 能 量 感 知 模 型 的 维 度 灾 难问 题 。 另 外 , 还 证 明 了 新 模 型 可 以 同 时 学 习

21、 空 域 静 态特 征 。 因 为 视 频 静 态 特 征 与 表 情 识 别 任 务 是 强 相 关 的 ,所 以 这 是 一 个 有 用 特 性 。 称 这 种 新 模 型 为 基 于 时 空 域深 度 卷 积 神 经 网 络 (spatiotemporal convolutional neuralnetworks, stCNN)的 表 情 识 别 模 型 , 以 强 调 它 能 同 时学 习 时 空 域 特 征 的 特 性 。1 时 空 域 卷 积 神 经 网 络1.1 卷 积 神 经 网 络 结 构卷 积 神 经 网 络 是 前 馈 多 层 神 经 网 络 中 具 有 代 表 性的 一

22、 类 网 络 , 其 思 想 来 源 于 1962 年 HUBEL 和WIESEL对 猫 脑 主 要 视 觉 皮 层 的 研 究 。 深 度 卷 积 神 经网 络 通 过 多 个 串 行 的 卷 积 层 (convolution layer)和 池 化层 (pooling layer)间 隔 排 列 的 方 式 逐 层 地 学 习 数 据 特征 , 其 网 络 结 构 见 图 1。 其 中 , 卷 积 层 采 用 卷 积 操 作的 方 式 利 用 小 于 图 像 尺 寸 的 卷 积 核 来 扫 描 整 个 图 像 并计 算 卷 积 核 与 图 像 局 部 位 置 的 权 重 之 和 。 当 输

23、 入 数 据为 二 维 结 构 的 图 像 时 , 因 为 卷 积 操 作 可 以 直 接 处 理 二维 拓 扑 结 构 , 还 能 减 少 权 值 数 量 , 降 低 网 络 复 杂 度 ,便 于 特 征 提 取 和 模 式 分 类 。 卷 积 层 的 输 出 常 常 被 离 散化 和 归 一 化 , 并 称 之 为 特 征 映 射 (featuremaps), 每 个卷 积 都 对 应 1个 特 征 映 射 。 特 征 映 射 随 后 被 输 入 到 池化 层 进 行 空 域 上 子 抽 样 (subsample), 比 较 直 接 的 方 法第 7期 杨 格 兰 , 等 : 基 于 深

24、度 时 空 域 卷 积 神 经 网 络 的 表 情 识 别 模 型 2313图 1卷积神经网络结构Fig.1 Structureofconvolutionalneuralnetworks是 对 输 入 图 像 感 兴 趣 点 周 围 的 邻 居 结 点 计 算 平 均 值 ,每 次 计 算 周 围 邻 居 结 点 的 步 进 值 在 1到 最 大 邻 居 范 围之 间 。 经 过 池 化 层 处 理 能 减 小 输 出 特 征 映 射 图 的 分 辨率 , 降 低 卷 积 神 经 网 络 对 输 入 图 像 中 待 识 别 对 象 位 置变 化 的 敏 感 程 度 , 使 得 卷 积 神 经

25、网 络 具 有 一 定 程 度 的抗 畸 变 能 力 。 网 络 的 更 高 层 使 用 更 宽 泛 的 感 受 野 对 低分 辨 率 特 征 映 射 进 行 结 合 和 进 一 步 抽 象 , 以 期 获 得 更具 辨 识 力 的 特 征 。 网 络 的 最 顶 层 将 所 有 得 到 的 特 征 映射 重 新 拉 成 一 维 向 量 并 结 合 多 分 类 回 归 分 类 器 反 向 传播 错 误 信 号 来 调 整 网 络 参 数 。 卷 积 神 经 网 络 主 要 用 来识 别 位 移 、 缩 放 和 其 他 形 式 扭 曲 不 变 性 的 二 维 图 像 。网 络 直 接 输 入 训

26、 练 数 据 进 行 学 习 , 避 免 了 手 工 设 计 特征 。 另 外 , 卷 积 神 经 网 络 还 可 以 利 用 现 代 GPU的 多 个流 处 理 器 架 构 进 行 并 行 计 算 , 这 大 大 加 快 了 网 络 的 训练 速 度 。 卷 积 神 经 网 络 以 其 独 特 的 卷 积 操 作 、 卷 积 核共 享 和 子 抽 样 结 构 , 在 二 维 图 像 处 理 方 面 有 着 先 天 优越 性 , 其 较 强 的 容 错 能 力 、 并 行 处 理 能 力 和 自 学 习 能力 可 处 理 复 杂 环 境 下 的 二 维 信 号 识 别 问 题 。1.2 时 空

27、 域 卷 积 神 经 网 络 的 结 构虽 然 卷 积 神 经 网 络 不 能 抽 取 时 域 上 的 动 态 特 征 ,但 其 适 合 处 理 图 像 二 维 拓 扑 结 构 , 并 能 保 持 像 素 间 的相 对 位 置 关 系 。 本 文 提 出 的 时 空 域 卷 积 神 经 网 络 将 这些 优 势 整 合 于 能 量 感 应 模 型 , 以 高 效 地 抽 取 视 频 中 的时 空 域 特 征 。时 空 域 卷 积 神 经 网 络 的 基 本 结 构 如 图 2所 示 。 从图 2可 见 : 为 了 应 对 视 频 的 多 帧 , 它 首 先 扩 展 了 原 卷积 神 经 网 络

28、 的 卷 积 层 , 使 得 不 同 的 帧 都 有 相 应 的 卷 积层 对 其 处 理 。 这 种 结 构 保 留 了 卷 积 层 对 二 维 信 号 处 理的 优 势 。 其 次 , 为 了 模 拟 能 量 感 知 模 型 的 逐 元 素 乘 操作 来 捕 捉 帧 之 间 的 时 域 相 关 性 , 还 设 计 了 新 的 乘 法 层和 加 法 层 。图 2时空域卷积神经网络Fig.2 Spatiotemporalconvolutionalneuralnetworks时 空 域 卷 积 神 经 网 络 由 4层 组 成 。1) 输 入 层 使 用 2 个 相 邻 帧 X 和 Y 作 为

29、输 入 , 网络 要 能 捕 捉 到 它 们 之 间 时 域 上 的 动 态 特 征 和 空 域 上 的静 态 特 征 。2) 卷 积 层 使 用 与 标 准 卷 积 神 经 网 络 一 样 的 卷 积操 作 。 但 这 里 的 卷 积 核 被 分 成 4组 , 每 帧 分 别 对 应 2组 卷 积 核 。 将 每 组 中 的 某 个 卷 积 核 写 作 矩 阵 形 式 : Fx,xF , Fy和 yF , 则 经 过 训 练 Fx和 Fy, xF 和 yF 之 间 会自 动 地 形 成 正 交 基 函 数 对 。 相 应 的 4个 特 征 映 射 可 以记 为 : xFX , xFX , y

30、FY , 和 yFY 。 若 输 入 图像 的 大 小 为 N N, 卷 积 核 的 大 小 为 K K, 则 采 用 有效 卷 积 操 作 (valid convolution)后 的 特 征 映 射 大 小 为(NK+1) (NK+1)。 注 意 : 在 实 际 操 作 中 , 卷 积 一 般采 用 多 通 道 卷 积 操 作 (即 3D 卷 积 )来 处 理 彩 色 图 像 的RGB三 通 道 ; 还 可 以 添 加 偏 置 参 数 , 以 便 用 仿 射 来 代替 线 性 映 射 , 可 以 使 用 stride 技 术 来 减 少 参 数 , 可 以使 用 传 统 神 经 网 络 的

31、 非 线 性 激 活 函 数 (activationfunction): sigmoid或 者 tanh。 但 是 , 为 了 使 推 导 简 洁 ,这 里 只 用 简 洁 的 2D卷 积 来 表 达 公 式 。3) 乘 法 层 用 来 计 算 2 个 特 征 映 射 之 间 的 逐 元 素乘 (elementwiseproduct)。 参 与 运 算 的 2个 特 征 映 射 需分 别 处 于 2组 特 征 映 射 中 , 并 分 别 对 应 相 邻 帧 X和 Y。称 乘 法 层 的 输 出 为 积 映 射 , 则 积 映 射 有 2组 , 记 每 组中 的 某 个 积 映 射 为 )()(

32、 yx FYFX 和 )( xFX)( yFY , 这 里 的 “ ” 表 示 逐 元 素 乘 。 注 意 : 在 能 量感 知 模 型 中 , 2个 相 邻 帧 X和 Y之 间 的 变 换 关 系 也 是被 表 达 成 这 种 逐 元 素 乘 的 形 式 。4) 加 法 层 用 来 计 算 2 个 积 映 射 的 逐 元 素 和中 南 大 学 学 报 (自 然 科 学 版 ) 第 47卷2314(element-wisesum), 即 )()( yx FYFX + )()( yx FYFX (1)这 里 的 “ +” 表 示 逐 元 素 求 和 , 称 加 法 层 的 输 出为 和 映 射

33、。 因 为 是 逐 元 素 求 和 , 所 以 和 映 射 的 尺 寸 与上 层 的 一 致 。 每 一 个 和 映 射 都 代 表 了 某 一 特 定 空 时 域特 征 在 图 像 空 域 上 出 现 的 情 况 。时 空 域 卷 积 神 经 网 络 有 别 于 标 准 卷 积 神 经 网 络 之处 在 于 : 采 用 不 同 帧 对 应 的 滤 波 器 响 应 的 乘 积 操 作 来代 替 求 和 操 作 。 这 种 乘 积 操 作 可 看 作 是 2个 向 量 化 图像 的 外 积 , 即 2个 图 像 的 相 关 系 数 , 也 可 看 作 是 能 量感 知 模 型 的 变 形 。 正

34、 是 这 种 相 关 分 析 给 时 空 域 卷 积 神经 网 络 提 供 了 相 邻 帧 之 间 的 变 换 信 息 。1.3 和 映 射 上 的 节 点 值根 据 时 空 域 卷 积 神 经 网 络 的 结 构 , 输 入 2个 连 续帧 时 网 络 会 在 和 映 射 的 节 点 上 给 出 多 个 响 应 值 。 考 虑其 中 1个 节 点 , 此 节 点 的 感 受 野 在 X和 Y上 的 尺 寸为 K K, 见 图 3。 图 中 输 入 层 小 矩 形 框 里 的 图 像 为 节点 能 见 的 范 围 。 注 意 : 因 为 采 用 了 逐 元 素 乘 与 逐 元 素加 , 所 以

35、 , 乘 法 层 和 加 法 层 并 不 改 变 感 受 野 的 范 围 。节 点 sk是 1个 标 量 , 可 写 作 以 下 形 式 : ijyxijyijxks )()()()( FYFXFYFX (2)这 里 的 i和 j用 来 索 引 节 点 sk的 感 受 野 范 围 。式 (2)中 的 卷 积 操 作 还 可 以 写 作 矩 阵 与 向 量 乘 的形 式 。 这 是 因 为 二 维 离 散 循 环 卷 积 操 作 可 用 1个 特 殊的 块 循 环 矩 阵 (blockcirculantmatrix)来 实 现 。 例 如 : 卷积 操 作 xFX 可 以 写 作 xFx 。 其

36、 中 , x 是 按 照 列 顺 序将 矩 阵 X 的 列 连 接 而 生 成 , Fx为 N2 N2的 双 块 循 环矩 阵 (doublyblockcirculant), Fx 的 每 行 都 包 含 了 合 适的 滤 波 器 系 数 来 实 现 X和 Fx 之 间 的 二 维 卷 积 操 作 。若 把 Fx, xF , Fy和 yF 对 应 的 双 循 环 矩 阵 中 的 某 一 行图 3和映射上节点的感受野Fig.3 Receptivefieldsofnodeonsummap表 示 成 大 小 为 1 N2向 量 Txf , Txf , Tyf 和 Tyf , 由 以上 分 析 , 式

37、 (2)可 重 新 写 作 : )()( TTTT yfxfyfxf yxyxks (3)由 式 (3)可 知 : 卷 积 可 以 看 作 在 输 入 图 像 的 一 定 空域 范 围 内 进 行 线 性 变 换 。 2 个 滤 波 器 的 响 应 被 先 相 乘再 相 加 , 使 得 节 点 sk成 为 1个 时 空 域 特 征 描 述 子 。 卷积 操 作 一 般 有 2个 类 型 : 循 环 卷 积 (circularconvolution)和 可 用 卷 积 (valid convolution), 为 了 能 将 其 写 成 矩 阵向 量 乘 的 形 式 , 这 里 考 虑 循 环

38、卷 积 并 在 Fx的 周 围 增 补0直 至 与 x 的 大 小 相 同 。 该 结 论 对 可 用 卷 积 也 近 似 成立 。 这 是 因 为 在 计 算 有 效 卷 积 时 , 卷 积 核 需 要 整 个 位于 图 像 的 内 部 , 而 循 环 卷 积 不 对 此 有 要 求 , 且 当 卷 积核 不 能 整 个 位 于 图 像 内 部 时 , 允 许 卷 积 核 循 环 位 移 ,所 以 , 2种 卷 积 生 成 的 结 果 在 图 像 内 部 区 域 是 一 致 的 。2 复 平 面 上 的 时 空 特 征 描 述 子这 里 将 证 明 每 个 与 映 射 上 的 每 个 节 点

39、 sk都 是 时 空特 征 描 述 子 (spatiotemporaldescriptor), 它 通 过 检 测 复平 面 上 的 旋 转 角 度 来 同 时 抽 取 时 域 上 的 动 态 特 征 和 空域 上 的 静 态 特 征 。 考 虑 两 帧 x和 y之 间 的 图 像 变 换 L,y=Lx (4)其 中 : x和 y是 矩 阵 X和 Y中 每 列 首 尾 相 接 形 成 的 大小 为 1 N2 的 向 量 ; L 为 它 们 之 间 的 图 像 变 换 矩 阵(imagewarp)。 注 意 : 这 里 不 是 通 常 意 义 上 的 仿 射 变 换(affinetransfor

40、mation)。 当 使 用 图 像 变 换 时 , 对 应 的 L是 置 换 矩 阵 (permutationmatrix), 这 是 一 种 特 殊 的 、 用于 在 像 素 空 间 中 转 换 图 像 内 容 的 矩 阵 , 这 种 矩 阵 的 每一 行 和 每 一 列 只 有 1个 元 素 为 1, 其 余 全 是 0。 当 图 像向 量 与 这 种 矩 阵 相 乘 时 , 可 以 实 现 将 图 像 的 像 素 任 意排 列 。 实 际 上 , 初 等 几 何 变 换 中 的 平 移 、 旋 转 、 缩 放等 都 可 以 用 置 换 矩 阵 来 近 似 描 述 。 显 然 , 置 换

41、 矩 阵 是正 交 规 范 矩 阵 , 正 交 矩 阵 的 1个 重 要 性 质 是 : 其 在 复数 域 上 可 以 被 对 角 化 , 即 TURUL 。 其 中 : 复 数 域22 NN CU , 为 L的 特 征 向 量 组 成 的 正 交 规 范 矩 阵 且所 有 元 素 都 为 复 数 , 对 角 矩 阵 22 NN CR 的 对 角 线 元素 都 是 模 为 1的 复 数 。 将 此 公 式 代 入 式 (4)则 有xURUy T (5)若 只 考 虑 x在 U中 1列 上 的 投 影 , 则 有xy TT r(6)第 7期 杨 格 兰 , 等 : 基 于 深 度 时 空 域 卷

42、 积 神 经 网 络 的 表 情 识 别 模 型 2315其 中 : Cr 是 R 中 对 角 线 上 的 1 个 元 素 。 因 为 特 征向 量 的 选 择 不 是 唯 一 的 , 可 以 选 择 使 得 其 上 的 所 有元 素 的 模 也 为 1, 使 用 欧 拉 公 式 , 将 这 些 模 相 同 而 方向 不 同 的 复 数 中 的 1 个 写 作 :)sin(i)cos(ei nnn 。 整 列 可 以 写 作 : e i n ,i=1, ,N2。 其 中 , 表 示 U中 列 对 应 的 频 率 , 注意 每 列 对 应 的 频 率 不 同 。 又 因 为 复 数 乘 实 数

43、等 于 复 数的 实 部 乘 实 数 加 上 复 数 的 虚 部 乘 实 数 , 所 以 , 可 以 把每 个 复 数 拆 成 cos(实 部 )和 sin(虚 部 )而 不 会 丢 失 任 何信 息 。 这 样 , 就 可 以 拆 成 2列 u(由 cos函 数 组 成 的实 部 )和 u(由 sin 函 数 组 成 的 虚 部 )。 相 应 地 , 式 (6)可以 被 重 新 写 作 : xuuyuu TT , r (7)其 中 , , uu 与 x、 , uu 与 x之 间 的 点 积 会 生 成 二 维向 量 , 且 位 于 基 , uu 撑 起 的 二 维 复 平 面 上 。 所 以

44、 ,式 (7)相 当 于 : 先 把 图 像 x 投 影 到 对 应 的 复 平 面, uu 上 得 到 复 数 xuxu TT i , 再 将 其 乘 以 模 为 1的复 数 r(即 在 复 平 面 中 旋 转 一 个 角 度 , 由 r决 定 ),最 后 再 映 射 回 像 素 空 间 。同 理 , 矩 阵 U中 的 每 一 列 (特 征 向 量 )都 可 以 按 照前 面 方 法 被 分 拆 成 2列 : 2211 NNU uuuu )sin()cos()sin()cos( )sin()cos()sin()cos( 222222 2211 111111 NNNNNN NN xxxx xx

45、xx 其 中 : i和 j索 引 列 , n索 引 行 。 这 些 被 拆 分 的 每 对 列与 离 散 傅 里 叶 变 换 有 密 切 的 联 系 。 这 是 因 为 图 像 x的离 散 傅 里 叶 变 换 是 将 图 像 x 投 影 到 一 组 由 cos 和 sin函 数 组 成 的 基 即 21 )cos(Nn n nx 和 21 )sin(Nn n nx , 并 精 心设 计 每 组 基 对 应 的 频 率 使 得 基 之 间 正 交 , 即 i 与j 之 间 正 交 。 显 然 , 规 范 正 交 化 的 矩 阵 U 的 列 满 足此 条 件 , 且 U中 每 对 被 分 拆 的

46、列 组 成 相 位 差 为 90的正 交 对 (quadraturepairs)。 所 以 , 这 些 正 交 对 相 当 于 离散 傅 里 叶 分 析 中 的 基 函 数 )cos( n 和 )sin( n , 其 与 人类 大 脑 视 觉 皮 层 V1 区 域 的 简 单 细 胞 和 复 杂 细 胞 有 密切 的 联 系 , 见 图 7。 把 x和 y投 影 到 U的 每 列 上 , 就相 当 于 对 图 像 进 行 了 离 散 傅 里 叶 变 换 。下 面 证 明 对 于 不 同 类 型 的 图 像 变 换 , 式 (5)中 的 U或 者 式 (6)中 的 是 相 同 的 , 而 R或

47、者 r不 同 。 对 角 化理 论 认 为 : 对 所 有 的 线 性 变 换 L, 若 存 在 1 个 可 逆 矩阵 U, 使 得 LUUT 是 对 角 矩 阵 , 则 称 所 有 的 L可 被 同时 对 角 化 。 同 时 对 角 化 成 立 的 条 件 是 : 不 同 的 L符 合交 换 律 , 即 LLLL 。 事 实 上 , 不 同 的 置 换 矩 阵 L符 合 交 换 律 。 考 虑 2 个 相 继 的 平 移 变 换 L(向 下 平 移 )和 L(向 左 平 移 ), 则 先 向 下 平 移 再 向 左 平 移 LL 后 的目 标 物 体 位 置 和 先 向 左 平 移 再 向

48、下 平 移 的 位 置 相 同 。所 以 , 置 换 矩 阵 L符 合 交 换 律 , U在 不 同 的 图 像 变 换中 都 是 相 同 的 , 图 像 变 换 间 的 差 异 只 体 现 在 R或 者 r上 。 下 面 证 明 “ 和 映 射 ” 上 的 节 点 sk是 特 定 图 像 变 换的 描 述 子 。 从 以 上 分 析 可 见 : x和 y 之 间 的 变 换 可 以通 过 将 x和 y投 影 到 响 应 的 复 平 面 上 , 再 通 过 计 算 复平 面 上 的 旋 转 角 度 就 可 以 判 定 x和 y之 间 的 变 换 类 型 。假 设 式 (7)中 的 二 维 向 量 xuu T, 和 yuu T, 的 长 度 都为 1, 并 设 其 投 影 在 复 平 面 , uu 上 的 角 度 分 别 为 x和 y , 则 r对 应 的 旋 转 角 度 r , 也 就 是 xuu T, 和yuu T, 之 间 夹 角 x y 的 余 弦 为 )()(cos)cos( TTTT yuxuyuxu rxy (8)若 将 r吸 收 进 T, uu , 即 TT , vvuu r , 并 把式 (7)重 新 写 作 : xvvyuu TT , (9)则 yuu T, 与 xvv T, 之 间 的 夹 角

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁