《基于深度时空域卷积神经网络的表情识别模型-杨格兰.pdf》由会员分享,可在线阅读,更多相关《基于深度时空域卷积神经网络的表情识别模型-杨格兰.pdf(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第 47卷 第 7期 中 南 大 学 学 报 (自 然 科 学 版 ) Vol.47 No.72016年 7月 JournalofCentralSouthUniversity(ScienceandTechnology) July2016DOI:10.11817/j.issn.1672-7207.2016.07.019基 于 深 度 时 空 域 卷 积 神 经 网 络 的 表 情 识 别 模 型杨 格 兰 1,2, 邓 晓 军 3, 刘 琮 1(1.同济大学电子与信息工程学院,上海,201804;2.湖南城市学院信息科学与工程学院,湖南益阳,413000;3.湖南工业大学计算机与通信学院,湖南株
2、洲,412007)摘 要 : 基 于 特 征 抽 取 是 表 情 识 别 算 法 中 的 重 要 步 骤 , 但 是 现 有 算 法 依 赖 手 工 设 计 特 征 且 适 应 性 差 等 问 题 , 提 出 基于 深 度 时 空 域 卷 积 神 经 网 络 的 表 情 识 别 模 型 , 采 用 数 据 驱 动 策 略 直 接 从 表 情 视 频 中 自 动 抽 取 时 空 域 中 的 动 静 态 特征 。 使 用 新 颖 的 卷 积 滤 波 器 响 应 积 替 代 权 重 和 , 使 得 模 型 能 同 时 抽 取 到 动 态 特 征 和 静 态 特 征 。 引 入 深 度 学 习 的 多
3、层 设 计 , 使 得 模 型 能 逐 层 学 习 到 更 抽 象 、 更 宏 观 的 特 征 。 采 用 端 对 端 的 有 监 督 学 习 策 略 , 使 得 所 有 参 数 在 同 一 目标 函 数 下 优 化 。 研 究 结 果 表 明 : 训 练 后 的 卷 积 核 类 似 于 Garbor滤 波 器 的 形 态 , 这 与 视 觉 皮 层 细 胞 对 激 励 的 响 应 相似 ; 该 模 型 能 对 表 情 视 频 进 行 更 准 确 分 类 ; 通 过 与 其 他 几 种 近 年 出 现 的 算 法 进 行 比 较 , 验 证 该 算 法 的 优 越 性 。关 键 词 : 情 感
4、 计 算 ; 表 情 识 别 ; 时 空 域 ; 卷 积 神 经 网 络 ; 深 度 学 习中 图 分 类 号 : TP301 文 献 标 志 码 : A 文 章 编 号 : 16727207(2016)07231109FacialexpressionrecognitionmodelbasedondeepspatiotemporalconvolutionalneuralnetworksYANGGelan1,2,DENGXiaojun3,LIUCong1(1.SchoolofElectronicsandInformationEngineering,TongjiUniversity,Shangha
5、i201804,China;2.SchoolofInformationScienceandEngineering,HunanCityUniversity,Yiang413000,China;3.CollegeofComputerandCommunication,HunanUniversityofTechnology,Zhuzhou412007,China)Abstract:Consideringthat thefeatureextractionis crucial phases in theprocess offacial recognition, andit incorporatesmanu
6、al intervention that hinders the development of reliable and accurate algorithms, in order to describe facialexpression in a data-driven fashion, a temporal extension of convolutional neural network was developed to exploitdynamics of facial expressions and improve performance. The model was fundame
7、ntal on the multiplicative interactionsbetween convolutional outputs, instead of summing filter responses, and the responses were multiplied. The developedapproach was capable of extracting features not only relevant to facial motion, but also sensitive to the appearance andtexture of the face. The
8、introduction of hierarchical structure from deep learning makes the approach learn the high-levelandglobal features.Theendtoendtrainingstrategy optimizes alltheparametersundertheuniformobjective.Theresultsshowthattheapproachextractsthetwotypesoffeaturessimultaneouslyasnaturaloutcomeofthedevelopedarc
9、hitecture.Thelearntfittersaresimilartothereceptivefieldareaofvisualcortex.Themodelisprovedtobeeffective.Key words: affect computing; facial expression recognition; spatiotemporal space; convolutional neural networks; deeplearning收 稿 日 期 : 20150712; 修 回 日 期 : 20150922基 金 项 目 (Foundationitem): 湖 南 省 自
10、 然 科 学 基 金 资 助 项 目 (2015JJ2046); 湖 南 省 教 育 厅 优 秀 青 年 项 目 (12B023)(Project(2015JJ2046)supportedbytheNatural Science Foundation of Hunan Province; Project(12B023) supported by Science Research Foundation of Education Department of HunanProvince)通 信 作 者 : 邓 晓 军 , 副 教 授 , 从 事 图 像 处 理 和 参 数 优 化 等 研 究 ; E
11、-mail:little_中 南 大 学 学 报 (自 然 科 学 版 ) 第 47卷2312感 知 表 情 有 别 于 理 性 思 维 和 逻 辑 推 理 , 是 第 三 类人 类 智 能 表 情 1。 表 情 是 人 类 交 往 的 重 要 渠 道 , 是 计算 机 理 解 人 类 行 为 的 前 提 , 也 是 情 感 计 算 的 基 础 。 表情 识 别 被 广 泛 地 应 用 于 商 业 营 销 、 人 机 交 互 、 疲 劳 驾驶 检 测 、 远 程 护 理 和 疼 痛 评 估 等 领 域 。 然 而 , 从 表 情视 频 中 自 动 识 别 人 脸 表 情 是 一 项 极 具 挑
12、 战 的 机 器 视 觉任 务 。 光 照 、 位 置 、 化 妆 、 饰 物 和 遮 挡 等 对 计 算 机 理解 表 情 都 有 影 响 。 表 情 识 别 系 统 的 实 用 化 需 要 鲁 棒 的算 法 才 能 实 现 。 现 有 的 表 情 识 别 算 法 大 致 上 可 以 分 为2 步 : 特 征 抽 取 和 分 类 识 别 。 在 特 征 抽 取 阶 段 , 一 般采 用 手 工 来 显 性 地 设 计 特 征 。 常 用 的 特 征 描 述 子 有Garbor2, DAISY3和 LBP4等 。 在 分 类 识 别 阶 段 , 上一 步 生 成 的 特 征 向 量 被 输 入
13、 SVM、 随 机 森 林 等 浅 层 5分 类 器 中 , 进 行 表 情 归 类 。 这 些 分 类 器 的 设 计 原 则 是分 辨 类 间 变 换 (不 同 类 型 的 表 情 )和 类 内 变 化 (2个 人 的相 同 表 情 )。 现 有 算 法 存 在 一 些 弊 端 。 一 是 在 特 征 抽 取阶 段 , 手 工 特 征 的 通 用 性 不 足 。 虽 然 近 年 来 出 现 了 一些 基 于 学 习 的 (learning-based)、 数 据 驱 动 (data-drive)的 特 征 抽 取 方 法 6, 但 是 它 们 的 优 化 目 标 并 不 直 接 与表 情
14、分 类 相 关 , 抽 取 的 特 征 可 能 引 入 了 与 表 情 无 关 的其 他 信 息 。 更 为 重 要 的 是 , 现 有 算 法 是 先 独 立 地 抽 取视 频 中 的 多 帧 特 征 再 进 行 汇 总 , 没 有 考 虑 多 帧 之 间 的相 关 性 , 可 能 会 丢 失 视 频 时 域 上 的 动 态 特 征 。 而 时 域动 态 特 征 是 视 频 识 别 区 别 于 静 态 图 像 识 别 的 关 键 。 表情 视 频 识 别 本 质 上 是 三 维 数 据 的 分 类 。 视 频 数 据 有 1个 重 要 特 性 , 即 视 频 数 据 在 空 域 (两 维 )
15、和 时 域 (一 维 )上 都 存 在 着 明 显 的 统 计 相 关 性 。 空 域 相 关 性 构 成 了 图像 的 边 缘 、 纹 理 等 特 征 , 时 域 相 关 性 与 表 情 的 动 态 特征 密 切 相 关 。 近 年 来 , 深 度 卷 积 神 经 网 络 (deepconvolutional neural networks)在 静 态 图 像 的 空 域 特 征识 别 方 面 表 现 出 较 明 显 优 势 78, 但 时 域 特 征 在 视 频 识别 中 具 有 更 重 要 的 地 位 。 卷 积 神 经 网 络 是 针 对 静 态 图像 识 别 设 计 的 , 从 设
16、计 之 初9就 缺 乏 对 时 域 特 征 的 考虑 , 这 导 致 深 度 卷 积 神 经 网 络 在 视 频 识 别 方 面 的 效 果较 差 。 人 们 对 有 限 的 研 究 1012集 中 在 : 扩 展 (复 制 )原有 卷 积 神 经 网 络 的 第 1个 卷 积 层 , 使 得 每 帧 都 对 应 1个 卷 积 层 , 期 望 通 过 这 些 并 行 多 个 卷 积 层 来 学 习 到 时域 特 征 。 但 在 实 验 中 发 现 12, 当 使 用 这 种 改 进 卷 积 神经 网 络 来 识 别 人 类 动 作 视 频 时 , 使 用 单 帧 卷 积 层 和 使用 多 帧
17、卷 积 层 的 准 确 率 差 别 不 大 , 也 就 是 说 改 进 后 的卷 积 神 经 网 络 本 质 上 还 是 使 用 空 域 特 征 来 识 别 人 体 动作 的 , 期 望 中 的 时 域 特 征 并 没 有 学 习 。 JI等1011通 过事 先 抽 取 帧 与 帧 之 间 的 光 流 特 征 引 入 时 域 特 征 , 但 是这 种 方 法 分 隔 了 特 征 抽 取 和 分 类 识 别 阶 段 , 破 坏 了 端对 端 的 学 习 结 构 。 在 学 习 时 域 特 征 方 面 , 近 年 来 出 现了 一 些 符 合 深 层 和 端 到 端 神 经 网 络 架 构 的 算
18、 法 1314。这 些 算 法 的 共 同 点 是 : 通 过 计 算 两 帧 之 间 的 逐 元 素 乘积 来 抽 取 时 域 特 征 。 实 际 上 , 这 种 逐 元 素 乘 相 当 于 计算 两 帧 图 像 的 Gabor 滤 波 器 响 应 的 平 方 和 。 实 验 表明 14: 在 视 频 识 别 任 务 中 , 基 于 能 量 感 知 模 型 的 算 法可 以 学 习 到 类 似 于 人 类 大 脑 视 觉 皮 层 V1 区 复 杂 细 胞(complexcell)的 响 应 。 但 是 , 这 些 基 于 能 量 感 知 模 型的 算 法 存 在 1个 明 显 缺 陷 , 即
19、 三 维 视 频 数 据 在 输 入 网络 前 , 必 须 拉 成 一 维 向 量 的 形 式 。 这 破 坏 了 空 域 和 时域 上 的 相 对 位 置 关 系 , 可 能 会 引 起 空 域 和 时 域 相 关 信息 丢 失 , 还 会 造 成 高 维 数 据 所 具 有 的 维 度 灾 难 问 题 。针 对 以 上 算 法 不 足 , 本 文 作 者 结 合 深 度 卷 积 网 络 和 能量 感 知 模 型 的 优 势 , 提 出 一 种 新 的 表 情 识 别 模 型 。 新模 型 使 用 多 个 并 行 卷 积 层 从 多 帧 中 抽 取 特 征 (类 似 文献 12中 的 扩 展
20、 卷 积 层 ), 再 计 算 这 些 特 征 的 两 两 逐 元素 乘 (类 似 能 量 感 知 模 型 )。 这 种 神 经 元 间 的 乘 法 交 互(multiplicative interactions)模 型 可 以 显 性 地 学 习 到 时域 动 态 特 征 。 同 时 , 新 模 型 保 留 了 卷 积 神 经 网 络 在 处理 空 域 特 征 上 的 优 势 , 即 直 接 处 理 二 维 图 像 而 不 用 事先 拉 成 一 维 向 量 , 这 避 免 了 能 量 感 知 模 型 的 维 度 灾 难问 题 。 另 外 , 还 证 明 了 新 模 型 可 以 同 时 学 习
21、 空 域 静 态特 征 。 因 为 视 频 静 态 特 征 与 表 情 识 别 任 务 是 强 相 关 的 ,所 以 这 是 一 个 有 用 特 性 。 称 这 种 新 模 型 为 基 于 时 空 域深 度 卷 积 神 经 网 络 (spatiotemporal convolutional neuralnetworks, stCNN)的 表 情 识 别 模 型 , 以 强 调 它 能 同 时学 习 时 空 域 特 征 的 特 性 。1 时 空 域 卷 积 神 经 网 络1.1 卷 积 神 经 网 络 结 构卷 积 神 经 网 络 是 前 馈 多 层 神 经 网 络 中 具 有 代 表 性的 一
22、 类 网 络 , 其 思 想 来 源 于 1962 年 HUBEL 和WIESEL对 猫 脑 主 要 视 觉 皮 层 的 研 究 。 深 度 卷 积 神 经网 络 通 过 多 个 串 行 的 卷 积 层 (convolution layer)和 池 化层 (pooling layer)间 隔 排 列 的 方 式 逐 层 地 学 习 数 据 特征 , 其 网 络 结 构 见 图 1。 其 中 , 卷 积 层 采 用 卷 积 操 作的 方 式 利 用 小 于 图 像 尺 寸 的 卷 积 核 来 扫 描 整 个 图 像 并计 算 卷 积 核 与 图 像 局 部 位 置 的 权 重 之 和 。 当 输
23、 入 数 据为 二 维 结 构 的 图 像 时 , 因 为 卷 积 操 作 可 以 直 接 处 理 二维 拓 扑 结 构 , 还 能 减 少 权 值 数 量 , 降 低 网 络 复 杂 度 ,便 于 特 征 提 取 和 模 式 分 类 。 卷 积 层 的 输 出 常 常 被 离 散化 和 归 一 化 , 并 称 之 为 特 征 映 射 (featuremaps), 每 个卷 积 都 对 应 1个 特 征 映 射 。 特 征 映 射 随 后 被 输 入 到 池化 层 进 行 空 域 上 子 抽 样 (subsample), 比 较 直 接 的 方 法第 7期 杨 格 兰 , 等 : 基 于 深
24、度 时 空 域 卷 积 神 经 网 络 的 表 情 识 别 模 型 2313图 1卷积神经网络结构Fig.1 Structureofconvolutionalneuralnetworks是 对 输 入 图 像 感 兴 趣 点 周 围 的 邻 居 结 点 计 算 平 均 值 ,每 次 计 算 周 围 邻 居 结 点 的 步 进 值 在 1到 最 大 邻 居 范 围之 间 。 经 过 池 化 层 处 理 能 减 小 输 出 特 征 映 射 图 的 分 辨率 , 降 低 卷 积 神 经 网 络 对 输 入 图 像 中 待 识 别 对 象 位 置变 化 的 敏 感 程 度 , 使 得 卷 积 神 经
25、网 络 具 有 一 定 程 度 的抗 畸 变 能 力 。 网 络 的 更 高 层 使 用 更 宽 泛 的 感 受 野 对 低分 辨 率 特 征 映 射 进 行 结 合 和 进 一 步 抽 象 , 以 期 获 得 更具 辨 识 力 的 特 征 。 网 络 的 最 顶 层 将 所 有 得 到 的 特 征 映射 重 新 拉 成 一 维 向 量 并 结 合 多 分 类 回 归 分 类 器 反 向 传播 错 误 信 号 来 调 整 网 络 参 数 。 卷 积 神 经 网 络 主 要 用 来识 别 位 移 、 缩 放 和 其 他 形 式 扭 曲 不 变 性 的 二 维 图 像 。网 络 直 接 输 入 训
26、 练 数 据 进 行 学 习 , 避 免 了 手 工 设 计 特征 。 另 外 , 卷 积 神 经 网 络 还 可 以 利 用 现 代 GPU的 多 个流 处 理 器 架 构 进 行 并 行 计 算 , 这 大 大 加 快 了 网 络 的 训练 速 度 。 卷 积 神 经 网 络 以 其 独 特 的 卷 积 操 作 、 卷 积 核共 享 和 子 抽 样 结 构 , 在 二 维 图 像 处 理 方 面 有 着 先 天 优越 性 , 其 较 强 的 容 错 能 力 、 并 行 处 理 能 力 和 自 学 习 能力 可 处 理 复 杂 环 境 下 的 二 维 信 号 识 别 问 题 。1.2 时 空
27、 域 卷 积 神 经 网 络 的 结 构虽 然 卷 积 神 经 网 络 不 能 抽 取 时 域 上 的 动 态 特 征 ,但 其 适 合 处 理 图 像 二 维 拓 扑 结 构 , 并 能 保 持 像 素 间 的相 对 位 置 关 系 。 本 文 提 出 的 时 空 域 卷 积 神 经 网 络 将 这些 优 势 整 合 于 能 量 感 应 模 型 , 以 高 效 地 抽 取 视 频 中 的时 空 域 特 征 。时 空 域 卷 积 神 经 网 络 的 基 本 结 构 如 图 2所 示 。 从图 2可 见 : 为 了 应 对 视 频 的 多 帧 , 它 首 先 扩 展 了 原 卷积 神 经 网 络
28、 的 卷 积 层 , 使 得 不 同 的 帧 都 有 相 应 的 卷 积层 对 其 处 理 。 这 种 结 构 保 留 了 卷 积 层 对 二 维 信 号 处 理的 优 势 。 其 次 , 为 了 模 拟 能 量 感 知 模 型 的 逐 元 素 乘 操作 来 捕 捉 帧 之 间 的 时 域 相 关 性 , 还 设 计 了 新 的 乘 法 层和 加 法 层 。图 2时空域卷积神经网络Fig.2 Spatiotemporalconvolutionalneuralnetworks时 空 域 卷 积 神 经 网 络 由 4层 组 成 。1) 输 入 层 使 用 2 个 相 邻 帧 X 和 Y 作 为
29、输 入 , 网络 要 能 捕 捉 到 它 们 之 间 时 域 上 的 动 态 特 征 和 空 域 上 的静 态 特 征 。2) 卷 积 层 使 用 与 标 准 卷 积 神 经 网 络 一 样 的 卷 积操 作 。 但 这 里 的 卷 积 核 被 分 成 4组 , 每 帧 分 别 对 应 2组 卷 积 核 。 将 每 组 中 的 某 个 卷 积 核 写 作 矩 阵 形 式 : Fx,xF , Fy和 yF , 则 经 过 训 练 Fx和 Fy, xF 和 yF 之 间 会自 动 地 形 成 正 交 基 函 数 对 。 相 应 的 4个 特 征 映 射 可 以记 为 : xFX , xFX , y
30、FY , 和 yFY 。 若 输 入 图像 的 大 小 为 N N, 卷 积 核 的 大 小 为 K K, 则 采 用 有效 卷 积 操 作 (valid convolution)后 的 特 征 映 射 大 小 为(NK+1) (NK+1)。 注 意 : 在 实 际 操 作 中 , 卷 积 一 般采 用 多 通 道 卷 积 操 作 (即 3D 卷 积 )来 处 理 彩 色 图 像 的RGB三 通 道 ; 还 可 以 添 加 偏 置 参 数 , 以 便 用 仿 射 来 代替 线 性 映 射 , 可 以 使 用 stride 技 术 来 减 少 参 数 , 可 以使 用 传 统 神 经 网 络 的
31、 非 线 性 激 活 函 数 (activationfunction): sigmoid或 者 tanh。 但 是 , 为 了 使 推 导 简 洁 ,这 里 只 用 简 洁 的 2D卷 积 来 表 达 公 式 。3) 乘 法 层 用 来 计 算 2 个 特 征 映 射 之 间 的 逐 元 素乘 (elementwiseproduct)。 参 与 运 算 的 2个 特 征 映 射 需分 别 处 于 2组 特 征 映 射 中 , 并 分 别 对 应 相 邻 帧 X和 Y。称 乘 法 层 的 输 出 为 积 映 射 , 则 积 映 射 有 2组 , 记 每 组中 的 某 个 积 映 射 为 )()(
32、 yx FYFX 和 )( xFX)( yFY , 这 里 的 “ ” 表 示 逐 元 素 乘 。 注 意 : 在 能 量感 知 模 型 中 , 2个 相 邻 帧 X和 Y之 间 的 变 换 关 系 也 是被 表 达 成 这 种 逐 元 素 乘 的 形 式 。4) 加 法 层 用 来 计 算 2 个 积 映 射 的 逐 元 素 和中 南 大 学 学 报 (自 然 科 学 版 ) 第 47卷2314(element-wisesum), 即 )()( yx FYFX + )()( yx FYFX (1)这 里 的 “ +” 表 示 逐 元 素 求 和 , 称 加 法 层 的 输 出为 和 映 射
33、。 因 为 是 逐 元 素 求 和 , 所 以 和 映 射 的 尺 寸 与上 层 的 一 致 。 每 一 个 和 映 射 都 代 表 了 某 一 特 定 空 时 域特 征 在 图 像 空 域 上 出 现 的 情 况 。时 空 域 卷 积 神 经 网 络 有 别 于 标 准 卷 积 神 经 网 络 之处 在 于 : 采 用 不 同 帧 对 应 的 滤 波 器 响 应 的 乘 积 操 作 来代 替 求 和 操 作 。 这 种 乘 积 操 作 可 看 作 是 2个 向 量 化 图像 的 外 积 , 即 2个 图 像 的 相 关 系 数 , 也 可 看 作 是 能 量感 知 模 型 的 变 形 。 正
34、 是 这 种 相 关 分 析 给 时 空 域 卷 积 神经 网 络 提 供 了 相 邻 帧 之 间 的 变 换 信 息 。1.3 和 映 射 上 的 节 点 值根 据 时 空 域 卷 积 神 经 网 络 的 结 构 , 输 入 2个 连 续帧 时 网 络 会 在 和 映 射 的 节 点 上 给 出 多 个 响 应 值 。 考 虑其 中 1个 节 点 , 此 节 点 的 感 受 野 在 X和 Y上 的 尺 寸为 K K, 见 图 3。 图 中 输 入 层 小 矩 形 框 里 的 图 像 为 节点 能 见 的 范 围 。 注 意 : 因 为 采 用 了 逐 元 素 乘 与 逐 元 素加 , 所 以
35、 , 乘 法 层 和 加 法 层 并 不 改 变 感 受 野 的 范 围 。节 点 sk是 1个 标 量 , 可 写 作 以 下 形 式 : ijyxijyijxks )()()()( FYFXFYFX (2)这 里 的 i和 j用 来 索 引 节 点 sk的 感 受 野 范 围 。式 (2)中 的 卷 积 操 作 还 可 以 写 作 矩 阵 与 向 量 乘 的形 式 。 这 是 因 为 二 维 离 散 循 环 卷 积 操 作 可 用 1个 特 殊的 块 循 环 矩 阵 (blockcirculantmatrix)来 实 现 。 例 如 : 卷积 操 作 xFX 可 以 写 作 xFx 。 其
36、 中 , x 是 按 照 列 顺 序将 矩 阵 X 的 列 连 接 而 生 成 , Fx为 N2 N2的 双 块 循 环矩 阵 (doublyblockcirculant), Fx 的 每 行 都 包 含 了 合 适的 滤 波 器 系 数 来 实 现 X和 Fx 之 间 的 二 维 卷 积 操 作 。若 把 Fx, xF , Fy和 yF 对 应 的 双 循 环 矩 阵 中 的 某 一 行图 3和映射上节点的感受野Fig.3 Receptivefieldsofnodeonsummap表 示 成 大 小 为 1 N2向 量 Txf , Txf , Tyf 和 Tyf , 由 以上 分 析 , 式
37、 (2)可 重 新 写 作 : )()( TTTT yfxfyfxf yxyxks (3)由 式 (3)可 知 : 卷 积 可 以 看 作 在 输 入 图 像 的 一 定 空域 范 围 内 进 行 线 性 变 换 。 2 个 滤 波 器 的 响 应 被 先 相 乘再 相 加 , 使 得 节 点 sk成 为 1个 时 空 域 特 征 描 述 子 。 卷积 操 作 一 般 有 2个 类 型 : 循 环 卷 积 (circularconvolution)和 可 用 卷 积 (valid convolution), 为 了 能 将 其 写 成 矩 阵向 量 乘 的 形 式 , 这 里 考 虑 循 环
38、卷 积 并 在 Fx的 周 围 增 补0直 至 与 x 的 大 小 相 同 。 该 结 论 对 可 用 卷 积 也 近 似 成立 。 这 是 因 为 在 计 算 有 效 卷 积 时 , 卷 积 核 需 要 整 个 位于 图 像 的 内 部 , 而 循 环 卷 积 不 对 此 有 要 求 , 且 当 卷 积核 不 能 整 个 位 于 图 像 内 部 时 , 允 许 卷 积 核 循 环 位 移 ,所 以 , 2种 卷 积 生 成 的 结 果 在 图 像 内 部 区 域 是 一 致 的 。2 复 平 面 上 的 时 空 特 征 描 述 子这 里 将 证 明 每 个 与 映 射 上 的 每 个 节 点
39、 sk都 是 时 空特 征 描 述 子 (spatiotemporaldescriptor), 它 通 过 检 测 复平 面 上 的 旋 转 角 度 来 同 时 抽 取 时 域 上 的 动 态 特 征 和 空域 上 的 静 态 特 征 。 考 虑 两 帧 x和 y之 间 的 图 像 变 换 L,y=Lx (4)其 中 : x和 y是 矩 阵 X和 Y中 每 列 首 尾 相 接 形 成 的 大小 为 1 N2 的 向 量 ; L 为 它 们 之 间 的 图 像 变 换 矩 阵(imagewarp)。 注 意 : 这 里 不 是 通 常 意 义 上 的 仿 射 变 换(affinetransfor
40、mation)。 当 使 用 图 像 变 换 时 , 对 应 的 L是 置 换 矩 阵 (permutationmatrix), 这 是 一 种 特 殊 的 、 用于 在 像 素 空 间 中 转 换 图 像 内 容 的 矩 阵 , 这 种 矩 阵 的 每一 行 和 每 一 列 只 有 1个 元 素 为 1, 其 余 全 是 0。 当 图 像向 量 与 这 种 矩 阵 相 乘 时 , 可 以 实 现 将 图 像 的 像 素 任 意排 列 。 实 际 上 , 初 等 几 何 变 换 中 的 平 移 、 旋 转 、 缩 放等 都 可 以 用 置 换 矩 阵 来 近 似 描 述 。 显 然 , 置 换
41、 矩 阵 是正 交 规 范 矩 阵 , 正 交 矩 阵 的 1个 重 要 性 质 是 : 其 在 复数 域 上 可 以 被 对 角 化 , 即 TURUL 。 其 中 : 复 数 域22 NN CU , 为 L的 特 征 向 量 组 成 的 正 交 规 范 矩 阵 且所 有 元 素 都 为 复 数 , 对 角 矩 阵 22 NN CR 的 对 角 线 元素 都 是 模 为 1的 复 数 。 将 此 公 式 代 入 式 (4)则 有xURUy T (5)若 只 考 虑 x在 U中 1列 上 的 投 影 , 则 有xy TT r(6)第 7期 杨 格 兰 , 等 : 基 于 深 度 时 空 域 卷
42、 积 神 经 网 络 的 表 情 识 别 模 型 2315其 中 : Cr 是 R 中 对 角 线 上 的 1 个 元 素 。 因 为 特 征向 量 的 选 择 不 是 唯 一 的 , 可 以 选 择 使 得 其 上 的 所 有元 素 的 模 也 为 1, 使 用 欧 拉 公 式 , 将 这 些 模 相 同 而 方向 不 同 的 复 数 中 的 1 个 写 作 :)sin(i)cos(ei nnn 。 整 列 可 以 写 作 : e i n ,i=1, ,N2。 其 中 , 表 示 U中 列 对 应 的 频 率 , 注意 每 列 对 应 的 频 率 不 同 。 又 因 为 复 数 乘 实 数
43、等 于 复 数的 实 部 乘 实 数 加 上 复 数 的 虚 部 乘 实 数 , 所 以 , 可 以 把每 个 复 数 拆 成 cos(实 部 )和 sin(虚 部 )而 不 会 丢 失 任 何信 息 。 这 样 , 就 可 以 拆 成 2列 u(由 cos函 数 组 成 的实 部 )和 u(由 sin 函 数 组 成 的 虚 部 )。 相 应 地 , 式 (6)可以 被 重 新 写 作 : xuuyuu TT , r (7)其 中 , , uu 与 x、 , uu 与 x之 间 的 点 积 会 生 成 二 维向 量 , 且 位 于 基 , uu 撑 起 的 二 维 复 平 面 上 。 所 以
44、 ,式 (7)相 当 于 : 先 把 图 像 x 投 影 到 对 应 的 复 平 面, uu 上 得 到 复 数 xuxu TT i , 再 将 其 乘 以 模 为 1的复 数 r(即 在 复 平 面 中 旋 转 一 个 角 度 , 由 r决 定 ),最 后 再 映 射 回 像 素 空 间 。同 理 , 矩 阵 U中 的 每 一 列 (特 征 向 量 )都 可 以 按 照前 面 方 法 被 分 拆 成 2列 : 2211 NNU uuuu )sin()cos()sin()cos( )sin()cos()sin()cos( 222222 2211 111111 NNNNNN NN xxxx xx
45、xx 其 中 : i和 j索 引 列 , n索 引 行 。 这 些 被 拆 分 的 每 对 列与 离 散 傅 里 叶 变 换 有 密 切 的 联 系 。 这 是 因 为 图 像 x的离 散 傅 里 叶 变 换 是 将 图 像 x 投 影 到 一 组 由 cos 和 sin函 数 组 成 的 基 即 21 )cos(Nn n nx 和 21 )sin(Nn n nx , 并 精 心设 计 每 组 基 对 应 的 频 率 使 得 基 之 间 正 交 , 即 i 与j 之 间 正 交 。 显 然 , 规 范 正 交 化 的 矩 阵 U 的 列 满 足此 条 件 , 且 U中 每 对 被 分 拆 的
46、列 组 成 相 位 差 为 90的正 交 对 (quadraturepairs)。 所 以 , 这 些 正 交 对 相 当 于 离散 傅 里 叶 分 析 中 的 基 函 数 )cos( n 和 )sin( n , 其 与 人类 大 脑 视 觉 皮 层 V1 区 域 的 简 单 细 胞 和 复 杂 细 胞 有 密切 的 联 系 , 见 图 7。 把 x和 y投 影 到 U的 每 列 上 , 就相 当 于 对 图 像 进 行 了 离 散 傅 里 叶 变 换 。下 面 证 明 对 于 不 同 类 型 的 图 像 变 换 , 式 (5)中 的 U或 者 式 (6)中 的 是 相 同 的 , 而 R或
47、者 r不 同 。 对 角 化理 论 认 为 : 对 所 有 的 线 性 变 换 L, 若 存 在 1 个 可 逆 矩阵 U, 使 得 LUUT 是 对 角 矩 阵 , 则 称 所 有 的 L可 被 同时 对 角 化 。 同 时 对 角 化 成 立 的 条 件 是 : 不 同 的 L符 合交 换 律 , 即 LLLL 。 事 实 上 , 不 同 的 置 换 矩 阵 L符 合 交 换 律 。 考 虑 2 个 相 继 的 平 移 变 换 L(向 下 平 移 )和 L(向 左 平 移 ), 则 先 向 下 平 移 再 向 左 平 移 LL 后 的目 标 物 体 位 置 和 先 向 左 平 移 再 向
48、下 平 移 的 位 置 相 同 。所 以 , 置 换 矩 阵 L符 合 交 换 律 , U在 不 同 的 图 像 变 换中 都 是 相 同 的 , 图 像 变 换 间 的 差 异 只 体 现 在 R或 者 r上 。 下 面 证 明 “ 和 映 射 ” 上 的 节 点 sk是 特 定 图 像 变 换的 描 述 子 。 从 以 上 分 析 可 见 : x和 y 之 间 的 变 换 可 以通 过 将 x和 y投 影 到 响 应 的 复 平 面 上 , 再 通 过 计 算 复平 面 上 的 旋 转 角 度 就 可 以 判 定 x和 y之 间 的 变 换 类 型 。假 设 式 (7)中 的 二 维 向 量 xuu T, 和 yuu T, 的 长 度 都为 1, 并 设 其 投 影 在 复 平 面 , uu 上 的 角 度 分 别 为 x和 y , 则 r对 应 的 旋 转 角 度 r , 也 就 是 xuu T, 和yuu T, 之 间 夹 角 x y 的 余 弦 为 )()(cos)cos( TTTT yuxuyuxu rxy (8)若 将 r吸 收 进 T, uu , 即 TT , vvuu r , 并 把式 (7)重 新 写 作 : xvvyuu TT , (9)则 yuu T, 与 xvv T, 之 间 的 夹 角