多模态与图像文本匹配

来源：互联网发布：淘宝军用防毒面具价格编辑：程序博客网时间：2024/05/18 03:49

来源于微信公众号：大数据与多模态计算

转自：.http://blog.csdn.net/sinat_26917383/article/details/71055208

1.问题背景

图像文本匹配，顾名思义，就是度量一幅图像和一段文本的相似性，该技术是多个模式识别任务的核心算法。例如，在图像文本跨模态检索任务中，当给定查询文本，需要依据图像文本的相似性去检索内容相似的图像；在图像描述生成任务中，给定一幅图像，需要依据图像内容检索相似的文本，并以此作为(或者进一步生成)图像的文本描述；在图像问答任务中，需要基于给定的文本问题查找图像中包含相应答案的内容，同时查找的视觉内容反过来也需要检索相似文本预料作为预测答案。
.

2.研究现状

尽管图像文本本质上表征了同一组语义概念，但是它们的表现形式由于不同数据模态间较大的差异性而相去甚远。如何鲁棒的表示图像和文本、精准的度量两者的相似性是一个棘手的问题。为了处理这一问题，现有方法按照对图像文本对应关系建模方式的不同主要可以被分为两大类：1)一对一匹配和2)多对多匹配，如图1所示。
这里写图片描述

图1：图像文本匹配常用方法之间的对比。

一对一匹配方法通常是分别提取图像和文本的全局特征表示，然后利用结构化或者典型相关分析的目标函数将它们的特征投影到一个共同空间，使得相似的成对图像文本在空间中的距离接近，即相似性高。但是这种匹配方式只是粗略度量的图像文本的全局相似度，并没有具体的考虑图像文本具体是哪些局部内容在语义上是相似的，因此在一些要求精准相似性度量的任务中，例如细粒度的跨模态检索等，其实验精度往往较低。
多对多匹配方法则是尝试从图像文本中分别提取所包含的多个局部实例，然后对于多个成对实例度量其局部相似性并融合得到全局相似性。但是这些方法所提取的实例并不都刻画了语义概念，事实上，大部分实例都是语义上毫无意义且与匹配任务无关的，只有少部分显著的语义实例决定了匹配程度的好坏。那些冗余的实例也可认为是一些噪声干扰了少部分语义实例的匹配过程，并增加了模型计算量。此外，现有方法的在实例提取过程中通常需要显式的使用额外目标检测算法或者昂贵的人工标注。
.

3.我们的方法

这里写图片描述
图2：提出的选择式多模态循环网络用于图像文本匹配。

为了解决上述问题，我们提出了选择式多模态循环网络模型，它可以按照时间步循环选择显著的语义图像文本实例，并序列化度量和融合它们的局部相似性并最终得到全局相似性。如图2所示，当给定一对图像文本数据时，该模型首先粗略的提取多个候选实例，例如图像中的区域和文本中的词语。基于这些候选实例，该模型在每个时间步使用多模态上下文注意机制来选择性关注一对图像文本实例(标记为同样颜色的圆圈和矩形框)，并度量它们的相似性，具体流程可以参照图3。类似在多个时间步内，提出的模型利用循环网络的多个隐含状态捕捉和融合多个不同成对实例的局部相似性，最终得到图像文本的全局相似性。
这里写图片描述
图3：在一个时间步t下的模型细节。

该模型在同一个框架下实现成对图像文本实例提取、局部相似性度量和融合，且其参数可以利用一个结构化损失函数进行联合端到端的学习。模型学习采用误差沿时间反向传播算法来获取目标函数关于所有权值参数的梯度，并利用随机梯度下降算法来优化目标函数。为了验证提出的选择式多模态循环神经网络的有效性，我们测试了该模型衍生出的多种网络结构，并在两个公开多模态数据库(Flickr30k和Microsoft COCO)上与当前最好方法进行了对比。更多详细内容请参考以下这篇文章：
Yan Huang, Wei Wang, and Liang Wang, Instance-aware Image and Sentence Matching with Selective Multimodal LSTM, arXiv:1611.05588, 2016.

延伸一：Reading text in the Wild：用图片找文字

牛津视觉几何小组运用深度学习技术开发了一项应用，它可以读出视频中的文字，输入文字，就可以直接搜出图像中包含这些文字的BBC新闻视频。比如，这是对“London”的一部分搜索结果：
这里写图片描述

Demo：

Visual Geometry Group Home Page

Paper：

[1412.1842] Reading Text in the Wild with Convolutional Neural Networks

延伸二：An Empirical Study of Language CNN for Image Captioning

来源于paperweekly:多模态小组阅读笔记精选 | 每周一起读

本篇论文提出了用 CNN 模型来对单词序列进行表达，该 CNN 的输入为之前时刻的所有单词，进而可以抓住对生成描述很重要的历史信息。其中总体架构如下图所示：
这里写图片描述

该模型主要由四部分组成，用于图像特征提取的 CNN_I，用于自然语言建模的 CNN_L，用于结合 CNN_I 和 CNN_L 信息的多模态层 M，和一个用于单词序列预测的递归神经网络。
总体过程如下：首先利用 CNN_I 提取图像特征，然后 CNN_L 利用之前时刻生成的单词对当前的单词信息进行表达，然后通过多模态层结合图像和单词信息，最后将融合的信息作为递归神经网络的输入来预测一下时刻的单词．该文与之前通过 one-hot 向量，然后经过词嵌入提取词向量的表达方法不同，利用了 CNN 网络来表达单词信息，进而能够很好的抓住过去的历史信息，用于指导当前时刻单词的生成。
.

延伸三：基于选择式多模态循环网络的图像文本匹配

来源文章《【技术分享】像人脑一样理解周围世界：脑启发的深度学习模型及其应用》
图像文本匹配是多个模式识别任务，例如图像文本跨模态检索、图像描述生成以及视觉问答系统中的一个关键科学问题。当前用于图像文本匹配的算法通常对图像文本提取全局特征，然后利用典型关联分析或者子空间学习策略来拉近匹配的图像文本对。但考虑到图像文本都包含很多冗余信息，具体来说，只有图像文本中的部分显著的、表征同一语义概念的内容才能被关联起来。因此，我们提出了一种基于选择式多模态循环网络的图像文本匹配方法，可以选择性关注和匹配图像文本中的语义实例。所提出的选择式多模态循环网络是一个动态模型，在每一时间步，它利用基于上下文的多模态注意机制选择图像文本中语义上相同的目标和词语，并计算其相似性作为图像文本的局部相似性，然后进行序列化融合得到全局相似性。

来源文章： Yan Huang, Wei Wang, and Liang Wang, Instance-aware Image and Sentence Matching with Selective Multimodal LSTM, IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

延伸四：基于联合子空间学习的细粒度草图检索

草图，作为一种手绘的简化版的图像描述，在图像表达中具有重要的研究价值，我们针对草图到自然图像的检索问题进行了深入的研究。考虑到草图与自然图像可能存在多视角的特征表达，且不同的视角作用差异较大，我们提出了一种基于视角选择的多视角跨模态匹配算法。通过引入结构化稀疏约束，我们可以在多模态子空间学习的同时自动区分不同视角之间的判别性，进而有效建模草图与其对应自然图像之间的一致特性。我们在两个经典的细粒度草图-图像数据集上进行了大量的实验，结果表明所提出的方法可以有效利用多模态多视角特性并提升检索性能。
——Peng Xu, Qiyue Yin, Yonggang Qi, Yi-Zhe Song, Zhanyu Ma, Liang Wang, Jun Guo, Instance-Level Coupled Subspace Learning for Fine-Grained Sketch-Based Image Retrieval, ECCV workshops, 2016.
这里写图片描述

延伸五：Poster论文：基于图模型神经网络的情景识别

来源：【封面推荐】收藏慢慢看！“腾讯优图”这12篇论文，入选计算机视觉顶级会议ICCV 2017
（Situation Recognition with Graph Neural Networks）
这里写图片描述
本论文与香港中文大学和多伦多大学合作完成，作者提出了一种基于图模型的神经网络用于情景识别任务。

在情景识别任务中，算法需要同时识别图中所展示的动作以及参与完成这个动作的各种角色，比如主语、宾语、目标、工具等等。为了显式地对不同角色间的关系建模，文中提出的图模型神经网络将表示不同角色的节点连接在了一起，并通过信息传递的方式使得网络可以输出一个结构化的结果。

作者在实验中比较了不同的连接方式，比如线形结构，树形结构和全连接结构，发现在情景识别任务中全连接结构的效果最好。最后，文中还展示网络所学习到的对于不同动作的特有的连接结构。

上图所示的结果图，比较了不同模型的检测结果。其中蓝底的表示参与动作的角色，绿底表示正确的预测结果，红底表示错误的预测结果。我们可以看到，使用全连接图模型能够纠正一些由其他模型产生的错误。

阅读全文

0 0