Deep Visual-Semantic Alignments for Generating Image Descriptions总结

来源：互联网发布：手机端淘宝详情页高度编辑：程序博客网时间：2024/06/16 18:23

Deep Visual-Semantic Alignments for Generating Image Descriptions 2015 CVPR Li Fei-Fei的工作，利用深度图文对照嵌入，去实现对图像的描述，文章的最终目标是生成对图像局部的描述，模型主要分为两个部分，第一部分，通过一个多通道嵌入，将句子片段与图像局部区域对应起来，第二部分用上边得到的数据作为训练数据，使用一个多通道的RNN模型来生成图像的描述。

第一部分

通过观察发现人们在写字的时候会频繁的涉及到图像中那些特殊的但是不知道具体位置的目标，我们希望找出这种潜在的关系，该部分分为四个阶段：1.图像表示。2.文本表示。3.图文对应（单词）。4.短语与图片对应。

1.图像表示

该过程使用RCNN（Region Convolutional Neural Network），对图像做目标检测，将检测出来的前19项加上原图，组合起来对图像进行表示

补充：该步骤中用到了RCNN，这是最早提出的一种用深度进行目标检测的方法，具体过程如下，首先输入一张图片，通过selective search获得约2K个proposal（也就是candidate object locations），之后对图像进行伸缩变换，把图像变为固定尺寸的照片，之后把固定尺寸之后的图片传入CNN网络中进行提取特征等操作，之后使用SVM分类器进行分类。但是处理参数巨大，有重复计算，目前已经有更优秀的改进方法

1.句子表示

为了建立模型间的内在联系，考虑将句子也在h维空间中表示，该过程使用了一种叫做BRNN（Bidirectional Recurrent Neural Network）的结构，该结构在多用于处理文本，一个RNN从左向右扫描，一个RNN从油向左扫描，保证了文本的past和future都被考虑进去，与上下文相关。

1.从单词到短语

相邻单词之间存在必然的二元交互作用，使他们趋于表示同一个区域，用马尔科夫场表示这种单词与图像区域的潜在关系，aj表示单词i与趋于1,2.....M区域的潜在关系。控制短语的长度。最后就得到了短语和图像区域的对应。

第二部分图像描述

这部分就是使用的传统的RNN框架

在第一次迭代的时候输入原图和开始标志，输出单词的可能概率，已经结束标志。

通过实验分析可以看出，该模型在图文对应阶段有很好的效果，在图片描述阶段，分两部分，在表述整体图像的时候，结果不如专门做图像整体描述的模型LRCN和Google NIC，但相差不大。在图像局部描述部分，就有比较大的优势。

0 0