(reading)A Hierarchical Approach for Generating Descriptive Image Paragraphs

来源：互联网发布：java开发笔试题及答案编辑：程序博客网时间：2024/06/15 08:58

作者：Jonathan Krause, Justin Johnson, Ranjay Krishna, Li Fei-Fei

(发表于CVPR2017)

（Jonathan Krause, Justin Johnson, Ranjay Krishna都是Li Fei-Fei的博士生，Jonathan Krause已经毕业，就职于Google Brain）

这篇文章提出了一种结构化模型去生成图像段落描述。

首先通过以一个3通道的图像作为输入，这里图像是被resized以使图像的边限制在720像素；

然后利用一个16层的VGG网络学习图像特征图，并以这些图像特征作为RPN的输入进行区域检测;

将检测到的区域投影到卷积特征图中，使用双线插值将特征图对应区域reshaped成为一个固定尺寸，并最终通过2个全连接层使各区域生成一个4096维的特征向量;

另外通过对所有特征进行最大池化，缩减无关信息量，保留最重要的信息;

再将池化后的区域特征向量作为层次循环网络（HRN）的输入，层次循环网络是由句子RNN和词语RNN组成，句子RNN是一个单一层的LSTM;

对于句子RNN，在每个时间步以池化后的区域向量作为输入；

通过隐含层的一个线性投影和一个逻辑回归分类器产生一个用来断定当前句子是否为最后一句的0-1分布，并通过将隐含状态放进一个两层的全连接网络，从而产生对于段落中句子的主题向量;

并以每个句子生成的主题向量作为词RNN的输入，词RNN是一个两层的LSTM，是用来生成构成句子的词语，最终将所有句子连接成一个段落。

阅读全文

0 0