论文阅读:Neural Image Caption Generation with Visual Attention
来源:互联网 发布:淘宝企业店铺能开几个 编辑:程序博客网 时间:2024/05/29 02:47
原文地址
代码地址
作者在同一个framework下提出两种基于attention的image caption generators:一种是可以通过标准的BP进行训练的soft attention,另一种是通过最大化变分下界或增强学习来训练的hard attention(“hard”stochastic attention mechanism trainable by maximizing an approximate variational lower bound or equivalently by REINFORCE )。
两者的主要区别体现于后面定义的Φ函数上。
模型细节
编码器
编码器使用一个CNN,用一张图片作为输入,输出一个1-of-K的词序列。
为了保持从CNN提取出的特征向量和原图像的对应关系,作者没有从最后的全连接层提取特征,而是从相对低的卷积层中提取特征,提取出的L个特征被操作为annotation vectors,每一个vector都是D维的,即
解码器
主要使用一个LSTM作为解码器。LSTM的cell结构如图。
————————————————————————————————————
在这些equations中,context vector
在hard attention模型中,对每一个annotation vector
LSTM的初始的memory state(或称cell state)和hidden state通过两个独立的以annotation vectors均值为输入的MLP估计所得。
作者使用deep output layer(Pascanu et al.,2014)来计算输出单词的概率。
Stochastic “Hard” Attention
基本看不懂。。。
大致说定义一个目标函数Williams, Ronald J. Simple statistical gradient-following algorithms for connectionist reinforcement learning
中的REINFORCE learning rule 等价。
Deterministic “Soft” Attention
定义一个location variable
hard version需要在每一时刻对
则
整个模型是连续可导的。
还有另一种理解方法,牵扯到hard version的数学理论,基本没看懂,PASS。
作者对soft attention提出一种名为 doubly stochastic attention的改进。因为式(5)我们很容易能知道
另外增加一个gating scalar
其中:
加入这一标量之后模型会把更多的注意力图片中的objects上。
总体来说,改进后的模型的目标函数如下:
后面就是实验结果和结论了。
- 论文阅读:Neural Image Caption Generation with Visual Attention
- [深度学习论文笔记][Attention]Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention
- Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
- 论文阅读 - 《Neural Sentiment Classification with User and Product Attention》
- 【论文阅读】Neural Language Correction with Character-Based Attention
- 论文笔记:Aligning where to see and what to tell: image caption with region-based attention ...
- LearningSequences: image caption with region-based attention and scene factorization
- [论文阅读笔记]Neural Relation Extraction with Selective Attention over Instances
- 论文笔记:Image Captioning with Semantic Attention
- 论文阅读-《Semantic Segmentation with Reverse Attention》
- 【论文笔记】Neural Relation Extraction with Multi-lingual Attention
- 加入attention机制的image caption问题
- 论文笔记 : Review Networks for Caption Generation
- 从Image Caption Generation理解深度学习
- 【论文笔记】Image Classification with Deep Convolutional Neural Network
- Learning Attention for Online Advertising with Recurrent Neural Network论文思路整理
- 知识图谱5-【继续看论文《Neural Relation Extraction with Selective Attention over Instances》】
- [深度学习论文笔记][Image to Sentence Generation] Deep Visual-Semantic Alignments for Generating Image Descri
- spring全注解配置(不使用xml配置)
- Start UML使用
- Jenkins + Django 完整实战,细化到每一步操作
- Android多线程之AsyncTask
- 如何向App Store提交应用
- 论文阅读:Neural Image Caption Generation with Visual Attention
- VMware workstation CentOs 7 虚拟机网卡设置为NAT模式并设置固定IP
- jsp中jstl标签的条件判断语法
- 谈谈 Linux 内核驱动的编码风格
- Android DatePicker OnDateChangedListener不回调(onDateChanged不回调)
- 大数据环境配置
- QTcpServer使用多线程处理连接进来的QTcpSocket
- java 进行json字符串拼接及 接收请求的返回的对象
- Error: Host ' is not allowed to connect to this MariaDB server at Error (native