论文笔记:Recurrent Models of Visual Attention
来源:互联网 发布:php视频网站 编辑:程序博客网 时间:2024/05/16 04:48
Recurrent Models of Visual Attention
戳这里下载训练代码,戳这里下载测试代码 【基于torch】
摘要
由于卷积核的计算量跟图片像素个数大小呈线性关系,卷积神经网络对大型的图片的处理计算量巨大。我们提出一个RNN模型,能够从一张图片或者一段视频中提取信息,通过主观选择一系列区域或者位置,只对选中的区域在高分辨率情况下进行处理。本文提出的方法,据有内部平移不变性,但是计算量能够根据输入图片的大小独立控制。由于这个模型不可微分,他能够使用强化学习方法来学习特定的策略。我们在几个分类任务上评估了这个模型,结果显示,他能够比卷积神经网络的基准表现要好很多,并且在动态问题上,他能够跟踪一个简单的物体,并不需要一个明确的训练信号告诉它来做这件事情。
简介
此RNN模型能够顺序处理输入,在一个时刻根据一张图片内部的不同位置,把这些定位下的信息结合起来生成这个场景的动态内部表示。在每一步,该模型选择下一个位置,基于过去的信息和任务的需求。我们描述了一个端到端的优化方法,允许模型直接被训练根据给定的任务。这个过程使用BP来训练网络节点,还有一些梯度策略来解决控制过程中产生的不可微分问题。
模型(The Recurrent Attention Model)RAM
序列决策过程。在每个时间节点,agent通过指定宽度sensor来观察环境,它并不一次性观察整个环境,他可能提取信息仅仅通过部分区域或者一个窄频率宽度。agent能够自行决定在哪里放置sensor。agent也能狗影响环境的真实状态。在每一步,agent会收到一个梯度奖励(取决于agent执行的actions),agent的目的是最大化rewards的总数。
在每一步,模型处理sensor获取的数据,整合这些信息,然后选择action,以及如何放置sensor在下一步的时候。
Sensor
sensor可以观察环境,就是在location的周围信息,通过sensor位置的不同,可以观察到不同location的信息。并总结,传到后面用。
Internal State
h代表内部状态,对agent获得的信息进行编码。然后通过f方程决定下一步sensor的位置,以及本步骤结束后应该采取的action,这个action可以是分类。
Actions
分类两类,决定如何放置sensor,还有环境action可能影响环境的状态。对于分类任务而言,a 可以是softmax输出。
Reward
每次执行完一个action之后,agent会收到下一个location的信号,以及一个reward信号,agent的目的是最大化reward信号,这个通常是稀疏的并且会延迟。拿物体识别来说,如果物体在T步之后被分类正确,那么reward是1,否则是0.
上述过程被记为马尔可夫决策过程,真实的环境状态是不可知的,在此情况下,agent需要学习一个随机的政策,。在这里agent的police
Glimpse Network
上面提到的方程的参数都需要通过最大化reward来学习。
上图中的,
Location Network
location
Core Network
分类实验使用LSTM units
图像分类
attention network 只在最后一步
Reference
1. Mnih, Volodymyr, et al. “Recurrent Models of Visual Attention.” 3(2014):2204-2212.
2. http://blog.csdn.net/shenxiaolu1984/article/details/51582185
EMMA
SIAT
2017.03.09
- 论文笔记:Recurrent Models of Visual Attention
- tensorflow 学习笔记: recurrent models of visual attention
- Recurrent visual attention
- 论文笔记:A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
- 【增强学习】Recurrent Visual Attention源码解读
- 【论文笔记】Recursive Recurrent Nets with Attention Modeling for OCR in the Wild
- [深度学习论文笔记][Attention]Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention
- 读论文《Attention and Augmented Recurrent Neural Network》
- 【翻译】Itti的论文1998 A Model of Saliency-Based Visual Attention
- [深度学习论文笔记][Video Classification] Long-term Recurrent Convolutional Networks for Visual Recognition a
- 【论文阅读笔记】CVPR2015-Long-term Recurrent Convolutional Networks for Visual Recognition and Description
- 论文笔记:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answeri
- 论文笔记: Hierarchical Question-Image Co-Attention for Visual Question Answering
- 论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
- deeplearning论文学习笔记(2)A critical review of recurrent neural networks for sequence learning
- 论文笔记:Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling
- 【论文笔记】Recurrent Neural Network Regularization
- 论文笔记:Depth-Gated Recurrent Neural Networks
- yacc简介
- 浏览器登录/localhost:8080/,报“该设备或资源(localhost)未设置为接受端口“8080”上的连接。”
- jquery选择表格的一部分,jquery中的$(":gt(index)")用法
- 第三届蓝桥杯【省赛试题6】大数乘法
- 消失的postmaster进程
- 论文笔记:Recurrent Models of Visual Attention
- Spark配置参数中英文对照
- java 中 map.get(key) 的类型转换
- AngularJS的学习--$on、$emit和$broadcast的使用
- 懒汉处理dapper字段名与属性名的映射方式
- 树链剖分
- CRichEditCtrl使用CHARFORMAT这个结构设置字体,颜色,字号
- Linux下用GDB调试多线程程序
- gemotion安装apk出现的INSTALL_FAILED_NO_MATCHING_ABIS错误解决方法