DenseCap解读
来源:互联网 发布:java 实参 编辑:程序博客网 时间:2024/05/22 12:45
最近读了一篇关于Image Caption的论文DenseCap [1]。
论文里面讲的是一个网络end-to-end的网络,输入一张图片,最后可以得到这张图片每一个region proposal的caption的结果。这个网络连接了用fully convolutional localization layer替换掉RoI的faster R-CNN [2] 和RNN language model,梯度在整个end-to-end的网络中传播。
这里的RPN网络 [2] 是用来产生可靠region proposal的网络。将前面VGG16网络卷积的feature map通过一个3*3*256的卷积层和一个1*1*5000的全连接层,最终输出proposal的位置和这个proposal检测到物体的置信度confidence。
因为产生的region proposal太多了,一一计算起来后面RNN的开销会很大,所以先做一个降采样。共选取B个region proposal,最多只有B/2个正样本。正样本要求region proposal和某个ground truth的BBox的交叠率超过0.7。
双线性采样是一个关于region proposal的坐标函数,可以将所有的proposal都转换成同一大小X*Y的region feature,同时使得梯度可以反向传播到坐标上,在RPN之后对region proposal的位置做第二次的调整。
Reference:
[1]. Justin Johnson, Andrej Karpathy and Fei-Fei Li. DenseCap: Fully Convolutional Localization Networks for Dense Captioning. In CVPR 2016.
[2]. S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015.
- DenseCap解读
- 实时字幕生成原理挖掘——论文解读DenseCap: Fully Convolutional Localization Networks for Dense Captioning
- Torch安装+Densecap实验
- 基于DenseCap的字幕生成
- 论文笔记 DenseCap: Fully Convolutional Localization Networks for Dense Captioning
- DenseCap:Fully Convolutional Localization Networks for Dense Captioning
- 解读
- DenseCap:一种对于密集抓图的全卷积定位神经网络
- 论文笔记之---DenseCap:Fully Convolutional Localization Networks for Dense Captioning
- 解读数据?解读“人”!
- 解读数据?解读“人”!
- 解读P2P
- 解读深圳
- 解读睡眠
- Makefile解读
- Irda解读
- 解读防火墙
- sizeof解读
- Google Java编程风格指南 ()中文版)
- Debug---Eclipse断点调试基础
- BSON与JSON的区别
- 使用PickView实现日期选择器
- sort冒泡
- DenseCap解读
- Git 学习笔记二
- hive和hbase集成异常
- 字符串反转
- Leveldb使用手册
- vim使用技巧篇
- CSS3嵌入字体@font-face
- SolrCloud之Sharding路由介绍
- PREROUTING 和 POSTROUTING, SNAT 和 DNAT图文解析(非常清淅)