DenseCap解读

来源：互联网发布：java 实参编辑：程序博客网时间：2024/05/22 12:45

最近读了一篇关于Image Caption的论文DenseCap [1]。

论文里面讲的是一个网络end-to-end的网络，输入一张图片，最后可以得到这张图片每一个region proposal的caption的结果。这个网络连接了用fully convolutional localization layer替换掉RoI的faster R-CNN [2] 和RNN language model，梯度在整个end-to-end的网络中传播。

这里的RPN网络 [2] 是用来产生可靠region proposal的网络。将前面VGG16网络卷积的feature map通过一个3*3*256的卷积层和一个1*1*5000的全连接层，最终输出proposal的位置和这个proposal检测到物体的置信度confidence。

因为产生的region proposal太多了，一一计算起来后面RNN的开销会很大，所以先做一个降采样。共选取B个region proposal，最多只有B/2个正样本。正样本要求region proposal和某个ground truth的BBox的交叠率超过0.7。

双线性采样是一个关于region proposal的坐标函数，可以将所有的proposal都转换成同一大小X*Y的region feature，同时使得梯度可以反向传播到坐标上，在RPN之后对region proposal的位置做第二次的调整。

Reference:

[1]. Justin Johnson, Andrej Karpathy and Fei-Fei Li. DenseCap: Fully Convolutional Localization Networks for Dense Captioning. In CVPR 2016.

[2]. S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015.

0 1