DenseCap解读

来源:互联网 发布:java 实参 编辑:程序博客网 时间:2024/05/22 12:45

最近读了一篇关于Image Caption的论文DenseCap [1]


论文里面讲的是一个网络end-to-end的网络,输入一张图片,最后可以得到这张图片每一个region proposal的caption的结果。这个网络连接了用fully convolutional localization layer替换掉RoI的faster R-CNN [2] 和RNN language model,梯度在整个end-to-end的网络中传播。




这里的RPN网络 [2] 是用来产生可靠region proposal的网络。将前面VGG16网络卷积的feature map通过一个3*3*256的卷积层和一个1*1*5000的全连接层,最终输出proposal的位置和这个proposal检测到物体的置信度confidence。




因为产生的region proposal太多了,一一计算起来后面RNN的开销会很大,所以先做一个降采样。共选取B个region proposal,最多只有B/2个正样本。正样本要求region proposal和某个ground truth的BBox的交叠率超过0.7。


双线性采样是一个关于region proposal的坐标函数,可以将所有的proposal都转换成同一大小X*Y的region feature,同时使得梯度可以反向传播到坐标上,在RPN之后对region proposal的位置做第二次的调整。


Reference:

[1]. Justin Johnson, Andrej Karpathy and Fei-Fei Li. DenseCap: Fully Convolutional Localization Networks for Dense Captioning. In CVPR 2016.

[2]. S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015.

0 1
原创粉丝点击