论文笔记 | BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentati

来源:互联网 发布:视频教学软件 编辑:程序博客网 时间:2024/05/29 19:40

Authors

Jifeng Dai Kaiming He Jian Sun

Abstract

本文使用bbox 来代替或者部分代替mask进行图像像素级分割,节省了标注时间,充分利用了bbox的数据集。基本思路是automativally generating region proposals and training convolutional networks 相互交替进行,每次交替都使用1 epoch。单纯使用bbox得到的结果略差,但是如果按照1:9的比例使用mask和bbox得到的结果要比单纯mask的要好,因为大量的bbox增加了网络的分类能力。

1 Introduction

region proposal methods

J. Carreira and C. Sminchisescu.  Cpmc: Automatic ob-ject segmentation using constrained parametric min-cuts.C. Szegedy,  W. Liu,  Y. Jia,  P. Sermanet,  S. Reed,D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich.Going deeper with convolutions. 2015 P. Arbel ́aez, J. Pont-Tuset, J. T. Barron, F. Marques, andJ. Malik.  Multiscale combinatorial grouping.  InCVPR2014.

文中使用MCG得到最好的结果,baseline模型是FCN+CRF

#CRFL.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, andA. L. Yuille. Semantic image segmentation with deep con-volutional nets and fully connected crfs. 2015

3 baseline

baseline即普通的fcn用于分割 的情况,CRF用于后处理,其loss为:
这里写图片描述

4 Approach

本文方法不依靠完整的mask,所以上面的loss不能直接使用。为了利用上面的loss方法,这里作者的方法是使用segment proposal用来代替mask。其proposal的candidate mask每个bbox一个,方法是使用MCG,目标函数是使bbox与segment mask的IoU最大,方程是:
这里写图片描述
为mask设置label,与公式一共同成立了下式:
这里写图片描述
λ=3
训练过程中,先固定网络参数,从k个largest cost的segments中随机选定暂时的segment masks,然后利用该mask生成新的模型,再通过loss选定mask

其他

文中分析为什么多box会得到更好的结果的实验是利用“trimap”来对比分析,使用boundary的实验效果通过bbox的提高较使用interior的效果要弱。interior的提高程度高说明bbox主要对提高物体的分辨能力有帮助。
另外使用mutilscales也有助于提高成绩。

0 0
原创粉丝点击