论文笔记 | BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentati

来源：互联网发布：视频教学软件编辑：程序博客网时间：2024/05/29 19:40

Authors

Jifeng Dai Kaiming He Jian Sun

Abstract

本文使用bbox 来代替或者部分代替mask进行图像像素级分割，节省了标注时间，充分利用了bbox的数据集。基本思路是automativally generating region proposals and training convolutional networks 相互交替进行，每次交替都使用1 epoch。单纯使用bbox得到的结果略差，但是如果按照1:9的比例使用mask和bbox得到的结果要比单纯mask的要好，因为大量的bbox增加了网络的分类能力。

1 Introduction

region proposal methods

J. Carreira and C. Sminchisescu.  Cpmc: Automatic ob-ject segmentation using constrained parametric min-cuts.C. Szegedy,  W. Liu,  Y. Jia,  P. Sermanet,  S. Reed,D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich.Going deeper with convolutions. 2015 P. Arbel ́aez, J. Pont-Tuset, J. T. Barron, F. Marques, andJ. Malik.  Multiscale combinatorial grouping.  InCVPR2014.

文中使用MCG得到最好的结果，baseline模型是FCN+CRF

#CRFL.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, andA. L. Yuille. Semantic image segmentation with deep con-volutional nets and fully connected crfs. 2015

3 baseline

baseline即普通的fcn用于分割的情况，CRF用于后处理，其loss为：
这里写图片描述

4 Approach

本文方法不依靠完整的mask，所以上面的loss不能直接使用。为了利用上面的loss方法，这里作者的方法是使用segment proposal用来代替mask。其proposal的candidate mask每个bbox一个，方法是使用MCG，目标函数是使bbox与segment mask的IoU最大，方程是：
这里写图片描述
为mask设置label，与公式一共同成立了下式：

λ=3
训练过程中，先固定网络参数，从k个largest cost的segments中随机选定暂时的segment masks，然后利用该mask生成新的模型，再通过loss选定mask

其他

文中分析为什么多box会得到更好的结果的实验是利用“trimap”来对比分析，使用boundary的实验效果通过bbox的提高较使用interior的效果要弱。interior的提高程度高说明bbox主要对提高物体的分辨能力有帮助。
另外使用mutilscales也有助于提高成绩。

0 0