Mask R-CNN

来源:互联网 发布:ftp 默认端口 编辑:程序博客网 时间:2024/06/05 14:17

该论文获ICCV2017最佳论文奖,作者:何恺明,Georgia Gkioxari,Piotr Doll´ar和Ross Girshick。

概述

计算机视觉技术的发展,在短时间内迅速提高了目标检测和语义分割的效果。这些改进在很大程度上是由强大的baseline系统驱动的,例如用于目标检测的Fast/Faster R-CNN和用于语义分割的全卷积神经网络(FCN)。在实例分割任务上,需要正确检测图像中的所有目标,同时精确地分割每个实例。因此,它结合了经典的计算机视觉任务中的目标检测方法,对单个对象进行分类并使用bounding box对每个对象进行局部化操作,以及语义分割,其目的是将每个像素分类为固定的一组类别,而不区分对象实例。基于这样的分析,人们可能需要复杂的方法才能取得良好的结果。然而,在《Mask R-CNN》一文中,提出一种简单,灵活,快速的系统,效果超过了当前最先进的实例分割方法,可以有效地检测图像中的目标,同时为每个实例生成高质量的分割掩膜,该方法被称为Mask R-CNN。该方法能够有效地检测图像中的目标,同时还能在每个RoI上,为每个实例生成一个高质量的分割掩码。也就是,目标实例分割可以看做由 object detection 和 semantic segmentation 组成。模型结构如图1所示。Mask R-CNN在时间复杂度上对Faster R-CNN进行了优化,并且提高准确度,最关键的是在像素级别进行特征点定位达到了将各个对象的边缘确定的效果。

图1. Mask R-CNN 实例分割框架图


图2.Mask R-CNN分割检测结果

在检测结果中,如图2所示,可以明显的看出,图像中每个对象的边缘都被勾勒了出来,也就是Mask R-CNN中对像素级别的特征点定位。

 

方法描述

Mask R-CNN是对Faster R-CNN的结构进行了改善,Faster R-CNN主要分为两步,首先使用RPN(Region Proposal Networks)进行边缘检测,然后利用FastR-CNN进行特征提取并进行分类,Mask R-CNN主要在这个步骤进行了改进,增加一个mask层,从而可以并行的对每个RoI区域进行预测。对两个网络的概括如下:

(1)  Faster R-CNN对于图像中的目标物体输出类别标签和bounding box

首先通过RPN得到候选区域的bounding box,然后通过RoIPooling对每个候选框进行分类并回归。

(2)  Mask R-CNN除了类别标签和bounding box的输出,同时也输出mask

首先通过RPN得到候选区域的bounding box,然后对各个候选框进行分类和bounding box offset,同时对每个RoI输出binary mask。

文中的contributions可以总结为三点:

(1)使用了RoIAlign代替RoIPooling,使用双线性插值解决了通过Pooling直接采样带来的Misalignment问题;

(2)对RoI LossFunction进行了改进,增加了mask的损失函数,并使用per-pixelsigmoid的方法来计算;

文中对RoI损失函数重新进行了定义:

其中, Lcls 代表分类损失, Lbox 代表boundingbox的损失, Lmask代表mask的平均二值交叉熵(average binary cross-entropy)损失。而mask分支对于每个RoI区域都有一个K*m*m维度的输出,对这K个类别的分辨率是 m*m 的二值mask。因此作者使用了一种per-pixel sigmoid的方法来定义mask的损失。  Lmask 只在对应的类别上计算损失,不会影响到整体的loss计算,这样做的好处是不会存在类别之间的竞争。

(3)使用ResNet-101+FPN网络进行特征提取。

图3. Mask R-CNN的head architecture

如图3所示,是Mask R-CNN的head architecture,图中灰色部分表示的分别是R-CNN分别结合ResNet和FPN两种网络,下面表示Mask层。通过实验结果说明Mask R-CNN可以和多种R-CNN框架结合,泛化性能较好。

 

实验部分

作者在COCO数据集上进行了实验,如图4所示,实验数据表示对Mask R-CNN采用RoIAlign和FPN,得到实验结果的提高。AP表示平均IoU阈值,IoU表示检测结果(Detection Result) 与 Ground Truth 的交集比上它们的并集。

图4.Mask R-CNN检测结果

扩展

作者也把Mask R-CNN用于行人姿态检测,采用Mask R-CNN预测K个masks,每个mask对应一个关键点类型,类别之间不相互干扰,表明Mask R-CNN的灵活性较好。

图5.Mask R-CNN用于行人姿态检测结果

 

参考文献:

[1] R. Girshick. Fast R-CNN. In ICCV, 2015.

[2] T.-Y. Lin, P. Doll´ar, R. Girshick, K.He, B. Hariharan, and S. Belongie. Feature pyramid networks for objectdetection. In CVPR, 2017.


原创粉丝点击