Mask R-CNN

来源:互联网 发布:识别脸型的软件 编辑:程序博客网 时间:2024/05/22 16:38

    论文地址:Mask R-CNN

    用于目标实例分割的框架,能够有效地检测图像中的目标,同时还能为每个实例生成一个高质量的分割掩码

    主要特点

  • Mask R-CNN 是 Faster R-CNN的扩展;

  • 训练简单。

  • 易于泛化到其他任务。

  • 没使用fine-tuning的情况下,Mask R-CNN的表现超越了在每个任务上已有的所有single-modle entries。

    网络结构

Mask R-CNN

    其中:第一个分支是Faster R-CNN结构,用于分类和坐标回归;第二个分支对每个ROI区域预测分割mask。

   Mask R-CNN

    Faster R-CNN

1)、通过RPN网络给出候选区域的bbox;

        2)、通过RoIPooling, 在各个候选框中进行分类和bbox的回归。

    Mask R-CNN

        1)、通过RPN网络 给出候选区域的bbox;

        2)、各个候选框的分类和bbox的回归;

        3)、对每个RoI输出binary mask(与步骤2)并行)。

  • 损失函数loss function, mask分支对于每个RoI有Km2 维度的输出。K个(类别数)分辨率为m*m的二值mask。因此作者利用了a per-pixel sigmoid,并且定义 Lmask 为平均二值交叉熵损失,对于一个属于第k个类别的RoI, Lmask 仅仅考虑第k个mask。这样的定义会允许对每个类别都会生成掩模,并且不会存在类间竞争。

    RoIAlign: 对RoI Pooling的改进。RoI Pooling可能会有misalignment。解决方法: 使用双线性插值,再做聚合。

原创粉丝点击