Mask R-CNN

来源：互联网发布：识别脸型的软件编辑：程序博客网时间：2024/05/22 16:38

论文地址：Mask R-CNN

用于目标实例分割的框架，能够有效地检测图像中的目标，同时还能为每个实例生成一个高质量的分割掩码。

主要特点：

网络结构：

Mask R-CNN

其中：第一个分支是Faster R-CNN结构，用于分类和坐标回归；第二个分支对每个ROI区域预测分割mask。

Faster R-CNN：

1）、通过RPN网络给出候选区域的bbox；

2）、通过RoIPooling, 在各个候选框中进行分类和bbox的回归。

Mask R-CNN：

1）、通过RPN网络给出候选区域的bbox；

2）、各个候选框的分类和bbox的回归；

3）、对每个RoI输出binary mask（与步骤2）并行）。

损失函数： $loss function$ ， mask分支对于每个RoI有Km2 维度的输出。K个（类别数）分辨率为m*m的二值mask。因此作者利用了a per-pixel sigmoid，并且定义 Lmask 为平均二值交叉熵损失，对于一个属于第k个类别的RoI， Lmask 仅仅考虑第k个mask。这样的定义会允许对每个类别都会生成掩模，并且不会存在类间竞争。

RoIAlign: 对RoI Pooling的改进。RoI Pooling可能会有misalignment。解决方法：使用双线性插值，再做聚合。

阅读全文

0 0