Mask RCNN 论文阅读
来源:互联网 发布:ubuntu进不了图形界面 编辑:程序博客网 时间:2024/05/24 04:27
mask rcnn 是对Faster R-CNN的功能上的提升,速度上仍然在200ms(5fps)。
Faster R-CNN回顾
Faster R-CNN由两个阶段组成。 第一阶段为RPN网络,提出候选对象bounding boxes。第二阶段,本质上是Fast R-CNN,从每个候选框中提取使用RoIPool的特征,并执行分类和边界框回归。
Mask R-CNN特点
Mask R-CNN在概念上很简单,与Faster R-CNN前相同只是又多加了一个输出:Faster R-CNN每个候选对象有两个输出,类标签(label)和边框偏移(bounding-box offset); 为提高精度,又添加了输出对象mask(二进制掩码)的第三个分支。但附加的Mask输出与类和框输出不同,需要提取对象的更精细的空间布局。同时,分类也取决于掩模预测。
损失上,在训练期间,将每个抽样RoI的多任务丢失定义为
与FCN
我们对
Mask的表示
一个mask对输入对象的空间布局进行编码,如图1。 因此,无需像全链接一样reshape,可以通过卷基层进行运算输出。具体来说,我们使用FCN预测每个RoI的m×m掩码。 这允许掩模分支中的每个层保持显式的m×m对象空间布局,而不会将其折叠成缺少空间维度的向量(fc)表示。完全卷积表示需要更少的参数,并且如实验所证明的更准确。 这种像素到像素的行为需要我们的RoI特征,它们本身是小的特征图,以便良好地对齐以保留显式的每像素空间对应(应该是得到的mask与物体的像素对其)。 这促使我们开发出在掩模预测中发挥关键作用的以下RoIAlign层。
RoIAlign
RoIAlign层是对RoIPool的改进,用于可以消除RoIPool的严格量化。其实提出的改变很简单:为了避免了RoI边界或块的任何量化(即我们使用x / 16而不是[x / 16])。我们使用双线性插值来计算每个RoI中四个定期采样位置的输入特征的精确值,并将结果聚合(使用最大值或平均值)。如展示的那样,RoIAlign带来了很大的改进。
其实这一部分就是对feature map的插值计算。
网络结构
效果最好的结构是ResNeXt + FPN。这两部分也有其各自的作用:
- 用于整个图像上的特征提取的卷积网络结构
- 分别应用于每个RoI的边界盒识别(分类和回归)和掩模预测的网络头。
是下图右边的结构:
总结
这是把图像分割运用到了检测里来,算是检测功能的进一步增强。之前我就觉得这两者之间其实还是比较类似的,更进一步从检测做到分割也是理所当然。
其实最大的创新应该是分割中使用了非竞争的sigmoid代替了softmax,但具体各部分哪一点是最关键的,最提升性能的,只凭想也不能确认。以上是初步的阅读,可能有一些错误,希望与大家多交流。
S. Xie, R. Girshick, P. Doll´ar, Z. Tu, and K. He. Aggregated residual transformations for deep neural networks. arXiv:1611.05431, 2016.
T.-Y. Lin, P. Doll´ar, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. arXiv:1612.03144, 2016.
- Mask RCNN 论文阅读
- Mask-RCNN论文阅读笔记
- MASK-RCNN阅读笔记
- 论文阅读RCNN
- 论文阅读Faster RCNN
- 论文阅读-《Mask R-CNN》
- [水文]Mask Rcnn简要阅读笔记
- 论文阅读之Fast RCNN
- 论文阅读:《Mask R-CNN》ICCV2017
- Mask RCNN
- Mask RCNN
- rcnn, fast-rcnn, faster-rcnn, mask-rcnn
- RCNN, fast RCNN, faster RCNN, mask RCNN
- 图像分割、目标检测 MASK R-CNN 论文阅读笔记
- Mask RCNN in TensorFlow
- Mask-RCNN技术解析
- Tensorflow-Mask RCNN
- mask rcnn mxnet
- <Android Studio> Android Studio 配置Code Style
- POJ1113 计算几何雏形:凸包!
- Linux内核分析(五):系统调用深入分析
- NYOJ
- 模式匹配算法
- Mask RCNN 论文阅读
- 七月机器学习之回归分析与工程应用5
- Qtcreator编写ros程序:无法启动进程"catkin_make" -DCMAKE_BUILD_TYPE=Debug
- 斜率优化dp学习笔记
- Create your gradle plugin
- 你首先是一个人,然后你才是程序员。
- 机器学习案例实战-信用卡欺诈检测
- java大数求模的运算
- 查找两个字符串中的最大公共子串