论文阅读-《Deformable Part-based Fully Convolutional Network for Object Detection》

来源：互联网发布：贵阳大数据编辑：程序博客网时间：2024/06/06 09:29

BMVC 2017 Oral

Abstract

文章指出当前的object detector大都用正框来表征一个object，尽管大多数的object都是non-rectangular的。作者提出的模型能够通过deformable parts来表述一个object。这样的话得到的特征对于物体的形变更加具有鲁棒性，并且能够part的位置信息能够提高目标定位的准确性。

Contribution:

1.提出了deformable part-based ROI pooling来优化part的位置，提高分类对于物体形变的鲁棒性
2.提出了deformable-aware localization module来显式地利用part的位置信息提高object定位的准确性

Deformable part-based ROI pooling

作者的实验主要还是在R-FCN的基础上改，deformable part-based roi pooling的示意图如下图所示：

输入是k * k * (C + 1)张特征图，其中k表示把ROI分成k*k个bins，每个bin其实就是作者所说的一个part，所谓的deformable part，和DPM里面的思想是一样的，即一个root filter对物体进行粗定位，然后一系列的part filter来对物体的各个part进行finer的定位。

在这篇文章里面对应的就是，整个ROI就是一个物体，k*k个bins，每一个都是一个part filter，这些part filter初始的时候都是在各自预定义好的anchor point，然后通过位置的微调达到响应的最大值。

所以deformable part-based ROI pooling本质上就是要找到各个bin在x,y方向上的偏移量，是的偏移之后在feature map上得到的响应值最大（最大说明这个位置越有可能是discriminative part），同时对位置的偏移量加上regulization，也就是优化下面这个式子

R表示一个region proposal，i,j表示第i行第j个bin，z表示输入的特征图，c表示第c个类。[]里面的其实就是把proposal R当中的第(i,j)个bin，平移(dx,dy)之后average pooling的值，减掉加权了的位移二范数。

在上图中可以比较形象的看出来，一方面要让bin的趋于尽可能多的覆盖feature map上激活值大的趋于，一方面不能让位移量太大。作者对于每一个part(bin)的偏移采用在有限区间内暴力搜索的办法得到最优的(dx,dy)。

最终每k*k个输入的feature map可以得到一张输出的deformable feature map（各个bin的值都是移动过后得到的），同时每k*k个输入的feature map可以得到2 * k * k个偏移量，从上图右边猫的例子中可以看到，最终的(dx,dy)使得初始的part最终都集中在猫的身体

R-FCN中的position-sensitive ROI pooling是这里的deformable part-based roi pooling的一种特例，当我们取权重lamda为无穷大时，dx,dy趋于0，这个时候就是ps roi pooling了。

通过deformable part-based roi pooling之后的feature map可以直接做pooling得到分类的结果，2k * k * C长度的偏移向量可以用来指导接下来的localization refinement

对于localization分支，输入的是深度为4C的特征图，对于每一个类别来说，去除对应的4张特征图，做Pooling，得到长度为4的位置向量，然后取出这个类对应的2 * k * k长度的偏移向量，通过两个全连接层也得到一个长度为4的向量，二者点乘，得到最终的位置向量。

Experiment

作者对比了R-FCN和自己的DP-FCN，在三种metric下进行比较，可以看到，加上了deformable part-based roi pooling之后，在mAP@0.5提高不少，但是在mAP@0.75以及COCO metric下提升不多，说明这个时候主要还是提高了分类的准确性

当加上了lozalization refinement之后，在mAP@0.5下相比第二栏提升不多，但是在mAP@0.75以及COCO metric提高的更高，可见这个时候提高的主要还是lozalization ability

通过这组对比实验可以看到，作者的方法能够提高分类器对于物体形变的鲁棒性，并利用part的位置信息来提高目标定位的精度

阅读全文

0 0

论文阅读-《Deformable Part-based Fully Convolutional Network for Object Detection》

Abstract

Contribution:

Deformable part-based ROI pooling

Deformable-aware localization refinement

Experiment