论文阅读-《Deformable Part-based Fully Convolutional Network for Object Detection》

来源:互联网 发布:贵阳大数据 编辑:程序博客网 时间:2024/06/06 09:29

BMVC 2017 Oral

Abstract

文章指出当前的object detector大都用正框来表征一个object,尽管大多数的object都是non-rectangular的。作者提出的模型能够通过deformable parts来表述一个object。这样的话得到的特征对于物体的形变更加具有鲁棒性,并且能够part的位置信息能够提高目标定位的准确性。

Contribution:

1.提出了deformable part-based ROI pooling来优化part的位置,提高分类对于物体形变的鲁棒性
2.提出了deformable-aware localization module来显式地利用part的位置信息提高object定位的准确性

Deformable part-based ROI pooling

作者的实验主要还是在R-FCN的基础上改,deformable part-based roi pooling的示意图如下图所示:
d1
输入是k * k * (C + 1)张特征图,其中k表示把ROI分成k*k个bins,每个bin其实就是作者所说的一个part,所谓的deformable part,和DPM里面的思想是一样的,即一个root filter对物体进行粗定位,然后一系列的part filter来对物体的各个part进行finer的定位。

在这篇文章里面对应的就是,整个ROI就是一个物体,k*k个bins,每一个都是一个part filter,这些part filter初始的时候都是在各自预定义好的anchor point,然后通过位置的微调达到响应的最大值。

所以deformable part-based ROI pooling本质上就是要找到各个bin在x,y方向上的偏移量,是的偏移之后在feature map上得到的响应值最大(最大说明这个位置越有可能是discriminative part),同时对位置的偏移量加上regulization,也就是优化下面这个式子

d2
R表示一个region proposal,i,j表示第i行第j个bin,z表示输入的特征图,c表示第c个类。[]里面的其实就是把proposal R当中的第(i,j)个bin,平移(dx,dy)之后average pooling的值,减掉加权了的位移二范数。

在上图中可以比较形象的看出来,一方面要让bin的趋于尽可能多的覆盖feature map上激活值大的趋于,一方面不能让位移量太大。作者对于每一个part(bin)的偏移采用在有限区间内暴力搜索的办法得到最优的(dx,dy)。

最终每k*k个输入的feature map可以得到一张输出的deformable feature map(各个bin的值都是移动过后得到的),同时每k*k个输入的feature map可以得到2 * k * k个偏移量,从上图右边猫的例子中可以看到,最终的(dx,dy)使得初始的part最终都集中在猫的身体

R-FCN中的position-sensitive ROI pooling是这里的deformable part-based roi pooling的一种特例,当我们取权重lamda为无穷大时,dx,dy趋于0,这个时候就是ps roi pooling了。

通过deformable part-based roi pooling之后的feature map可以直接做pooling得到分类的结果,2k * k * C长度的偏移向量可以用来指导接下来的localization refinement

Deformable-aware localization refinement

d3
对于localization分支,输入的是深度为4C的特征图,对于每一个类别来说,去除对应的4张特征图,做Pooling,得到长度为4的位置向量,然后取出这个类对应的2 * k * k长度的偏移向量,通过两个全连接层也得到一个长度为4的向量,二者点乘,得到最终的位置向量。

Experiment

d4
作者对比了R-FCN和自己的DP-FCN,在三种metric下进行比较,可以看到,加上了deformable part-based roi pooling之后,在mAP@0.5提高不少,但是在mAP@0.75以及COCO metric下提升不多,说明这个时候主要还是提高了分类的准确性

当加上了lozalization refinement之后,在mAP@0.5下相比第二栏提升不多,但是在mAP@0.75以及COCO metric提高的更高,可见这个时候提高的主要还是lozalization ability

通过这组对比实验可以看到,作者的方法能够提高分类器对于物体形变的鲁棒性,并利用part的位置信息来提高目标定位的精度

阅读全文
0 0
原创粉丝点击