论文阅读-《Relation Networks for Object Detection》

来源：互联网发布：红色警戒2超级武器知乎编辑：程序博客网时间：2024/06/05 01:35

MSRA jifeng dai

1.abstract:

在目标检测领域，model object之间的关系能够提高检测的准确度，但是这种方法在基于深度学习的模型中还没有很好的work。当下主流的目标检测的方法还是对各个物体进行单独的检测，本文提出了一种object relation module，通过引入不同物体之间的外观和集合关系做interaction，实现对物体之间relation的建模。relation module参数不多，in-place，可以用来提高目标检测的性能以及实现duplicate removal（通过可以end-to-end学习的module替换nms）,实现完全的end-to-end目标检测器。

2.Object relation module

作者的relation module和google的一篇做机器翻译的论文“attention is all your need”思想类似。模块的的应用可以增强fc输出的特征以及做duplicate removal，如下图所示：

这里的relation module是in-place的，也就是说，比如在instance recognition里面，输入的是300个object proposal的特征，经过relation module之后，输出的还是300个对应object proposal的特征，只不过这些特征都融合了其他object proposal的信息。

具体的，假设一个object proposal用他的几何特征fG（4维的bounding box）以及外观特征fA（典型的1024维）表示。对于给定的一组object{(fnA,fnG)}Nn=1（比如RPN输出的300个object proposal），对于第n个object，它收集得到的relation feature可以表示为

其中m=1：N，相当于就是其他所有的object的特征，通过一个矩阵变化之后的加权平均。这个矩阵是学习得到的。下面具体讲不同object之间的权重是怎么得到的。

权重wmn的表达式为：

分母是对分子的归一化。第m个object对第n个object产生影响的权重是由appearance和geometry共同决定的。

appearance的权重表示为：

式表示分别将下标为m和下标为n的object映射到低维空间（实际操作是降维了），然后通过向量的内积来衡量两个object外观特征的相似性。分母表示降维之后的维度（典型的64维）。

geometry的权重表示为：

其中ξG函数用来将第m个object和第n个object之间的几何特征映射到高维空间（典型的64维），方法是首先计算m和n之间的相对位姿，

上述得到的相对位姿就是平移和尺度不变的了。然后将4维的相对位姿映射到64维的向量，和WG做内积之后，通过relu，relu的存在表明特征的融合只对具有特征几何结构的object之间进行。

上面的fR(n)表示第n个object收集到的一种relation feature，实际上，在作者的论文里，一个object会收集Nr种（典型的16种）relation feature，然后将这Nr种feature concatenate在一起，和原本第n个object的feature相加，得到增强之后的特征。如下式：

对于目标检测，原来是用第n个object proposal的特征fnA输入classifier，现在是用融合了relation feature的特征输出classifier。为了保证concate之后的relation feature能够和原来的fnA维度一致，矩阵WV对fmA起到了降维的作用。

下图表示上面的操作过程

3.Relation for Instance recognition

原本的RCNN系列的目标检测流程如下所示，从ROI pooling得到的特征经过两个fc之后，进行分类和坐标回归。

引入relation module(RM)之后，instance recognition的流程为：

其中r1和r2分别表示在第一个fc和第二个fc之后连接的RM的数目

整体的instance recognition的示意图如下图（a）所示：

4.Relation for duplicate removal

作者把duplicate removal归结成一个二分类问题，即对于每一个gt box，只有一个detected box是被分成correct，其他的都是分成duplicate。作者的duplicate removal network是接在classifier的输出后面。该模块的输入包括object proposal的score vector（属于各个类别的概率）, bbox，以及proposal的特征（典型的1024维）。

对于某一个object proposal的某一个类别，假设属于这个类别的概率为scoren，首先经过一个rank embed模块，即拿出其他object proposal属于该类别的score，进行排序，得到第n个object proposal在排序中的下标（rank），作者特别说明了，使用rank值而不是直接score的值非常重要。然后将rank值映射到128维向量，同时将该proposal的特征也映射到128维，将两种128维的特征相加之后作为新的appearance feature，然后和bbox作为relation module的输入，得到新的128维的输出，和W_s做内积之后通过sigmoid得到s_1，最终的correct的概率s=s_0 * s_1。整体流程如上图(b)所示

5.Experiment：

所有的实验都是在COCO上做的。
5.1 Ablation study on relation module structure and parameter

为了验证relation module里面几何特征的重要性，作者设计了两个对比实验
1）none表示直接设置几何特征的权重是1；
2）unary表示直接将相对位姿映射到appearance feature一样的维度，然后和appearance feature相加作为新的appearance feature。

5.2 relation module improve the instance recognition performance

5.3 relation module for duplicate removal

从上图可以看到，不使用rank feature或者直接使用score的值都会使得mAP相比baseline降低很多…作者也没有解释为什么会出现这种现象。

5.4 What is learnt in relation module

作者在论文的最后说，relation module里面到底学习什么不在本文的讨论范围，为了给一个直观的感受，作者将instance recognition里面接在第一个fc后面的relation module学习得到的w拿出来，如上图所示，蓝色框表示reference box，左边的图表示重叠度高的框对蓝色框的贡献都很高，右边表示对手套特征贡献高的包括了人。

阅读全文

0 0