Adaptive Object Detection Using Adjacency and Zoom Prediction

来源：互联网发布：雨课堂教学软件编辑：程序博客网时间：2024/05/16 02:01

(个人觉得本论文主要的创新就在于自适应搜索检测，对于一个可能包含小物体目标的区域再进行细分)

摘要：目标检测系统的性能依赖于精确的region proposals集合。最近一些方法使用一个神经网络结构来假设可能的目标位置，而这些方法都是computationally efficient，但它们依赖固定的图像区域作为anchors以进行预测。本篇论文提出使用一种搜索来自适应地将计算资源导向可能包含目标的子区域(use a search strategy that adaptively directs computational resources to sub-regions likely to contain objects)。与基于固定的anchor locations方法相比,我们的方法自适应于目标实例稀疏和small目标的情况。

1.引言Introduction

(1)一个好的目标检测算法通过有以下两个阶段(two-step cascade):a.一个与类别无关的独立region proposals(a set of class-independent region proposals are hypothesized)和b.然后将region proposals作为一个检测器的输入，给每个区域一个类别标记(gives each region a class label)。

(2)region proposals的作用是通过限制需要检测器评估的regions的数目来降低复杂性。然而近期提出的卷积特征的共享(enable sharing of convolutional features)、传统的region proposal算法(如selective search和EdgeBoxes)成为了detection pipeline的瓶颈。

(3)有效的region proposals方法是基于端到端训练的深度神经网络。这些方法的共同思想是在一个小的预定义(pre-defined)的anchor regions集合上训练class-independent regressor(与类别独立无关的回归器)。更具体一些，每个anchor region都被分配一个任务，即确定一个物体目标(object)是否在它的邻近(neighborhood)并且预测通过regression预测该物体目标的一个bounding box。

(4)每种方法anchor的设计各不相同。例如，MultiBox从clustering使用800个anchors，YOLO使用一个7*7的non-overlapping网格，文献[22]的RPN使用overlapping sliding windows。

(5)论文交替地考虑以下的自适应搜索策略。论文算法从整幅图像开始，而不是固定一个anchor regions的先验集合。然后递归地将图像划分为子区域(sub-regions)直到它确定一个给定的区域(a given region)不可能包含任何小目标物体时结束。在这个过程中访问的regions(regions that are visited in the process effectively serve as anchors)作为anchors,它的任务是预测附近objects的bounding boxes。论文算法的一个特点是决定一个区域是否需要进一步细分是基于从这个特定区域提取的特征来决定的。对于一个只有一些小目标物体的图像，大部分区域在搜索的前期就被去除了，留下一些邻近目标的small anchor regions。对于只包含大目标实例的图像，我们的方法又优雅地回到现有的方法，即主要依赖少量的large anchor regions。(对于只包含小目标物体的图像，算法要获取small anchor objects near the objects，对于只包含大目标实例的图像，算法主要依赖于large anchor regions，这样算法就有了自适应)。

(6)Fig1是论文提出的自适应搜索算法与非自适应的RPN(faster-RCNN采用的生成proposal的方法)比较：

(7)为了实现自适应搜索算法，论文训练了一个称为Adjacency and Zoom Network(简称为AZ-Net)的深度神经网络。给定一个输入anchor region(given an input anchor region),AZ-Net输出一个标量缩放指示器(a scalar zoom indicator)，这个标量缩放指示器用来决定是否进一步放大(zoom into)(划分divide)区域和具有confidences scores的bounding boxes集合，或adjacency predictions(邻域预测)。高信任度分值(high confidence scores)的邻域预测作为后续目标检测器的region proposals。

(8)在论文的设计中，zoom indicator模拟了搜索larger structure的过程；而adjacency prediction模拟是领域推理的过程。

(9)论文所做的主要工作：

o 设计了目标检测的一种搜索策略，能够自适应地将计算资源集中到包括目标物体的图像区域；

o 作者在Pascal VOC2007和MSCOCO这两个数据集上评价了论文所提出的方法，实验证明该方法与Fast R-CNN和Faster R-CNN性能相当，但具有更少的anchor和proposal regions；o 论文所提出的proposal策略对于高的IoU阈值有着较好的recall，对于small numbers of top proposals和small object instance都有higher recall。

2.Previous Work(之前的工作)

(1)文献[16]首次提出一种自适应的分支定界方法(an adaptive branch-and-bound approach)。最近文献[3]和[11]、[28]提出了用DCNN特征进行主动目标检测(active object detection)。但这些文献中提到的方法只是说明了目标检测自适应算法的可能性(show the promise of using an adaptive algorithm for object detction)，它们的检测器是class-wise且这些方法的检测准确率还是不够的。而我们的方法是多类别的(multi-class)，并且在准确率和测试速度上都能够与目前最优的方法相当。

(2)使用Spatial context(空间上下文)：文献[26]提出利用文献[2]的视觉注意模型(visual attention model)；文献[2]提出了使用上下文进行定位(localization)，但它的实验是基于手工设计特征的(hand-crafted features)。

(3)使用anchor regions生成proposal:论文所提的方法与近期的使用anchor regions来prpoposal generation或proposal detection方法非常相关。文献[5]使用800个data-driven anchors进行region proposal；文献[21]的YOLO由49个non-overlapping regions组成的固定网格(fixed grid)来进行class-wise detection。对于前者(文献[21])，这些anchors可能过拟合数据(overfit the data)，而对于后者YOLO，没有模型集成的话(without model ensemble)则无法实现state-of-the-art的性能。我们所做的工作与近期的文献[22]Faster R-CNN相关，Faster RCNN使用启发式设计的2400个overlapping的anchor regions。我们的方法使用类似文献Faster R-CNN的回归技术从一个anchor region预测多个bounding boxes。然而我们的anchor regions是自适应生成的，而且通过实验证明在没有过度增加anchor regions数目(without excessive number of anchor regions)就能够检测小的目标实例。

(4)这篇论文是文献[20]的后续工作

3.Design of the Algorithm算法设计

3.1 Overview of the Adaptive Search(自适应搜索的总体思想)

(1)我们的目标检测算法由两步组成：

* Step1:使用AZ-Net 自适应搜索(using Adaptive search with AZ-Net)来生成与类别无关的region proposals；

* Step2:使用目标检测器(object detector)对每个region proposal进行class-wise detection，论文中使用的检测器是Fast R-CNN。

(2)论文所做的工作是改进Step 1。采用递归地搜索策略。

算法的总体思想：

o 先从整个图像开始，作为根区域(root region)；

o 对于搜索过程中遇到的任意一个区域(region)：

提取这个region的特征来计算Zoom indicator和Adjacency predictions；
如果这个区域的Adjacency predictions的confidence score大于设定的阈值，则将它加入到输出的region proposals中(output region proposals)；
如果这个region的Zoom indicator大于设定的阈值(这意味着这个region很可能包含小目标small object)，则当前的区域(current region)需要按Fig2所示的方式划分为子区域sub-regions。对每个子区域按照它的父区域的处理过程一样进行递归处理,直到它的面积(its area)或它的zoom indicator非常小。

(3)用AZ-Net实现的自适应搜索算法* AZ-Net结构

(对于这篇论文，我理解了它的自适应检测的思想，就是先将一个图片分成5个子区域sub-regions，再根据每个子区域的zoom-indicator值确定一个region需不需要再细分，这样就可以产生多个anchor region，然后进行这些anchor region的邻近box预测(adjacency prediction)，如果邻近box的zoom-indicator值大于阈值，也要对它进行进一步细分成更小的子区域，感觉就是对可能包含小物体的区域进行递归细分的思想。但是没有理解这个Zoom-indicator值在训练时是如何进行训练的，以及Zoom-indicator的阈值如何确定？)

1 0