Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention M

来源：互联网发布：大数据国内外研究现状编辑：程序博客网时间：2024/05/21 15:00

题目：

Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism

来源：ICCV 2017

因为太喜欢这篇文章了，所以再简单的写一遍。

本文用带有时空注意力机制的基于CNN的单目标跟踪器实现在线的多目标跟踪。为了online MOT，提出了一种基于CNN的框架。简单的把SOT应用至MOT会遇到计算效率和因为遮挡产生的漂移的问题，在解决计算效率方面，采用的方法是共享CNN特征和使用ROI-pooling来获得每个目标的个体信息。介绍了一种时空注意力机制（STAM），控制由于遮挡和目标间的交互而产生的drift问题。目标的可见图被学习并且被用于推理空间注意力图（spatial attention map）。这个空间注意力图随后被用于给特征赋权重。此外，遮挡状态可以从可视图中估计出来。可视图在训练样本上用不同帧的不同的遮挡状态，通过赋予权重的loss来控制在线的更新过程。这能够被看作是使时间注意力机制（temporal attntion mechanism）。

直接将SOT用于MOT的问题。

第一，在SOT中，用于学习外观模型的训练样本是在线获得的，标签基于跟踪到的结果，外观模型用于在下一帧中寻找这个目标。当发生遮挡时，用于学习外观模型的可视化线索就变得不可信赖了，drift，最后丢失跟踪目标。在MOT中，遮挡现象更为严重。

第二，当有新目标出现时，需要把一个新的单目标跟踪器添加进MOT系统，当跟踪到的目标多的时候，计算代价很大。

在作者所提的框架中，每个目标有自己在线学习到的个体的跟踪器。贡献点：

第一，一种有效的基于CNN的在线MOT框架的提出。通过在多个目标间共享计算的方式，解决简单的将给予CNN的单目标跟踪器用于多目标的计算的复杂性。

第二，为解决drift问题，提出STAM。

目标的可视图被学习，并且被用于推理the spatial attention map。The spatial attention map被用于给特征赋予权重。

可视图可以用于指示目标的遮挡状态。遮挡状态是在在线更新的过程中需要考虑的一个重要线索。目标遮挡的越严重，就越不可能更新相对应的个体跟踪器。这个可以看成是时间注意力机制。这两大机制能够帮助tracker在drift方面更加robust。

在实验方面，工具使用的是matlab+caffe，用vgg-16的前10层卷积层作为共享CNN层。在线更新时，在当前帧，需要根据IoU的值划分正负样本。

注意：本方法纯粹是在线模式，不需要用任何用gt标注的训练数据，这点和MDP不同。此外，本文方法有最低的IDS，这说明能够很好的控制目标间的交互问题。

算法过程：

Step1.

在当前帧，每个目标的搜索区域使用运动模型获得。在这个搜索区域内，候选样本被采样。

Step2.

每个候选目标的特征通过ROI-pooling来进行提取，并且通过空间注意来赋权。然后使用二值分类器寻找最匹配的候选目标（最大的分数）。

Step3.

每个跟踪到的目标的可视图从相应的估计目标特征中推理得到，然后被用于推理时间机制。

Step4.

每个目标都有一个专门的CNN分支，这个分支通过当前帧和过去帧的训练样本的loss来进行更新。每个目标的运动模型根据相应的估计目标的状态来做更新。

Step5.

目标管理策略决定新目标的初始化和未跟踪目标的轨迹终结。

Step6.

如果帧不是最后一帧，go to step1 for the next frame。

阅读全文

1 0