Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention M

来源:互联网 发布:大数据国内外研究现状 编辑:程序博客网 时间:2024/05/21 15:00
题目:

Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism

来源:ICCV 2017

因为太喜欢这篇文章了,所以再简单的写一遍。

本文用带有时空注意力机制的基于CNN的单目标跟踪器实现在线的多目标跟踪。为了online MOT,提出了一种基于CNN的框架。简单的把SOT应用至MOT会遇到计算效率和因为遮挡产生的漂移的问题,在解决计算效率方面,采用的方法是共享CNN特征和使用ROI-pooling来获得每个目标的个体信息。介绍了一种时空注意力机制(STAM),控制由于遮挡和目标间的交互而产生的drift问题。目标的可见图被学习并且被用于推理空间注意力图(spatial attention map)。这个空间注意力图随后被用于给特征赋权重。此外,遮挡状态可以从可视图中估计出来。可视图在训练样本上用不同帧的不同的遮挡状态,通过赋予权重的loss来控制在线的更新过程。这能够被看作是使时间注意力机制(temporal attntion mechanism)。

直接将SOT用于MOT的问题。

第一,在SOT中,用于学习外观模型的训练样本是在线获得的,标签基于跟踪到的结果,外观模型用于在下一帧中寻找这个目标。当发生遮挡时,用于学习外观模型的可视化线索就变得不可信赖了,drift,最后丢失跟踪目标。在MOT中,遮挡现象更为严重。

第二,当有新目标出现时,需要把一个新的单目标跟踪器添加进MOT系统,当跟踪到的目标多的时候,计算代价很大。

在作者所提的框架中,每个目标有自己在线学习到的个体的跟踪器。贡献点:

第一,一种有效的基于CNN的在线MOT框架的提出。通过在多个目标间共享计算的方式,解决简单的将给予CNN的单目标跟踪器用于多目标的计算的复杂性。

第二,为解决drift问题,提出STAM

目标的可视图被学习,并且被用于推理the spatial attention mapThe spatial attention map被用于给特征赋予权重。

可视图可以用于指示目标的遮挡状态。遮挡状态是在在线更新的过程中需要考虑的一个重要线索。目标遮挡的越严重,就越不可能更新相对应的个体跟踪器。这个可以看成是时间注意力机制。这两大机制能够帮助trackerdrift方面更加robust

在实验方面,工具使用的是matlab+caffe,用vgg-16的前10层卷积层作为共享CNN层。在线更新时,在当前帧,需要根据IoU的值划分正负样本。

注意:本方法纯粹是在线模式,不需要用任何用gt标注的训练数据,这点和MDP不同。此外,本文方法有最低的IDS,这说明能够很好的控制目标间的交互问题。

算法过程:

Step1.

在当前帧,每个目标的搜索区域使用运动模型获得。在这个搜索区域内,候选样本被采样。

Step2.

每个候选目标的特征通过ROI-pooling来进行提取,并且通过空间注意来赋权。然后使用二值分类器寻找最匹配的候选目标(最大的分数)。

Step3.

每个跟踪到的目标的可视图从相应的估计目标特征中推理得到,然后被用于推理时间机制。

Step4.

每个目标都有一个专门的CNN分支,这个分支通过当前帧和过去帧的训练样本的loss来进行更新。每个目标的运动模型根据相应的估计目标的状态来做更新。

Step5.

目标管理策略决定新目标的初始化和未跟踪目标的轨迹终结。

Step6.

如果帧不是最后一帧,go to step1 for the next frame


阅读全文
1 0