物体跟踪-CVPR16-tracking[下]

来源：互联网发布：ping mac 获取ip地址编辑：程序博客网时间：2024/06/04 00:22

接着上一篇博客，今天对剩下的文章进行简单总结，同样，文章只对paper的主要特点，和流程框架进行总结，具体细节尽可能不涉及。

一，Recurrently Target-Attending Tracking

首先介绍这一片文章，作者主要将RNN运用到物体跟踪上，主要想解决遮挡等问题。其实这篇文章思路和KCF和SRDCF思路一样，只是将其与RNN进行了结合，而且作者在公式说明上写的很复杂，其实原理并不复杂。简单的理解作者的贡献就是：通过RNN获取considence map,并将其作为SRDCF惩罚项w的值（原始SRDCF惩罚项是Gauss分布的值来抑制boundary effect,作者要用RNN来获得w是期望提高没有遮挡部分的impact,降低遮挡部分的影响，而且具有context信息，从而提高算法对遮挡的鲁棒性）。

特点：
- 将RNN运用到tracking,结合grid思想，将区域划分为grid,并对每个grid进行四个方向RNN。
- 将RNN的得到的结果（confidence map）用初始化SRDCF loss function的惩罚项。
- 作者给出的实验结果（只给出了filter based methods的比较）来看，效果还可以。但是速度慢：4fps

本文首先将候选区域进行grid划分，然后对其提取特征，将每一个grid区域进行四个方向的RNN，然后叠加得到RNN输出的confidence map。那么为啥要用到RNN呢，并且划分grid呢？

首先grid主要是part-based思想的运用。可以通过mask控制grid，从而期望解决（目标被）遮挡问题。
RNN比其LSTM来说，RNN具有low-freedom parameter space,而跟踪问题本身样本少，容易overfit,RNN这一性质可以缓和过拟合。

在RNN阶段，作者利用softmax来获取confidence map,并肩这个值作为如下公式中的W(如下公式其实就是SRDCF中的loss function),用该loss function 训练滤波器。求解过程和SRDCF一样。

说到这里，这下可以直接给出作者的pipeline了：

效果（遗憾的是，并没有和SRDCF的比较）：

二，Hedged Deep Tracking

这篇文章为Ming-Hsuan Yang之作，由于高层卷积具有一定的语义信息，而位置信息却不够精确，而对于跟踪来讲，位置信息也很重要，所以本文主要是想通过这两者的一种结合。对不同卷基层的特征进行单独处理，最后将每一层特征获得的responce map做一个线性组合，得到最终的结果。

主要特点
- 对每一层的特征进行训练，得到滤波器（文章称为weak tracker，用的KCF算法）,然后将weak tracker进行线性组合,得到stronger tracker(类似boosting).
- 组合采用的是Hedge 算法。
- 效果还可以，相比MEEM来说提升不少（相对现在的冠军来说应该是差一些）。

所以很容易理解作者的Pipeline:

从上面可以看出，主要就是滤波器和Hedge组合算法的运用。文章采用的是KCF算法，由于第一次接触Hedge算法，所以在这里对算法思路进行讲解。
由上面可知，每一个weak tracker都会有对应的responce map,那么hedge算法是怎么组合在一起呢？

Hedge算法进行滤波器的组合：
- detection利用的组合公式如下，利用该公式即可进行跟踪。

train,有了前面detection的跟踪结果后，怎么update呢（其实就是update上式中的w_t）？首先利用每个weak tracker的responce map计算一个loss,公式如下（S表示Score或者responce Map,k为weak tracker）：

然后利用的度量式子（regret measure）为：
其中：

那么最小化如下的代价函数即可跟新w_t的值：

到此算法跟新完毕！

三，Hierarchical Convolutional Features for Visual Tracking

这篇文章是ICCV15，但是和上文关系很大，同样是Ming-Hsuan Yang之作，同样是想结合高底层的特征进行组合。只是和上文不同的是（上文是训练多个weak tracker，然后组合得到stronger tracker）:这篇文章是利用高层的进行粗定位，然后类似金字塔搜索从上往下进行由coarse-to-fine进行搜索（其实就是金字塔的搜索思想）。同上，也用的kcf算法。

所以主要特点：
- 金字塔搜索策略用到不同的卷积特征层，实现从上往下，从coarse-to-fine的匹配搜索(文中叫Hierarchical)。
- 缺点：很明显，如果高层定位偏差太大，那么会导致最终结果的错误。
- 作者也提到其他的缺点：高层的特征对光照鲁棒性较低（很好理解，高层更多的语义信息，较少的discriminal）

根据上面的特点，pipeline为：

作者将这三层的responce map可视化为如下：

作者从上到下，从coarse-to-fine的score计算公式为：

未完待续！

参考文献：

[1],Recurrently Target-Attending Tracking

[2],Hedged Deep Tracking

[3],Hierarchical Convolutional Features for Visual Tracking

1 0