论文笔记 Hierarchical Convolutional Features for Visual Tracking

来源：互联网发布：博世配网工程设计软件编辑：程序博客网时间：2024/06/13 09:28

同样是ICCV 2015的文章，并且与上一篇介绍的FCNT方法不谋而合，都提到了VGG网络不同卷积层提取到的特征类型的不同。

理论基础：

低层网络包含更高空间分辨率的低维视觉信息，可以用于精确的定位，类似于Gabor滤波器；而高层网络获取到更多语义类别信息，相对空间信息少。本文利用高层的语义信息来处理目标外形的变化问题，同时用低层信息进行精准定位。

想法结构：

（1）首先利用第一帧已知的目标位置区域，得到其对应的Conv3_4,Conv4_4,Conv5_4目标位置的特征，训练得到3个相关的滤波器

（2）之后的第t帧，以t-1帧的预测结果为中心，获得该位置在Conv3_4,Conv4_4,Conv5_4的特征，将特征做插值并通过3个相关滤波器预测出二维的置信分数

（3）从Conv5_4层的滤波器结果开始，算出confidence score上最大的响应点，作为第t帧时候预测的位置，之后以这个位置约束下一层的搜索范围，逐层向下做更细粒度的位置预测，以最低层的预测结果作为最后输出

（4）利用当前跟踪结果反向对每层的相关滤波器进行更新

实验结果：

1 0