论文笔记 Hierarchical Convolutional Features for Visual Tracking

来源:互联网 发布:博世配网工程设计软件 编辑:程序博客网 时间:2024/06/13 09:28

同样是ICCV 2015的文章,并且与上一篇介绍的FCNT方法不谋而合,都提到了VGG网络不同卷积层提取到的特征类型的不同。


理论基础:

低层网络包含更高空间分辨率的低维视觉信息,可以用于精确的定位,类似于Gabor滤波器;而高层网络获取到更多语义类别信息,相对空间信息少。本文利用高层的语义信息来处理目标外形的变化问题,同时用低层信息进行精准定位。

想法结构:

                   


算法结构:

(1)首先利用第一帧已知的目标位置区域,得到其对应的Conv3_4,Conv4_4,Conv5_4目标位置的特征,训练得到3个相关的滤波器

(2)之后的第t帧,以t-1帧的预测结果为中心,获得该位置在Conv3_4,Conv4_4,Conv5_4的特征,将特征做插值并通过3个相关滤波器预测出二维的置信分数

(3)从Conv5_4层的滤波器结果开始,算出confidence score上最大的响应点,作为第t帧时候预测的位置,之后以这个位置约束下一层的搜索范围,逐层向下做更细粒度的位置预测,以最低层的预测结果作为最后输出

(4)利用当前跟踪结果反向对每层的相关滤波器进行更新

             


实验结果:


1 0