VOT2017 结果抢先看

来源:互联网 发布:java 获取运行时路径 编辑:程序博客网 时间:2024/03/29 00:33

昨天(2017年10月28日)上午,ICCV VOT-Workshop已经在威尼斯成功举办了,发布了2017年的视觉目标跟踪挑战赛(Visual-Object-Tracking Challenge)的结果。今年有38个新的算法参加了比赛,加上组委会自行提交的13个算法,总共对比分析了51个跟踪器在VOT2017数据集上的表现。与VOT2017一起举办的是热红外目标跟踪挑战赛(VOT-TIR2017),比赛仍然采用的是去年的红外图像序列,参赛算法也只有10个,比赛结果没有单独发表论文,而是放在VOT report的最后部分一起说了。

一、新的测试集

VOT2017将VOT2016中的10个least challenging图像序列删除,在保证总体的序列属性分布(attribute distribution)不变的情况下添加了10个新的序列,与此同时,还对所有序列的groundtruth进行了重新标定,标定方法是对跟踪目标进行像素级分割,然后重新拟合矩形框。当新的矩形框与原来的groundtruth出入较大时,则由人工来校正。

今年还首次使用了一个单独的测试集(sequestered dataset),不对外公开,用来决定最终的冠军。该测试集包含从VOT过去用过的数据集中选出来的50个序列,加上10个新的序列,总体属性分布与VOT2017公开测试集一致。

二、评估手段

Accuracy:per-frame overlap

Robustness:per sequence average num of failures【VOT标准评估方法是reset-based,每个跟踪器在每个序列上运行15次】

EAO:expected average overlap,是对每个跟踪器在一个短时图像序列上的no-reset average overlap的期望值,是VOT评价跟踪器跟踪效果的主要指标。

AO:average overlap,VOT除了进行标准的reset-based supervised experiment(baseline)以外,还执行一个模仿OTB的unsupervised experiment——仅用第一帧的groundtruth来初始化跟踪器,然后让它一直跟下去,最后算平均跟踪重叠率。文章认为,AO与OTB所使用的Area-Under-Curve是等效的。

Real-time Experiment:这是今年新引入的一种评估方式,VOT过去用EFO来评价一个跟踪器的执行速度(EFO为跟踪器实际运行时间与测试平台上执行一次规定的滤波运算所需的时间的比值,被认为是与硬件平台无关的一个度量),但是后来发现EFO仍然受到硬件平台性能较大影响,所以今年搞了个实时实验,具体做法在执行VOT标准评估时(baseline,supervised experiment),限定跟踪器的响应时间,如果跟踪器的未能实时地(25fps,40ms每帧)反馈跟踪结果,则toolkit将不再等待,而是沿用上一帧的跟踪结果。当跟踪失败时仍然会重启跟踪器。个人以为。这个实验设定比较扯,对于那些实际运行速度较慢的跟踪器,跟踪结果将一直不被采纳,该实验不能反映任何跟踪器性能,而对于那些实时算法,real-time实验的结果应该和baseline结果一致,所有也没有做这个实验的必要。文中没有说跟踪时间的具体时限是多少,40ms是典型值,我猜也许会在不同的run中连续调节时限的值。

三、结果


表格里列出了51个算法的评估结果,其中比较常见的几个24.Staple,36.KCF,40.SRDCF,41.MIL,46.Struck,我很奇怪SRDCF的评估结果竟然这么差,不管是baseline还是unsupervised实验,结果都比KCF差。SRDCF我是用过并研究过的,我认为这个结果不正常,要么是组委会没好好运行SRDCF,要么就是跟踪测试集比较偏。

LSART:大连理工的卢湖川老师的作品,paper: Learning Spatial-Aware Regressions for Visual Tracking . 只在arXiv上看到了pdf,显示的是2017年6月22日,也就是VOT比赛提交结果截止日期的前后。Abstract:First, we propose a kernelized ridge regression model wherein the kernel value is defined as the weighted sum of similarity scores of all pairs of patches between two samples. ...Second, we propose a fully convolutional neural network with spatially regularized kernels, through which the filter kernel corresponding to each output channel is forced to focus on a specific region of the target.

CFWCR: 北邮Zhiqun He,文章发表在ICCV VOT-Workshop上,Correlation Filters with Weighted Convolution Responses. Abstract: In our work, we normalize each individual feature extracted from different layers of the deep pretrained CNN first, and after that, the weighted convolution responses from each feature block are summed to produce the final confidence score. By this weighted sum operation, the empirical evaluations demonstrate clear improvements by our proposed tracker based on the Efficient Convolution Operators Tracker (ECO). 好像是在ECO基础上改了feature.

CFCF: 作者是Erhan Gundogdu,之前研究红外目标跟踪算法,对特征表示有些研究。文章:Good Features to Correlate for Visual Tracking . 文章在arXiv上,显示的是已经提交给了TIP. Abstract: ...correlation filter based (CFB) trackers confine themselves to use the pre-trained networks which are trained for object classification problem. To this end, in this manuscript the problem of learning deep fully convolutional features for the CFB visual tracking is formulated. 大概做法是在CCOT的基础上改了feature,它使用了VGG-M-2048的第1层、第5层、第6层特征,另外还用到了HOG与ColorNames特征。

ECO: 不用多说,Martin Danelljan大神的作品,是在其前期工作CCOT的基础上改进的,发表在CVPR2017上。ECOhc算法是ECO算法的一个简化版本,好像是特征从深度特征改为HOG+ColorNames。话说Martin大神的主页上最近好像没有大的更新,是不是该博士要毕业了在写大论文。。

CSRDCF:这是由VOT组委会中的成员做出来的,发表在CVPR2017,顺便说一句,Martin的导师是组委会的主要负责人之一.

UCT: 中科院自动化所,发表在ICCV VOT-Workshop上,paper: UCT: Learning Unified Convolutional Networks for Real-time Visual Tracking. Abstract: ...Nonetheless, the chosen CNN features are always pre-trained in different task and individual components in tracking systems are learned separately, ...we propose an end-to-end framework to learn the convolutional features and perform the tracking process simultaneously, namely, a unified convolutional tracker (UCT). ...The standard UCT and UCT-Lite can track generic objects at 41 FPS and 154 FPS without further optimization, respectively.

其它的算法就不一一介绍了,整个比赛最值得关注的还是baseline实验,这也是VOT官方曾发表在PAMI上的主要评测手段,EAO是给每个跟踪器的一个综合评分,据VOT report介绍,前十名算法都是基于相关滤波器的,除了CSRDCF,前十名中的其它方法都使用了CNN特征。

report里还统计了2016年以来发表在顶会和顶刊上的10跟踪算法的表现,就是本文标题的背景图像,以其中最差的结果作为VOT2017 state-of-the-art bound,大概是0.2,也就是说在VOT2017上的EAO指标超过0.2的都可以认为是state-of-the-art。

评选冠军是从VOT2017的baseline测试中选取前十名,再由官方到前面提到的sequestered dataset上去秘密测试一下,将其中官方人员参与的算法踢掉,剩下的算法中EAO最高的,且开源了代码的就是winner(参赛要求是提供源码或者可执行程序,但是冠军算法必须要提供源码)。result:(1) The top performer of the VOT2017 sequestered dataset is the CCOT. (2) The winner of the VOT2017 challenge, however, is the CFCF. (3) The top performer of the VOT2017 real-time challenge is CSRDCF++ (CSRDCF的C++实现,不开源). (4) The winner of the VOT2017 realtime challenge is the SiamFC (双流网络). (5) The top performer and the winner of the VOT-TIR2017 challenge is DSLT.

附上VOT-TIR2017的比赛结果,只有10个算法参加,数据集也没更新,只有baseline实验,没有速度测试,感觉VOT官方可能要抛弃TIR分赛了。。。DSLT paper:Dense Structural Learning for Infrared Object Tracking at 200+ FPS. Pattern Recognition Letters, 2017.




原创粉丝点击