SANet:Structure-Aware Network for Visual Tracking 阅读笔记

来源:互联网 发布:驾照模拟考试c1软件 编辑:程序博客网 时间:2024/05/22 15:40

本文概览

  • 解决问题:由于CNN模型主要用于类间判别,所以大多数CNN用于目标跟踪的任务中对目标物体的相似物都很敏感;

  • 主要方法:CNN+RNN,CNN主要提供目标物体和背景之间的判别形,RNN主要提供目标物体和相似物之间的判别性;

  • 主要思路:使用RNN对目标物体的self-structure信息建模,利用目标物体的self-structure信息加强目标物体与其相似物的判别性,并将目标物体的RNN特征与CNN特征合并,以此提升跟踪器的判别力;

  • 重要细节一:由于CNN不同层从不同的语义高度刻画目标物体,所以使用多个RNN在不同语义高度对目标物体建模;

  • 重要细节二:使用跳跃式连接策略获取多层的CNN特征和RNN特征并进行融合,以此增强判别力;

  • 实验效果:代码为MatConvNet版本,在OTB100上精度高于MDNet,当前最好;

算法基础

  • MDNet目标跟踪算法优点:通过大量视频学习到了可以在目标跟踪任务中有效地区分于目标物体和背景的特征表达;

  • MDNet目标跟踪算法缺点:使用的CNN模型主要关注类间分类,所以对相似物的出现或遮挡不鲁棒;

  • RNN优点:可以在序列数据中捕获目标前后帧的长期依赖关系,所以可以使用RNN对目标的self-structure进行建模;

相关工作

  • CNN目标跟踪:一部分基于CNN的目标跟踪算法由于缺少足够的训练数据,难以学习鲁邦的特征表达,从而降低了跟踪器的性能,另一部分基于CNN的目标跟踪算法使用已有的用于分类的CNN模型,但是由于和分类任务根本的不同,这些方法也不是很有效;

  • MDNet:MDNet算法成功的解决上述两个问题,其在大量的视频数据中学习用于目标跟踪的CNN特征表达,可以在目标跟踪任务中有效地区分目标物体和背景;

  • RNN用于图像处理:RNN可以有效地对目标物体的self-structure进行建模,通过该方法可以成功捕获目标物体和其相似物间细微的差别;

RNN基础

  • RNN输入输出关系:h(t)=ϕ(Ux(t)+Wh(t1)+b)y(t)=σ(Vh(t)+c)

  • RNN优点:RNN可以对大范围的上下文依赖关系进行建模;

self-structure结构与RNN建模

这里写图片描述

  • 不同于一维数据,目标跟踪任务中需要处理二维图像数据,对二维图像的self-structure进行编码为无向循环图(上图(c&d)),这样使得传统的RNN方法难以应用到图像的self-structure建模中;

  • 值得明确指出的是本文的self-structure指的不是对视频序列进行建模而是对目标跟踪问题中的跟踪物体进行建模;

  • 本文提出在二维图像数据中使用有限的有向循环图近似其无向循环图(即图中d=e+f+g+h),并分别使用RNN进行建模;

  • G={ν,ε}表示一个有向循环图,其中ν代表顶点集合,ε代表边集合;

  • RNN前向传播:这里写图片描述,对应于上述四个图中,分别为以e中的左上角点开始计算其他节点输出直到右下角点,以f图中右上角点开始计算其他节点输出直到左下角点,g和h以此类推

  • RNN反向传播:具体公式和推导见原文

本文模型和方法

这里写图片描述

  • 网络结构:输入为107*107的RGB图像,3*(卷积层+RELU层+Pooling层)+2*全连接层+全连接分类层,Pooling层位于RNN层之后,其输出用来为下一层语音信息建模提供输入,同时用作跳跃连接;

  • 训练:基于MDNet的工作,使用大量视频数据进行训练,CNN部分使用随机梯度下降法训练,RNN部分使用本文自行推导的公式训练,同MDNet一样采用多分支学习的方式训练所有视频的共享参数层和每个视频单独的参数层;

  • 在线跟踪和更新:同MDNet相同,同时使用hard minibatch mining和box refinement技术;

实验:

  • 速度:1fps;
阅读全文
0 0
原创粉丝点击