Learning to Track: Online Multi-Object Tracking by Decision Making

来源:互联网 发布:iphone6s解锁软件 编辑:程序博客网 时间:2024/06/05 13:32

来源:ICCV2015

创新点:把在线MOT的问题看作是Markov决策的过程(MDP),一个目标的生存期用一个MDP来建模。学习一个用于数据关联的相似性函数等价于学习一个MDP的策略。这个MDP策略的学习方式是强化学习,能够充分利用在线学习和离线学习在数据关联方面的优势。此外,所提框架可以利用现存的在线单目标跟踪的方法,将目标的birth/deathappearance/disappearance看成是MDP的状态转换过程。

任何数据关联算法的基础是检测与目标之间的a similarity function。为控制关联的歧义性,把不同线索(外观、运动和位置)联合起来计算相似性是非常有用的。之前的算法依赖于启发式地为相似性函数选择参数模型,并且通过交叉验证调整这些参数,这不利于特征数量的扩展,也不能保证模型的泛化能力。

最近倡导为MOT注入学习能力。在离线学习中,学习是在真正的跟踪开始之前进行,离线运用gt学习一个检测与轨迹间用于数据关联的similarity function。离线学习是静态的,在数据关联中,不能考虑动态的变化和目标的history。而这些信息在解决歧义的时候是非常重要的,尤其是当目标再次出现,需要重新分配missed或者occluded目标的时候。相反,在线学习在整个跟踪的过程中进行学习。通常的方法是根据跟踪结果构建正负训练样本,then,为数据关联训练a similarity function。在线学习能够利用特征和目标的历史信息。然而并没有gt标注。所以,在线方法当在跟踪结果中有错误的时候,可能从错误的训练样本中学习,并且这些错误可以累积,导致跟踪drift

在本文中,作者把在线MOT的问题看成了MDP做决定的问题,一个目标的生存期由一个MDP建模,多个目标的跟踪就用多个MDPs建模。学习一个用于数据关联的相似性函数等价于学习一个MDP的策略。策略学习以强化学习的方式进行,在进行数据关联时,能够从在线学习和离线学习中获益。第一,学习是离线进行的,所以可以用到gt。第二,当跟踪在训练序列中的目标时,学习会发生。所以,MDP可以基于目标的当前状态和历史信息做决定。特别地,当给定一个目标的gt轨迹和一个初始化的相似函数时,MDP将会尝试着跟踪目标,并且从gt中收集反馈信息。根据这一反馈,MDP更新the similarity function来改进跟踪结果。这个similarity function只有当MDP在数据关联中犯错误的时候才会进行更新,这使得可以收集难例训练样本学习这一相似性函数。当MDP能够成功的跟踪到目标时,训练结束。

除了学习策略的优势,所提框架能够处理目标的birth/deathappearance/disappearance,方法是将他们看作MDP中的状态转换。本文方法可以从在线SOT方法中获利,为控制目标的检测失败,在线学习并且更新一个目标的外观模型。

阅读全文
0 0
原创粉丝点击