Learning to Track: Online Multi-Object Tracking by Decision Making

来源：互联网发布：iphone6s解锁软件编辑：程序博客网时间：2024/06/05 13:32

来源：ICCV2015

创新点：把在线MOT的问题看作是Markov决策的过程（MDP），一个目标的生存期用一个MDP来建模。学习一个用于数据关联的相似性函数等价于学习一个MDP的策略。这个MDP策略的学习方式是强化学习，能够充分利用在线学习和离线学习在数据关联方面的优势。此外，所提框架可以利用现存的在线单目标跟踪的方法，将目标的birth/death和appearance/disappearance看成是MDP的状态转换过程。

任何数据关联算法的基础是检测与目标之间的a similarity function。为控制关联的歧义性，把不同线索（外观、运动和位置）联合起来计算相似性是非常有用的。之前的算法依赖于启发式地为相似性函数选择参数模型，并且通过交叉验证调整这些参数，这不利于特征数量的扩展，也不能保证模型的泛化能力。

最近倡导为MOT注入学习能力。在离线学习中，学习是在真正的跟踪开始之前进行，离线运用gt学习一个检测与轨迹间用于数据关联的similarity function。离线学习是静态的，在数据关联中，不能考虑动态的变化和目标的history。而这些信息在解决歧义的时候是非常重要的，尤其是当目标再次出现，需要重新分配missed或者occluded目标的时候。相反，在线学习在整个跟踪的过程中进行学习。通常的方法是根据跟踪结果构建正负训练样本，then,为数据关联训练a similarity function。在线学习能够利用特征和目标的历史信息。然而并没有gt标注。所以，在线方法当在跟踪结果中有错误的时候，可能从错误的训练样本中学习，并且这些错误可以累积，导致跟踪drift。

在本文中，作者把在线MOT的问题看成了MDP做决定的问题，一个目标的生存期由一个MDP建模，多个目标的跟踪就用多个MDPs建模。学习一个用于数据关联的相似性函数等价于学习一个MDP的策略。策略学习以强化学习的方式进行，在进行数据关联时，能够从在线学习和离线学习中获益。第一，学习是离线进行的，所以可以用到gt。第二，当跟踪在训练序列中的目标时，学习会发生。所以，MDP可以基于目标的当前状态和历史信息做决定。特别地，当给定一个目标的gt轨迹和一个初始化的相似函数时，MDP将会尝试着跟踪目标，并且从gt中收集反馈信息。根据这一反馈，MDP更新the similarity function来改进跟踪结果。这个similarity function只有当MDP在数据关联中犯错误的时候才会进行更新，这使得可以收集难例训练样本学习这一相似性函数。当MDP能够成功的跟踪到目标时，训练结束。

除了学习策略的优势，所提框架能够处理目标的birth/death和appearance/disappearance，方法是将他们看作MDP中的状态转换。本文方法可以从在线SOT方法中获利，为控制目标的检测失败，在线学习并且更新一个目标的外观模型。

阅读全文

0 0