CVPR 2017 Enhancing Detection Model for Multiple Hypothesis Tracking 阅读笔记

来源：互联网发布：选择题自动填充软件编辑：程序博客网时间：2024/06/05 18:58

原文链接：Enhancing Detection Model For Multiple Hypothesis Tracking

作者：北航深圳研究院 Jiahui Chen, Hao Sheng，Yang Zhang, Zhang Xiong

摘要：

近几年Tracking-by-detection逐渐成为目标跟踪中常用的方法之一。但由于使用这个框架得到的目标检测结果是以点的形式传输的，导致特别是在拥挤人群场景中数据关联有歧义。为了解决这个问题，本文结合多假设跟踪方法，提出一种新型增强目标检测模型，包括检测目标-场景分析和检测目标-检测目标分析；前者利用密集置信度检测以及处理错误轨迹的方法对场景建模，后者计算每个检测目标间的关系并且改善对在拥挤场景中目标假设的邻近问题的处理。本文方法在MOT16数据集上取得了state-of-the-art效果。

1、介绍：（略）
2、相关工作：（略）

这里写图片描述

3、多假设跟踪：

这里写图片描述：检测目标集
：第i帧中的第j个检测目标，(x,y)是目标位置坐标，(w,h)是宽度和高度，(a,c)是appearance和detection置信度
：假设集
：跟踪目标（一系列检测目标）

这里写图片描述：假设H的score，其中sm和sa分别是motion和appearance的置信度，wm和wa是各自的权重

这里写图片描述：假设的形成（Hypothesis formation）关键点在于寻找在当前约束下与轨迹最相近的轨迹集，也就是k维的分配问题。其中这里的约束是每个observation最多只能属于一个track。

这里写图片描述：（2）（3）式可转化为求解最大独立权重集（Maximum Weighted Independent Set）。其中E是相斥集，即中的Hi和Hj不能被同时选中。如图所示：

这里写图片描述

总结：多假设跟踪将跟踪问题转化为假设的生成和选取问题，并且提供一个弹性框架来对复杂情况建模。细节将在第5节提到。

4、增强检测目标模型：

在本文中使用目标检测框最底下正中点作为目标位置。

4.1 目标检测-场景分析

这里写图片描述：通过该分析得到位置映射高度的关系

这里写图片描述：数据预处理，将置信度小于thcon阈值的都当做噪点筛除

将当前帧分割成M * N个块，每个块大小都是Wp * Hp，然后建立新目标检测式子这里写图片描述，如图所示：

这里写图片描述

这里写图片描述：x’和y’就是新目标检测的位置，其他属性保持相同

由于复杂的场景和摄像头的状态（静止或移动），不适合使用多项式函数对尺度变换进行建模，因此本文将使用含有k个隐藏层，以sigmoid函数为激活函数的神经网络进行处理，然后使用LM迭代算法来优化多元函数，最终可以得到目标映射关系，如图所示：

这里写图片描述

4.2 目标检测-目标检测分析

由于非最大化抑制策略（non maximum suppression）的局部决策性质，这种目标选取方法往往在稀疏场景中表现良好，而在拥挤场景中则会造成低召回甚至分段的现象。因此本文提出detection-detection分析，一方面有助于使产生重叠的不同目标开，一方面抑制错误的检测被选取。这种分析是基于detection-scene分析的。

这里写图片描述：基于贝叶斯公式得到两真目标检测在都被检测到的同时都属于轨迹T的概率