A Survey of Appearance Models in Visual Object Tracking 阅读笔记（二）

来源：互联网发布：梦里花落知多少句子编辑：程序博客网时间：2024/04/30 21:36

4. STATISTICAL MODELING FOR TRACKING-BY-DETECTION
根据建模机制，统计建模被分为三类：产生式、判别式、混合式。

产生式外观模型主要考虑怎样准确地匹配目标类型的数据。然而，在实际中是很难去验证特定模型的正确性的。除此之外，局部最佳总是通过参数估计法（最大期望算法EM）来获得。通过引入在线更新机制，它们在忽略背景影响的同时，逐步学习前景目标区域信息的视觉表示。因此，它们总是受到由具有相似于目标类型外观的背景区域干扰。Table III 列举了有代表性的相应算法。

这里写图片描述

相对来说，判别式外观模型将视觉目标跟踪看作二值分类的问题。它们目的在于最大化目标和非目标区域间的分离性。更多的，它们集中于视觉目标跟踪的高层次特征信息。出于计算考虑，在线变量为了预测目标或非目标预测的目的而被用于逐步学习判别式分类方法。因此，它们能够达到有效、高效的预测结果。然而，判别式外观模型最大的掣肘在于过度依赖训练样本的选择（通过自学习或联合学习）上。Table IV 列举了有代表性的相应算法。

这里写图片描述

产生式和判别式外观模型有它们各自的优点和缺点并且在一定内容上互补。因此，研究者们设计出了能融合两者得到的有用信息的产生-判别混合式的外观模型（HGDAMs）。由于是探索启发式的策略，所以HGDAMs不能保证效果能比它们独立时任意一个更好。另外，HGDAMs可能添加更多的约束和参数，导致其在实际中的不灵活性。Table V列举了有代表性的相应算法。

这里写图片描述

4.1 Mixture Generative Appearance Models
通常来说，这类型为了捕获目标外观的时空多样性而自适应学习多种成分。它们可以被分为两类：
（i）WSL混合模型：
（ii）高斯混合模型：

4.2 Kernel-Based Generative Appearance Models(KGAMs)
基于核的产生式外观模型利用和密度估计法去构造基于核的视觉表示，然后再使用mean shift算法来目标定位。根据用于构造内核或模式搜索的机制，它们可以分为六个分支：
（i）颜色驱动的KGAMs：
（ii）形状融合的KGAMs：
（iii）感知缩放的KGAMs：
（iv）非对称的KGAMs：
（v）全局模式搜索的KGAMs：
（vi）顺序内核学习的KGAMs：

颜色驱动的基于核跟踪算法主要考虑颜色信息。然而复杂的因素会导致急剧的跟踪效果恶化，包括尺度变化、复杂背景、遮挡、目标快速移动。为了解决这个问题，产生了多种改良算法。感知缩放的跟踪算法主要目的是捕获目标外观多尺度的空间轮廓信息。因此，它能在急剧尺度变化情况下高效完成跟踪任务。由于边缘或形状信息对精确目标定位或抵抗背景干扰是有很大帮助的，形状驱动的基于核跟踪算法被发展起来去融合形状和边缘信息进核设计过程。通常，基于核的跟踪算法利用对称的核（圆、椭圆）在目标跟踪中，导致在复杂的底层概率函数中产生较大估计偏差。为了解决这个问题，非对称的基于核跟踪算法被用来构造一个更好的底层概率表示。传统的基于核跟踪算法尝试使用局部模式搜索，而其局部最优属性会导致跟踪效果恶化或甚至失败。为解决此问题，研究学者借用模拟退火算法和退火重要性采样的思想，去获得一个全局模式搜索可行的解决办法。实际中，高计算复杂性和内存消耗对实时基于核跟踪算法影响较大。因此，一系列核密度估计法被用来做在线基于核跟踪。

4.3 Subspace Learning-Based Generative Appearance Models (SLGAMs)

在视觉目标跟踪中，一个目标通常关联几个下属子空间，每个子空间都由一个基础模板集合扩张而成。出于方便，用t表示目标，（a1,a2,…,an）表示由一个下属子空间组成的基础模板。数学上，目标t可以被线性表示成：
这里写图片描述
其中，（c1,c2,…,cn）是协方差向量。因此，通过多种子空间分析技术，SLGAMs集中于如何高效获得这些下属空间和它们关联的基础模板。例如，利用特征值分解或线性回归，还有其他构造多个子空间去对目标外观分布特性建模的方法。根据子空间分析所使用的技术，可以被分为两类：
（i）线性子空间模型：
（ii）非线性子空间模型：

4.3.2 Unconventional Subspace Models
一般说来，非传统的子空间模型也可以被用来视觉目标跟踪。严格意义上，他们可以被分为四类：
（i）稀疏/非稀疏表示：
（ii）自回归建模：
（iii）多子空间学习：
（iv）主动外观建模：

4.3.3 Discussion
低次序线性子空间模型（LSMs）常常学习基于向量的视觉表示法去做视觉目标跟踪。为了跟踪高效性，几个渐进的LSMs（增长PCA）被用于在线视觉目标跟踪。由于基于向量的视觉表示法受小样本数目限制，研究学者们构造更高次序的基于矩阵或基于张量的视觉表示法。然而，这些LSMs可能假设目标外观样本依赖于下属线性多样性。实际上，这种假设常常不成立因为复杂的外在/内在外观变化。受到这种考虑激发，非线性子空间模型发展起来。然而，非线性子空间模型的问题是由于非线性子空间的学习（非线性降维）导致了其计算量消耗大。

最近几年，非传统的子空间模型被设计用于视觉目标跟踪中。这些模型可能加强了在线性表达解决方法上的稀疏约束，也可能在子空间属性上有不同假设。然而，这种具有稀疏约束的线性表示法通常引起高的预测复杂度，为了实时跟踪效果，研究学者们想出了一个有效的预测方法（APG和OMP）。抛开传统单子空间假设，二子空间或三子空间算法被设计用来更精确地对目标样本分布多样性建模，但代价是额外的计算消耗。

4.4 Boosting-Based Discriminative Appearance Models
在上个世纪，基于boosting的判别外观模型（BDAMs）因其强大的判别学习能力被广泛用于视觉目标跟踪中。根据它们采用的学习策略，可以被分为自学习和联合学习BDAMs。通常，自学习BDAMs利用单个来源的判别信息去指导目标/非目标分类任务，而联合学习BDAMs为了目标检测去探索多来源的判别信息。更具体来说，自学习BDAMs首先从之前的图像帧数据训练一个分类器，然后使用训练好的分类器去估计当前帧中可能的目标区域。目标定位之后，称为正样本和负样本的集合被选择用于更新分类器。这些正负样本由之前训练好的分类器做标签。由于跟踪的误差，在跟踪过程中的训练样本可能由噪声污染。因此，训练样本的标签是不可依赖的。随着跟踪进程的推进，跟踪误差可能会累积，导致漂移问题。相对的，联合学习BDAMs常常为了目标/非目标的分类（通过建立多个分类器）选择一个半监督的策略。

另一方面，BDAMs在视觉表示中也使用不同的策略，单实例和多实例。单实例的BDAMs需要精确的目标定位。如果不能获得一个精确的目标定位，这些跟踪算法将会使用欠佳的正样本去更新它们对应的目标或非目标判别分类器，可能导致模型漂移问题。更多的，目标检测或跟踪有其固有的不确定性，也就是，对于人工标定来说精确的目标定位也可能是不确定的。为了解决这个不确定问题，多实例BDAMs通过在跟踪目标周围使用一系列图像块，来表示一个目标。因此，它们可以被进一步分为单实例或多实例的BDAMs。

4.4.1 Self-Learning Single-Instance BDAMs
（i）传统的BDAMs：
（ii）基于动态集成的BDAMs：
（iii）对噪声不敏感的BDAMs：
（iv）基于粒子滤波一体化的BDAMs：
（v）基于传输学习的BDAMs：

4.4.2 Co-Learning Single-Instance BDAMs
通常，自学习BDAMs由于他们使用的自学习策略产生的误差积累而受到模型漂移的问题。为了解决这个问题，研究学者们在视觉目标跟踪中采用半监督学习技术[Zhu 2005]。例如，Grabner et al.[2008] 研究了一种基于半监督在线boosting的BDAM算法。其主要思想是根据先前的和在线分类器，以半监督的方式公式化更新boosting的进程作为融合决策，如Fig 15。随后，Liu et al.[2009]利用联合训练策略去在线学习在boosting中的每个弱分类器而不只是最终的强分类器。联合训练策略动态产生一系列没有标签的样本，用于给弱分类器逐步的调整，增强了对于环境变化的鲁棒性。这证实了联合训练策略可以最小化理论中的boosting误差边界。

这里写图片描述

4.4.3 Multi-Instance BDAMs
为了解决目标定位的潜在歧义，多实例学习被用于目标跟踪中，如Fig 16。原则上，它使用围绕在跟踪器位置附近的一系列图像块来表示目标。

这里写图片描述

（i）自学习多实例BDAMs：
（ii）联合学习多实例BDAMs：

4.4.4 Discussion
由上，BDAMs可以被大致分类成基于自学习和基于联合学习。基于自学习的BDAMs采用自学习策略训练目标/非目标分类器。它们利用之前学习过的分类器去是选择正负样本，然后根据这些样本更新当前分类器。因此，跟踪误差可能逐渐积累。为了解决这个问题，基于联合学习的BDAMs被用于从许多没有标签的样本的每一帧中捕捉判别式的信息。它们通常采用半监督联合学习技术，以交错的方式使用有标签和没有标签的样本去更新分类器，产生更鲁棒的跟踪结果。

另一方面，传统的BDAMs在视觉表示中采用单实例的策略，即一个图像块对应一个目标。这个方法的缺点在于过分依赖准确的目标定位，如果没有这个条件，其跟踪效果将会大幅降低因为不理想的训练样本的选择。为了解决这个问题，MIL在视觉目标跟踪中被使用。它将目标定位中潜在歧义考虑在内，用一系列跟踪器附近图像块来表示目标。因此，基于MIL的跟踪算法可以达到鲁棒的跟踪结果，但是如果图像块不能准确的捕获目标外观信息将会不准。

然而，所有的BDAMs都需要构造一个庞大的局部特征池供特征选择，导致了低计算速度。另外，因为他们更关心局部特征，而非全局特征，所以它们常常是获得一个局部最优解决方法在目标跟踪中。

4.5 SVM-Based Discriminative Appearance Models(SDAMs)
最近，随机学习技术（例如随机森林[Breiman 2001; Shotton et al. 2008; Lepetit and Fua 2006]和随机蕨[Ozuysal et al. 2009]）被成功地引入视觉群体中。原则上，随机学习技术可以通过完成随机输入选择和随机特征选择构建一个多样的分类器集成。对比于boosting和SVM，它们计算更有效而且更简单地延续处理多类学习问题。特别地，它们可以并行化处理，因此多核和GPU应用（例如[Sharp 2008]）可以被用于极大地减小运行时间。然而，它们的跟踪效果在不同场合是不稳定的，因为它们是随机选择特征的。

受随机学习的启发，种种RLDAMs在视觉目标跟踪中被设计出来，包括在线随机森林[Saffari et al. 2009; Santner et al. 2010]，随机朴素贝叶斯分类器[Godec et al. 2010]，以及MIForests[Leistner et al. 2010]。举个例子，Godec et al. [2010]改良了一个基于在线随机朴素贝叶斯分类器上视觉目标跟踪算法。因其低计算量和内存消耗，改良后的跟踪算法拥有强大的实时性对于长时间的视频序列。对比于在线随机森林[Saffari et al. 2009]，随机朴素贝叶斯分类器在训练阶段拥有更高的计算效率和更快的收敛性。更多的，Leistner et al. [2010]呈现了一个称为MIForests的RLDAM，它使用多实例学习去构造随机树并且把在目标袋中隐藏的类标签描述为随机变量。

4.7 Discriminant Analysis-Based Discriminative appearance Models(DADAMs)
判别式分析在监督子空间学习中是一个有效的工具。原则上，它的目标是找一个拥有高内部分离性的低维子空间。根据使用过的学习方式，可以分为两个分支：传统判别式分析和图形驱动判别式分析。通常来说，传统DADAMs 建立在向量空间上，而图形驱动DADAMs则利用图形来监督子空间学习。

4.7.1 Conventional DADAMs
通常，传统DADAMs可分为以下两个主要分支：

（i）单峰DADAMs：
（ii）多峰DADAMs：

4.7.2 Graph-Driven DADAMs
研究学者们利用普通的基于图形的判别式学习（例如图形集成和图形直推式学习）在视觉目标跟踪中构造一系列DADAMs。通常，这些DADAMs主要有以下两个分支：

（i）基于图形集成的DADAMs：
（ii）基于图形直推式学习的DADAMs：

4.7.3 Discussion
DADAMs目标是学习一个超平面决策，从背景类中分离出目标类。然而，当目标类和背景类都具有多峰统计分布时，传统的DADAMs表现较差。为了克服这个限制，采用多峰判别式分析，通过数据聚蔟的方式去探索训练数据的分布。为了构造一个传统DADAMs的非线性拓展，基于图形的DADAMs应运而生。这些DADAMs尝试将判别式分析公式化为图形学习，例如图形集成和图形直推式学习。然而，这些算法的缺点是需要保持大量有标签/没有标签的样本用于图形学习，导致在实际跟踪应用中的不可行性。

4.8 Codebook Learning-Based Discriminative Appearance Models(CLDAMs)
原则上，CLDAMs需要构造前景和背景的码书去自适应捕获前景和背景的动态外观信息。最近Yang et al. [2010a]使用两种不同的特征，RGB和LBP特征，构造了两个图像块码书，使其在处理遮挡，缩放和旋转情景中有较好鲁棒性。为了捕获更多的判别式信息，一种根据类别自适应的码书[Gall et al. 2010]被用于实力跟踪中。这种码书将在目标部分的外观和空间分布信息编码，并且可以以一种概率的方式（例如目标实例的概率投票）转化成一种更针对实例的码书。受根据检测跟踪的思想启发，Andriluka et al.[2008]建立了针对目标的码书，由一系列训练图像提取出的聚蔟局部特征（例如形状内容特征描述子和Hessian-Laplace兴趣点）构成。这些码书接着会被植入基于部分模型的行人检测中。

因此，CLDAMs常常不仅从背景中考虑判别式信息，还从其它目标实例中看。然而，给不同的场景或目标构造通用的码书是非常困难的。因此，为不同场景或目标收集不同训练样本是必须的，导致实际中的不变性。另外，确定码书的大小也是个难题。

4.9 Hybrid Generative-Discriminative Appearance Models(HGDAMs)
如Ulusoy and Bishop[2005]所讨论，产生式的和判别式的模型有它们自己的优点和缺点，并且在某种程度上是互补的。因此，在视觉目标跟踪中设计多种混合产生式-判别式模型来结合两者的优点需要花费很多功夫。这些混合产生式-判别式模型目的是用单层或多层的方法结合产生式和判别式模型。

4.9.1 HGDAMs via Single-Layer Combination
通过单层结合的HGDAMs目的是讲产生式和判别式模型融合在同一层中。它们尝试融合两者的置信度来产生更好的跟踪结果而不只是单独地使用它们。通常，它们有两种结合的机制：

（i）通过决策级融合的HGDAMs：
（ii）通过中间级融合的HGDAMs：

4.9.2 HGDAMs via Multilayer Combination
原则上，通过多层融合的HGDAMs目标是在多个层中结合产生式和判别式模型的信息。通常，这样的HGDAMs可以被分为两类：

（i）通过顺序结合的HGDAMs：
（ii）通过交叉结合的HGDAMs：

0 0