Kernelized Correlation Filters (KCF) Tracking算法

来源：互联网发布：反美颜的软件编辑：程序博客网时间：2024/06/05 06:51

Correlation Filter-based Tracking Frame

Discriminative Correlation Filter（DCF），即判别相关滤波器，是Visual Tracking领域应用最为广泛的跟踪算法。其核心思想是：由于每一帧中被良好检测的目标都提供了描述该目标的信息，因此完全可以通过用每一帧中的目标区域作为训练样本来进行模型的训练，具体做法是通过已经跟踪的若干帧中目标的位置，提取出我们关心的特征，训练出一个滤波器模板，对于新帧中可能的目标区域，提取出该区域特征，与滤波器模板作相关，根据相关值得到在新帧中目标的预测位置，并在以该位置为中心提取出特征，反过来进一步训练滤波器模型，并重复上述步骤进行后续的目标跟踪与模型训练。通过这种方法，就实现了模型的在线训练与目标的实时跟踪。

Adaptive Correlation Filters

Minimum Output Sum of Squared Error (MOSSE)

Minimum Output Sum of Squared Error (MOSSE) developed by Bolme et al.的提出极大地改善了相关滤波器跟踪算法的performance，在提升精度的同时降低了求解的复杂度。

t个目标区域样本分别为f1,f2,⋯,ft，通过滤波器ht，期望输出gi（通常为二维高斯函数，峰值位于目标区域中心），最小化均方误差：

ε = \sum j = 1 t | | h t ⋆ f j - g i | | 2 = 1 M N \sum j = 1 t | | H ¯ ¯ ¯ t F j - G j | | 2

对

Ht求导，令导数为0，得：

H t = \sum t j = 1 G ¯ ¯ ¯ j F j \sum t j = 1 F ¯ ¯ ¯ j F j

对于t+1帧，假设其在第t帧的目标区域内提取得到特征图z，那么计算ht与z的相关值

y = F - 1 {H ¯ ¯ ¯ t Z}

y的最大值的位置即被认为是t+1帧中目标区域的中心点.

我们保持目标区域尺寸不变，将其中心点进行移动相应位置，就得到了在新帧中的目标区域。对该区域进行特征提取，然后加入到训练集中对模型进行更新得到ht+1后，即可进行下一帧
中的目标检测了。

在实际的tracking过程中，一般使用如下方法来更新模型:

A 1 B 1 A t B t H t = = = = = G ¯ ¯ ¯ 1 F 1 F ¯ ¯ ¯ 1 F 1 (1 - η) A t - 1 + η G ¯ ¯ ¯ t F t (1 - η) B t - 1 + η F ¯ ¯ ¯ t F t A t B t

其中η为学习率。

缺点

只使用了灰度作为特征，模型所使用的特征维数太低，难以很好地反映目标的特性。
只估算了目标区域中心点在帧间的平移运动，而没有考虑目标在运动过程中反映在画面上的尺度变化，在目标尺度发生改变时难以适应。

Discriminative Scale Space Tracking Filter (DSST)

对MOSSE的改进：

使用fHoG替代灰度（通常fHoG为31dims，而DSST实际使用28dims）
考虑目标尺度变化

不考虑尺度变化
只考虑单个目标，设特征维数为d，则特征图可记作fl,l=1,2,⋯,d。滤波器应和特征图匹配，误差函数：

ε = | | \sum l = 1 d h l ⋆ f l - g | | 2 + λ \sum l = 1 d | | h l | | 2

引入λ项是为了控制滤波器频域参数求解过程中的避免除0，另一方面也可以控制滤波器参数变化范围，λ越小，滤波器参数变化范围越大。

对上式做傅里叶变换，求导，令导数为0，得：

H l = G ¯ ¯ ¯ F l \sum d k = 1 F k ¯ ¯ ¯ ¯ F k + λ

在实际操作中，可以用下式更新模型：

A l t B t H l t = = = (1 - η) A l t - 1 + η G ¯ ¯ ¯ t F l t (1 - η) B t - 1 + η \sum k = 1 d F k t ¯ ¯ ¯ ¯ F k t A l t B t + λ

新帧预测：

y = F - 1 {\sum d l = 1 A l t ¯ ¯ ¯ ¯ Z l B t + λ}

考虑尺度变化
滤波器和特征图由d×M×N改为d×M×N×S，S = num of scales，即构造金字塔。这导致复杂度增大为O(dMNS×logMNS)。

改进思路，两组滤波器模板：

d个大小为M×N的二维位置滤波器
d×M×N个大小为S的一维尺度滤波器

位置滤波器的训练方法同前，而尺度滤波器则是在确定了目标区域中心后，对于尺度因子s，提取出其对应区域的d个M×N的二维矩阵后，将其拉成一条向量，作为尺度因子s下的d×M×N维特征，构成尺度滤波器。

完整算法

估算位置
- 在帧It中根据前一帧的位置pt−1 和尺度因子st−1划定区域提取特征zlocat
- 在zlocat与位置滤波器Alocat−1,Blocat−1做相关得到ylocat
- 将ylocat最大值点设为当前帧的目标中心pt
估算尺度
- 在帧It中根据位置pt和前一帧的尺度因子st−1划定区域，缩放后得到S个区域，提取特征zscalet
- 将征zscalet与尺度滤波器Ascalet−1,Bscalet−1做相关得到yscalet
- 将yscalet最大值点设为当前帧的目标尺度st
更新模型
- 在帧It中根据估算出的位置pt和尺度st划定区域提取特征，得到flocat和fscalet
- 更新位置滤波器得到Alocat,Blocat
- 更新尺度滤波器得到Ascalet,Bscalet

复杂度O(dMN×logMN+dMNS×logS)

缺点

难以适应大幅度形变、遮挡等
循环卷积边缘效应

SRDCF对此做出了改进。

Kernelized Correlation Filters

The overall performance may be limited because the MOSSE filters can be viewed as simple linear classifiers. By taking advantage of kernel trick, correlation filters are supposed to be more powerful.

Building Blocks

Linear Regression

考虑：

min w \sum t (f (x i) - y i) 2 + λ \cdot | | w | | 2

λ是一个控制过拟合的参数，则

w的解为：

w = (X T X + λ I) - 1 X T y

在复数域中，上是中的转置（T）替换为共轭转置（H）。

Circulant Matrices

仅考虑一维单通道信号x的情形，二维可以类推。x的轮换矩阵为：

X = C (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x n x n - 1 ⋮ x 2 x 2 x 1 x n ⋮ x 3 x 3 x 2 x 1 ⋮ x 4 \dots \dots \dots ⋱ \dots x n x n - 1 x n - 2 ⋮ x 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

轮换矩阵

X有一个重要性质：

X = F diag (x^) F H

其中

F是DFT矩阵（constant），

x^=F(x)。

Putting it all together

考虑XHX：

X H X = = F diag (x^*) F H F diag (x^) F H F diag (x^*) diag (x^) F H

定义

⊙为element-wise product，则上式可表示为：

X H X = F diag (x^* ⊙ x^) F H

Linear regression的解的傅里叶变换可以表示为：

w^= diag (x ^ * x ^ * ⊙ x ^ + λ) y^= x ^ * ⊙ y ^ x ^ * ⊙ x ^ + λ

Non-linear Regression

Kernel Trick

将线性问题转换为ϕ(x)空间中的非线性问题可以使用核函数，即：

将解w表示为ϕ(x)的线性组合：
$w = \sum i α i ϕ (x i)$
求解w的过程变为对偶空间（Dual Space）中求解α的过程。
将点积表示为：
$ϕ T (x) ϕ (x') = κ (x, x')$

核函数不需要给出高维空间中的向量的具体表达式，就可以实现从低维到高维的映射。

Fast Kernel Regression

核函数回归在对偶空间的理论解：

α = (K + λ I) - 1 y

其中

Ki,j=κ(xi,xj)。

定理：Kernel Matrix K轮回的条件: 给定轮换矩阵C(x)，如果核函数对任意的置换阵M均满足κ(x,x′)=κ(Mx,Mx′)，那么相应的核矩阵K也是轮回的。

满足上述定理的核函数有：

Ridial Basis Function kernels - e.g., Gaussian.
Dot-product kernels - e.g., linear, polynomial.
Additive kernels - e.g., intersection, χ2 and Hellinger kernels.
Exponentiated additive kernels.

这时可以将α在频域的解表示为：

α^= y ^ k ^ x x + λ

其中

kxx是kernel matrix

K=C(kxx)的第一行，其物理意义是

k x x' i = κ (x', P i - 1 x)

的傅里叶变换。

Fast Detection

我们希望评估的image patch为z，则kernel matirx：

K z = C (k x z)

其中

kxz是

x, z的kernel correlation。
回归函数：

f (z) = (K z) T α

它等价于：

f^(z) = k^x z ⊙ α^

Fast Kernel Correlation

Radial Basis Function and Gaussian Kernels

RBF kernels通常具有下列形式：

k x x' i = κ (x', P i - 1 x) = h (| | x' - P i - 1 x | | 2) = h (| | x | | 2 + | | x' | | 2 - 2 x' T P i - 1 x)

由于置换阵不影响

x的模，因此可以写成：

k x x' = h (| | x | | 2 + | | x' | | 2 - 2 F - 1 (x^* ⊙ x^'))

特别地，高斯核：

k x x' = exp (- 1 σ 2 (| | x | | 2 + | | x' | | 2 - 2 F - 1 (x^* ⊙ x^')))

Dot-product and Polynomial Kernels

To be continued.

Multiple Channels

A dotproduct can be computed by simply summing the individual dot-products for each channel. By linearity of the DFT, this allows us to sum the result for each channel in the Fourier domain.

以高斯核为例：

k x x' = exp (- 1 σ 2 (| | x | | 2 + | | x' | | 2 - 2 F - 1 (\sum c x^* c ⊙ x^' c)))

Algorithms

实际使用中，Tracking模板的更新可以用学习率控制，参考Danelljan, Martin, et al. “Adaptive color attributes for real-time visual tracking.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014.

α p = \sum p j = 1 β j y ^ j u ^ j x \sum p j = 1 β j u ^ j x ( u ^ j x + λ )

分子和分母

αp=ApNApD分别按下述策略更新：

A p N A p D x^p = = = (1 - γ) A p - 1 N + γ y^p u^p x (1 - γ) A p - 1 D + γ u^p x (u^p x + λ) (1 - γ) x^p - 1 + γ x^p

Experiments

Benchmark: Y. Wu, J. Lim, and M. H. Yang, “Online object tracking: A benchmark,” in CVPR, 2013.

KCF=Gaussian Kernel
DCF=Linear Kernel

Detection-Tracking System

The Combinition of Detection & Tracking

Target Lost

定义：Peak to Sidelobe Ratio (PSR): 设滤波器模板与目标区域特征作相关后得到响应为G，其最大值为Gmax，以Gmax的位置中心11×11的区域内响应平均值为μ，方差为σ2，则PSR=Gmax−μσ2。

一般而言，当目标区域和模型较为相符时，PSR>20；而PSR<10时基本可以认为目标已经丢失。

问题：: 仍然缺少自动学习PSR阈值的相关算法。

Re-detection

当目标丢失、重新detect时，对于得到的所有候选区域，用原先的tracking模板与候选区域逐个作相关，取响应值最大值最大的候选区域，若候选区域的PSR大于跟踪时的PSR阈值，则可以认为原先跟踪的目标区域已经重新出现。

Anti-deformation

KCF略优于DSST。

问题：: 可以通过调整核函数的参数，提高Anti-deformation的能力，但是会造成跟踪到错误的目标，通过Colorname Distance解决？

Scale Estimation

KCF只能实现位置追踪，不能估计尺度变化，目前有两种解决方案：

使用DSST Scale Estimator（Danelljan, Martin, et al. “Accurate scale estimation for robust visual tracking.” British Machine Vision Conference, Nottingham, 2014.）。
构建一个三层的金字塔，分别是scale变大、不变、变小，和tracking模板做相关，取最大的Response峰值（或PSR）对应的scale。

后者在scale快速变化时会出现斜率过载，但速度快于DSST Scale Estimator （33 scale proposals）。

问题：: 更好的Scale估计方法？

0 0