Tracking算法学习之mean-shift——Robust Scale-Adaptive Mean-Shift for Tracking

来源：互联网发布：企业报表软件编辑：程序博客网时间：2024/06/04 22:48

原文地址：【http://www.sciencedirect.com/science/article/pii/S0167865514001056】
一、传统的Mean-Shift
原文地址：【http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1195991&tag=1】
个人理解（可能存在偏差，会不断改进）：
Mean-Shift算法用于tracking时，通过最小化两个概率密度函数之间的距离来进行，是一种非参数技术。
对于模板中的目标，即target model，颜色直方图表示为
这里写图片描述

对于u从1到m，表示的是颜色直方图的bin，这里将三通道彩色图像化为16x16x16个bin，每个bin代表像素值区间为16的长度，如0到15，16到31…等。即m=16x16x16。每一个qu，表示的是之后根据该像素点对应的坐标位置而计算出来的权值weights的累加和。
即
这里写图片描述
这里的c表示的是对该直方图进行归一化的系数。其中为

这里的核函数k(x)是Epanechnikov，即：
这里写图片描述

这里的cd表示的是d维空间中的单位球体的体积，对应于图像来说，d=2，cd就是单位圆面积。
后面还要用到的g(x)是k(x)的一阶导数，即g(x)=-2/π或0。

对于下一帧图像，即待求候选目标target candidate，颜色直方图表示为
这里写图片描述
对于各字母代表的含义与上述基本相同。只是在对candidate求直方图时，因为目标位置和尺度可能变化，所以对应于candidate的中心点，就不再默认为原来的中心点（原来的模板目标框中中心点位置设为原点），并且尺度有了而一个h因子的变化。所以对于每一个bin的值的求解方程变为：
这里写图片描述
这里的ch即为对该直方图进行归一化的系数。

上述两式得到了两帧图像中目标的表示，判断这两个区域表示的是否为同一目标，就要比较这两者之间的相似性。文中采用了巴氏距离来说明两个直方图（有通过归一化系数的计算将直方图规范为和为1的概率分布）之间的相似性。

通过对巴氏距离的公式的泰勒展开，能够得到一个复杂的公式（不太懂），如下：
这里写图片描述

将一部分表达式作为之后的以wi表示的权值，得
这里写图片描述

其中，这里写图片描述

通过上述求出的权值wi就可以求出下一个位置的中心坐标，即
这里写图片描述

整个的算法如下：
这里写图片描述

【尺度】
该算法中提出，对于每次的尺度变化，使用一个10%的上下浮动，即对于每次的计算，都计算三次得三个不同的h值，然后比较选择出最好的那个。三个h分别是：这里写图片描述，，，这里的△h为。

但是实际上，该算法在目标尺度变化的时候处理并不好，因此Tomas等人发表了Robust Scale-Adaptive Mean-Shift for Tracking，对于在使用mean-shift算法进行tracking时的尺度变化问题进行了改进。
值得注意的是，传统的mean-shift在计算k(x)核函数的时候，使用的是isotropic的，即首先根据图像的大小，设置两个scaling系数，来对图像进行rescale，使其尽量接近正圆（单位圆），然后再对其进行核函数及之后的weight值计算。由于整体进行rescale，所以不会丢失目标特征信息。

在改进的算法Robust Scale-Adaptive Mean-Shift for Tracking中，与传统的而不同首先体现在，计算的目标区域是anisotropic的，即直接使用了目标区域的椭圆形特征，因此，对于颜色直方图（概率密度函数）的计算有了一些区别。

对于模板中目标的颜色直方图，即target model中
这里写图片描述
这里的核函数的参数相比之前有了变化，变成了长短轴分别为a,b（分别为矩形目标区域的长宽的一半）的椭圆区域。C同样为归一化系数。

对于target candidate，颜色直方图的分布为：
这里写图片描述
与传统方法的定义类似，y1，y2分别是目标区域中心点的横纵坐标，a，b对应的是原本模板中的长短轴，h是目标区域的尺度变化因子。Ch为归一化系数。给定了核函数k(x)和h，就可以通过下列公式求出Ch（没看懂这个公式的推导）：
这里写图片描述

得出这里写图片描述

下一步是计算两个概率密度之间的相似度，也是采用的巴氏距离的方法
这里写图片描述

和经典的mean-shift一样，定义wi如下（实际上后面采用了别的方式计算，并没有使用该公式）：
这里写图片描述

定义G如下：
这里写图片描述

对应着经典mean-shift对下一中心位置y1的求解时的分母，可以往上看对比一下O(∩_∩)O~。算法的思想与经典的有所改变。

下面定义了一个mk，我理解的该变量表征的是由初始位置向正确位置移动的向量，
这里写图片描述
这里

然后经过一些求导推导（没太懂。。。），如下
这里写图片描述

然后就能得到下一位置y1的表达和尺度h1的表达：
这里写图片描述

以上是该算法对于下一帧中目标的位置和尺度的求解。

【改进之处】：
一、背景像素加权来求目标的概率密度。主要思路是首先对划定的目标区域提取histogram；然后对抠出目标的背景区域提取histogram，并根据一定规则将背景histogram转化为权值；然后将目标histogram和背景的histogram相乘，得到加权的目标区域histogram，作为target model的最终概率密度。
在求取wi的时候也是利用了这一结果。
这里写图片描述
二、定义了两个规范化值b1，b2用于限定尺度变化大小和背景加权比例。

0 0