Tracking算法学习之mean-shift——Robust Scale-Adaptive Mean-Shift for Tracking

来源:互联网 发布:企业报表软件 编辑:程序博客网 时间:2024/06/04 22:48

原文地址:【http://www.sciencedirect.com/science/article/pii/S0167865514001056】
一、传统的Mean-Shift
原文地址:【http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1195991&tag=1】
个人理解(可能存在偏差,会不断改进):
Mean-Shift算法用于tracking时,通过最小化两个概率密度函数之间的距离来进行,是一种非参数技术
对于模板中的目标,即target model,颜色直方图表示为
这里写图片描述

对于u从1到m,表示的是颜色直方图的bin,这里将三通道彩色图像化为16x16x16个bin,每个bin代表像素值区间为16的长度,如0到15,16到31…等。即m=16x16x16。每一个qu,表示的是之后根据该像素点对应的坐标位置而计算出来的权值weights的累加和

这里写图片描述
这里的c表示的是对该直方图进行归一化的系数。其中这里写图片描述
这里写图片描述

这里的核函数k(x)是Epanechnikov,即:
这里写图片描述

这里的cd表示的是d维空间中的单位球体的体积,对应于图像来说,d=2,cd就是单位圆面积。
后面还要用到的g(x)是k(x)的一阶导数,即g(x)=-2/π或0。

对于下一帧图像,即待求候选目标target candidate,颜色直方图表示为
这里写图片描述
对于各字母代表的含义与上述基本相同。只是在对candidate求直方图时,因为目标位置和尺度可能变化,所以对应于candidate的中心点,就不再默认为原来的中心点(原来的模板目标框中中心点位置设为原点),并且尺度有了而一个h因子的变化。所以对于每一个bin的值的求解方程变为:
这里写图片描述
这里的ch即为对该直方图进行归一化的系数。
这里写图片描述

上述两式得到了两帧图像中目标的表示,判断这两个区域表示的是否为同一目标,就要比较这两者之间的相似性。文中采用了巴氏距离来说明两个直方图(有通过归一化系数的计算将直方图规范为和为1的概率分布)之间的相似性。

通过对巴氏距离的公式的泰勒展开,能够得到一个复杂的公式(不太懂),如下:
这里写图片描述

将一部分表达式作为之后的以wi表示的权值,得
这里写图片描述

其中,这里写图片描述

通过上述求出的权值wi就可以求出下一个位置的中心坐标,即
这里写图片描述

整个的算法如下:
这里写图片描述

【尺度】
该算法中提出,对于每次的尺度变化,使用一个10%的上下浮动,即对于每次的计算,都计算三次得三个不同的h值,然后比较选择出最好的那个。三个h分别是:这里写图片描述这里写图片描述这里写图片描述,这里的△h为这里写图片描述

但是实际上,该算法在目标尺度变化的时候处理并不好,因此Tomas等人发表了Robust Scale-Adaptive Mean-Shift for Tracking, 对于在使用mean-shift算法进行tracking时的尺度变化问题进行了改进。
值得注意的是,传统的mean-shift在计算k(x)核函数的时候,使用的是isotropic的,即首先根据图像的大小,设置两个scaling系数,来对图像进行rescale,使其尽量接近正圆(单位圆),然后再对其进行核函数及之后的weight值计算。由于整体进行rescale,所以不会丢失目标特征信息。

在改进的算法Robust Scale-Adaptive Mean-Shift for Tracking中,与传统的而不同首先体现在,计算的目标区域是anisotropic的,即直接使用了目标区域的椭圆形特征,因此,对于颜色直方图(概率密度函数)的计算有了一些区别。

对于模板中目标的颜色直方图,即target model中
这里写图片描述
这里的核函数的参数相比之前有了变化,变成了长短轴分别为a,b(分别为矩形目标区域的长宽的一半)的椭圆区域。C同样为归一化系数。

对于target candidate,颜色直方图的分布为:
这里写图片描述
与传统方法的定义类似,y1,y2分别是目标区域中心点的横纵坐标,a,b对应的是原本模板中的长短轴,h是目标区域的尺度变化因子。Ch为归一化系数。给定了核函数k(x)和h,就可以通过下列公式求出Ch(没看懂这个公式的推导):
这里写图片描述

得出这里写图片描述

下一步是计算两个概率密度之间的相似度,也是采用的巴氏距离的方法
这里写图片描述

和经典的mean-shift一样,定义wi如下(实际上后面采用了别的方式计算,并没有使用该公式):
这里写图片描述

定义G如下:
这里写图片描述

对应着经典mean-shift对下一中心位置y1的求解时的分母,可以往上看对比一下O(∩_∩)O~。算法的思想与经典的有所改变。

下面定义了一个mk,我理解的该变量表征的是由初始位置向正确位置移动的向量,
这里写图片描述
这里
这里写图片描述

然后经过一些求导推导(没太懂。。。),如下
这里写图片描述
这里写图片描述

然后就能得到下一位置y1的表达和尺度h1的表达:
这里写图片描述

以上是该算法对于下一帧中目标的位置和尺度的求解。

【改进之处】:
一、背景像素加权来求目标的概率密度。主要思路是首先对划定的目标区域提取histogram;然后对抠出目标的背景区域提取histogram,并根据一定规则将背景histogram转化为权值;然后将目标histogram和背景的histogram相乘,得到加权的目标区域histogram,作为target model的最终概率密度。
在求取wi的时候也是利用了这一结果。
这里写图片描述
二、定义了两个规范化值b1,b2用于限定尺度变化大小和背景加权比例。

0 0
原创粉丝点击