A tracking survey

来源：互联网发布：oracle数据库账号密码编辑：程序博客网时间：2024/05/21 16:58

原文：【Visual Tracking: An Experimental Survey】
首先将tracking的方法分为五大类：
一、利用模板匹配进行tracking（tracking using matching）

算法主要思想对应论文NCC（Normalized Cross-Correlation）1.以初始目标框中的像素亮度值作为模板。2.后续帧从前一帧目标的周围位置中选出一些候选窗口，分别与目标模板进行匹配（匹配算法为NCC）。3.匹配得分最高的作为目标位置。K. Briechle and U. D. Hanebeck, “Template matching using fast normalized cross correlation,” in Proc. SPIE, vol. 4387. 2001, pp. 95–102.（该论文中在后续的tracking中没有对模板进行更新。）KLT（Lucas-Kanade Tracker）利用仿射变换匹配。（仿射变换是通过基于时间空间求导和warp的增量图像对齐（incremental image alignment）来实现的。）通过对前一帧的目标框位置进行仿射变换，得到目标在本帧内的位置。（目标是在不断更新的。）S. Baker and I. Matthews, “Lucas-Kanade 20 years on: A unifying framework,”IJCV, vol. 56, no. 3, pp. 221–255, 2004.KAT（Kalman Appearance Tracker）利用目标外观预测匹配。1．目标区域用20x20的模板亮度来表示，每一个模板亮度都经过一定参数的卡尔曼滤波处理。经过高斯噪声模型的加成，该滤波能够预测每一个模板量度随着时间的变化。（应该是这样就得到了对目标的外观（特征）的预测。）2．目标的运动被预测为一个单一尺度的2维平移运动，候选窗口位置在上一帧目标周围选取。3．对预测到的目标的位置的周围位置进行采样，也处理成20x20的窗口，然后和1中预测的目标特征进行匹配。总体差异最小的即为该帧中目标所在。（目标模板用最新的（预测得到的）目标来不断更新。）H. T. Nguyen and A. W. M. Smeulders, “Fast occluded object tracking by a robust appearance filter,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 26, no. 8, pp. 1099–1104, Aug. 2004.FRT（Fragments-based Robust Tracking）将目标边界框内的数据分成碎片，然后后续对所有碎片进行匹配（该策略能够有效解决部分遮挡和目标姿态变化的问题）。1.将目标边界框内图像数据分为20个碎片，每个碎片用亮度直方图表示其特征。2.后续帧从前一帧目标位置周围选择一些候选窗口（存在10%的尺度变化），并将每个候选窗口都分成20个碎片，每个碎片和目标区域的对应碎片比较，计算其距离（这里用的是地面移动距离？）。3.得分占前25%的碎片来代表该候选窗口，得分最小的窗口作为本帧中的目标位置。（本算法中目标不更新。）A. Adam, E. Rivlin, and I. Shimshoni, “Robust fragments-based tracking using the integral histogram,” in Proc. IEEE CVPR, Washington, DC, USA, 2006.MST（Mean-Shift Tracking）利用目标像素RGB颜色直方图信息来进行匹配。1.对初始帧得到目标框内的颜色直方图。2.对后续帧计算候选窗口的颜色直方图并利用巴氏距离计算其与目标颜色直方图的差距，然后选择最好的即距离最小的作为本帧的目标位置。（模板不更新。？？？）D. Comaniciu, V. Ramesh, and P. Meer, “Real-time tracking of non-rigid objects using mean shift,” in Proc. IEEE CVPR, Hilton Head Island, SC, USA, 2000.LOT（Locally Orderless Tracking）通过（灵活刚性？？？）1．将初始目标框按照超像素进行分割，每个超像素以其质心和平均HSV像素值进行表示。2．后续帧中，在前一帧目标周围的位置，以高斯加权的粒子滤波来进行候选窗口采样。每一个粒子对应着一个候选窗口，然后在该窗口内进行超像素分割。3．候选窗口和目标窗口之间的超像素进行距离的计算（参数化的地面移动距离），然后对该距离求导，得到每个窗口是本帧目标所在位置的概率。上面的参数就决定了目标的灵活性。4．新的目标状态就是所有窗口的加权似然和。（更新过程是通过噪声模型和地面距离的计算参数来实现的。）D. L. Shaul Oron, Aharon Bar-Hillel, and S. Avidan, “Locally orderless tracking,” in Proc. IEEE CVPR, Providence, RI, USA, 2012.

二、利用扩展的外观模型进行匹配，实现tracking

算法主要思想对应论文IVT（Incremental Visual Tracking）将之前的目标的所有外观（特征）都存储下来，作为特征的扩展模型。由于内存有限，所以不断丢弃老的观察值（每次最旧的特征模型）。1.目标的特征是通过目标亮度值模板的增量PCA（incremental PCA）来计算的。2.后续帧中的候选窗口通过粒子滤波进行采样，范围是上一帧目标附近高斯分布的区域。3.每一个窗口的置信度是其与目标的特征子空间（该子空间内是多个target的亮度特征？那么候选窗口与哪一个比较呢？）的亮度距离，距离最小的被选中为本帧中目标位置。D. A. Ross, J. Lim, and R. S. Lin, “Incremental learning for robust visual tracking,” IJCV, vol. 77, no. 1–3, pp. 125–141, 2008.TAG（Tracking on the Affine Group）将传统的运动模型（平移、尺度变化、旋转）扩展为一个通用的2维仿射矩阵组。目标亮度特征通过增量PCA进行计算。后续帧中的采用利用高斯模型下的仿射矩阵组对目标的所有可能变换进行采样，然后与原目标进行亮度特征比较。J. Kwon and F. C. Park, “Visual tracking via geometric particle filtering on the affine group with optimal importance functions,” in Proc. IEEE CVPR, Miami, FL, USA, 2009.TST（Tracking by Sampling Trackers）通过多个tracker来tracking。每一个tracker都由4个部分组成：一个外观模型，一个运动模型，一个状态表示和一个观察模型。每个部分又被分为一些子部分。目标状态包括中心位置、尺度和空间信息（包括边缘的垂直投影等）。扩展的外观模型中包括前五帧由增量PCA表示的状态特征的目标。【这个实在是没看懂描述，后面可以自己去看一下论文。】E. Maggio and A. Cavallaro, “Tracking by sampling trackers,” in Proc. IEEE ICCV, Barcelona, Spain, 2011, pp. 1195–1202.

三、利用带有约束的匹配进行tracking

0 0