visual tracking------object tracking && video tracking

来源：互联网发布：跳跃网络账号编辑：程序博客网时间：2024/05/16 19:25

key words: motion estimation and compensation , motion analysis，video encode

今天突然有这样的想法：我的研究方向是计算机视觉，但是我这一年来研究的都是在静态场景中，去理解分析，包括opencv处理图像，pcl处理点云，都是静态的，，还没有正经的去处理过动态的，也就是从视频中直接获取想要处理的内容，比如目标检测与跟踪，运动历史及预测轨迹等等。其实，opencv处理对象从内容获取来分类的话，就是两大块：图片和视频。opencv对视频的处理也是很多官方例程的，但pcl处理视频，还是很少的，其实想想是由道理的，若一个视频是由点云序列组成，那是什么视频啊（SLAM实时地图重建应该有吧）。所以接下来的阶段，我会好好借助opencv去处理video，感知video。补充两点，在处理图片时，我就有想把时间维度加进去一起处理的想法，而视频本身就带有时间刻度，应该很好的实现这个想法吧；第二点，就是设计模式方面，大多线下训练学习线上测试（文章结尾上图），但是若有实时要求呢，实时重建，实时处理，结果实时显示，期待达到这样的要求，拭目以待。。。

关于video tracking 请看：http://en.wikipedia.org/wiki/Video_tracking

一个歪果仁的小站，专门做视觉跟踪的 http://www.robots.ox.ac.uk/~gk/

博主简单生活FF ： http://blog.csdn.net/gxf1027/article/category/858368 对视觉跟踪文献进行的整理

研究 H.264的博客地址：http://blog.csdn.net/xiangjiantui/article/details/7871152、

（一）Online Learning for Visual Tracking 转自http://blog.sina.com.cn/s/blog_5138ac890100geha.html

Goal：

在线学习在视觉跟踪中的运用主要是为了解决跟踪目标外观(appearance)变化的问题。目标外观变化的原因可大致归结为两类[1]：一是由于目标本身的变化，比如姿态，形状的变形；另一个原因则是外界所致，包括光照的改变，摄像机的运动及视角的转换，遮挡等等。传统的离线学习(off-line learning) 的方法通过大量的样本训练分类器，然后在线的对目标进行检测与跟踪。因此这对训练样本提出了很高的要求，比如必须包括跟踪目标在各种情况下可能出现的状态；而且即使拥有这样的训练样本，由于它们的变化性太大，也可能很难提出比较好的特征来用于检测或者分类。离线学习的方法则在跟踪的同时，对检测器或者分类器进行更新，使之适应于当前目标的跟踪，通过这样的方式试图去解决在离线学习跟踪中遇到的困难。

Paper Review：(继续跟新中)

R.T.Collins等人提出了一种在线选择跟踪特征的方法[2]. 他们的核心观点是: 视觉跟踪的好坏，取决于跟踪的目标与周围的背景有多大的区分性。如果目标很具有区分行，那么简单的跟踪器也能解决问题。他们选择{w1*R+w2*G+w3*B}, w_*∈{-2,-1,0,1,2}作为特征库，运用在这些特征上目标和背景的分布不同，来对每一个像素进行目标和背景的区分，最后运用meanshift的方法找到目标的位置和尺度。这里，每次只选用N个最具有区分性的特征来对目标进行检测，选择的标准则是该特征能否使目标和背景的分布具有较大的方差距离，类似于Fisher discriminator 。为了防止在跟踪过程model drift，他们选着第一帧和最近几帧的目标和背景情况构建目标及背景分布[p(feature_i | object) , p(feature_i | background)].

H. Grabner [3]等人提出on-line Boosting的方法。它与off-line boosting不同的地方是，在off-line boosting时，利用所有的样本同时去顺序的选择K个弱分类器；而on-line boosting则是每次得到一个样本时，顺序的去训练所有的分类器（分类器分成K个层次），然后再每层上去选着最好的分类器(选择的标准根据该分类器的分类错误率，错误率最小的将被选中)。但on-line boosting的缺陷是不能设定所需的检测率和误检率从而自动的去挑选所需数量的分类器，它已经提前设定为K个弱分类器的叠加(或者比K小)。在[4]中，提出给予多示例学习的boosting方法。他主要考虑的问题是如果跟踪的位置出现不准确的情况，那么此次得到的样本将不准确，而接下来利用该样本的分类器更新过程将导致分类器的性能下降，如此恶性循环，导致目标无法跟踪。而多示例学习将多个样本同时学习，假定这些样本里面只要有一个为正样本，就能学习到正确的结果。因此，即使此次检测的目标位置又偏移，但通过在此目标周围再选取N个样本，这至少会存在一个准确的目标。再将这些样本同时学习，保证分类器的更新不会出现问题。

[1]提出增量学习(incremental learning)，目前还没看太懂，但出发点也是利用在线样本不断地更新分类器。并利用particle filter对目标进行跟踪。

Challenge[5]:

Visual object tracking is one of the classic tasks in computer vision. However, in the general case of tracking any object, tracking remains challenging. The proposed ethz tracker evaluation framework focuses on a well defined sub-problem in visual tracking:

（1）single object tracking

（2）model-free tracking (i.e., only the initial position of the object is known)

An ideal model-free tracking algorithm should be able to track the object of interest accurately, in spite of distraction (e.g., occlusion), while not ending in an unreliable state (e.g., tracking a different object).

Summarizing, the challenge is to track any object which might undergoes various appearance changes by using as little prior information as possible. The method should be robust in the sense of partial and full occlusions, changes in illumination and background clutter.(尽量少的先验、抗遮挡、光照、背景混淆，当然对于非刚体还有形变)

Reference:

[1]. D. A. Ross, J. Lim, R-S Lin, M-H Yang, Incremental Learning for Robust Visual Tracking, No.77, pp:125-141,IJCV 2008.

[2]. R.T. Collins, Yanxi Liu, and M. Leordeanu, Online Selection of Discriminative Tracking Features.

[3]. H Grabner, and H. Bischof, On-line Boosting and Vision, CVPR 2006

[4]. B. Babenko, M-H Yang, and S. Belongie, Visual Tracking with Online Multiple Instance Learning, CVPR 2009.

[5]. http://www.vision.ee.ethz.ch/trackerEvaluation/

（二）运动预测和补偿（Motion Estimation and Compensation)

残留的块数据经过DCT，量子化，entropy coding 压缩成字符串用来存储或传送，其中很多部分能提高压缩度，比如在DCT中转换为波形平面对以后量子化过程提供一些必要的手段，人眼能敏感于低波产生的画面，可对高波产生的画面比较不敏感，这方面的知识请参考有关HVS的文献。可是这些国能都基础是原来数据的大小。那怎么样能把原来数据的大小变小呢？据我到现在学习过程中只有帧内预测和帧外预测，帧内预测诗利用已解码好的单位来预测下一个单位（这里指的单位是一个块），帧外预测是利用影像各个图片的相关性而决定的，比方说前一张和现在的frame有很大的相视性，我们可以利用这个关系来预测当前画面。下面图表示帧内预测和帧外预测。

本章介绍帧外预测和方法。帧外预测可以很大程度的提高压缩率在图片压缩的第一个阶段。可是帧外预测的计算复杂度很高，我看了一些文章那里说复杂度站到整个encoding中的4-50%.所以可以说是压缩的能力取决于帧外预测的计算复杂度。那么决定视频编码能力的要素是以下几个方面。

1.编写代码的能力：怎么查找残留数据？

2.复杂度：算法充分利用已编写好的数据？

3.strorage或延迟：在硬件上有clock的延迟或者是在软件在数据延迟？

4.信息传送问题：帧外预测后产生的矢量要传送给encode吗？传送就用什么方式传送？

在我列出的问题以外还有很多问题，这个要在视频编码中一个个要处理的问题。在讨论问题当中一个就直接就简单的问题是，在压缩理论里你的计算量大就能压缩出很小的大小来，反面你的计算量不够复杂，这会引起很小的压缩比如lossless压缩方法。（压缩力有2中压缩方法一种是loss，另一种是lossless）。

那帧外预测的要求是什么呢？

帧内预测产生一个残留的数据经过参考已编码好的frame（reference frame）。这个frame可以是时间上的已经过的图片，或者是以后要播放的图片。设计的目的是让帧外预测有很高的准确度。经过帧外预测的数据要很小，最好是完全相似。这个取决于计算的复杂度。当一个图片进行帧外预测时他是把当前的frame减去reference frame 把得到的数据经过后面的几个步伐来得到最后的数据来传送。与此同时在encode里还进行decode的工作用来以后的帧外预测使用，因为在decode那一端没有原始数据只能依靠decode来的数据来重现画面。最好的压缩率取决于残留块的大小。

最后上传一些文献中的处理框图主要就是 train-test pipeline：

0 0

visual tracking------object tracking && video tracking

（二） 运动预测和补偿（Motion Estimation and Compensation)

（二）运动预测和补偿（Motion Estimation and Compensation)