运动目标检测——研究现状

来源：互联网发布：淘宝天猫贴吧论坛编辑：程序博客网时间：2024/06/06 02:51

运动目标检测是指通过计算机视觉的方法减除视频中时间和空间上的冗余信息，有效地提取出发生空间位置变化的物体的过程。它一直是一个十分热门的研究领域，在IEEE Xplore上输入“motion detection”进行快速搜索，就会返回18000多篇文献。经过几十年来的研究人员的努力，运动目标检测技术取得了不错的成果，广泛应用于智能监控、多媒体应用等领域。目前，国际上有关该领域研究的权威杂志有：PAMI( Transaction on Pattern Analysis & Machine Intelligence)，IVC( Image and Vision Computing)等，还有一些重要的学术会议：CVPR( IEEE Computer Society Conference on Computer Vision and Pattern Recognition)，ICCV(International Conference on Computer Vision)，ECCV( European Conference on Computer Vision)，IWVS( International Workshop on Vision Surveillance)等。这些年来，根据应用场合、技术方法等方面的不同，学者们提出了众多不同的运动目标检测的方法，以适应复杂多变的环境。

早在上个世纪70年代末，Jain等人在文献[9]中提出了使用帧间差分的方法来提取运动目标。帧差法对包含运动目标的场景有着比较强的鲁棒性，且运算速度快，但该方法一般不能完全检测出运动物体的所有像素点，常常在检测到的运动物体内部出现“空洞”现象，因此该方法适用于简单的运动检测的情况。

针对帧间差分法的不足，学者们提出了一种基于统计学原理的运动目标检测的思路，即：先通过统计学理论建立一个背景模型，再利用背景差分法对运动目标与背景的像素点进行分类。Gloyer等人在文献[10]中就采用了这种思路，背景模型使用中值法建立，即使用连续的N帧图像序列的像素值的中值做为背景模型。但是这种方法耗费内存较大，计算量也不小，而且在光照变化的环境中常常出现偏差。针对这种局限性，1997年Wren等人提出使用单高斯进行背景建模方法^[11]，利用阈值判断像素点是否属于前景。然而，背景通常是复杂的多模情况（如晃动的树叶等），所以使用单高斯模型往往不能准确地描述背景模型。因此，1999年Stauffer等人提出了经典的混合高斯背景建模法^[12]，该方法通常能够很好地适应复杂场景，并通过模型参数的自动计算来调整背景模型，但是由于增加了高斯分布的个数，计算量也增大。在过去的十几年里，提出了很多基于混合高斯模型的改进算法，如：2004年Zivkovic等人在文献[13]中提出的高斯模型个数自适应的算法，使得算法效率、鲁棒性得以提升。然而，实际情况下的背景往往是快速变化的，有时候并不符合高斯分布，故使用高斯模型进行背景建模就会产生问题。因此，2000年Elgammal等人提出了一种无参数的基于核密度估计^[14]的运动目标检测法，该方法不需要对背景的密度分布做任何假设，而是通过最近的几个图像样本信息利用标准核函数准确地估计出像素点，进行提取运动目标。实验结果表明该方法在复杂的户外场景中有较好的适应性，但缺点是计算量大，实时性不好。

2005年，Wang等人提出了基于样本一致性（SACON）的背景建模方法^[21^,^22]。该方法同样也避免了对视频序列的像素值进行任何概率估计的假设，而是先通过计算新像素与背景模型的样本的距离，然后统计距离相近的样本数目，最后根据样本数目的多少来判断是否为前景。2009年，Barnich等人在文献[19]中又提出了一种新颖的基于像素点的运动目标检测法，并命名为视觉背景提取法(ViBe)，该算法直接对每一个像素点按照一定的规则随机地选取一定数量的像素值进行背景建模，然后采用欧氏距离对像素点进行前景与背景的分类。该算法的优点是不需要假定任何的概率模型，并且可以在视频序列的第二帧就进行运动目标的检测，计算速度也很快。2011年，Barnich等人又在文献[20]中对经典的运动目标检测算法做了一个总结并与ViBe进行比较，最后，通过实验证明了ViBe高效率的特点。虽然该文献给出了不错的检测结果，但是在一些深色背景、阴影以及背景快速变化的场景中还是会出现一些问题，如“鬼影”现象等。2012年，Hofmann等人在文献[23]中首次提出了PBAS（Pixel-Based Adaptive Segmenter）运动目标检测法。该算法根据SACON与ViBe两种算法的优势进行相关结合与改进，使得目标检测准确度得到了进一步的提高，但该算法的计算量较大，实时性不好。

从以上介绍可以看出，基于统计学理论的运动目标检测法的研究经历了一个由简单模型到复杂模型，再到简单模型的过程。在这类运动目标检测法快速发展的同时，学者们还提出了很多种不同理论基础的运动目标检测法，如基于聚类理论的方法、基于模糊理论的方法、背景预测法、基于神经网络的方法以及光流法等^[^15-18,³^8,^39]。

基于聚类的运动目标检测法的经典算法是Kim等人于2005年在文献[15]提出了CodeBook法。相对于那个时期的MOG，KDE等算法来说，CodeBook没有使用概率模型，而是使用码本对像素进行分类进而实现提取前景目标。该方法也能够适应一定的复杂场景。但是，由于场景的复杂多变，码本中码字将会不断增加，这将导致消耗内存过多，实时性也受到一定的限制。

针对实际场景中存在的很多不确定因素，近些年，一些学者提出利用模糊理论解决背景减法中的不精确性和不确定性。根据模糊理论的不同，这类方法又分为传统模糊背景建模和二型模糊背景建模^[3^8,^39]。实验证明基于模糊模型的背景建模方法在光照变化、动态背景等复杂场景中具有良好的鲁棒性，但是，其缺点是增加的计算量，也会耗费更多的内存。

背景预测法是指使用滤波器来估计背景，如果当前帧的某个像素值偏离其预测值时，则被认为是前景。文献[27]使用了卡尔曼滤波器来对背景值进行估计，该方法能够适应光线快速变化的场合，但检测的准确度不高，而且当运动目标的运动速度较慢时，检测结果往往会出现“拖影”现象。

2008年，Maddalena等人在文献[24]中提出了一种基于自组织神经网络的背景减除法（SOBS）。该算法通过自组织的方法生成一张神经网络的背景模型，然后通过当前帧与背景模型的像素点之间的距离来提取运动目标。随后，Maddalena等人又对SOBS进行了改进，提出了SC-SOBS^[25]，将空间一致性引入背景更新阶段，进一步提高了算法的鲁棒性。

在2006年以前，学者们提出了很多基于“像素”特征的运动目标检测的方法，很少有人提出以“区域”或者“帧”为特征的运动目标检测法。而纹理特征就是一种极易区分图像的区域特征，Heikkila等人就首次提出一种基于LBP的纹理直方图来进行背景建模的方法^[8]，但是由于纹理的计算复杂度高，所以这类方法实时性并不好。而国内关于这一方向的研究也取得了不错的成果。2010年中科院自动化所得廖博士在文献[33]中提出了一种新的纹理描述法SILTP，并结合模式核密度估计法进行前景与背景的分割。该算法能够处理复杂环境下的运动目标的检测。而基于帧的运动目标检测方法则采用了直接对视频帧进行背景建模的思路，经典的算法有本征背景减除法^[32]。该算法利用主成分分析（PCA）对连续多帧视频进行特征分解，进而提取前景，这一方法的提出也开创了运动目标检测的新发展方向。

以上介绍了很多种运动目标检测算法，然而没有任何一种算法适用于所有的情况下的运动目标检测。因此，运动目标检测的关键在于如何根据现有相关理论，结合实际场景的特点，寻求合适的方法，从而满足实际应用的需求。

【参考文献】

[9] Jain R, Nagel H H. On the analysis of accumulative difference pictures from image sequences of real world scenes.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1979, 1(2):206-214.

[10] Gloyer B, Aghajan H K, Siu K Y, et al. Video-based freeway-monitoring system using recursive vehicle tracking[J]. Proc Spie, 1995, 2421:173-180.

[11] Wren C R, Azarbayejani A, Darrell T, et al. Pfinder: Real-time tracking of the human body[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1997, 19(7):780 - 785.

[12] Stauffer, Chris, Grimson, W.E.L. Adaptive Background Mixture Models for Real-Time Tracking[J]. Proc Cvpr, 1999, 2:2246.

[13] Zivkovic Z. Improved Adaptive Gaussian Mixture Model for Background Subtraction[C]// Pattern Recognition, International Conference on. IEEE Computer Society, 2004:28-31.

[14] Elgammal A, Harwood D, Davis L. Non-parametric model for background substraction[J]. Proceedings of the Computer Vision, 2000:751--767.

[15] Kim K, Chalidabhongse T H, Harwood D, et al. Background modeling and subtraction by codebook construction[C]// Image Processing, 2004. ICIP '04. 2004 International Conference on. IEEE, 2004:3061-3064 Vol. 5.
[16] Kim K, Chalidabhongse T H, Harwood D, et al. Real-time foreground–background segmentation using codebook model[J]. Real-Time Imaging, 2005, 11(3):172-185.

[17] Li Y, Chen F, Xu W, et al. Gaussian-Based Codebook Model for Video Background Subtraction[J]. Lecture Notes in Computer Science, 2006, 4222:762-765.

[18] Geng L, Xiao Z T. Real Time Foreground-Background Segmentation Using Two-Layer Codebook Model[C]// Control, Automation and Systems Engineering (CASE), 2011 International Conference on. IEEE, 2011:1-5.

[19] Barnich O, Vanogenbroeck M. ViBE: A powerful random technique to estimate the background in video sequences[C]// IEEE International Conference on Acoustics, Speech & Signal Processing. 2009:945-948.

[20] Olivier B, Marc V. ViBe: a universal background subtraction algorithm for video sequences.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2011, 20(6):1709-1724.

[21] Wang H, Suter D. SACON: A Consensus Based Model for Background Subtraction[J]. Schools & Disciplines, 2005.

[22] Wang H, Suter D. Background Subtraction Based on a Robust Consensus Method[C]// Pattern Recognition, International Conference on. IEEE Computer Society, 2006:223-226.

[23] Hofmann M, Tiefenbacher P, Rigoll G. Background segmentation with feedback: The Pixel-Based Adaptive Segmenter[C]// Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on. IEEE, 2012:38-43.

[24] Maddalena L, Petrosino A. A self-organizing approach to background subtraction for visual surveillance applications.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2008, 17(7):1168-1177.

[25] Maddalena L, Petrosino A. The SOBS algorithm: What are the limits?[C]// Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on. IEEE, 2012:21-26.

[26] Ebner M. Evolving color constancy[J]. Pattern Recognition Letters, 2006, 27(11):1220-1229.

[27] Karmann K P. Achim von Brandt. Moving Object Recognition Using an Adaptive Background Memory[C]// Time-varying Image Processing & Moving Object Recognition. 1990.

[28] Toyama K, Krumm J, Brumitt B, et al. Wallflower: principles and practice of background maintenance[C]// IEEE International Conference on Computer Vision. IEEE, 1999:255-261 vol.1.

[29] Bouwmans T, Baf F E, Vachon B. Background Modeling using Mixture of Gaussians for Foreground Detection: A Survey[J]. Recent Patents on Computer Science, 2008, 1(3):219-237.

[30] Benezeth Y, Jodoin P M, Emile B, et al. Comparative study of background subtraction algorithms[J]. Journal of Electronic Imaging, 2010, 19(3):033003-033003.

[31] T. Bouwmans, F. El-Baf, and B. Vachon. Statistical background modeling for foreground detection: A survey. Handbook of Pattern Recognition and Computer Vision, World Scientific Publishing, 4(2):181–199, January 2010.

[32] Oliver N, Rosario B, Pentland A. A Bayesian Computer Vision System for Modeling Human Interactions[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2000, 22(8):831-843.

[33] Liao S, Zhao G, Kellokumpu V, et al. Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes[C]// Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010:1301-1306.

1 0