Automatic visual detection of Human behavior:A review from 2000 to 2014

来源：互联网发布：北京哪有淘宝拍摄基地编辑：程序博客网时间：2024/05/22 02:18

摘要：由于信息技术的进步（例如：数字视频照相机，无所不在的传感器），来源于视频的人体行为的自动检测最近是一个非常流行的研究主题；在这一篇论文里，在这个主题上，我们提出一个系统的和最近的文献综述，从2000到2014年，覆盖193篇精选的文章，它们从六个主要的科学发布商哪里查询得到。选择的论文被分类成为三个主要的类别：检测技术，数据集，应用。检测技术又划分为四个类别，（包括初始化，跟踪，姿势估计，识别）。数据集包括八个例子，诸如Hollywood动作数据集。最后，讲述了几个应用领域，包括人体检测，异常行为检测，动作识别，玩家建模，和行人检测。我们的分析提供了指导进一步研究为了自动的人体行为检测系统的指南。

关键字：数据挖掘人体行为文献综述视频分析视频数据集

1， Introduction

动作由动作原语组成并且描述一个，可能是周期性的，整体的运动。在这类工作之下的主要研究问题是：给定一系列的图像，这些图详具有一个或者更多的人在执行一个动作，一个框架能够被概述来区别：谁在这行这个动作，这个动作是什么？

低级的图像表示来进行动作识别（诸如光流法，时空体积）。与检测相关的技术被分成四类：初始化，跟踪，姿势估计和识别。应用被分成六个主要的领域：人体检测，异常行为检测，动作识别，玩家建模和机器人学，行人检测和室内场景，和人跟踪。表1列举了从视频关键字在发布年份的自动人体行为检测：

2 用于来自于视频的人体行为检测的技术

视觉的人体行为检测技术被分成四组：

初始化——为了使系统处理数据，它需要被初始化；举例来说，系统的适当模型需要被建立；

跟踪——从背景中分离出前景的过程并且找到连续帧的部分之间的一致性；

姿势——姿势的估计在相应的帧中进行。（通常，高级的人体模型被使用；）

识别——识别行为；确定一个人的动作或者一个群体的动作。

2.1 模型初始化

2.1.1 主要方法

初始化需要关于什么组成一个个体的先验的知识。这样的知识能够根据Moeslund等人的文献进行分类：运动结构， 3D形状，颜色外观和身体部位估计。大部分基于视觉的跟踪框架需要一个起始的类似人的运动结构，合并具有特定的灵活度的固定数目的关节。所有的这些方法对于运动结构给出了一个通用的方法，通过从场景本身直接获得结构。考虑3D形状，表示已经使用了或者基本的形状原语（例如：圆柱体，圆锥体，椭圆）或者平面（多边形网格）来定义一个运动骨架。转向颜色外观初始化，它已经被紧紧围绕，图片集。颜色的统计模型通常被用来进行跟踪。最后，烤炉身体部位的确定，一个更近的趋势是身体部位指示器，它能够可能的被合并来找到个体。

2.1.2 形状，外观和运动的初始化被认为是人体运动自动化的重要一步。

2.2 跟踪

人体的视觉分析中，跟踪能够被定义成另个主要的过程：前景的分离和时间对应性。前者用来从背景中区分感兴趣的对象（人）。后者用来在一个序列的帧中检测相同的感兴趣对象。

2.2.1 背景差分

几个背景表示方案已经被采用了。高斯混合是一个标准的表示，它主要包括RGB颜色空间。而且其他的阴影空间，诸如颜色和强度的分离和归一化的RGB。其他的时空方法论是一个语气的现场区域，通过一个自回归的方法论发现的，表示这个背景。背景表示的讨论主要依赖于实现的速度，精确性，和可应用性。这是事实，是因为整体的背景差分的精确性是分类，表示，初始化和更新的结合体。背景模型在一个初始化阶段之后需要被更新。基于运动的主题背景分割紧紧围绕这一思想：连续帧中的对比度显现，通过发现动作。运动或者通过光流法或者通过图像差分进行测量。图像差分快速适应于场景的变化，然而一个人体上像素没有移动或者与邻近相似不会被确定出来。紧紧围绕人体外观的分离建立在人体的外观与背景不同的概念之上。基于外观的分离被划分时间上下文无关和那些使用上下文的方法。时间上下文无关的外观分离例行程序被用来检测静止图像中的人，检测进入场景的人，检索数据库中的图像。在时间上下文外观模型中，人体的颜色通常被表示为一个颜色直方图。人体的形状通常与场景中其他的物体不同，Zhao和Thorpe使用审图信息来提取图像中人体的剪影。最后，转向基于深度的分离，系统是或者直接关于对于场景评价3D信息直接构建。或者以一种在特征被提取之后加入独特的照相机视角的间接地方法。

2.2.2 时间一致性

2.2.3 Discussion

越来越多的在监控应用上的焦点已经触发了主题背景的分离的进步。为了拥有一个完全自动化的系统，对于受控的环境进行操作，背景差分扮演了一个重要的角色。然而，多个照相机在一个足够的分辨率上是需要的来覆盖整个场景。一个在分割领域的改进是空间信息的使用，如基于颜色的外观模型。其中想要关注的文章有McKenna等Adaptive background subtraction with gradient and color information和 Park与Aggarwal的Gaussian mixture model+Attribute relation graph（ARG）+multi association tracking

2.3 姿势估计

姿势估计暗指评估一个个体的基础运动结构或者骨架关节的排列的方法论。姿势估计根据人体模型的使用可以分为四个类别：

模型无关：当没有先验的知识使用并且多数技术跟踪2D身体部位或者映射图像序列的2D到3D姿势

间接模型使用：在姿势估计中一个先验的知识被使用(使用肢体长宽比或者姿势区分的人体身体部位标记)

直接模型使用：当一个显式的人体形状和运动结构的3D几何表示用来产生姿势；多数直接使用模型的方法使用合成分析来提高模型映射和被观察图像的紧密关系。

需要注意的方法由SVM on articulated body model。Micilotta等的RANSAC，Adaboost， skin color。 Ramanan等的Discriminative appearance model。Sminchisescu等的Discriminative density propagation algorithm ，Bayesian mixture of expert model。等论文。

2.4 识别：

识别的主要应用有监控，医疗研究和康复治疗，机器人学，视频索引和动画。根据一个视觉抽象的层次产生：场景理解：整个图像被解释，而不区分特定的项目和人。整体识别：或者是整个人体或者是个体的身体部位被用来进行识别。动作原语和语法，重要性的动作曾侧提高了场景的语义描绘。

3 与人体行为检测相关的数据集：

KTH

Weizman

Hollywood

YouTube

UCF

CMU

Caviar/Behave dataset

LIRIS 人体行为数据集。

4 应用：

使用3D深度图像的人体检测；异常行为检测；视频中多做识别；玩家模型和机器人学；行人检测和室内场景；对人跟踪和确定；

这篇论文综述了从2000到2014的193篇与视频，行为识别，数据集相关的论文。涵盖的范围很广。

在这篇论文中有几个问题在这里加以解释这些问题如下：

1， Kalman filter是怎么回事

2，光流是？

3， HoG如何理解

4，自适应增强算法Adaboost

5，深度信息指的什么

6，时空3D梯度指。。。

7，词袋Bag of words指

8， codebook 码本的作用。

1 0