A survey on still image based human action recognition

来源：互联网发布：自然语言处理算法面试编辑：程序博客网时间：2024/05/16 07:54

https://www.google.com.hk/url?sa=t&rct=j&q=&esrc=s&source=web&cd=15&cad=rja&uact=8&ved=0ahUKEwjgmL-L9IzSAhXIwFQKHVXcDQAQFghLMA4&url=http%3A%2F%2Fwww.sciencedirect.com%2Fscience%2Farticle%2Fpii%2FS0031320314001642&usg=AFQjCNEMlIvtUb94iJOVQex80ZYBJP0V2g
这篇文章是2014年Pattern Recognition上的一篇关于静态图像行为识别的综述，归纳总结得足够详细，遗憾的是deep learning刚刚大热，这篇文章还是没有介绍到神经网络相关的方法。我相信用深度学习的知识的解决该问题是未来的方向。

1 定义：Human action recognition focuses on identifying a person’s action or behavior from a single image.

2 背景：行为识别很火，但大多都是基于视频或者说动态的，静态图片只有空间信息，没有时间信息，信息量不够多，所以来做行为识别是有难度的。但实际上有些动作一张静态图片足以充分表达，如下图所示：
这里写图片描述
基于静态图像的行为识别有以下几个主要应用：1）图片标注 2）基于行为的图像检索 3）做基于视频的行为识别时减少无用的帧 4）人机交互（HCI）。
基于静态图像的行为识别研究历史很短，大概始于2006年，在2011年达到大热，目前仍然是一个具有挑战性的课题。

3 特征表达
3.1 高层信息（High-level cues）
3.1.1 人体（Human body）
利用人体包含的信息来做行为识别被应用的最为广泛。主要有个利用bounding box（可以自动检测也可以手动标注）、人体轮廓信息以及人体姿态信息等方法。
3.1.2 肢体（body parts）
肢体包含更细节的信息，譬如扔球和使用电脑，你的手臂会在不同的位置并处在不同的姿态。一般会利用图模型来表达肢体的间的关系。
3.1.3 物体
物体通常是和行为相关的。譬如马，就是和骑马相关，手机就是和打电话相关。
3.1.4 人和物体交互
3.1.5 上下文或场景

3.2 底层信息（low-level cues）
SIFT、HOG

4 建立模型
4.1 Generative model
4.2 discriminative model

0 0