A survey on still image based human action recognition

来源:互联网 发布:自然语言处理算法面试 编辑:程序博客网 时间:2024/05/16 07:54

https://www.google.com.hk/url?sa=t&rct=j&q=&esrc=s&source=web&cd=15&cad=rja&uact=8&ved=0ahUKEwjgmL-L9IzSAhXIwFQKHVXcDQAQFghLMA4&url=http%3A%2F%2Fwww.sciencedirect.com%2Fscience%2Farticle%2Fpii%2FS0031320314001642&usg=AFQjCNEMlIvtUb94iJOVQex80ZYBJP0V2g
这篇文章是2014年Pattern Recognition上的一篇关于静态图像行为识别的综述,归纳总结得足够详细,遗憾的是deep learning刚刚大热,这篇文章还是没有介绍到神经网络相关的方法。我相信用深度学习的知识的解决该问题是未来的方向。

1 定义:Human action recognition focuses on identifying a person’s action or behavior from a single image.

2 背景:行为识别很火,但大多都是基于视频或者说动态的,静态图片只有空间信息,没有时间信息,信息量不够多,所以来做行为识别是有难度的。但实际上有些动作一张静态图片足以充分表达,如下图所示:
这里写图片描述
基于静态图像的行为识别有以下几个主要应用:1)图片标注 2)基于行为的图像检索 3) 做基于视频的行为识别时减少无用的帧 4) 人机交互(HCI)。
基于静态图像的行为识别研究历史很短,大概始于2006年,在2011年达到大热,目前仍然是一个具有挑战性的课题。

3 特征表达
3.1 高层信息(High-level cues)
3.1.1 人体(Human body)
利用人体包含的信息来做行为识别被应用的最为广泛。主要有个利用bounding box(可以自动检测也可以手动标注)、人体轮廓信息以及人体姿态信息等方法。
3.1.2 肢体(body parts)
肢体包含更细节的信息,譬如扔球和使用电脑,你的手臂会在不同的位置并处在不同的姿态。一般会利用图模型来表达肢体的间的关系。
3.1.3 物体
物体通常是和行为相关的。譬如马,就是和骑马相关,手机就是和打电话相关。
3.1.4 人和物体交互
3.1.5 上下文或场景

3.2 底层信息(low-level cues)
SIFT、HOG

4 建立模型
4.1 Generative model
4.2 discriminative model

0 0