P-CNN: Pose-based CNN Features for Action Recognition (CNN篇)

来源：互联网发布：php判断变量是否设置编辑：程序博客网时间：2024/04/30 14:25

论文题目P-CNN: Pose-based CNN Features for Action Recognition, 链接

之前看过在静态图像上做action recognition的论文, 如Georgia Gkioxari这位大美女的论文, Contextual Action Recognition with R*CNN (可以看zhujin师兄的blog)

和RGB视频里面的action recognition的论文, 如Recognize Complex Events from Static Images by Fusing Deep Channels (可以看zhujin师兄的blog)

该篇论文是ICCV 2015的, 文章的核心是feature descriptors的获取.

利用现有的pose estimation的method和一些经典的feature extractor的CNN模型来获取feature descriptors.

废话不多说, 直接看图说话:

1 首先利用一些state-of-art的pose estimator来提取视频里面的每帧的pose.

2 定义parts, 如图中的upper body full body等, 并利用pose的坐标来截取每个part的patches.

这里的patches包括rgb原图和motion图.

motion图是事先计算好的, 原以为是用CNN这些网络来学习得到的, 略失望咯.

3 用一些经典已训练好的的CNN(s)模型来提取fc特征(如fc7的4096维特征)

4 用一些aggregation的方法来进一步提取特征, 使得一个视频的特征P-CNN输出纬度是固定大小的..

这里的aggregation的方法有max, min, mean, max/min等.

比较有意思的是, 从实验结果来看, motion的作用远大于rgb的.

5 训练svm的action classifiers.

一般来说, 视频的feature descriptors往往是高维的, 如P-CNN的160k-d.

所以在训练svm时, 需要对特征进行降维操作, 可以用PCA等这些方法.

整体来说, 论文的做法非常pineline, 每个步骤都是用一些state-of-art的模型来提取pose, 特征什么的.

所以个人觉得没有什么创新点.

0 0