P-CNN: Pose-based CNN Features for Action Recognition (CNN篇)

来源:互联网 发布:php判断变量是否设置 编辑:程序博客网 时间:2024/04/30 14:25
论文题目P-CNN: Pose-based CNN Features for Action Recognition, 链接

之前看过在静态图像上做action recognition的论文, 如Georgia Gkioxari这位大美女的论文, Contextual Action Recognition with R*CNN (可以看zhujin师兄的blog)
和RGB视频里面的action recognition的论文, 如Recognize Complex Events from Static Images by Fusing Deep Channels (可以看zhujin师兄的blog)

该篇论文是ICCV 2015的, 文章的核心是feature descriptors的获取. 
利用现有的pose estimation的method和一些经典的feature extractor的CNN模型来获取feature descriptors. 
废话不多说, 直接看图说话:


1 首先利用一些state-of-art的pose estimator来提取视频里面的每帧的pose.
2 定义parts, 如图中的upper body full body等, 并利用pose的坐标来截取每个part的patches. 
  这里的patches包括rgb原图和motion图.
  motion图是事先计算好的, 原以为是用CNN这些网络来学习得到的, 略失望咯.
3 用一些经典已训练好的的CNN(s)模型来提取fc特征(如fc7的4096维特征)
4 用一些aggregation的方法来进一步提取特征, 使得一个视频的特征P-CNN输出纬度是固定大小的..
  这里的aggregation的方法有max, min, mean, max/min等. 
  比较有意思的是, 从实验结果来看, motion的作用远大于rgb的.
5 训练svm的action classifiers. 
  一般来说, 视频的feature descriptors往往是高维的, 如P-CNN的160k-d. 
  所以在训练svm时, 需要对特征进行降维操作, 可以用PCA等这些方法.

整体来说, 论文的做法非常pineline, 每个步骤都是用一些state-of-art的模型来提取pose, 特征什么的.
所以个人觉得没有什么创新点.




0 0
原创粉丝点击