P-CNN: Pose-based CNN Features for Action Recognition (CNN篇)
来源:互联网 发布:php判断变量是否设置 编辑:程序博客网 时间:2024/04/30 14:25
论文题目P-CNN: Pose-based CNN Features for Action Recognition, 链接
之前看过在静态图像上做action recognition的论文, 如Georgia Gkioxari这位大美女的论文, Contextual Action Recognition with R*CNN (可以看zhujin师兄的blog)
和RGB视频里面的action recognition的论文, 如Recognize Complex Events from Static Images by Fusing Deep Channels (可以看zhujin师兄的blog)
该篇论文是ICCV 2015的, 文章的核心是feature descriptors的获取.
利用现有的pose estimation的method和一些经典的feature extractor的CNN模型来获取feature descriptors.
废话不多说, 直接看图说话:
1 首先利用一些state-of-art的pose estimator来提取视频里面的每帧的pose.
2 定义parts, 如图中的upper body full body等, 并利用pose的坐标来截取每个part的patches.
这里的patches包括rgb原图和motion图.
motion图是事先计算好的, 原以为是用CNN这些网络来学习得到的, 略失望咯.
3 用一些经典已训练好的的CNN(s)模型来提取fc特征(如fc7的4096维特征)
4 用一些aggregation的方法来进一步提取特征, 使得一个视频的特征P-CNN输出纬度是固定大小的..
这里的aggregation的方法有max, min, mean, max/min等.
比较有意思的是, 从实验结果来看, motion的作用远大于rgb的.
5 训练svm的action classifiers.
一般来说, 视频的feature descriptors往往是高维的, 如P-CNN的160k-d.
所以在训练svm时, 需要对特征进行降维操作, 可以用PCA等这些方法.
整体来说, 论文的做法非常pineline, 每个步骤都是用一些state-of-art的模型来提取pose, 特征什么的.
所以个人觉得没有什么创新点.
0 0
- P-CNN: Pose-based CNN Features for Action Recognition
- P-CNN: Pose-based CNN Features for Action Recognition (CNN篇)
- CNN Features for Scene Recognition-论文笔记
- CNN Features off-the-shelf: an Astounding Baseline for Recognition
- R-CNN for Pose Estimation and Action Detection
- Contextual Action Recognition with R*CNN
- R-CNN regions with CNN features for detection and segmentation
- CNN
- CNN
- cnn
- CNN
- CNN
- CNN
- CNN
- CNN
- CNN
- CNN
- CNN
- jquery的has、find和filter函数的异同
- HDU 2222Keywords Search (ac自动机)
- ros的navigation之———gmapping应用详解(in ros)
- oracle case when then
- 细说KVO & KVC & NSNotificationCenter那些事
- P-CNN: Pose-based CNN Features for Action Recognition (CNN篇)
- JNI简介
- 右脑开发/开天眼/打通大周天/近视眼康复
- Django网站中文件下载的实现和网页部分打印的实现。
- PL/SQL Beautifier could not parse text
- CentOS6.3搭建lnmp环境
- android下touch机制
- 数据库
- Android 6.0 StrictController