Temporal Action Proposal 论文分享
来源:互联网 发布:男淘宝头像图片大全 编辑:程序博客网 时间:2024/06/04 22:37
TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals(ICCV2017)
Motivation
实现快速和准确地抽取出视频中的语义片段
Proposed Method
-提出了TURN模型预测proposal并用temporal coordinate regression来校正proposal的边界
-通过复用unit feature来实现快速计算
主要步骤如下:
Video Unit Processing:
将输入的视频平均分为多个video units,每一个unit包含16帧。将每一个unit送入visual encoder(C3D)中,提取unit-level的特征。Clip Pyramid Modeling:
以每一个unit为anchor unit,构造一个clip pyramid。首先,每一个temporal window pyramid(深蓝色部分)由{1,2,4,…}个unit构成,然后在每个temporal window的前后加上一定数量的context unit(浅蓝色部分)构成clip。将每一个clip送入Feature Pooling,最终的feature由下面的公式表示:
其中为internal units,为context units,P为Mean Pooling。- Unit-level Temporal Coordinate Regression:
网络包含两个输出:第一个输出confidence score判断clip中是否包含action,第二个输出temporal coordinate regression offsets。回归偏移量由下式表达:
s和e分别表示起始unit和终止unit的位置 - Loss function:
正样本定义为:(1)与GT的tIoU最大的样本(2)与GT的tIoU大于0.5的样本
负样本定义为:与GT的tIoU为0的样本
Multi-task Loss:
第一项Lcls 为分类Loss,用于对action/background做分类。λ 为trade-off系数
第二项为回归Loss,用于校正proposal的位置 - New metric:
本文提出了一种新的度量Aerage Recall vs. Frequency of retreived proposals (AR-F),F代表对从视频中提取proposal的频率(个/秒)
Experiment Setup on THUMOS-14
context unit的数量为4,中间层
本文设计了3个实验:
1、对比不同的evaluation metrics并比较了各metrics与mAP的相关性
结论:
(1)AR-N不能够很好地反映TAP的表现
(2)AR-AN不能再不同的数据集进行性能比较
(3)AR-F则不存在上述问题
2、对比了不同visual feature对TURN性能的影响
(1)C3Dfeature,模型用Sports1m数据集预训练,将连续的16帧(一个unit)送入C3D,并提取fc6特征
(2)RGB CNN特征,从一个unit中均匀采8帧,提取ResNet中的Flatten_673特征(用Activity v1.3预训练),然后计算这8个feature的平均值作为这个unit的特征。
(3)dense flow CNN,在unit中间取连续的6帧并计算对应的光流,将flow送入BN-Inception(用Activity v1.3预训练)中,取global_pool特征
2、对比TURN和其他TAP方法的性能
对比方法包括:DAPs,SCNN-prop,Sparse-prop,sliding window,random proposals
3、对比不同的TAP方法在localization task中的性能(相同的classifier/localizer),即将生成的proposal送到classifier中,并得到21个类别的的confidence scores(20类action和1类background)
实验用到了SVM classifier和SCNN-Localizaer
Experiment Setup on ActivityNet
context unit的数量为4,
1、评估了TURN的泛化能力
(1)在v1.2数据集中,用了ActivityNet,ActivityNet
(2)在v1.3数据集中,有两种训练策略:
- 在一个subset训练,在另外三个subsets测试
- 在四个subsets上训练,然后在每个subset中逐个测试
2、评估了TURN在temporal action localization task上的表现
在实验中用了ActivityNet v1.1的Works和Sports子集。本文选择TURN-FL-16(用dense flow feature训练得到)来生成proposals。先用two-stream CNN feature训练一个SVM,接着将TURN-FL-16生成的proposals送到SVM中进行分类。
未完待续
Improvements compared to comparative methods
Gain
- Temporal Action Proposal 论文分享
- Single Shot Temporal Action Detection 论文介绍
- 论文阅读《Long-term Temporal Convolutions for Action Recognition》
- 论文笔记:Evaluation of local spatio-temporal features for action recognition
- 论文笔记-Temporal segment network:towards good practices for deep action recognition
- 论文笔记一Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
- CV论文笔记(三)Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimm
- 论文读书笔记-collaborativefiltering with temporal dynamics
- Proposal
- Temporal
- @Temporal
- @Temporal
- @Temporal
- 论文笔记-Unconstrained Salient Object Detection via Proposal Subset Optimization
- 论文笔记之《Cell Tracking via Proposal Generation and Selection》
- 【论文笔记】Mining Association Rules in Spatio-Temporal Data
- STC Fast Tracking via Spatio-Temporal Context Learning 论文笔记
- Fourier Temporal Pyramid原论文阅…
- 【SSH工具】FinalShell|—服务器管理软件,远程桌面加速工具,支持Windows,Mac OS X,Linux
- 哈理工oj 1266 斐波那契数列
- TensorFlow栗子:生成式对抗网络应用在mnist
- RS-485总线通信协议
- 51Nod-1573-美丽的集合
- Temporal Action Proposal 论文分享
- 对jquery mobile的学习过程一
- 安卓模拟器
- NOIP2017 模拟考试 day2 2017.10.07
- tomcat集群搭建
- 动态树(一)
- 系统工具
- 无人零售场景、技术全解读:伪需求or真风口?【附下载】| 智东西内参
- 简明Github Pages与Hexo教程