3D CNN
来源:互联网 发布:淘宝自定义导航条代码 编辑:程序博客网 时间:2024/06/03 20:36
1. 3D CNN
1.1. C3D16
直接将vgg扩展为3d形式,参数较多。
1.2. 3D Resnet v117
将resnet直接扩展为3d,未预训练的模型在小训练集(activitynet)上效果不好,大训练集(kinetics)上效果好。
Resnet3d与2d结构主要区别在于时间维度上的缩减要慢一些
细节:采用16帧,均值采样后在附近随机采样进行augmented,空间上在四个角和中间采crop,并使用multiscale技术18,将原图多尺寸crop后scale到最终需求。
在文章19中有一个对这些技术的对比,同时,这篇文章提出clip length对结果影响很大。
另外,本文提供了pretrained模型,基于torch的resnet18和resnet34,转换为pytorch的方法在我的github上有(https://github.com/lshiwjx)。而且作者最近在写pytorch版本的。
1.3. 3D Resnet v220
本文主要对3d resnet的基础设置进行了寻找。结构上去掉了5.2中的max pool。
结果为:resnet18优于34,一个clip最好在0.25-0.75s之间,以8frame为一个clip,resize与crop为128à112,采样率为每隔2到4帧采一次(30fps)。
模型大小上:Res3Dis about 2 times smaller and also 2 times faster than C3D. Res3D has 33.2 millionparameters and 19.3 billion FLOPs while C3D has 72.9 million parameters and38.5 billion FLOPs.
本文的结果我认为需要longterm modeling的支持,clip太短了。
1.4. 3D Inception21
本文对inception v1进行了3d扩展,并使用了光流提取的特征。
有一些结果图比较好:
1.5. 3D Inception-resnet22
对inception-resnet进行了扩展用于人表情识别,细节缺失
Reference:
16. DuTran, Bourdev, L., Fergus, R., Torresani, L. & Paluri, M. Learningspatiotemporal features with 3d convolutional networks. inProceedings ofthe IEEE International Conference on Computer Vision 4489–4497 (2015).
17. Hara,K., Kataoka, H. & Satoh, Y. Learning Spatio-Temporal Features with 3DResidual Networks for Action Recognition.ArXiv170807632 Cs (2017).
18. Wang,L., Xiong, Y., Wang, Z. & Qiao, Y. Towards good practices for very deeptwo-stream convnets.ArXiv Prepr. ArXiv150702159 (2015).
19. Donahue,J. et al. Long-term recurrent convolutional networks for visualrecognition and description. inProceedings of the IEEE conference oncomputer vision and pattern recognition 2625–2634 (2015).
20. Tran,D., Ray, J., Shou, Z., Chang, S.-F. & Paluri, M. ConvNet ArchitectureSearch for Spatiotemporal Feature Learning.ArXiv170805038 Cs (2017).
21. Carreira,J. & Zisserman, A. Quo Vadis, Action Recognition? A New Model and theKinetics Dataset.ArXiv Prepr. ArXiv170507750 (2017).
22. Hasani,B. & Mahoor, M. H. Facial Expression Recognition Using Enhanced Deep 3DConvolutional Neural Networks.ArXiv Prepr. ArXiv170507871 (2017).
- 3D CNN
- 3D CNN in Keras
- Tensorflow体验: 搭建 3D CNN
- 3D CNN框架结构各层计算
- Tensorflow体验: 搭建 3D CNN
- 3D 可视手写数字CNN识别
- Tensorflow体验: 搭建 3D CNN
- 2D CNN网络
- 2D CNN
- 3D CNN框架结构各层详细计算过程
- 3D CNN框架结构各层详细计算过程
- 基于tensorflow的3D CNN代码实现
- kaldi 1d-CNN源码
- 论文笔记《A CNN Regression Approach for Real-Time 2D/3D Registration 》
- keras中Convolution1D的使用(CNN情感分析yoom例子四) && Keras 1D,2D,3D卷积
- BoxCars: 3D Boxes as CNN Input for Improved Fine-Grained Vehicle Recognition
- [论文解读] Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient CNN
- Two-Stream RNN/CNN for Action Recognition in 3D Videos-阅读笔记
- maven标签详解
- 安卓:文字阴影
- 主成分分析(Principal components analysis)-最大方差解释
- 【知了堂学习笔记】利用js、ajax实现遍历行传参
- 【转】时钟周期,机器周期,指令周期的区别
- 3D CNN
- DeepLearing学习笔记-Sigmoid函数的梯度
- java对象序列化
- Java中的数组
- 空气净化器十大品牌旗舰店带给你空气清新的室内环境
- 在win10里从源码编译nodejs的安装包和学习源码
- 面向对象编程-继承
- Linux系统该怎么学?运维老鸟的经验心得。
- 定时器Timer