读DL论文心得之SPP
来源:互联网 发布:人工智能的应用有哪些 编辑:程序博客网 时间:2024/06/07 00:31
这篇论文是Kaiming He等发表在ECCV2014上面的Spatial pyramid pooling in deep convolutional networks for visual recognition。
本篇论文的代码也是开源的,还有一个很棒的slides。
Introduction
传统CNN中,直接对图像剪切和变形来达到需要的尺寸。虽然卷积的过程不要求固定尺寸,但全连接层需要固定尺寸,因为从卷积层到全连接层间的参数维数必须是固定的。这样或多或少会影响分类与检测的效果,于是本文就针对这一事实,提出一种解决方案:在卷积层和全连接层之间加一层SPP层,即spatial pyramid pooling,用于池化特征,生成固定长度的输出,送入全连接层。
这样的明显优点是速度非常快,准确率有提高(依然用了selective search来提取区域建议,因此整体检测速度并不是很快)。
SPP
流行的7层CNN由5个卷积层(有些带pooling层)、2个全连接层、1个softmax层组成。SPP是在卷积层后,用空间盒将卷积特征池化到一起,这张图中的256是conv5的滤波器数量,每个格子都是256维的。下面是详细的说明:
单一尺度的训练
在训练中,conv5有axa的输出,金字塔有nxn个盒(bins)。
窗口
步长
金字塔有l 级,输入到fc6的是这l 级输出连接起来。
eg. conv5是13x13的,有pool3x3、pool2x2、pool1x1这样3种size的盒,共有256个13x13的滤波器。
多个尺度的训练
假设有224x224和180x180两种尺度的输入图像(其中180x180是由224x224缩放所得)。conv5的特征分别为224x224->13x13,180x180->10x10。
相应的win和str都不同,但bin的数量是相同的都是(9+4+1)x256,后面连着全连接层。
detection
先在每张图上生成候选窗口,缩放图像,提取conv5特征,对每个候选窗口对应到conv5的特征用4层空间金字塔进行池化,生成12800-d(256x(1x1+2x2+3x3+6x6))特征表示,输入全连接层,再用这些特征对每个种类训练线性SVM分类器。即特征是从整张图上计算的,而池化是在候选窗口上执行的,可由下图看出SPP与RCNN的不同:
一种多尺度特征提取的改进方法
简而言之,这种方法是将图片缩放到多个尺度(eg.{480, 576, 688, 864, 1200}),得到6组特征映射(还有一组是原本的尺度),对于每个候选窗口,选择让它最接近224x224的尺度对应的特征映射来进行提取。
results
- 读DL论文心得之SPP
- 读DL论文心得之SPP
- 读DL论文心得之SPP代码运行实验
- 读DL论文心得之RCNN
- 读DL论文心得之Fast RCNN
- 读DL论文心得之GoogLeNet
- 读DL论文心得之RCNN
- 读DL论文心得之Fast RCNN
- 读DL论文心得之Fast RCNN代码运行实验
- 读DL论文心得之Faster RCNN代码运行实验
- SPP-Net论文详解
- 【深度学习论文】SPP-Net
- DL经典论文
- DL论文整理
- 深度学习之SPP
- SPP-Net论文学习(2)
- QA相关的DL论文
- SPP
- LD_LIBRARY_PATH环境变量的设置
- 正则表达式-基础普及篇
- Python 访问需要登录验证的接口
- Makefile条件编译
- chart.js参数问题
- 读DL论文心得之SPP
- 自定义控件(13)---View绘制的Padding、Margin
- oc 之文件操作
- requestWindowFeature使用详解
- Inheritance in JavaScript 继承
- UIScrollView配合定时器自动循环滚动
- 第一章C++对C的扩展(Externsion)--(5)默认参数
- 微信支付iOS
- 更新数据表中的字段