论文阅读之Fast RCNN

来源：互联网发布：程序员架构师编辑：程序博客网时间：2024/05/22 03:06

准备
- 0 VGGnetSimonyan and Zisserman 2014
思想
- 1 相关工作
- 2 作者的贡献
结构
- 1 ROI pooling
- 2 多任务损失函数
  - 21 softmaxlog loss
  - 22 regressionsmooth L1 loss
  - 23 截断SVD优化
训练
- 1 初始化
- 2 微调
  - 21 训练样本
  - 22 ROI池化层的后向传播
主要结果
- 1 mAPmean Accuracy Precision
- 2 训练和测试时间
- 3 精调哪一个层
- 4 多任务损失函数好吗
- 5 Softmax还是SVM
- 6 更多的候选区好吗
一些问题

0 准备

0.0 VGGnet[Simonyan and Zisserman, 2014]

此处输入图片的描述

输入大小为224*224（全连接层要求输入是固定的）

13个卷积层（卷积核为3*3，stride=1，pad=1），3个全连接层（4096-4096-1000）,5个池化层

此处输入图片的描述

最后卷积层的输出是14*14*512，经过池化后的输出为7*7*512=25088

1 思想

1.1 相关工作

RCNN的训练是多级的

微调卷积网络（log loss）
训练SVM代替softmax
边框回归

PS：其实应该是Softmax也可以，只不过SVM的效果更好，那么多级训练的重点在将分类和回归结合起来（原文的边框回归使用的方法不详）

RCNN耗时耗空间

对每一个区域都要计算特征（其实好多区域是重叠的）
要想使用SVM，那么就要把每个区域的特征存储到硬盘上（网络不是一体的）

SPPnet不能更新卷积层

（对SPPnet的具体结构不了解）

从所有图片的所有RoI中均匀取样，这样每个SGD的mini-batch中包含了不同图像中的样本，反向传播需要计算每一个RoI感受野的卷积层梯度，通常所有RoI会覆盖整个图像，这样又慢又耗内存。

1.2 作者的贡献

使用多任务损失函数，一体化训练
使用ROI来共享特征计算

2 结构

此处输入图片的描述

对整幅图像卷积得到特征（注意没有wrap，可以更好地保存特征）
候选区域映射到卷积特征图上
ROI pooling得到固定长度的向量
将向量送入全连接层并计算分类和回归损失

2.1 ROI pooling

此处输入图片的描述

将候选区域对应的卷积特征图划分成固定的H*W等份
每一等份做最大池化
得到H*W长的向量送入全连接层

由VGGnet的结构，实际上向量的长度是c*H*W=512*7*7=25088

一点理解：

7x7表示的是包含了图像的位置和特征（联想提取边缘），512是不同的特征

原来的最大池化是等比例缩小，可以保证尺度不变性。如果对原图缩放，会失去图像的尺度信息，而如果是对特征缩放，效果会更好一点（但是感觉好像是一样的。。。）

所以，怎样可以保持图像的尺度不变显得尤为重要（或许overfeat将网络改成全连接层就是这个思想？）

2.2 多任务损失函数

2.2.1 softmax（log loss）

利用特征可以进行分类（假设是线性）

Q1：特征怎样进行分类
对K个类，经过线性加权（最后的全连接层）得到K+1个分数
我们希望真正的类分数越高越好（用概率来衡量）。
训练的时候要使最后的总得分最高（总概率最大）

注意，现在分类的正确率可以达到一个很高的水平

2.2.2 regression（smooth L1 loss）

Q1：为什么可以根据特征做回归？
根据特征，进行加权得到缩放和平移参数（比如你从特征中知道有人和背景，那么你就可以调整人的位置）

Q2：怎样根据特征做回归

假设有K类
对每一个候选区域，得到一个K*4个回归值t
根据ground truth，得到候选区域的真实回归值v
假设ground truth的类别为u（背景用0表示），计算t和v之间的L1 loss
此处输入图片的描述
其中

这里使用的是smooth L1 loss，主要是因为smooth L1 loss对异常值不敏感

###2.2.3 multi-task loss

将分类误差和回归误差组合起来，实验使用的lamda=1
此处输入图片的描述

2.2.3 截断SVD优化

此处输入图片的描述

因为测试的时候每次都要计算20488*4096(fc6的矩阵乘法)，计算起来特别耗时间（122ms，卷积层才使用146ms）。所以，对权值矩阵做一个SVD分解（主成分分析），然后取t个分量计算即可（不考虑SVD的时间的话，降到了37ms）

3 训练

3.1 初始化

使用预训练的ImageNet网络

Image ——> Image + ROI
max pooling ——> ROI pooling (2等分变成7等分，输出相同)
FC(4096-1000)+softmax ——> FC+softmax over K+1 categories && FC + BB

3.2 微调

3.2.1 训练样本：

stochastic gradient descent (SGD) mini- batches are sampled hierarchically, first by sampling N images and then by sampling R/N RoIs from each image. Critically, RoIs from the same image share computation and memory in the forward and backward passes.

论文中使用了N =2 and R = 128，缺点是可能收敛比较慢

IOU 的门限使用了 0.5