论文阅读Faster RCNN

来源：互联网发布：php __set 破坏封装编辑：程序博客网时间：2024/06/05 21:53

准备
- 0 AlexNetAlex Krizhevsky et al2012
- 1 ZFNetZeiler and Fergus2013
- 2 Overfeat还没看论文不知道具体原理
思想
RPNRegion Proposal Network结构
- 1 思想
- 2 RPN结构
- 3 训练
  - 31 样本
- 32 损失函数
Faster RCNN
- 1 结构
- 2 训练
  - 21 multi-stage训练
  - 22 联合训练
结果分析
- 1 mAP平均准确度
- 2 PASCAL VOC 2007测试结果
- 3 时间
- 4 召回率分析
- 5 阶段训练单阶段还是多阶段
结论

0 准备

0.0 AlexNet[Alex Krizhevsky et al.2012]

此处输入图片的描述

输入：227x277x3
卷积层输出（池化层之前）：13x13x256
最后一层池化层：6x6x256
全连接层：4096-4096-1000

0.1 ZFNet[Zeiler and Fergus,2013]

此处输入图片的描述

输入：227x227x3
卷积层输出（池化层之前）：13x13x512
最后一层池化层：6x6x512
全连接层：4096-4096-1000

0.2 Overfeat(还没看论文，不知道具体原理)

1 思想

此处输入图片的描述

从RCNN到fast RCNN，再到本文的faster RCNN，目标检测的四个基本步骤（候选区域生成，特征提取，分类，位置精修）终于被统一到一个深度网络框架之内。所有计算没有重复，完全在GPU中完成，大大提高了运行速度。

三个要解决的问题：
1. 如何设计区域生成网络
2. 如何训练区域生成网络
3. 如何让区域生成网络和fast RCNN网络共享特征提取网络

2 RPN(Region Proposal Network)结构

2.1 思想

根据特征得到区域(而不是重新设计一种网络)
原来是用RP的方法得到ROI，再映射到conv feature map上，现在可以直接在feature map上对所有候选框进行识别
后续位置还有精修，不需要特别准确

2.2 RPN结构

此处输入图片的描述

在卷积特征图上滑动一个nxn的窗口（代表了输入图像上的候选区域）
卷积得到一个低维的向量(256-d for ZF and 512-d
for VGG)
连接两个全连接层(box-regression layer && box-classification layer)

Translation-Invariant Anchor

因为每一个位置候选区域的大小和形状都是未知的，所以在每个滑窗位置预测k个region proposals（k=9）叫作anchor。那么对于每一个位置reg layer 有4k个输出对应BBox的坐标，cls layer有2k个scores输出对应是否有目标的概率。

2.3 训练

2.3.1 样本

Anchor：
一般设置短边s=600
anchor考虑三个尺度（128^2,256^2,512^2）和三个宽高比（1:1,1:2,2:1）

此处输入图片的描述

对于600x1000的图像，得到的特征大小为60x40,那么anchor大约有20k(~60*40*9)个；忽略掉超出边界的，大约有6k个

用于训练的anchor
a. 对每个标定的真值候选区域，与其重叠比例最大的anchor记为前景样本
b. 对a剩余的anchor，如果其与某个标定重叠比例大于0.7，记为前景样本；如果其与任意一个标定的重叠比例都小于0.3，记为背景样本
c. 对a,b剩余的anchor，弃去不用。
d. 跨越图像边界的anchor弃去不用