RCNN学习笔记（1）-RCNN-Rich feature hierarchies for accurate object detection and semantic segmentation论文

来源：互联网发布：点对点视频软件编辑：程序博客网时间：2024/05/17 04:56

reference link1:http://blog.csdn.net/wopawn/article/details/52133338
reference link2: http://blog.csdn.net/shenxiaolu1984/article/details/51066975

主要解决的问题

问题一：速度
经典的目标检测算法使用滑动窗法依次判断所有可能的区域。本文则预先提取一系列较可能是物体的候选区域，之后仅在这些候选区域上提取特征，进行判断。
问题二：训练集
经典的目标检测算法在区域中提取人工设定的特征（Haar，HOG）。本文则需要训练深度网络进行特征提取。可供使用的有两个数据库：
一个较大的识别库（ImageNet ILSVC 2012）：标定每张图片中物体的类别。一千万图像，1000类。
一个较小的检测库（PASCAL VOC 2007）：标定每张图片中，物体的类别和位置。一万图像，20类。
本文使用识别库进行预训练，而后用检测库调优参数。最后在检测库上评测。

流程

RCNN的算法分为4个步骤：

一张图片生成1k-2k的候选区域；
对每个候选区域，使用深度网路提取特征；
特征送入每一累的SVM分类器，并判别是否属于该类；
使用回归器精确修正候选框的位置；

候选区域生成

使用Selective Search 方法从一张图片中生成约2000-3000 个候选区域。其基本思路如下：
1.使用一种过分割手段，将图像分割成小区域；
2.查看现有小区域，合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置；
3.输出曾经存在过得区域（所谓的候选区域）
候选区域生成和后续步骤相对独立，实际可以使用任意算法进行。
注：
【1】.selective search：采用过分割手段将图像分割成一个小区域，再通过颜色直方图，梯度直方图等近似规则进行合并，最后生成约2000个建议框的操作
【2】合并时的规则
a.颜色相近似（颜色直方图）
b.纹理相近似（梯度直方图）
c.合并后总面积小（保证合并操作的尺度较为均匀，避免一个大区域陆续“吃掉”其他小区域）
d.合并后，总面积再起BBOX（bounding box）中所占比例较大。

这里写图片描述

特征提取（网络结构）

【预处理】
在使用深度网络之前，先把候选区域归一化成统一尺寸 227*227
(本文采用AlexNet CNN网络进行CNN特征提取，为了适应AlexNet网络的输入图像大小：227×227，故将所有建议框变形为227×227。)
作者在补充材料中给出了四种变形方式：
① 考虑context【图像中context指RoI周边像素】的各向同性变形，建议框像周围像素扩充到227×227，若遇到图像边界则用建议框像素均值填充，下图第二列；
② 不考虑context的各向同性变形，直接用建议框像素均值填充至227×227，下图第三列；
③ 各向异性变形，简单粗暴对图像就行缩放至227×227，下图第四列；
④ 变形前先进行边界像素填充【padding】处理，即向外扩展建议框边界，以上三种方法中分别采用padding=0下图第一行，padding=16下图第二行进行处理；

经过作者一系列实验表明采用padding=16的各向异性变形即下图第二行第三列效果最好，能使mAP提升3-5%。这里写图片描述
【网络结构】
基本借鉴Hinton 2012年在Image Net 上的分类网络

依次将每个227×227的建议框输入AlexNet CNN网络获取4096维的特征【比以前的人工经验特征低两个数量级】，2000个建议框的CNN特征组合成2000×4096维矩阵

SVM

将2000×4096维特征与20个SVM组成的权值矩阵4096×20相乘【20种分类，SVM是二分类器，则有20个SVM】，获得2000×20维矩阵表示每个建议框是某个物体类别的得分；
由于SVM是二分类器，需要为每个类别训练单独的SVM；
SVM训练时输入正负样本在AlexNet CNN网络计算下的4096维特征，输出为该类的得分，训练的是SVM权重向量；

非极大值抑制

分别对上述2000×20维矩阵中每一列即每一类进行非极大值抑制剔除重叠建议框，得到该列即该类中得分最高的一些建议框
先解释什么叫IoU。如下图所示IoU即表示(A∩B)/(A∪B)
这里写图片描述
在测试过程完成到第4步之后，获得2000×20维矩阵表示每个建议框是某个物体类别的得分情况，此时会遇到下图所示情况，同一个车辆目标会被多个建议框包围，这时需要非极大值抑制操作去除得分较低的候选框以减少重叠框。
这里写图片描述
具体怎么做呢？
① 对2000×20维矩阵中每列按从大到小进行排序；
② 从每列最大的得分建议框开始，分别与该列后面的得分建议框进行IoU计算，若IoU>阈值，则剔除得分较小的建议框，否则认为图像中存在多个同一类物体；
③ 从每列次大的得分建议框开始，重复步骤②；
④ 重复步骤③直到遍历完该列所有建议框；
⑤ 遍历完2000×20维矩阵所有列，即所有物体种类都做一遍非极大值抑制；
⑥ 最后剔除各个类别中剩余建议框得分少于该类别阈值的建议框。

回归器

分别用20个回归器对上述20个类别中剩余的建议框进行回归操作，最终得到每个类别的修正后的得分最高的bounding box。
首先要明确目标检测不仅是要对目标进行识别，还要完成定位任务，所以最终获得的bounding-box也决定了目标检测的精度。
这里先解释一下什么叫定位精度：定位精度可以用算法得出的物体检测框与实际标注的物体边界框的IoU值来近似表示。

如下图所示，绿色框为实际标准的卡宴车辆框，即Ground Truth；黄色框为selective search算法得出的建议框，即Region Proposal。即使黄色框中物体被分类器识别为卡宴车辆，但是由于绿色框和黄色框IoU值并不大，所以最后的目标检测精度并不高。采用回归器是为了对建议框进行校正，使得校正后的Region Proposal与selective search更接近，以提高最终的检测精度。论文中采用bounding-box回归使mAP提高了3~4%。
这里写图片描述

这里写图片描述

为什么微调时和训练SVM时所采用的正负样本阈值【0.5和0.3】不一致？

微调阶段是由于CNN对小样本容易过拟合，需要大量训练数据，故对IoU限制宽松：Ground Truth+与Ground Truth相交IoU>0.5的建议框为正样本，否则为负样本；
SVM这种机制是由于其适用于小样本训练，故对样本IoU限制严格：Ground Truth为正样本，与Ground Truth相交IoU＜0.3的建议框为负样本。

阅读全文

0 0