RCNN学习笔记(1)-RCNN-Rich feature hierarchies for accurate object detection and semantic segmentation论文

来源:互联网 发布:点对点视频软件 编辑:程序博客网 时间:2024/05/17 04:56

reference link1:http://blog.csdn.net/wopawn/article/details/52133338
reference link2: http://blog.csdn.net/shenxiaolu1984/article/details/51066975

主要解决的问题

问题一:速度
经典的目标检测算法使用滑动窗法依次判断所有可能的区域。本文则预先提取一系列较可能是物体的候选区域,之后仅在这些候选区域上提取特征,进行判断。
问题二:训练集
经典的目标检测算法在区域中提取人工设定的特征(Haar,HOG)。本文则需要训练深度网络进行特征提取。可供使用的有两个数据库:
一个较大的识别库(ImageNet ILSVC 2012):标定每张图片中物体的类别。一千万图像,1000类。
一个较小的检测库(PASCAL VOC 2007):标定每张图片中,物体的类别和位置。一万图像,20类。
本文使用识别库进行预训练,而后用检测库调优参数。最后在检测库上评测。


流程

RCNN的算法分为4个步骤:

  1. 一张图片生成1k-2k的候选区域;
  2. 对每个候选区域,使用深度网路提取特征;
  3. 特征送入每一累的SVM分类器, 并判别是否属于该类;
  4. 使用回归器精确修正候选框的位置;

    这里写图片描述


候选区域生成

使用Selective Search 方法从一张图片中生成约2000-3000 个候选区域。其基本思路如下:
1.使用一种过分割手段,将图像分割成小区域;
2.查看现有小区域,合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置;
3.输出曾经存在过得区域(所谓的候选区域)
候选区域生成和后续步骤相对独立,实际可以使用任意算法进行。
注:
【1】.selective search:采用过分割手段 将图像分割成一个小区域,再通过颜色直方图,梯度直方图等近似规则进行合并,最后生成约2000个建议框的操作
【2】合并时的规则
a.颜色相近似(颜色直方图)
b.纹理相近似(梯度直方图)
c.合并后总面积小(保证合并操作的尺度较为均匀,避免一个大区域陆续“吃掉”其他小区域)
d.合并后,总面积再起BBOX(bounding box)中所占比例较大。

这里写图片描述


特征提取(网络结构)

【预处理】
在使用深度网络之前,先把候选区域归一化成统一尺寸 227*227
(本文采用AlexNet CNN网络进行CNN特征提取,为了适应AlexNet网络的输入图像大小:227×227,故将所有建议框变形为227×227。)
作者在补充材料中给出了四种变形方式:
① 考虑context【图像中context指RoI周边像素】的各向同性变形,建议框像周围像素扩充到227×227,若遇到图像边界则用建议框像素均值填充,下图第二列;
② 不考虑context的各向同性变形,直接用建议框像素均值填充至227×227,下图第三列;
③ 各向异性变形,简单粗暴对图像就行缩放至227×227,下图第四列;
④ 变形前先进行边界像素填充【padding】处理,即向外扩展建议框边界,以上三种方法中分别采用padding=0下图第一行,padding=16下图第二行进行处理;

经过作者一系列实验表明采用padding=16的各向异性变形即下图第二行第三列效果最好,能使mAP提升3-5%。 这里写图片描述
【网络结构】
基本借鉴Hinton 2012年 在Image Net 上的分类网络
这里写图片描述
依次将每个227×227的建议框输入AlexNet CNN网络获取4096维的特征【比以前的人工经验特征低两个数量级】,2000个建议框的CNN特征组合成2000×4096维矩阵


SVM

将2000×4096维特征与20个SVM组成的权值矩阵4096×20相乘【20种分类,SVM是二分类器,则有20个SVM】,获得2000×20维矩阵表示每个建议框是某个物体类别的得分;
由于SVM是二分类器,需要为每个类别训练单独的SVM;
SVM训练时输入正负样本在AlexNet CNN网络计算下的4096维特征,输出为该类的得分,训练的是SVM权重向量;


非极大值抑制

分别对上述2000×20维矩阵中每一列即每一类进行非极大值抑制剔除重叠建议框,得到该列即该类中得分最高的一些建议框
先解释什么叫IoU。如下图所示IoU即表示(A∩B)/(A∪B)
这里写图片描述
在测试过程完成到第4步之后,获得2000×20维矩阵表示每个建议框是某个物体类别的得分情况,此时会遇到下图所示情况,同一个车辆目标会被多个建议框包围,这时需要非极大值抑制操作去除得分较低的候选框以减少重叠框。
这里写图片描述
具体怎么做呢?
① 对2000×20维矩阵中每列按从大到小进行排序;
② 从每列最大的得分建议框开始,分别与该列后面的得分建议框进行IoU计算,若IoU>阈值,则剔除得分较小的建议框,否则认为图像中存在多个同一类物体
③ 从每列次大的得分建议框开始,重复步骤②;
④ 重复步骤③直到遍历完该列所有建议框;
⑤ 遍历完2000×20维矩阵所有列,即所有物体种类都做一遍非极大值抑制;
⑥ 最后剔除各个类别中剩余建议框得分少于该类别阈值的建议框。


回归器

分别用20个回归器对上述20个类别中剩余的建议框进行回归操作,最终得到每个类别的修正后的得分最高的bounding box。
首先要明确目标检测不仅是要对目标进行识别,还要完成定位任务,所以最终获得的bounding-box也决定了目标检测的精度。
这里先解释一下什么叫定位精度:定位精度可以用算法得出的物体检测框与实际标注的物体边界框的IoU值来近似表示。

如下图所示,绿色框为实际标准的卡宴车辆框,即Ground Truth;黄色框为selective search算法得出的建议框,即Region Proposal。即使黄色框中物体被分类器识别为卡宴车辆,但是由于绿色框和黄色框IoU值并不大,所以最后的目标检测精度并不高。采用回归器是为了对建议框进行校正,使得校正后的Region Proposal与selective search更接近, 以提高最终的检测精度。论文中采用bounding-box回归使mAP提高了3~4%。
这里写图片描述

这里写图片描述


为什么微调时和训练SVM时所采用的正负样本阈值【0.5和0.3】不一致?

微调阶段是由于CNN对小样本容易过拟合,需要大量训练数据,故对IoU限制宽松:Ground Truth+与Ground Truth相交IoU>0.5的建议框为正样本,否则为负样本;
SVM这种机制是由于其适用于小样本训练,故对样本IoU限制严格:Ground Truth为正样本,与Ground Truth相交IoU<0.3的建议框为负样本。

阅读全文
0 0