RCNN系列目标检测方法概述

来源:互联网 发布:cntv中国网络电视台13 编辑:程序博客网 时间:2024/05/01 18:57
R-CNN系列算法是将将CNN方法引入目标检测领域的开山之作,极大改善目标检测的效果。

传统的目标检测:穷举的方式进行滑窗处理;

R-CNN:基于候选区域的方法(region proposals)

一、预备知识
物体检测和图片分类的区别:图片分类不需要定位,而物体检测需要定位出物体的位置,也就是相当于把物体的bbox检测出来,还有一点物体检测是要把所有图片中的物体都识别定位出来.
IOU定义
物体检测需要检测出物体的bounding box,如下图,不仅需要定位出车辆的bounding box,还需要识别出bounding box中的物体是车辆。

对于定位精度,有一个重要的精度评价公式:IOU;IOU定义了两个bounding box的重叠度,如下图示:

矩形框A、B的一个重合度IOU计算公式为:IOU=(A∩B)/(A∪B)
就是矩形框A、B的重叠面积占A、B并集的面积比例:
IOU=SI/(SA+SB-SI)

非极大值抑制(NMS)


定位一个车辆时,算法会找出一堆方框,我们需要对有些框进行剔除。非极大值抑制:假设有6个矩形框,根据

分类器类别分类概率进行排序,从小到大分别属于车辆的概率为A,B,C,D,E,F。

(1)从最大概率矩形框F开始,分别判断A~E与F 的重叠度IOU是否大于某个设定的阈值;

(2)假设B,D与F的重叠度大于阈值,那么扔掉B,D,并标记第一个矩形框F;

(3)从剩下的A,C,E中选择概率最大的E,然后判断A,C与E的重叠度,重叠度大于阈值的,扔掉,并标记E为保

留的第二个矩形框。

就这样一直重复,找到所有被保留下来的矩形框。

二、R-CNN

2.1算法总体思路(R-CNN)




R-CNN算法分为4个步骤:

1.候选区域生长:一张图像生成1k~2k个候选区域(采用selective search方法);

2.特征提取:对每个候选区域,使用深度卷积网络提取特征(CNN),4096维的特征向量;

3.类别判断:特征送入每一类的SVM分类器,判别是否属于该类;

4.位置精修:使用回归器精细修正候选框位置

2.2注意细节
selective search 需要考虑的几个问题:
(1)适应不同的尺度(capture all scales):穷举搜索(exhaustive selective)通过改变窗口大小来适应物体的不同尺度,选择搜索同样无法避免这个问题。算法采用了图像分割和层次算法有效地解决了这个问题。
(2)多样化:单一的策略无法应对多种类别的图像。使用颜色、纹理、大小等多种策略对分割好的区域进行合并。
(2)效率:fast to compute.
wraped region 需要考虑的几个问题:
裁剪出的矩形候选框大小不一,在送入CNN中提取特征时需要对大小进行归一化,paper试验了两种不同的方法:
(1)各向异性缩放:不管图片的长宽比例,是否发生扭曲,全部缩放至固定大小,如图(D所示)
(2)各向同性缩放:考虑到图片发生扭曲会对后续CNN的精度产生影响,作者测试了两种“各向同性缩放”防范:
A.先扩充后裁剪:直接在原始图片中,把bounding box的边界进行扩展延伸成正方形,然后再进行裁剪;如果已经延伸到了原始图片的外边界,那么就用bounding box中的颜色均值填充;如下图(B)所示;
B.先裁剪后扩充:先把bounding box图片裁剪出来,然后用固定的背景颜色填充成正方形图片(背景颜色也是采用bounding box的像素颜色均值),如下图(C)所示;

对于上面的异性、同性缩放,文献还有个padding处理,上面的示意图中第1、3行就是结合了padding=0,第2、4行结果图采用padding=16的结果。经过最后的试验,作者发现采用各向异性缩放、padding=16的精度最高,具体不再啰嗦。

CNN提取特征需要考虑的几个问题:
(1)网络架构选取:经测试AlexNet精度58.5%,VGG16精度66%,虽然VGG精度高,但计算量是AlexNet的7倍,为简单起见,paper直接选取了AlexNet;
(2)使用fine-tuning之后的CNN提取特征:使用已经在ImageNet的上已经训练过的模型在目标检测数据集pascal上进行微调,(fc:1000->21);如果不进行微调直接使用AlexNet提取的特征用于分类,类似于HOH\SIFT一样做特征提取器,不针对特定的任务,发现精度一般,但进行fine-tuning之后的精度却能达到大幅度提升;

SVM训练,测试需要考虑的几个问题:
(1)训练:
A.训练SVM的正负样本:使用IOU 的方法,计算每一个region proposal与标准框的IOU,paper实验选取的阈

值是0.3,大于该阈值的作为正样本,否则为负样本;

B.hard negative mining:一般来说训练一个SVM分类器,需要正负两个样本,训练集图片中作为正样本很

少,但是随即产生用于训练的负样本可能远大于正样本,这样训练出来的SVM效果并不好,所以利用hard 

negative mining 方法,从负样本中选取一些具有代表性的负样本,使得分类器的训练效果更好

即:负样本降采样---提取更具有判别力的负样本。

C.分类器个数:总共有N+1类(N目标类+背景),每个类别对应一个SVM线性分类器,共N个;
(2)测试
A.非极大值抑制(NMS):使用selective search 方法得到的2000个region proposals ,经过归一化之后,使用CNN最后一层FC7提取4096维特征向量,使用该类的SVM分类器对提取的特征向量进行打分,得到所有region proposals的对于这一类的分数,使用非极大值抑制(NMS去除相交的多余的框。再对这些框进行canny边缘检测,就可以得到bounding box。
(非极大值抑制(NMS)先计算出每一个bounding box的面积,然后根据score进行排序,把score最大的bounding box作为选定的框,计算其余bounding box与当前最大score与box的IoU,去除IoU大于设定的阈值的bounding box。然后重复上面的过程,直至候选bounding box为空,然后再将score小于一定阈值的选定框删除得到这一类的结果(然后继续进行下一个分类)。

位置精修需要考虑的几个问题(bounding box回归):???

讨论:CNN训练的时候,最后一层softmax就是分类层,那么为什么作者闲着没事干要先用CNN做特征提取(提取fc7层数据),然后再把提取的特征用于训练svm分类器?
这个是因为SVM训练和CNN训练过程中正负样本定义方式各不相同,导致最后采用softmax输出比采用SVM精度还低。CNN在训练的时候,对训练数据做了比较宽松的标注,比如一个bbox可能只包含物体的一部分,那么我也把他标注为正样本用于CNN训练,采用这种方法的主要原因在于CNN容易过拟合,所以需要大量的训练数据。然而SVM训练的时候,因为SVM适用于少样本训练,所以对训练数据的标注IOU比较严格,只有当bbox把整个物体都包含进去之后,才标注为物体类别,然后训练SVM。

2.3 R-CNN缺点
计算量大:R-CNN虽然不再是穷举,但依然有两千多个region proposals,每个都需要进行CNN操作,计算量巨大;
训练测试分为多步:候选区域生长,特征提取,分类,回归都是断开的训练过程,中间数据训练单独保存,训练空间和时间代价很高;
耗时长:一张图片13秒(GPU),53秒(CPU).

总结:R-CNN需要两次跑CNN模型,第一次得到的是classification的结果,第二次才得到bbox(NMS+bbox regression)

三、Fast R-CNN(特殊之处在于提出ROI pooling层,实现了end-to-end training和testing)

Fast RCNN 相对 RCNN 来说,将一张图片的测试时间降低到了 0.37 秒.主要改进有:
(1)将classification和回归结合起来,作为网络的输出,利用softmax和特殊的损失函数进行结合;
(2)将selective search提取的region proposal(ROI)传输到最后一个卷积层,降低运算成本;
(3)在最后一个卷积层后的max pooling层改为ROI pooling层,结合ROI得到特征向量用于softmax分类bbox回归。

3.1算法总体思路(Fast R-CNN)




Fast R-CNN的输入是一张图像以及使用selective search 得到的诸多region proposals(ROI),首先通过CNN提取到整幅图像的最后一层的卷积feature map,然后对每一个ROI根据映射提取自己的特征向量,然后输入到全连接层,输出为两个分支:softmax分类+bbox回归;



3.3 Fast R-CNN 总结
(1)用EdgeBoxes得到2000个region proposals即ROI,注意与RCNN区别,RCNN使用的selective search (2s/image),而fast rcnn使用的是EdgeBoxes(0.2s/image),也就是fast rcnn提高了十倍的速度;
(2)把它们整体输入到卷积网络中,在最后一个卷积层上对每个ROI求映射关系,并用一个RoI pooling layer来统一到相同的大小;
(3)经过两个fc,得到特征向量,特征向量经由各自的FC得到两个输出向量:softmax分类+bbox回归。
(4)由于全连接层计算量比较大,文章采用了truncated SVD来加速计算。
简要流程图如下:



Fast R-CNN不足:
(1)region proposal耗时(提取regionproposals 2~3s,而提取特征分类只需0.32s),大部分时间用来生成region proposals;
(2)属于伪end-to-end训练(region proposals使用selective search先提取出来,占用磁盘存储);

基于上面几个缺点,Faster R-CNN使用卷积网络(RPN)直接产生region proposals,其本质为滑动窗口;

四、Faster R-CNN

从RCNN到fast RCNN,再到本文的faster RCNN,目标检测的四个基本步骤(候选区域生成,特征提取,分类,位置精修)终于被统一到一个深度网络框架之内。所有计算没有重复,完全在GPU中完成,大大提高了运行速度。


faster RCNN可以简单地看做“区域生成网络(Region Proposal Network)+fast RCNN“的系统,用RPN代替selective search。


如图所示,fater rcnn其实分为4个主要内容:
1.conv layers:首先使用一组基础的conv+relu+pooling 层提取image 的feature maps,一般使用5层的ZF或16层的
VGG-16作为conv layers,这些feature maps被共享用于后续RPN和全连接层;
2.region proposal network:rpn用于生成region proposals。该层通过softmax判断anchors属于foreground或者background,再利用bounding box 回归修正anchors获得精确的proposals。
3.ROI pooling:该层综合输入的feature maps和proposals提取proposal feature 送入后续fc层判断目标类别;
4.classification:利用proposal feature maps计算proposals的类别,同时再次bbox回归获得检测框最终的精确位置。

这里大致的讲解了一下faster rcnn的大致思路,其中较为重要的region proposal network由于比较难以理解,具体细节在下一篇博客具体讲解。

原创粉丝点击