R-CNN 学习笔记

来源：互联网发布：javascript编程题目编辑：程序博客网时间：2024/05/21 00:17

R-CNN学习笔记

这是深度学习的又一个比较大的创新。可以说利用深度学习进行目标检测的开山之作。这篇文章主要是讲利用对region proposal进行提取特征放入CNN，所以叫做R-CNN。

下面就说说我读完这篇论文，我自己读懂，理解的东西。

首先先说一下这个算法的过程。

首先是对每一个输入的图像利用selective search的算法提取大约2000个建议框，也就是我们所说的proposal, 然后利用CNN对每一个proposal进行特征提取，特征长度是4096维。接下来，我们利用SVM分类器对这些特征进行分类，将特征送入每一类的SVM分类器，判断是否属于该类。最后，再使用回归器精细修正候选框的位置。

在物体检测的时候，我们会遇到有标签的训练数据太少这个问题。这篇论文提出，我们可以利用caffe的开源库，利用imageNet中的参数作为用于检测的网络的初始参数。进行有监督的预训练，然后再在小数据集PASCAL上进行微调。

在微调(fine-tuning)时，与Ground Truth的IoU交叠≥0.5的区域建议框，认为是正样本，其他的是负样本，这样也扩大了数据集。
但是注意，在SVM训练时，经过验证发现，与Ground Truth的IoU交叠＜0.3的区域建议，认为是负样本，Ground Truth就是正样本，其他的忽略。作者在补充材料中做出了猜想，认为可能是SVM的训练样本需要精确的定位。

这个算法的效果比较显著，在2014年之前，DPM已经进入了瓶颈期，及使用复杂的特征和结构也很难提高了。这个算法的出现应用在物体检测上，瞬间把PASCAL VOC上的检测率提高了18%。效果十分显著。

0 0