论文 Rich feature hierachies for accurate object detection and semantic segmentation

来源：互联网发布：cygwin搭建linux环境编辑：程序博客网时间：2024/06/03 17:50

1 Introduction
人类视觉区的处理过程是有阶梯的，自下而上的过程。而cnn网络也具有这种特点。为之提供了数学模型。这篇论文介绍了cnn在物体识别的表现。这里我们需要解决两个问题，一个是目标定位，另一个是使用很少的已标记检测数据来训练一个高性能的网络。和图片分类不同，检测需要定位物体，我们使用‘recongnition using region’，在每个image中产生2000个region proposals，将之修改成固定大小，以作cnn的输入，使用cnn进行训练吗，每一个proposal产生固定长度的特征向量，之后使用svm进行分类
2 Object detection with R-cnn
我们一共包括三个模型，第一个就是产生region proposals，第二个就是cnn从每一个region提取特征向量，第三个就是svm。
2.1 Region proposals:使用selective search
Feature extraction:从每一个region中提取一个4096维的特征向量，使用ImageNet里面的那个网络，包括五层卷积层和两个全连接层。在输入cnn之前，我们必须把每一个region都改成cnn输入的样式（227*227），我们选择最简单的，不管形状是啥，都直接warp到固定size。
2.2 Test time detection
特征提取之后，在每一个类中，使用为这个类训练好的svm对特征进行打分。
Run time analysis:一个image中，特征矩阵是2000*4096，svm权重矩阵是4096*N,N是类的数目。
2.3 Training
Supersived pre_training:在ILSVRC 2012上预训练cnn
Domain_specific fine_tuning: 为了是网络适应新的任务，使用新任务继续训练cnn，只需要改变最后一层softmax层，从1000类修改成21类（20类和一个背景），这一层参数初始化，其它层的参数不变，每一个image只有一个标签，所以我们要对每一个region proposal进行标注，使用IOU进行标注，如果使用selective resarch挑选出来的候选框和人工标注的重叠区域IOU大于0.5，就认为这个是正样本，将之标注成物体类别，否则当做负样本，视之为背景。这里写图片描述
Object category classifiers:使用IOU来解决部分包括的问题。overlap threshold选择0.3。

0 0