RCNN 若干问题

来源：互联网发布：知乎 360借壳江南嘉捷编辑：程序博客网时间：2024/05/29 19:01

1. 为什么不直接使用CNN的分类结果，而还要继续训练若干个SVM分类器呢

作者也直接使用CNN分类结果进行了实验，发现效果相比SVM有所降低，他发现使用CNN直接分类结果并不注重于精确定位（我觉得这个情况很合理，因为CNN识别能力非常强大，非常的鲁棒，所以不是那么精确的定位也可以得到比较好的结果，所以不注重精确定位）第二个原因在于SVM训练时采用的hard negative mining选择的样本比CNN中随机选择的样本要好，所以结果会更好。作者也提出，可能通过更改fine-tuning的一些细节可以提升效果（他们也是这么做的，Fast RCNN中他们改变了loss函数）

http://blog.csdn.net/lhanchao/article/details/72287377

2. RCNN training process

（1）先在自己的data上finetune（用positive/negative region from images）

（2）extract feature & store to disk

（3）train one binary SVM per class to classify region feature

（4）bbox regression：for each class. train a linear regression to map from cached feature to offsets yo GT boxes to make up for "slightly wrong proposals"（其实并不是必须的，试想在test time的时候，我们是先产生region proposal，然后对这个区域内的图片进行classification，如果OK的话就把当前的bounding box输出就好，但是因为CNN泛化能力比较强，这样得到的box可能并不是很准确，所以就需要这里在微调一下，change一下offset）

3. fast RCNN中的region proposal怎么映射到conv feature map中

应该是直接project的吧，因为filter都是有固定空间排布的；

如果需要过一遍卷积的话，那不就跟RCNN没什么区别了吗（虽然区域内的图片不要都过一遍卷积，但是所有的region都要过一遍卷积）

阅读全文

0 0