RCNN 若干问题

来源:互联网 发布:知乎 360借壳江南嘉捷 编辑:程序博客网 时间:2024/05/29 19:01

1. 为什么不直接使用CNN的分类结果,而还要继续训练若干个SVM分类器呢

作者也直接使用CNN分类结果进行了实验,发现效果相比SVM有所降低,他发现使用CNN直接分类结果并不注重于精确定位(我觉得这个情况很合理,因为CNN识别能力非常强大,非常的鲁棒,所以不是那么精确的定位也可以得到比较好的结果,所以不注重精确定位)第二个原因在于SVM训练时采用的hard negative mining选择的样本比CNN中随机选择的样本要好,所以结果会更好。作者也提出,可能通过更改fine-tuning的一些细节可以提升效果(他们也是这么做的,Fast RCNN中他们改变了loss函数)

http://blog.csdn.net/lhanchao/article/details/72287377



2. RCNN training process

(1)先在自己的data上finetune(用positive/negative region from images)

(2)extract feature & store to disk

(3)train one binary SVM per class to classify region feature

(4)bbox regression:for each class. train a linear regression to map from cached feature to offsets yo GT boxes to make up for "slightly wrong proposals"(其实并不是必须的,试想在test time的时候,我们是先产生region proposal,然后对这个区域内的图片进行classification,如果OK的话就把当前的bounding box输出就好,但是因为CNN泛化能力比较强,这样得到的box可能并不是很准确,所以就需要这里在微调一下,change一下offset)



3. fast RCNN中的region proposal怎么映射到conv feature map中

应该是直接project的吧,因为filter都是有固定空间排布的;

如果需要过一遍卷积的话,那不就跟RCNN没什么区别了吗(虽然区域内的图片不要都过一遍卷积,但是所有的region都要过一遍卷积)