Factors in Finetuning Deep Model for Object Detection with Long-tail Distribution解读

来源：互联网发布：超市购物篮数据下载编辑：程序博客网时间：2024/06/06 09:48

微调已经在很多视觉任务上都有一个state-of-art的performance，比如说追踪，分割，物体检测，动作识别等等。但是不同的微调方法对结果也是不一样的，这篇论文主要探索了物体检测上微调中对performance的影响因素。经验和分析结果都告诉我们有更多样本的类对feature learning的影响是更大的，因此最好是能够把样本分布均匀。提出一种层级的feature learning 方法，在GoogLeNet上进行了微调，在物体检测上有4.7%map的提升。

Introduction

在对物体检测做微调时，作者观察到两个现象。

一是长尾属性。长尾现象意思是小部分的物体类别的样本量很大，但是大部分的类样本量却很小，如下图，

ImageNet Classification数据集还是比较好的，基本上类别的数据量都差不多大，但是在PASCAL VOC和ImageNet Detection数据集上，长尾现象确实很明显的，比如说检测中人的样本数就比别的大；在传统机器学习方法，特征提取和分类是分开的，特征提取不会受到样本数量的影响，但是在深度学习中，特征提取和分类是一体的，学习到的特征对样本少的样本就不好。

二是针对特定类别学习特定的特征表达。现在的检测方法都是直接训练好一个模型，所有的类共享这些参数，也就是说所有类别都是一种单独的特征表达，但是其实不同类别的物体有自己独特的视觉表现，所以如果能够针对特定的类比进行学习，是能够更好的表达这种特定类别的，比如说直接学习哺乳动物的特征，这样的话模型能够学习到身体的表达和耳朵的形状之类的，如图是兔子和松鼠的一些特征；