fine-tuning的二三事

来源：互联网发布：java构造方法重载要素编辑：程序博客网时间：2024/05/21 10:41

日常的应用中，我们会很经常遇到一个问题：

如何应用强大的model(比如ResNet)去训练我们自己的数据？

考虑到这样的几个事实:

通常我们自己的数据集都不会大(<1w)

从头开始训练耗时

解决方法就是fine-tuning.

方式

参考CS231的资料，有三种方式

ConvNet as fixed feature extractor.
其实这里有两种做法：
(1) 使用最后一个fc layer之前的fc layer获得的特征，学习个线性分类器(比如SVM)
(2) 重新训练最后一个fc layer

Fine-tuning the ConvNet.
固定前几层的参数，只对最后几层进行fine-tuning

Pretrained models.
这个其实和第二种是一个意思，不过比较极端，使用整个pre-trained的model作为初始化，然后fine-tuning整个网络而不是某些层

选择

考虑两个问题：

你的数据集大小

你的数据集和ImageNet(假设在ImageNet上训练的）的相似性

分为四种情况，解决方法基于的原则就是:

NN中的低层特征是比较generic的，比如说线、边缘的信息，高层特征是Dataset Specific的，基于此，如果你的数据集和ImageNet差异比较大，这个时候你应该尽可能的少用pre-trained model的高层特征.

数据集小(比如<5000)，相似度高

这是最常见的情况，可以仅重新训练最后一层(fc layer）
数据集大(比如>10000)，相似度高

fine-tuning后几层，保持前面几层不变或者干脆直接使用pre-trained model作为初始化，fine-tuning整个网络
数据集小，相似度低

小数据集没有办法进行多层或者整个网络的fine-tuning，建议保持前几层不动，fine-tuning后几层(效果可能也不会很好)
数据集大，相似度低

虽然相似度低，但是数据集大，可以和2一样处理