深度学习避免过拟合的方法---Data Augmentation

来源:互联网 发布:程控切纸机编程表 编辑:程序博客网 时间:2024/05/19 00:13

深度学习中的Data Augmentation方法

在深度学习中,为了避免出现过拟合(Overfitting),通常我们需要输入充足的数据量。当数据量不够大时候,常常采用以下几种方法:

Data Augmentation:通过平移、 翻转、加噪声等方法从已有数据中创造出一批“新”的数据,人工增加训练集的大小。

Regularization:数据量比较小会导致模型过拟合, 使得训练误差很小而测试误差特别大. 通过在Loss Function 后面加上正则项可以抑制过拟合的产生。缺点是引入了一个需要手动调整的hyper-parameter。

Dropout:这也是一种正则化手段,不过跟以上不同的是它通过随机将部分神经元的输出置零来实现。详见 http://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf

Unsupervised Pre-training:用Auto-Encoder或者RBM的卷积形式一层一层地做无监督预训练, 最后加上分类层做有监督的Fine-Tuning。参考 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.207.1102&rep=rep1&type=pdf

Transfer Learning:在某些情况下,训练集的收集可能非常困难或代价高昂。因此,有必要创造出某种高性能学习机(learner),使得它们能够基于从其他领域易于获得的数据上进行训练,并能够在对另一领域的数据进行预测时表现优异。这种方法,就是所谓的迁移学习(transfer learning)。