深度学习如何设置学习率

来源：互联网发布：中国近几年进出口数据编辑：程序博客网时间：2024/05/01 14:20

学习率是深度学习中的一个重要的超参，如何调整学习率是训练出好模型的关键要素之一。在通过SGD求解问题的极小值时，梯度不能太大，也不能太小。太大容易出现超调现象，即在极值点两端不断发散，或是剧烈震荡，总之随着迭代次数增大loss没有减小的趋势；太小会导致无法快速地找到好的下降的方向，随着迭代次数增大loss基本不变。

因此，我们常常用一些退火的方法调整学习率。学习率调整方法基本上有两种

1. 基于经验的手动调整。通过尝试不同的固定学习率，如0.1, 0.01, 0.001等，观察迭代次数和loss的变化关系，找到loss下降最快关系对应的学习率。

2. 基于策略的调整。

2.1 fixed 、exponential、polynomial

2.2. 自适应动态调整。adadelta、adagrad、ftrl、momentum、rmsprop、sgd

关于学习率的大小

* 太大: loss爆炸, 或者nan
* 太小: 半天loss没反映(但是, LR需要降低的情况也是这样, 这里可视化网络中间结果, 不是weights, 有效果, 俩者可视化结果是不一样的, 太小的话中间结果有点水波纹或者噪点的样子, 因为filter学习太慢的原因, 试过就会知道很明显)
* 需要进一步降低了: loss在当前LR下一路降了下来, 但是半天不再降了.
* 如果有个复杂点的任务, 刚开始, 是需要人肉盯着调LR的. 后面熟悉这个任务网络学习的特性后, 可以扔一边跑去了.
* 如果上面的Loss设计那块你没法合理, 初始情况下容易爆, 先上一个小LR保证不爆, 等loss降下来了, 再慢慢升LR, 之后当然还会慢慢再降LR, 虽然这很蛋疼.
* LR在可以工作的最大值下往小收一收, 免得ReLU把神经元弄死了. 当然, 我是个心急的人, 总爱设个大点的.

0 0