【deeplearning.ai笔记第二课】2.3 学习率衰减(learning rate decay),局部极小值和鞍点
来源:互联网 发布:线稿 知乎 编辑:程序博客网 时间:2024/06/06 04:00
1. 学习率衰减(learning rate decay)
在训练模型的时候,通常会遇到这种情况:我们平衡模型的训练速度和损失(loss)后选择了相对合适的学习率(learning rate),但是训练集的损失下降到一定的程度后就不在下降了,比如training loss一直在0.7和0.9之间来回震荡,不能进一步下降。如下图所示:
遇到这种情况通常可以通过适当降低学习率(learning rate)来实现。但是,降低学习率又会延长训练所需的时间。学习率衰减(learning rate decay)就是一种可以平衡这两者之间矛盾的解决方案。学习率衰减的基本思想是:学习率随着训练的进行逐渐衰减。
1.1 衰减方法
- 指数衰减
decayed_learning_rate = learning_rate * (decay_rate ^ num_epoch)
- 逆时间衰减
decayed_learning_rate = learning_rate / (1 + decay_rate * t)
离散阶梯衰减
e.g: 学习率在0.5保持不变10000 steps,然后变为0.1保持不变10000 steps,再变为0.05保持不变10000 steps
2 局部最小值和鞍点
对于很多高维非凸函数而言,局部极小值(以及极大值)事实上都远少于另一类梯度为零的点:鞍点。鞍点附近的某些点比鞍点有更大的代价,而其他点则有更小的代价。
鞍点激增对于训练算法来说有哪些影响呢?对于只使用梯度信息的一阶优化算法而言,目前情况还不清楚。鞍点附近的梯度通常会非常小。另一方面,实验中梯度下降似乎可以在许多情况下逃离鞍点.。大多数训练时间花费在横穿代价函数中相对平坦的峡谷.
Reference
https://github.com/exacity/deeplearningbook-chinese
阅读全文
0 0
- 【deeplearning.ai笔记第二课】2.3 学习率衰减(learning rate decay),局部极小值和鞍点
- pytorch学习笔记(十):learning rate decay(学习率衰减)
- pytorch学习笔记(十):learning rate decay(学习率衰减)
- tensorflow学习笔记(三十六):learning rate decay
- Tensorflow学习率的learning rate decay
- 【deeplearning.ai笔记第二课】1.3 机器学习基本方法(Basic recipe for machine learning)
- learning rate 和weight decay
- 学习笔记一:learning rate,weight decay和momentum的理解
- 深度学习超参数简单理解------>learning rate,weight decay和momentum
- 深度学习超参数简单理解------>learning rate,weight decay和momentum
- 深度学习超参数简单理解------>learning rate,weight decay和momentum
- 【deeplearning.ai笔记第二课】1.2 欠拟合和过拟合(bias variance)
- weight decay and learning rate
- Caffe中learning rate 和 weight decay 的理解
- Caffe中learning rate 和 weight decay 的理解
- Caffe中learning rate 和 weight decay 的理解
- 超参数简单理解-->learning rate,weight decay和momentum
- weight decay 权值衰减
- 西游项目漫谈
- UIToolBar iOS 11适配问题
- C++的学习(战略篇)
- oracle csv文件数据导入以及常见问题
- 新方格取数 解题报告
- 【deeplearning.ai笔记第二课】2.3 学习率衰减(learning rate decay),局部极小值和鞍点
- 输入描述
- Java
- Oracle 计算两个日期之间的时间差(天/小时/分钟/秒)
- Anaconda入门使用指南
- UVa10048
- java多线程---Thread和Runnable简单实例
- 区块链是什么
- Android Service完全解析,关于服务你所需知道的一切(上)