程序博客网 > 网络数据传输方式

《深度学习Ng》课程学习笔记02week2——优化算法

来源：互联网发布：网络数据传输方式编辑：程序博客网时间：2024/06/06 03:22

http://blog.csdn.net/u011239443/article/details/78066082

2.1 Mini-batch 梯度下降法

2.2 理解 mini-batch 梯度下降法

2.3 指数加权平均

对温度做指数加权平均曲线：

β = 0.98 时，会得到更加平缓的曲线，如图绿色。
β = 0.5 时，会得到更加波动的曲线，如图黄色。

2.4 理解指数加权平均

2.5 指数加权平均的偏差修正

当在训练刚刚开始的时候，v会很小，为了修正这种偏差，我们可以使用以下方法：

2.6 动量梯度下降法（momentun）

梯度下降中，随着迭代次数的增加，我们需要将变化的幅度越来越小。这就使用到了动量梯度下降法：

之所以叫动量梯度下降法，是因为从另外一个角度看，是在改变下降的速度：

v’ = 摩擦力影响比率*原来速度v + 加速

2.7 RMSprop

2.8 Adam 优化算法

Adam 就是 momentun 和 RMSprop的结合：

2.9 学习率衰减

减小幅度还可以用学习率衰减：

2.10 局部最优的问题

当特征维度非常大时，我们的最优化问题通常不是一个局部极小点或者局部极大点，而是鞍点。
当 Hessian 是正定的（所有特征值都是正的），则该临界点是局部极小点。当 Hessian 是负定的（所有特征值都是负的），这个点就是局部极大点。在多维情况下，实际上我们可以找到确定该点是否为鞍点的积极迹象（某些情况下）。如果 Hessian 的特征值中至少一个是正的且至少一个是负的，那么 x 是 f 某个横截面的局部极大点，却是另一个横截面的局部极小点。

走去鞍点的平缓区的方法是使用如Adam、momentun 和 RMSprop算法。

这里写图片描述

阅读全文

0 0

网络数据传输方式

网络数据传输方式

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子扬州广陵广陵散广陵广陵是哪里广陵观涛广陵散琴曲广陵剑广陵散绝广陵区广陵王送孟浩然之广陵送孟浩然之广陵古诗扬州大学广陵学院扬州广陵学院汉广陵王墓博物馆旅游孟浩然之广陵青帝归来李广陵广陵散古筝曲广陵散的故事广陵散儿作品青帝归来李广陵全集扬州大学广陵学院专业介绍黄鹤楼送孟浩然之广陵黄鹤楼送孟浩然之广陵古诗黄鹤楼送孟浩然之广陵李白都市之青帝归来李广陵李白送孟浩然之广陵黄鹤楼送孟浩然之广陵拼音黄鹤楼送孟浩然之广陵朗读古诗送孟浩然之广陵全诗黄鹤楼之孟浩然之广陵黄鹤楼之送孟浩然之广陵古诗黄鹤楼送孟浩然之广陵广雅广雅书院广东广雅中学广州市广雅中学广州广雅中学广雅中学广韵广饶