优化方法

来源：互联网发布：女生外套冬装知乎编辑：程序博客网时间：2024/04/29 22:33

1. Mini-batch

当batchsize=1时，就是“stochastic gradient descent (SGD)”；
当batchsize=m时，就是“batch gradient descent (BGD)”；

– 优点缺点 SGD 更新一次参数的速度很快-走的很快收敛路线“波动很大”，可能导致无法收敛到全局最优 BGD 收敛路线“平稳”，每次都向着正确方向走更新一次参数的速度很慢-走的很慢

于是中和两者优缺点，将batchsize设定在1~m之间。

一种梯度更新方法，作用为平滑SGD或Mini-BGD带来的收敛过程的波动。

如下图，由蓝色波动变成红色波动。

更新方式如下：

{v d W [l] = β v d W [l] + (1 - β) d W [l] W [l] = W [l] - α v d W [l]

另一种梯度更新方法，作用为平滑SGD或Mini-BGD带来的收敛过程的波动。与Momentum的作用一样。

如下图，由蓝色波动变成绿色波动。

更新过程如下：

⎧ ⎩ ⎨ ⎪ ⎪ s d W [l] = β 2 s d W [l] + (1 - β 2) (d W [l]) 2 W [l] = W [l] - α d W [ l ] s d W [ l ] \sqrt + ε

另一种梯度更新方法，作用为平滑SGD或Mini-BGD带来的收敛过程的波动。是momentum和RMSprop的结合。

更新过程如下：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ v d W [l] = β 1 v d W [l] + (1 - β 1) \partial  \partial W [ l ] v c o r r e c t e d d W [l] = v d W [ l ] 1 - ( β 1 ) t s d W [l] = β 2 s d W [l] + (1 - β 2) (\partial  \partial W [ l ]) 2 s c o r r e c t e d d W [l] = s d W [ l ] 1 - ( β 2 ) t W [l] = W [l] - α v c o r r e c t e d d W [ l ] s c o r r e c t e d d W [ l ] \sqrt + ε

阅读全文

0 0