【深度学习】常见优化算法

来源：互联网发布：apache怎么安装编辑：程序博客网时间：2024/05/29 13:35

转自：http://blog.csdn.net/shenxiaolu1984/article/details/52511202

本文介绍常见的一阶数值优化算法，这些方法在现代神经网络框架(tensorflow, caffe, torch)中已经是标准配置。

问题

设系统参数为ω。对于样本i，其代价函数为Qi(ω)。在n个样本组成的训练集上，其整体代价函数为：

Q (ω) = \sum i = 1 n Q i (ω)

要求ω使得上式最小，由于没有闭式解，需要通过近似迭代逐步逼近。

基础一阶优化

GD

GD(Gradient Descent)以η为学习率，在每次迭代中用一阶泰勒展开近似：

ω t + 1 = ω t - η \nabla Q (ω)

将求和与梯度互换。GD方法的增量来源于对所有样本同时求梯度之和：

ω t + 1 = ω t - η \sum i = 1 n \nabla Q i (ω)

设ω的维度为D，代价函数Q是个标量，减号后的梯度也是一个D维向量。

SGD

SGD(Stochastic Gradient Descent)在每次迭代中，顺次使用每个样本的梯度，更新参数：

for i=1 to n

ω t + 1 = ω t - η \nabla Q i (ω)

一种折衷的方法是，把m个样本组成一个mini-batch，使用mini-batch的总梯度更新参数：

for i=1 to n/m

ω t + 1 = ω t - η \sum j = 1 m \nabla Q i j (ω)

其中Qij(ω)为第i个minibatch中第j个样本的代价。

为书写简便，以下说明中不再出现样本序号i。∇Q(ω)可以指一个样本、一个mini-batch或者全部样本的梯度只和。

更快的一阶优化

这些方法都以GD为基础，但收敛速度更快，换句话说ϵt更小。
关于收敛速度的意义，请参看这篇博客。

ASGD

ASGD(Average Stochastic Gradient Descent)选择一个迭代的时间点(代数)t0，在这个时间点之前，和SGD一样：

ω ¯ t = ω t

在这个时间点之后，使用t0到当前时刻t的平均值：

ω ¯ t = 1 t - t 0 + 1 \sum τ = t 0 t ω τ

AdaGrad

AdaGrad1(Adaptive Gradient)方法对参数的每一维进行归一化，使用的分母是之前步骤中该维度的平方和：

ω d t + 1 = ω d t - η 1 \sum t - 1 τ = 1 [ \nabla Q ( ω t ) d ] 2 - - - - - - - - - - - - - - \sqrt \nabla Q (ω t)

相当于为每一维参数设定了不同的学习率：压制常常变化的参数，突出稀缺的更新。能够更有效地利用少量有意义样本。

AdaDelta

AdaDelta2(Adaptive Delta)和AdaGrad一样为每一维参数设定不同学习率，但是不用再设定基础学习率η。

首先维护一个期望D，描述之前迭代中的参数变化情况，同样是个D维向量：

D t = γ D t - 1 + (1 - γ) Δ ω 2 t

另一个期望G，描述之前迭代中的梯度的平方：

G t = γ G t - 1 + (1 - γ) \nabla Q (ω) 2 t

使用D和G的比值作为权重，分别归一化每一维参数：

ω d t + 1 = ω d t - D d t G d t + 1 \nabla Q (ω)

减号后的归一化参数决定了：单位梯度变化对应多少参数变化。

Adam

Adam3(Adaptive Moment Estimation)的思路和AdaGrad相似，都使用梯度平方根归一化学习率。

注意：为书写简便，后续的矩阵相乘相除都逐元素进行，更新也对参数每一维单独进行。

维护一个一阶momentum，等价于梯度：

m t = α \cdot m t - 1 + (1 - α) \cdot \nabla Q (ω)

另一个二阶momentum，等价于梯度平方：

v t = β \cdot v t - 1 + (1 - β) \cdot \nabla Q (ω) 2

由于m,v都初始化为0，使用t次幂让其在头几次迭代中更大一些：

m^t = m t 1 - α t, v^t = v t 1 - β t

使用梯度平方v归一化学习率，更新幅度为梯度m:

ω t + 1 = ω t - η 1 v ^ t - - \sqrt m^t

Rprop

RProp4(Resilient Propagation)比较本次梯度∇Q(ω)dt+1和上次梯度∇Q(ω)dt符号变化来为参数d的变化加权。

如果两次梯度符号相反，则抑制参数变化(η−<1)：

ω d t + 1 = ω d t - η - \cdot \nabla Q (ω)

如果两次符号相同，则增强参数变化(η+>1)：

ω d t + 1 = ω d t - η + \cdot \nabla Q (ω)

RMSprop

RMSprop5(Root Mean Square Propagation)类似于简化版的AdaDelta，但是是独立发展而来的。

维护期望G，描述之前迭代中的梯度的平方：

G t = γ G t - 1 + (1 - γ) \nabla Q (ω) 2 t

用G修正学习率：

ω d t + 1 = ω d t - η G d t + 1 \nabla Q (ω)

NAG

NAG6(Nesterov’s Accelerated Gradient)，发明者是毛国数学家Yurii Nesterov。

参数变化由γ控制：

m t = γ \cdot m t - 1 + η \cdot \nabla Q (ω - γ \cdot m t - 1)

导数的计算点不再是当前参数ω，而是从当前参数根据前次变化前进一小步。

用mt更新参数：

ω t + 1 = ω t - m t

总结

提速可以归纳为以下几个方面：
- 使用momentum来保持前进方向(velocity)；
- 为每一维参数设定不同的学习率：在梯度连续性强的方向上加速前进；
- 用历史迭代的平均值归一化学习率：突出稀有的梯度；

辨：其他优化方法

共轭梯度法(Conjugate Gradient)也是一阶方法，针对特殊形式的代价函数：

Q (ω) = 1 2 ω T A ω - ω T b

常见的各种牛顿法, L-BFGS核心都是二阶优化方法，利用了代价函数的Hessian矩阵：

x t + 1 = x t - η \cdot H [Q (ω)] - 1 \nabla Q (ω)

换句话说，牛顿法用线性函数拟合代价函数的导数，而不是代价函数本身。

单纯形法，插值法等只计算代价函数值，不需要求导。

Duchi, J., Hazan, E., & Singer, Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. Journal of Machine Learning Research, 12, 2121–2159. ↩
Zeiler, M. D. (2012). ADADELTA: An Adaptive Learning Rate Method. Retrieved from http://arxiv.org/abs/1212.5701 ↩
Kingma, D. P., & Ba, J. L. (2015). Adam: a Method for Stochastic Optimization. International Conference on Learning Representations, 1–13. ↩
Martin Riedmiller und Heinrich Braun: Rprop - A Fast Adaptive Learning Algorithm. Proceedings of the International Symposium on Computer and Information Science VII, 1992 ↩
http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf ↩
https://blogs.princeton.edu/imabandit/2013/04/01/acceleratedgradientdescent/ ↩

0 0