Deep Learning 最优化方法之AdaGrad

来源：互联网发布：mac如何玩魔兽世界编辑：程序博客网时间：2024/05/16 11:20

写在前面本文主要是对Deep Learning一书最优化方法的总结，具体详细的算法，另起博文展开。

整个优化系列文章列表：
Deep Learning 之最优化方法
Deep Learning 最优化方法之SGD
Deep Learning 最优化方法之Momentum（动量）
Deep Learning 最优化方法之Nesterov(牛顿动量)
Deep Learning 最优化方法之AdaGrad
Deep Learning 最优化方法之RMSProp
Deep Learning 最优化方法之Adam

深度学习中，经常需要用到优化方法，来寻找使得损失函数最小的最优解。

先上一些结论：

1.选择哪种优化算法并没有达成共识
2.具有自适应学习率（以RMSProp 和AdaDelta 为代表）的算法族表现得相当鲁棒，不分伯仲，但没有哪个算法能脱颖而出。
3.对于当前流行的优化算法包括括SGD、具动量的SGD、RMSProp、具动量的RMSProp、AdaDelta 和Adam而言，选择哪一个算法似乎主要取决于使用者对算法的熟悉程度（以便调节超参数）
4.基本不用二阶近似优化算法

在这里将这些优化方法分为三类，详见对应的blog：

一.最基本的优化算法

1.1SGD

SGD实际就是min-batch的实现，为最基础的优化算法，当今大部分优化算法都是以SGD为基础实现的。详见 Deep Learning 最优化方法之SGD

1.2Momentum（动量）

Momentum引入了动量v，以指数衰减的形式累计历史梯度，以此来解决Hessian矩阵病态问题
详见 Deep Learning 最优化方法之Momentum（动量）

1.3Nesterov(牛顿动量)

Nesterov是对Momentum的变种。与Momentum不同的是，Nesterov先更新参数，再计算梯度
详见 Deep Learning 最优化方法之Nesterov(牛顿动量)

二.自适应参数的优化算法

这类算法最大的特点就是，每个参数有不同的学习率，在整个学习过程中自动适应这些学习率。

2.1AdaGrad

学习率逐参数的除以历史梯度平方和的平方根，使得每个参数的学习率不同
详见 Deep Learning 最优化方法之AdaGrad

2.2RMSProp

AdaGrad算法的改进。
历史梯度平方和—>指数衰减的移动平均,以此丢弃遥远的过去历史。
详见 Deep Learning 最优化方法之RMSProp

2.3Adam

Adam算法可以看做是修正后的Momentum+RMSProp算法
详见 Deep Learning 最优化方法之Adam

三.二阶近似的优化算法

二阶近似作为早期处理神经网络的方法，在此并不另起blog展开细讲。

3.1牛顿法

牛顿法是基于二阶泰勒级数展开在某点附近来近似损失函数的优化方法。主要需要求得Hessian矩阵的逆。如果参数个数是k,则计算你所需的时间是O(k^3)由于在神经网络中参数个数往往是巨大的，因此牛顿法计算法消耗时间巨大。
具体更新公式如下：

3.2共轭梯度法

共轭梯度（CG）是通过迭代下降的共轭方向（conjugate directions）以有效避免Hessian 矩阵求逆计算的方法。

3.3BFGS

Broyden-Fletcher-Goldfarb-Shanno（BFGS）算法具有牛顿法的一些优点，但没有牛顿法的计算负担。在这方面，BFGS和CG 很像。然而，BFGS使用了一个更直接的方法近似牛顿更新。用矩阵Mt 近似逆，迭代地低秩更新精度以更好地近似Hessian的逆。

3.4L-BFGS

存储受限的BFGS(L-BFGS)通过避免存储完整的Hessian 逆的近似矩阵M，使得BFGS算法的存储代价显著降低。L-BFGS算法使用和BFGS算法相同的方法计算M的近

solver及其配置
solver算是caffe的核心的核心，它协调着整个模型的运作。caffe程序运行必带的一个参数就是solver配置文件。运行代码一般为
# caffe train --solver=*_slover.prototxt
在Deep Learning中，往往loss function是非凸的，没有解析解，我们需要通过优化方法来求解。solver的主要作用就是交替调用前向（forward)算法和后向（backward)算法来更新参数，从而最小化loss，实际上就是一种迭代的优化算法。
到目前的版本，caffe提供了六种优化算法来求解最优参数，在solver配置文件中，通过设置type类型来选择。
Stochastic Gradient Descent (type: "SGD"),
AdaDelta (type: "AdaDelta"),
Adaptive Gradient (type: "AdaGrad"),
Adam (type: "Adam"),
Nesterov’s Accelerated Gradient (type: "Nesterov") and
RMSprop (type: "RMSProp")
 具体的每种方法的介绍，请看本系列的下一篇文章, 本文着重介绍solver配置文件的编写。
Solver的流程：
1.     设计好需要优化的对象，以及用于学习的训练网络和用于评估的测试网络。（通过调用另外一个配置文件prototxt来进行）
2.     通过forward和backward迭代的进行优化来跟新参数。
3.     定期的评价测试网络。 （可设定多少次训练后，进行一次测试）
4.     在优化过程中显示模型和solver的状态
在每一次的迭代过程中，solver做了这几步工作：
1、调用forward算法来计算最终的输出值，以及对应的loss
2、调用backward算法来计算每层的梯度
3、根据选用的slover方法，利用梯度进行参数更新
4、记录并保存每次迭代的学习率、快照，以及对应的状态。
接下来，我们先来看一个实例：
net: "examples/mnist/lenet_train_test.prototxt"test_iter: 100test_interval: 500base_lr: 0.01momentum: 0.9type: SGDweight_decay: 0.0005lr_policy: "inv"gamma: 0.0001power: 0.75display: 100max_iter: 20000snapshot: 5000snapshot_prefix: "examples/mnist/lenet"solver_mode: CPU
接下来，我们对每一行进行详细解译：
net: "examples/mnist/lenet_train_test.prototxt"
设置深度网络模型。每一个模型就是一个net，需要在一个专门的配置文件中对net进行配置，每个net由许多的layer所组成。每一个layer的具体配置方式可参考本系列文文章中的（2）-（5）。注意的是：文件的路径要从caffe的根目录开始，其它的所有配置都是这样。
也可用train_net和test_net来对训练模型和测试模型分别设定。例如：
train_net: "examples/hdf5_classification/logreg_auto_train.prototxt"test_net: "examples/hdf5_classification/logreg_auto_test.prototxt"
接下来第二行：
test_iter: 100
这个要与test layer中的batch_size结合起来理解。mnist数据中测试样本总数为10000，一次性执行全部数据效率很低，因此我们将测试数据分成几个批次来执行，每个批次的数量就是batch_size。假设我们设置batch_size为100，则需要迭代100次才能将10000个数据全部执行完。因此test_iter设置为100。执行完一次全部数据，称之为一个epoch
test_interval: 500
测试间隔。也就是每训练500次，才进行一次测试。
base_lr: 0.01
lr_policy: "inv"
gamma: 0.0001
power: 0.75
这四行可以放在一起理解，用于学习率的设置。只要是梯度下降法来求解优化，都会有一个学习率，也叫步长。base_lr用于设置基础学习率，在迭代的过程中，可以对基础学习率进行调整。怎么样进行调整，就是调整的策略，由lr_policy来设置。
lr_policy可以设置为下面这些值，相应的学习率的计算为：
- fixed:　　 保持base_lr不变.
- step: 　　 如果设置为step,则还需要设置一个stepsize,  返回 base_lr * gamma ^ (floor(iter / stepsize)),其中iter表示当前的迭代次数
- exp:   　　返回base_lr * gamma ^ iter， iter为当前迭代次数
- inv:　　    如果设置为inv,还需要设置一个power, 返回base_lr * (1 + gamma * iter) ^ (- power)
- multistep: 如果设置为multistep,则还需要设置一个stepvalue。这个参数和step很相似，step是均匀等间隔变化，而multistep则是根据                                 stepvalue值变化
- poly: 　　  学习率进行多项式误差, 返回 base_lr (1 - iter/max_iter) ^ (power)
- sigmoid:　学习率进行sigmod衰减，返回 base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))
multistep示例：
base_lr: 0.01momentum: 0.9weight_decay: 0.0005# The learning rate policylr_policy: "multistep"gamma: 0.9stepvalue: 5000stepvalue: 7000stepvalue: 8000stepvalue: 9000stepvalue: 9500
接下来的参数：
momentum ：0.9
上一次梯度更新的权重，具体可参看下一篇文章。
type: SGD
优化算法选择。这一行可以省掉，因为默认值就是SGD。总共有六种方法可选择，在本文的开头已介绍。
weight_decay: 0.0005
权重衰减项，防止过拟合的一个参数。
display: 100
每训练100次，在屏幕上显示一次。如果设置为0，则不显示。
max_iter: 20000
最大迭代次数。这个数设置太小，会导致没有收敛，精确度很低。设置太大，会导致震荡，浪费时间。
snapshot: 5000snapshot_prefix: "examples/mnist/lenet"
快照。将训练出来的model和solver状态进行保存，snapshot用于设置训练多少次后进行保存，默认为0，不保存。snapshot_prefix设置保存路径。
还可以设置snapshot_diff，是否保存梯度值，默认为false,不保存。
也可以设置snapshot_format，保存的类型。有两种选择：HDF5 和BINARYPROTO ，默认为BINARYPROTO
solver_mode: CPU
设置运行模式。默认为GPU,如果你没有GPU,则需要改成CPU,否则会出错。
 
注意：以上的所有参数都是可选参数，都有默认值。根据solver方法（type)的不同，还有一些其它的参数，在此不一一列举。

阅读全文

0 0