在神经网络中weight decay、momentum、batch normalization各自意义

来源：互联网发布：黑社会网络2001 编辑：程序博客网时间：2024/06/08 18:10

一、weight decay（权值衰减）的使用目的是防止过拟合。在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。
二、momentum是梯度下降法中一种常用的加速技术。对于一般的SGD，其表达式为 $x \leftarrow x-\alpha \ast dx$ , $x$ 沿负梯度方向下降。

最简单的梯度下降法是
$x_{t+1} = x_t -\alpha \nabla f(x_t)$ .
对于ill-conditioned问题，梯度下降法中每次迭代的方向 $\nabla f(x_t)$ 都很接近于Hessian矩阵最小特征向量的垂直方向，对目标函数的改进很小。为此加入一个历史信息项
$d_{t+1} = \beta d_t - \nabla f(x_t), \beta >0$
$x_{t+1} = x_t - \alpha d_{t+1}.$
这里的 $d_t$ 就称为动量项，作用是通过历史搜索方向的积累，消除相继搜索方向中相反的方向，而一致的方向则相互累加。

其中 $\beta$ 即momentum系数，通俗的理解上面式子就是，如果上一次的momentum（即 $v$ ）与这一次的负梯度方向是相同的，那这次下降的幅度就会加大，所以这样做能够达到加速收敛的过程，带有momentum的时候，可以使用更大的学习率 $\alpha$ 。而且当导数为0的时候，还需要更新一段w才达到平衡，这样有利于于训练过程中逃离局部最小值，使网络能够更快速地收敛，也是需要经过反复地trial and error获得的经验值。
三、batch normalization的是指在神经网络中激活函数的前面，将 $wx+b$ 按照特征进行normalization，这样做的好处有三点：
1、提高梯度在网络中的流动。Normalization能够使特征全部缩放到[0,1]，这样在反向传播时候的梯度都是在1左右，避免了梯度消失现象。
2、提升学习速率。归一化后的数据能够快速的达到收敛。
3、减少模型训练对初始化的依赖。

阅读全文

0 0