weight decay

来源：互联网发布：kvm虚机网络配置编辑：程序博客网时间：2024/05/21 10:38

在ufldl的课程中了解到weight decay，查询了不少博文，简单理解如下：

在机器学习中，常常会出现overfitting，网络权值越大往往overfitting的程度越高，因此，为了避免出现overfitting,会给误差函数添加一个惩罚项，常用的惩罚项是所有权重的平方乘以一个衰减常量之和。

$\begin{align}J(W,b)&= \left[ \frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \\&= \left[ \frac{1}{m} \sum_{i=1}^m \left( \frac{1}{2} \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 \right) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2\end{align}$
右边项即用来惩罚大权值。权值衰减惩罚项使得权值收敛到较小的绝对值，而惩罚大的权值。从而避免overfitting的出现。

0 0