learning rate 和weight decay

来源：互联网发布：看腐剧用什么软件编辑：程序博客网时间：2024/05/16 14:27

首先，假设我们有loss function为 E(w)
梯度下降算法告诉我们，为了最小化loss function为E(w)，要在 E的最快速下降的方向修改权值：

wi←wi−η∂E∂wi,

这里η为学习率，学习率越大则对应的权重 wi修改也越大。
为了防止过拟合，在loss function上加上正则项（惩罚项），一种简单的方法是通过在权重上引入一零均值高斯项。

E˜(w)=E(w)+λ2w2

这里，λ为正则化参数。正则项是模型复杂度的单调递增函数，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。

应用梯度下降算法到这个新的cost函数，我们得到：

wi←wi−η∂E∂wi−ηλwi.

这新的一项−ηλwi起到的就是正规化的作用，使得权重与其大小成比例衰减。

0 0