learning rate 和weight decay

来源:互联网 发布:看腐剧用什么软件 编辑:程序博客网 时间:2024/05/16 14:27

首先,假设我们有loss function为 E(w)
梯度下降算法告诉我们,为了最小化loss function为E(w),要在 E的最快速下降的方向修改权值:

wiwiηEwi,

这里η学习率,学习率越大则对应的权重 wi修改也越大。
为了防止过拟合,在loss function上加上正则项(惩罚项),一种简单的方法是通过在权重上引入一零均值高斯项。

E˜(w)=E(w)+λ2w2

这里,λ为正则化参数。正则项是模型复杂度的单调递增函数,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。

应用梯度下降算法到这个新的cost函数,我们得到:

wiwiηEwiηλwi.

这新的一项ηλwi起到的就是正规化的作用,使得权重与其大小成比例衰减。

0 0