正则化防止过拟合

来源:互联网 发布:java一年多的工作经验 编辑:程序博客网 时间:2024/05/21 18:49

写这篇文章的目的是想简单直接的理解正则化解决过拟合的问题。网上有很多关于这方面的解释,然而大部分都说的很模糊,不是很浅显易懂,本篇文章致力于介绍正则化能防止过拟合的原因。

过拟合的相关概念可以可以访问我的另一篇文章,主要介绍过拟合、正则化、范数的概念:http://blog.csdn.net/u014248127/article/details/78093455
(简单的讲过拟合就是模型过于复杂)

正则化能解决过拟合的原因很多,我将充一下几个角度去解释。

一、从损失函数上讲
这里写图片描述

正则化的思路就是在损失函数的后面加上模型复杂度的惩罚项,这样在最小化损失函数的时候需要平衡模型误差和模型的复杂度,以此来减小模型的复杂度。(这种思想是在李航老师的统计学方法中提到的)
于此具体的代表模型复杂度的惩罚项一般是L1,L2范数。

二、从数学的角度
在对损失函数进行梯度下降算法的时候更新方法由以下:
w = w - a*梯度 变成了 w = (1-a*lamd/m)w - a*梯度(lamd是正则化参数),这样可以通过改变lamd的值来调节参数w的值,使得参数w简单,这样模型也就简单了。

三、从几何的角度

这里写图片描述
这是针对神经网络里面对于有激活函数这一类的解释,如果使用tanh等激活函数,当lamd参数变大时,会使我们的w减小,这样Z值就会变小,在激活函数中z值在0附近时可以近似的看成是线性函数,这样可以简化网络结构。

四、其他理解
1,正则化项的选择⽅法在机器学习的⽂献中被称为权值衰减(weight decay)。这是因为在顺序学习算法中,它倾向于让权值向零的⽅向衰减,除⾮有数据⽀持。在统计学中,它提供了⼀个参数收缩⽅法的例⼦,因为这种⽅法把参数的值向零的⽅向收缩。这种⽅法的优点在于,误差函数是w的⼆次函数,因此精确的最⼩值具有解析解。

2,在统计学的⽂献中,如果选择L1范数的正则化,被称为套索(lasso)(Tibshirani, 1996)。它的性质为:如果λ充分⼤,那么某些系数wj会变为零,从而产⽣了⼀个稀疏(sparse)模型。