正则化防止过拟合

来源：互联网发布：java一年多的工作经验编辑：程序博客网时间：2024/05/21 18:49

写这篇文章的目的是想简单直接的理解正则化解决过拟合的问题。网上有很多关于这方面的解释，然而大部分都说的很模糊，不是很浅显易懂，本篇文章致力于介绍正则化能防止过拟合的原因。

过拟合的相关概念可以可以访问我的另一篇文章，主要介绍过拟合、正则化、范数的概念：http://blog.csdn.net/u014248127/article/details/78093455
（简单的讲过拟合就是模型过于复杂）

正则化能解决过拟合的原因很多，我将充一下几个角度去解释。

一、从损失函数上讲
这里写图片描述

正则化的思路就是在损失函数的后面加上模型复杂度的惩罚项，这样在最小化损失函数的时候需要平衡模型误差和模型的复杂度，以此来减小模型的复杂度。（这种思想是在李航老师的统计学方法中提到的）
于此具体的代表模型复杂度的惩罚项一般是L1,L2范数。

二、从数学的角度
在对损失函数进行梯度下降算法的时候更新方法由以下：
w = w - a*梯度变成了 w = (1-a*lamd/m)w - a*梯度（lamd是正则化参数），这样可以通过改变lamd的值来调节参数w的值，使得参数w简单，这样模型也就简单了。

三、从几何的角度

这里写图片描述
这是针对神经网络里面对于有激活函数这一类的解释，如果使用tanh等激活函数，当lamd参数变大时，会使我们的w减小，这样Z值就会变小，在激活函数中z值在0附近时可以近似的看成是线性函数，这样可以简化网络结构。

四、其他理解
1，正则化项的选择⽅法在机器学习的⽂献中被称为权值衰减（weight decay）。这是因为在顺序学习算法中，它倾向于让权值向零的⽅向衰减，除⾮有数据⽀持。在统计学中，它提供了⼀个参数收缩⽅法的例⼦，因为这种⽅法把参数的值向零的⽅向收缩。这种⽅法的优点在于，误差函数是w的⼆次函数，因此精确的最⼩值具有解析解。

2，在统计学的⽂献中，如果选择L1范数的正则化，被称为套索（lasso）（Tibshirani, 1996）。它的性质为：如果λ充分⼤，那么某些系数wj会变为零，从而产⽣了⼀个稀疏（sparse）模型。

阅读全文

1 0