神经网络-overfitting（二）

来源：互联网发布：linux日志设置编辑：程序博客网时间：2024/05/16 02:00

一、概况

（一）、范数

由于正则化的定义需要使用到范数（norm）的概念，这里简单介绍一下范数的概念1。

1.物理意义

范数是对函数、向量和矩阵定义的一种度量形式，可以用来测量两个函数、向量或者矩阵之间的距离。

2.数学定义

想要成为范数，需要满足一下三个性质：

非负性
∀X∈Rn，有∥w∥≥0，当且仅当X=0时，∥w∥=0
齐次性
∀X∈Rn，α∈R，有∥αw∥=|α|∥w∥
三角不等式
∀X,Y∈Rn，有∥X+Y∥≤∥X∥+∥Y∥

3.范数分类

向量范数
向量X=(x1,x2,...,xn)T的LP范数定义为：
$∥ X ∥ p = (\sum i = 1 n | x i | p) 1 / p, 1 \leq p \leq + \infty$
我们经常使用的是p=1,2,∞三种向量范数：
$∥ X ∥ 1 = \sum i = 1 n | x i |$
$∥ X ∥ 2 = \sum i = 1 n | x i | 2 - - - - - - - \sqrt$
$∥ X ∥ \infty = max 1 \leq i \leq n | x i |$
矩阵范数
对于方阵A,常用的矩阵范数有三种
$∥ A ∥ 1 = max 1 \leq j \leq n \sum i = 1 n | a i j |$
$∥ A ∥ \infty = max 1 \leq i \leq n \sum j = 1 n | a i j |$
$∥ A ∥ 2 = λ 1 - - \sqrt (λ 1 是 A T A 的最大特征值)$

（二）、正则化

正则化2是为了解决过拟合问题而引入的一种策略，包括L1 regularization和L2 regularization。
假设损失函数为E(X,Y)，权重矩阵为w，为了避免过拟合问题，将损失函数更正为：

E (X, Y) + α ∥ w ∥

上式中的

∥w∥表示L1范数或者L2范数，

α是由交叉验证得到的经验参数。
上面的过程称为正则化。

二、L2 regularization

在神经网络训练中，经常使用的是L2正则化3。L2正则化以后的损失函数形式如下：

C = C 0 + λ 2 n \sum w w 2

其中

C0表示原始的损失函数，

n表示训练样本的个数，

λ称为regularization parameter。
那么，偏导数变为：

\partial C \partial w = \partial C 0 \partial w + λ n w

\partial C \partial b = \partial C 0 \partial b

由上式可知，正则化的引入只对权重w有影响，对偏置b没有影响。
设学习率为

η，权重更新公式变为：

w = w - η \partial C 0 \partial w - η λ n w = (1 - η λ n) w - η \partial C 0 \partial w

b = b - η \partial C 0 \partial b

由上式可以看到权重w的系数变为了

1−ηλn，这种

|w|的减小称为weight decay。
w为正，正则化使得w变小；w为负，正则化是得w变大。整体上会使得网络的权重w趋向于0。为什么趋近于0，会减弱过拟合呢？
直观上的解释是：当过拟合发生的时候，模型过度匹配训练数据，导致模型变得更为复杂，变化更为剧烈。而正则化可以对权重施加一种额外的约束，降低了模型的复杂性。
举个例子简单说明一下，假设模型为

y = w 1 x + w 2 x 2 + w 3 x 3

模型的梯度可以表示为

| \partial y \partial x | = | w 1 | + 2 * | w 2 | * | x | + 3 * w 3 * | x | 2

过拟合意味着y随着x的变化更为剧烈，即上式变大。
而正则化的作用是减小

|w1|和

|w2|，会使得上式变小，故正则化可以减弱过拟合。

三、L1 regularization

在神经网络训练中，也可以使用L1正则化。L1正则化以后的损失函数形式如下：

C = C 0 + λ n \sum w | w |

同理，权重的更新公式可以表示如下：

w = w - η \partial C 0 \partial w - η λ n s g n (w)

和L2类似，L1的作用也是减小权重的绝对值，使得权重趋近于0。

四、L1和L2比较

（一）、速度

根据以上讨论，当|w|很大的时候，L2的权重衰减速度更快，当|w|很小的时候，L2的速度更慢。

（二）、稀疏性

模型中为0的参数越多，稀疏性约高。一方面，稀疏性可以带来计算上的方便；另一方面，稀疏性越高，模型越容易解释（因为输出只和部分参数有关）。
根据4，L1相比于L2具有更好的稀疏特性。

《数值计算方法和算法》张韵华奚梅成等 ↩
https://en.wikipedia.org/wiki/Regularization_(mathematics) ↩
http://neuralnetworksanddeeplearning.com/chap3.html#overfitting_and_regularization ↩
http://freemind.pluskid.org/machine-learning/sparsity-and-some-basics-of-l1-regularization/ ↩

0 0