神经网络-overfitting(二)
来源:互联网 发布:linux日志设置 编辑:程序博客网 时间:2024/05/16 02:00
一、概况
(一)、范数
由于正则化的定义需要使用到范数(norm)的概念,这里简单介绍一下范数的概念1。
1.物理意义
范数是对函数、向量和矩阵定义的一种度量形式,可以用来测量两个函数、向量或者矩阵之间的距离。
2.数学定义
想要成为范数,需要满足一下三个性质:
- 非负性
∀X∈Rn,有∥w∥≥0,当且仅当X=0时,∥w∥=0 - 齐次性
∀X∈Rn,α∈R,有∥αw∥=|α|∥w∥ - 三角不等式
∀X,Y∈Rn,有∥X+Y∥≤∥X∥+∥Y∥
3.范数分类
向量范数
向量X=(x1,x2,...,xn)T 的LP 范数定义为:∥X∥p=(∑i=1n|xi|p)1/p,1≤p≤+∞
我们经常使用的是p=1,2,∞ 三种向量范数:∥X∥1=∑i=1n|xi| ∥X∥2=∑i=1n|xi|2−−−−−−−√ ∥X∥∞=max1≤i≤n|xi| 矩阵范数
对于方阵A ,常用的矩阵范数有三种∥A∥1=max1≤j≤n∑i=1n|aij| ∥A∥∞=max1≤i≤n∑j=1n|aij| ∥A∥2=λ1−−√(λ1是ATA的最大特征值)
(二)、正则化
正则化2是为了解决过拟合问题而引入的一种策略,包括L1 regularization和L2 regularization。
假设损失函数为
上式中的
上面的过程称为正则化。
二、L2 regularization
在神经网络训练中,经常使用的是L2正则化3。L2正则化以后的损失函数形式如下:
其中
那么,偏导数变为:
由上式可知,正则化的引入只对权重w有影响,对偏置b没有影响。
设学习率为
由上式可以看到权重w的系数变为了
w为正,正则化使得w变小;w为负,正则化是得w变大。整体上会使得网络的权重w趋向于0。为什么趋近于0,会减弱过拟合呢?
直观上的解释是:当过拟合发生的时候,模型过度匹配训练数据,导致模型变得更为复杂,变化更为剧烈。而正则化可以对权重施加一种额外的约束,降低了模型的复杂性。
举个例子简单说明一下,假设模型为
模型的梯度可以表示为
过拟合意味着y随着x的变化更为剧烈,即上式变大。
而正则化的作用是减小
三、L1 regularization
在神经网络训练中,也可以使用L1正则化。L1正则化以后的损失函数形式如下:
同理,权重的更新公式可以表示如下:
和L2类似,L1的作用也是减小权重的绝对值,使得权重趋近于0。
四、L1和L2比较
(一)、速度
根据以上讨论,当|w|很大的时候,L2的权重衰减速度更快,当|w|很小的时候,L2的速度更慢。
(二)、稀疏性
模型中为0的参数越多,稀疏性约高。一方面,稀疏性可以带来计算上的方便;另一方面,稀疏性越高,模型越容易解释(因为输出只和部分参数有关)。
根据4,L1相比于L2具有更好的稀疏特性。
- 《数值计算方法和算法》 张韵华 奚梅成等 ↩
- https://en.wikipedia.org/wiki/Regularization_(mathematics) ↩
- http://neuralnetworksanddeeplearning.com/chap3.html#overfitting_and_regularization ↩
- http://freemind.pluskid.org/machine-learning/sparsity-and-some-basics-of-l1-regularization/ ↩
0 0
- 神经网络-overfitting(二)
- 神经网络-overfitting(一)
- 神经网络优化(overfitting 解决办法)
- 机器学习--神经网络算法系列--过拟合(overfitting)
- 深度学习(二)overfitting和regularization、dropout
- 过拟合(overfitting)
- Overfitting
- 神经网络(二)
- 神经网络(二) 曲线拟合
- 神经网络(二)
- 神经网络 ANN(二)
- 卷积神经网络(二)
- 神经网络学习(二)
- 神经网络:表达(二)
- 神经网络:学习(二)
- 机器学习(八)- Overfitting
- 14过拟合(Overfitting)
- 神经网络学习笔记(二) 线性神经网络
- PHP语言开发Paypal支付demo的具体实现
- linux安装JDK
- VS2013 产品密钥 – 所有版本
- 黑马程序员——java--IO
- OCP知识点讲解 之 检查点队列与增量检查点
- 神经网络-overfitting(二)
- leetcode:26 Remove Duplicates from Sorted Array-每日编程第二十三题
- 【项目基础】容器、AOP理论篇
- linux关闭执行程序
- [hdoj试题]Climbing Worm
- openSUSE下安装MySQL
- 小米手机无法连接eclipse调试解决方案
- 设计原则
- 未来的认知工作负载需要全新的IT基础架构