正则化最小二乘
来源:互联网 发布:数组方法的使用 编辑:程序博客网 时间:2024/05/16 17:57
正则化的最小二乘法
在机器学习或者模式识别中,会出现overfitting,而当网络逐渐overfitting时网络权值逐渐变大,因此,为了避免出现overfitting,会给误差函数添加一个惩罚项,常用的惩罚项是所有权重的平方乘以一个衰减常量之和。其用来惩罚大的权值。
由于照成实验误差的因素会很多,通常会假设这些误差会线性叠加而成,这样跟据中心极限定理,随机误差项会服从正太分布。在没加入正则项之前目标函数可以表示为,其实是N个服从独立同分布假设的样本的似然函数。
通过MLE,我们可以得到回归模型权重参数 W 的最小二乘解 或者 通过不同的在线学习算法 (Sequential Learning 如 Stochastic Gradient Decent)。最小二乘的目标就在于寻找一个参数向量 W 使得估计值和观测目标值的误差最小。但如果观测得到的样本数量非常小的话,参数向量 W 中的某几个维度上的值会非常的大,从而造成过拟合。解决过拟合的常用方式加入一些正则项限制参数向量 W 的取值幅度。通常会考虑二次正则项,如下公式所示:
在机器学习领域,正则项也叫 "weight decay", 在学习算法中正则项会将权重参数不断往 0 值上拉近。 统计学则提供了一种叫 "parameter shrinkage" 的方法作为参数学习的惩罚项,起到的效果和 "weight decay" 是一样的, 形式如下:
以前一直分不清 "weight decay" 和 "parameter shrinkage' 的区别,只清楚他们都是起到正则项防止训练得到的模型过拟合的效果。其实还有更为通用的正则项形式
当 q = 1 的时候,正则项被统计学称作为 "lasso"。“lasso” 可以用于学习参数十分稀疏的模型,这个在很多地方有应用,比如图像处理,压缩感知。q 的不同取值会影响模型学习的过程,不同的效果如图所示:
还是以 q = 1 为例子,由于它的函数形状是一个菱形,这使得学习得到的参数在坐标轴上的取值概率要比 q = 2 或者取其它值的概率要大很多。下图中的蓝线是误差函数的误差等高线,黄色区域就是受正则项约束的参数取值区域。
这篇文章主要是关于不同类型的正则项,以及在不同情况下正则项的名称。其实在目标函数中起到正则作用的方式有很多,比如最近在 Deep Learning 中采用的 dropout。
References:
Bishop C M. Pattern recognition and machine learning[M]. New York: springer, 2006.
数理统计学教程 陈希孺
- 正则化最小二乘
- 最小二乘拟合,L1、L2正则化约束
- 矩阵最小二乘与Tikhonov正则化
- 最小二乘拟合,L1、L2正则化约束
- 【目标跟踪: 相关滤波器 二】岭回归(正则化最小二乘分类器)
- 最小二乘拟合曲线证明+正则方程
- 说说最小二乘
- 最小二乘拟合
- 最小二乘
- 最小二乘拟合
- 最小二乘问题
- 最小二乘回归
- 最小二乘C
- 最小二乘拟合
- 最小二乘
- 最小二乘
- 最小二乘GAN
- 线性最小二乘
- 一步步学习微软InfoPath2010和SP2010--第十二章节--管理和监控InfoPath Form Services(IPFS)(1)--在SP管理中心的IPFS设置
- Java 8简明教程
- java 实现 不限长整形字符串 相加
- 百度最新面试题集锦
- ARM DS-5安装及使用(android)
- 正则化最小二乘
- 对象数组输入与输出
- Uva-111 History Grading 裸最长公共子序列
- c++中的动态联编
- 对象数组求最大值
- C++类实现最大数的输出
- POJ1696-Space Ant
- C#类生成器
- 读枯燥的资料时怎么集中精神?