L0，L1，L2

来源：互联网发布：steam淘宝充值卡便宜编辑：程序博客网时间：2024/06/08 00:23

L0范数

向量中非0的元素的个数

L1范数

向量中各个元素绝对值之和

别名

“稀疏规则算子”（Lasso regularization）

L0 L1都可以实现稀疏， L1比L0有更好的优化求解特性

L0范数难求解，NP难问题
L1是L0范数的最优凸近似，更易于求解

稀疏优点

特征自动选择
稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命，它会学习地去掉这些没有信息的特征，也就是把这些特征对应的权重置为0。
可解释性

L2范数

向量各元素的平方和然后求平方根
别名

在回归里面，叫“岭回归”（Ridge Regression）或者“权值衰减weight decay”
Ridge

优点：

防止过拟合，提升模型泛化能力
有助于处理运算困难问题（condition number不好的情况下矩阵求逆）

condition number是一个矩阵（或者它所描述的线性系统）的稳定性或者敏感度的度量，如果一个矩阵的condition number在1附近，那么它就是well-conditioned的，如果远大于1，那么它就是ill-conditioned的，如果一个系统是ill-conditioned的，它的输出结果就不要太相信了。
对于一个ill-condition的系统，输入稍微改变，输出就发生很大的改变
假设我们有个方程组AX=b，我们需要求解X。如果A或者b稍微的改变，会使得X的解发生很大的改变，那么这个方程组系统就是ill-condition的，反之就是well-condition的。

总结

L1会趋向于产生少量的特征，而其他的特征都是0
L2会选择更多的特征，这些特征都会接近于0
Lasso在特征选择时候非常有用
Ridge只是一种规则化

0 0