正则化问题

来源：互联网发布：网络上小泰迪什么意思编辑：程序博客网时间：2024/06/09 21:50

参考来源：

（1）详细讲解版本

机器学习中的范数规则化之（一）L0、L1与L2范数 http://blog.csdn.net/zouxy09/article/details/24971995

机器学习中的范数规则化之（二）核范数与规则项参数选择 http://blog.csdn.net/zouxy09/article/details/24972869

（2）知乎回答

https://www.zhihu.com/question/20924039

小结：

1、

其中，第一项L(y_i,f(x_i;w)) 衡量我们的模型（分类或者回归）对第i个样本的预测值f(x_i;w)和真实的标签y_i之前的误差。因为我们的模型是要拟合我们的训练样本的嘛，所以我们要求这一项最小，也就是要求我们的模型尽量的拟合我们的训练数据。我们不仅要保证训练误差最小，我们更希望我们的模型测试误差小，所以我们需要加上第二项，也就是对参数w的规则化函数Ω(w)去约束我们的模型尽量的简单。

对于第一项Loss函数，如果是Square loss，那就是最小二乘了；如果是Hinge Loss，那就是著名的SVM了；如果是exp-Loss，那就是牛逼的 Boosting了；如果是log-Loss，那就是Logistic Regression了；还有等等。不同的loss函数，具有不同的拟合特性，这个也得就具体问题具体分析的。但这里，我们先不究loss函数的问题，我们把目光转向“规则项Ω(w)”。

规则化函数Ω(w)也有很多种选择，一般是模型复杂度的单调递增函数，模型越复杂，规则化值就越大。比如，规则化项可以是模型参数向量的范数。然而，不同的选择对参数w的约束不同，取得的效果也不同，但我们在论文中常见的都聚集在：零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。

2、范数的直观解释

0范数：向量中非0的个数。

1范数：||W||1 绝对值之和。

2范数：||W||2 通常意义上的模。向量各元素的平方和然后求平方根。在回归里面，有人把有它的回归叫“岭回归”（Ridge Regression），有人也叫它“权值衰减weight decay”。

比较：

L1范数和L0范数可以实现稀疏，L1因具有比L0更好的优化求解特性而被广泛应用，在机器学习中，特征的维度往往很大，解0范数又是NP-hard问题，所以在实际中不可行。L2范数不但可以防止过拟合，还可以让我们的优化求解变得稳定和快速。

3、L2范数的规则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0，这里是有很大的区别的哦。？？？

解释：http://blog.csdn.net/fightsong/article/details/53311582

阅读全文

0 0