正则化问题

来源:互联网 发布:网络上小泰迪什么意思 编辑:程序博客网 时间:2024/06/09 21:50

参考来源:

(1)详细讲解版本

机器学习中的范数规则化之(一)L0、L1与L2范数 http://blog.csdn.net/zouxy09/article/details/24971995

机器学习中的范数规则化之(二)核范数与规则项参数选择 http://blog.csdn.net/zouxy09/article/details/24972869

(2)知乎回答

https://www.zhihu.com/question/20924039


小结:

1、


     其中,第一项L(yi,f(xi;w)) 衡量我们的模型(分类或者回归)对第i个样本的预测值f(xi;w)和真实的标签yi之前的误差。因为我们的模型是要拟合我们的训练样本的嘛,所以我们要求这一项最小,也就是要求我们的模型尽量的拟合我们的训练数据。我们不仅要保证训练误差最小,我们更希望我们的模型测试误差小,所以我们需要加上第二项,也就是对参数w的规则化函数Ω(w)去约束我们的模型尽量的简单。

     对于第一项Loss函数,如果是Square loss,那就是最小二乘了;如果是Hinge Loss,那就是著名的SVM了;如果是exp-Loss,那就是牛逼的 Boosting了;如果是log-Loss,那就是Logistic Regression了;还有等等。不同的loss函数,具有不同的拟合特性,这个也得就具体问题具体分析的。但这里,我们先不究loss函数的问题,我们把目光转向“规则项Ω(w)”。

       规则化函数Ω(w)也有很多种选择,一般是模型复杂度的单调递增函数,模型越复杂,规则化值就越大。比如,规则化项可以是模型参数向量的范数。然而,不同的选择对参数w的约束不同,取得的效果也不同,但我们在论文中常见的都聚集在:零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。


2、范数的直观解释

0范数:向量中非0的个数。

1范数:||W||1 绝对值之和。

2范数:||W||2 通常意义上的模。向量各元素的平方和然后求平方根。在回归里面,有人把有它的回归叫“岭回归”(Ridge Regression),有人也叫它“权值衰减weight decay”。

比较:

L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用,在机器学习中,特征的维度往往很大,解0范数又是NP-hard问题,所以在实际中不可行L2范数不但可以防止过拟合,还可以让我们的优化求解变得稳定和快速。


3、L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0,这里是有很大的区别的哦。???

解释:http://blog.csdn.net/fightsong/article/details/53311582