正则化问题
来源:互联网 发布:网络上小泰迪什么意思 编辑:程序博客网 时间:2024/06/09 21:50
参考来源:
(1)详细讲解版本
机器学习中的范数规则化之(一)L0、L1与L2范数 http://blog.csdn.net/zouxy09/article/details/24971995
机器学习中的范数规则化之(二)核范数与规则项参数选择 http://blog.csdn.net/zouxy09/article/details/24972869
(2)知乎回答
https://www.zhihu.com/question/20924039
小结:
1、
其中,第一项L(yi,f(xi;w)) 衡量我们的模型(分类或者回归)对第i个样本的预测值f(xi;w)和真实的标签yi之前的误差。因为我们的模型是要拟合我们的训练样本的嘛,所以我们要求这一项最小,也就是要求我们的模型尽量的拟合我们的训练数据。我们不仅要保证训练误差最小,我们更希望我们的模型测试误差小,所以我们需要加上第二项,也就是对参数w的规则化函数Ω(w)去约束我们的模型尽量的简单。
对于第一项Loss函数,如果是Square loss,那就是最小二乘了;如果是Hinge Loss,那就是著名的SVM了;如果是exp-Loss,那就是牛逼的 Boosting了;如果是log-Loss,那就是Logistic Regression了;还有等等。不同的loss函数,具有不同的拟合特性,这个也得就具体问题具体分析的。但这里,我们先不究loss函数的问题,我们把目光转向“规则项Ω(w)”。
规则化函数Ω(w)也有很多种选择,一般是模型复杂度的单调递增函数,模型越复杂,规则化值就越大。比如,规则化项可以是模型参数向量的范数。然而,不同的选择对参数w的约束不同,取得的效果也不同,但我们在论文中常见的都聚集在:零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。
2、范数的直观解释
0范数:向量中非0的个数。
1范数:||W||1 绝对值之和。
2范数:||W||2 通常意义上的模。向量各元素的平方和然后求平方根。在回归里面,有人把有它的回归叫“岭回归”(Ridge Regression),有人也叫它“权值衰减weight decay”。
比较:
L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用,在机器学习中,特征的维度往往很大,解0范数又是NP-hard问题,所以在实际中不可行。L2范数不但可以防止过拟合,还可以让我们的优化求解变得稳定和快速。
3、L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0,这里是有很大的区别的哦。???
解释:http://blog.csdn.net/fightsong/article/details/53311582
- 正则化问题
- 正则化问题
- 正则化与反问题
- 正则化与反问题
- 正则化与反问题
- 正则问题
- ISTA算法求解L1正则化问题
- 深度学习中的常见正则化问题
- 【TensorFlow】正则化(过拟合问题)
- 深层神经网络的正则化问题
- 正则表达式的问题
- 正则表达式问题征集
- 一个正则切割问题
- js 正则test问题
- 关于正则表达式问题
- 正则表达式匹配问题
- 正则^$匹配范围问题
- 正则规范空格问题
- 删除字符串中的元音字母
- 智能一代云平台(三十):逆向工程生成mybatis
- 【数据挖掘】【笔记】模型集成之ensembling guide
- GDT、LDT、IDTR、TR(转)
- java8 函数式接口(FunctionalInterface) [二]
- 正则化问题
- 【数据挖掘】【笔记】数据预处理之类别特征编码
- Python数据分析基础(一)——开发环境
- Android数据库GreenDAO3.2.2的使用(四、数据库升级)
- 【数据挖掘】【总结】项目总结之KDD2017
- 操作系统ucore lab7实验报告
- matplotlib(直方图,条形图,饼图,散点图)基础知识
- JZOJ3765. 【BJOI2014】想法
- 卷积码(Convolutional Code)