L1相较于L2的稀疏性
来源:互联网 发布:c语言取反运算 编辑:程序博客网 时间:2024/04/28 10:39
L1相较于L2的稀疏性
在机器学习中,常见的正则化项有L1(
(本文部分内容和图片引用自:https://www.zhihu.com/question/37096933?sort=created)
什么是稀疏性
相信大家都听过一个名词——稀疏矩阵,在矩阵中,若数值为0的元素数目远远多于非0元素的数目时,则称该矩阵为稀疏矩阵;与之相反,若非0元素数目占大多数时,则称该矩阵为稠密矩阵.
在矩阵中,如果矩阵元素0的数目非常多,则可以称之为稀疏矩阵。同理,L1的稀疏性,指的就是在加了L1正则项后,模型的解
为何L1相较于L2能够得到稀疏解
首先,用几张图片来大致解释一下L1的稀疏性。
假设,我们有个Loss函数,
可以发现极小值是在图中的绿色点处,
在分别加了L1正则项和L2正则项后,他们的曲线图如下:
其中蓝色的是加了L2正则项的loss曲线(
观察图中曲线可以发现,加了L2正则项后,极小值处的解变小了,这说明正则项起到了效果,但是最优解是接近0但不等于0的值,因此不是稀疏解。而加了L1正则项后,极小值的解变为了0,因此L1相较于L2具有稀疏性。
事实上,两种正则化能不能把最优的w变成 0,取决于原先的loss函数在 0 点处的导数。如果本来导数不为 0,那么施加 L2 后导数依然不为 0,最优的 w 也不会变成 0。而施加 L1 时,只要 L1 项的系数
那么为何只要
下面从理论的角度来分析一下:
对于
当
当
故,只要
- L1相较于L2的稀疏性
- l1 相比于 l2 为什么容易获得稀疏解?
- 为什么L1稀疏L2平滑?
- 非负矩阵分解中基于L1和L2范式的稀疏性约束
- 非负矩阵分解中基于L1和L2范式的稀疏性约束
- 非负矩阵分解中基于L1和L2范式的稀疏性约束
- 非负矩阵分解中基于L1和L2范式的稀疏性约束
- 非负矩阵分解中基于L1和L2范式的稀疏性约束
- 非负矩阵分解中基于L1和L2范式的稀疏性约束
- 基于L1和L2范式的稀疏性约束最优化求解
- 逻辑回归L1与L2正则,L1稀疏,L2全局最优(凸函数梯度下降)
- 稀疏性与L1范数
- 稀疏性与L1范数
- 稀疏性与L1范数
- 相较于其他语言,golang的突出特点和优势
- Swift 3.0 【Swift 3.0 相较于 Swift 2.2 的变化】
- 1.jdbc相较于mybatis,hibernate的一些缺点
- linux相较于windows作为服务器端操作系统的优点
- 方法,构造方法,抽象方法的区别
- linux(4)
- <高仿微信>我的高仿微信
- Android——观察者模式的使用
- 20170801工作记账流水(2017-08-01 10:00)
- L1相较于L2的稀疏性
- Java定时任务开源框架
- 触摸事件
- java-去除List中重复的值并返回已经去重复的List
- POJ 2369 Permutations 【置换群】
- 8、合并表记录
- oracle字符集查看与设置
- Linux(deepin)配置MySQL
- css实现小三角形