Lasso,L1范数,及其鲁棒性

来源:互联网 发布:德国nobilia柏丽 知乎 编辑:程序博客网 时间:2024/06/06 19:41

前言:本文包括以下几个方面,1. 介绍Lasso,从最初提出Lasso的论文出发,注重动机;

2. L1和L2范数的比较,注重L1的稀疏性及鲁棒性;

3. 从误差建模的角度理解L1范数

1. lasso

最早提出Lasso的文章,文献[1],已被引用n多次。

注:对于不晓得怎么翻译的英文,直接搬来。

1) 文献[1]的动机:

在监督学习中,ordinary least squares(OLS) estimates 最小化所有数据的平方残差(即只是让经验误差最小化),存在2个问题:

1是预测误差(prediction accuracy):OLS estimates总是偏差小,方差大;

2是可解释性(interpretation):我们希望选出一些有代表性的子集就ok了。

【Lasso还有个缺点,ref8:当p>>n时,(如 医学样本,基因和样本数目),Lasso却最多只能选择n个特征】

为了解决上面2个问题,2种技术应运而生:

1是subset selection:其可解释性强,但预测精度可能会很差;

2是岭回归(ridge regression):其比较稳定(毕竟是添加了正则化项,把经验风险升级为结构风险),

                                                但可解释性差(只是让所有coefficients都很小,没让任何coefficients等于0)。

看来这2种技术对于2大问题总是顾此失彼,Lasso就被提出啦!其英文全称是'least absolute shrinkage and selection operator'

lasso的目的是:shrink  some coefficients and sets others to 0,

                           保留subset selection可解释性强的优点 和 ridge regression稳定性强的优点。

2)为什么Lasso相比ridge regression稀疏?

直观的理解[1]


(plus a constant).

(a)图:椭圆形是函数的图像,lasso的约束图像是菱形。

最优解是第一次椭圆线触碰到菱形的点。最优解容易出现在角落,如图所示,触碰点坐标是(0,c),等同于一个coefficient=0;

(b)图:岭回归的约束图像是圆形。

因为圆形没有角落,所以椭圆线与圆形的第一次触碰很难是在坐标为(0,c)的点,也就不存在稀疏了。

2.  L1,L2范数误差的增长速度(ref2,ref3)


                 图1

L1范数误差的线性增长速度使其对大噪音不敏感,从而对不良作用形成一种抑制作用。

而L2范数误差的二次增长速度 显著放大了 大噪声 负面作用。

3. 从误差建模的角度理解

1)孟德宇老师从误差建模的角度分析L1如何比L2鲁棒。(ref3)

1:看图1,由于L1范数的线性增长速度使其对大噪音不敏感,从而对其不良影响起到一种隐式抑制,因此相对鲁棒。

2:从贝叶斯的角度,看图2,L1范数误差对应的拉普拉斯分布比L2范数误差对应的高斯分布具有更为显著的“厚尾”状态,从而其更适合对大幅度噪音的似然描述,

从而导致对大噪音或异常点数据更加稳健的计算效果。


2)1是从误差建模的角度,涉及这么个问题:从贝叶斯角度,为什么L1对应拉普拉斯,L2对应高斯分布呢?

这个问题我纠结了好久,因为RCC论文涉及此分析。终于从知乎https://www.zhihu.com/question/23536142上找到解析:

1是参考博文 ref 6:  ( 文章含具体推导,分为L1、L2、Elastic Net(L2及L1+L2) )

    抛给大家一个结论:从贝叶斯的角度来看,正则化等价于对模型参数引入 先验分布 。

    对于回归问题,对w引入先验分布(高斯分布/拉普拉斯分布) -> 对样本空间 关于w 求贝叶斯最大后验估计(MAP) -> 得到了关于w的岭回归/LASSO 

    因此, 对参数引入 高斯先验/拉普拉斯先验 等价于 L2正则化/L1正则化

2是参考论文 ref 7: ( ref6的进阶 )

     除了高斯先验、拉普拉斯先验,还讲了其他先验。   

4. ref4

L0范数很难优化求解(NP难问题),L1范数是L0范数的最优凸近似,比L0范数容易优化求解。

5. ref5 一篇极好的博文,全面分析了各种范数(L1,L2,核范数,鲁棒PCA)

参考:

[1]《Regression shrinkage and selection via the lasso》Robert Tibshirani

[2] 《Improve robustness of sparse PCA by L1-norm maximization》 Meng Deyu et.al

[3] 《误差建模原理》孟德宇  人工智能通讯

[4] 《convex optimization》S.Boyd  (书)

[5] http://blog.csdn.net/lj695242104/article/details/38801025   (csdn博客,总结的很好)

[6] http://charleshm.github.io/2016/03/Regularized-Regression/  (Github博客)
[7] 《Lazy Sparse Stochastic Gradient Descent for Regularized Mutlinomial Logistic Regression》
[8] 《Regularization and variable selection via the Elastic Net》ppt  Hui.Zou