Lasso与Boosting

来源：互联网发布：诸葛亮七擒孟获知乎编辑：程序博客网时间：2024/06/16 17:39

Boosted Trees。它基本的想法是通过对弱分类器的组合来构造一个强分类器。所谓“弱”就是比随机猜要好一点点；“强”就是强啦。这个想法可以追溯到由Leslie Valiant教授（2010年图灵奖得主）在80年代提出的probably approximately correct learning (PAC learning) 理论。不过很长一段时间都没有一个切实可行的办法来实现这个理想。细节决定成败，再好的理论也需要有效的算法来执行。终于功夫不负有心人， Schapire在1996年提出一个有效的算法真正实现了这个夙愿，它的名字叫AdaBoost。AdaBoost把多个不同的决策树用一种非随机的方式组合起来，表现出惊人的性能！第一，把决策树的准确率大大提高，可以与SVM媲美。第二，速度快，且基本不用调参数。第三，几乎不Overfitting。我估计当时Breiman和Friedman肯定高兴坏了，因为眼看着他们提出的CART正在被SVM比下去的时候，AdaBoost让决策树起死回生！Breiman情不自禁地在他的论文里赞扬AdaBoost是最好的现货方法（off-the-shelf，即“拿下了就可以用”的意思）。其实在90年代末的时候，大家对AdaBoost为什么有如此神奇的性能迷惑不解。1999年，Friedman的一篇技术报告“Additive logistic regression: a statistical view of boosting”解释了大部分的疑惑（没有解释AdaBoost为什么不容易Overfitting，这个问题好像至今还没有定论），即搞清楚了AdaBoost在优化什么指标以及如何优化的。基于此，Friedman提出了他的GBM（Gradient Boosting Machine，也叫MART或者TreeNet）。几乎在同时，Breiman另辟蹊径，结合他的Bagging (Bootstrap aggregating) 提出了Random Forest （今天微软的Kinect里面就采用了Random Forest，相关论文Real-time Human Pose Recognition in Parts from Single Depth Images是CVPR2011的best paper）。

有一个关于Gradient Boosting细节不得不提。Friedman在做实验的时候发现，把一棵新生成的决策树，记为f_m，加到当前模型之前，在这棵决策树前乘以一个小的数，即v×f_m（比如v=0.01），再加入到当前模型中，往往大大提高模型的准确度。他把这个叫做“Shrinkage”。接下来，Hastie，Tibshirani和Friedman进一步发现（我发现大师们都是亲自动手写程序做实验的），如果把具有Shrinkage的Gradient Boosting应用到线性回归中时，得到的Solution Path与Lasso的Solution Path惊人地相似(如图所示)！他们把这一结果写在了ESL的第一版里，并推测这二者存在着某种紧密的联系，但精确的数学关系他们当时也不清楚。Tibshirani说他们还请教了斯坦福的优化大师（我估计是Stephen Boyd），但还是没有找到答案。

后来Tibshirani找到自己的恩师Efron。Tibshirani在“The Science of Bradley Efron”这本书的序言里写道，“He sat down and pretty much single-handedly solved the problem. Along the way, he developed a new algorithm, ‘least angle regression,’ which is interesting in its own right, and sheds great statistical insight on the Lasso.”我就不逐字逐句翻译了，大意是：Efron独自摆平了这个问题，与此同时发明了“Least angle regression (LAR)”。Efron结论是Lasso和Boosting的确有很紧密的数学联系，它们都可以通过修改LAR得到。更令人惊叹的是LAR具有非常明确的几何意义。于是，Tibshirani在序言中还有一句，“In this work, Brad shows his great mathematical power–not the twentieth century, abstract kind of math, but the old-fashioned kind: geometric insight and analysis.”读Prof Efron的文章，可以感受到古典几何学与现代统计学的结合之美（推荐大家读读Efron教授2010年的一本新书Large-Scale Inference，希望以后有机会再写写这方面的体会）！总之，Efron的这篇文章是现代统计学的里程碑，它结束了一个时代，开启了另一个时代。

这里，想补充说明一下Lasso的身世，它的全称是The Least Absolute Shrinkage and Selection Operator，读音不是[‘læso]而是[læ’su:]，有中文翻译为“套索”，个人觉得这个翻译不好，太远离它本来的含义，不如就用Lasso。Tibshrani自己说他的Lasso是受到Breiman的Non-Negative Garrote（NNG）的启发。 Lasso把NNG的两步合并为一步，即L1-norm regularization。Lasso的巨大优势在于它所构造的模型是Sparse的，因为它会自动地选择很少一部分变量构造模型。现在，Lasso已经家喻户晓了，但是Lasso出生后的头两年却很少有人问津。后来Tibshirani自己回忆时说，可能是由下面几个原因造成的：1. 速度问题：当时计算机求解Lasso的速度太慢；2. 理解问题：大家对Lasso模型的性质理解不够（直到Efron的LAR出来后大家才搞明白）；3. 需求问题：当时还没有遇到太多高维数据分析的问题，对Sparsity的需求似乎不足。Lasso的遭遇似乎在阐释我们已经熟知的一些道理： 1.千里马常有，而伯乐不常有（没有Efron的LAR，Lasso可能很难有这么大的影响力）。2.时势造英雄（高维数据分析的问题越来越多，比如Bioinformatics领域）。3.金子总是会闪光的。

LAR把Lasso （L1-norm regularization）和Boosting真正的联系起来，如同打通了任督二脉。LAR结束了一个晦涩的时代：在LAR之前，有关Sparsity的模型几乎都是一个黑箱，它们的数学性质（更不要谈古典的几何性质了）几乎都是缺失。LAR开启了一个光明的时代：有关Sparsity的好文章如雨后春笋般地涌现，比如Candes和Tao的Dantzig Selector。伯克利大学的Bin Yu教授称“Lasso, Boosting and Dantzig are three cousins”。近年来兴起的Compressed sensing（Candes & Tao, Donoho）也与LAR一脉相承，只是更加强调L1-norm regularization其他方面的数学性质，比如Exact Recovery。我觉得这是一个问题的多个方面，Lasso关注的是构建模型的准确性，Compressed sensing关注的是变量选择的准确性。由此引起的关于Sparsity的研究，犹如黄河泛滥，一发不可收拾。比如Low-rank 逼近是把L1-norm从向量到矩阵的自然推广（现在流行的“用户推荐系统”用到的Collaborative filtering的数学原理源于此）。

还必须提到的是算法问题。我个人觉得，一个好的模型，如果没有一个快速准确的算法作为支撑的话，它最后可能什么也不是。看看Lasso头几年的冷遇就知道了。LAR的成功除了它漂亮的几何性质之外，还有它的快速算法。LAR的算法复杂度相当于最小二乘法的复杂度，这几乎已经把Lasso问题的求解推向极致。这一记录在2007年被Friedman的Coordinate Descent（CD）刷新，至今没人打破。Hastie教授趣称这个为“FFT（Friedman + Fortran + Tricks）”。因为CD对Generalized Lasso问题并不能一网打尽，许多凸优化解法应运而生，如Gradient Projection， Proximal methods，ADMM (Alternating Direction Method of Multipliers)， (Split) Bregman methods，Nesterov’s method (一阶梯度法中最优的收敛速度，Candes 的很多软件包都根据这个方法设计) 等等。哪个方法更好呢？这个就像问“谁的武功天下第一”一样。我只能回答“王重阳以后再也没有天下第一了，东邪西毒南帝北丐，他们各有各的所长，有的功夫是这个人擅长一些，而另外几门功夫又是另一个人更擅长一些”。有关L1的算法可能还会大量涌现，正如优化大师Stephen Boyd所说（2010年9月28日）：“God knows the last thing we need is another algorithm for the Lasso.”

阅读全文

0 0