集成学习——Boosting总结

来源:互联网 发布:amx cdc数据 编辑:程序博客网 时间:2024/06/05 02:01
Boosting是集成学习中的一大类方法,它是一种“串行”的机器学习方法,即从初始训练集中训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前学习错的训练样本在后续中受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,每个基学习器之间是输入-输出的关系,如此重复进行,直至基学习器的数目达到事先指定的值T,最终将这T个学习器进行加权结合。
        对于Boosting算法来说,每个基分类器可以是“同质”的,即此集成中只包含同种类型的个体学习器,例如决策树集成,神经网络集成等;也可以是“异质”的,即集成中包含不同种类的基学习器,例如集成中同时包含决策树和神经网络。
        从Boosting算法的流程可知,Boosting算法的两个关键之处在于:(1). 每一轮学习过程结束后,调整训练样本的权值;(2).更新每一个基学习器的h的权重。
        Boosting类算法包含的算法有很多,最有名的就是AdaBoosting算法,除此之外还有Gradient Boosting,L2Boosting 包括陈天奇(Tianqi Chen)大神发明的XGBoost都在此类中,对于同类型的算法,我们更应该关注其损失函数和损失函数优化方法。

        所以对于Gradient Boosting,就是在训练基学习器的时候,选择梯度下降的方向来最小化损失函数的,而对于AdaBoost,则是优化其指数损失函数,因为指数损失函数在求偏导的时候形式较为简单,这里就不展开讲了。
        至于目前大热的XGBoost,与GBDT最大的不同,就是对损失函数进行了泰勒变换:
展开以后的形式里,当前待学习的Tree是变量,需要进行优化求解。
在实际操作的过程中,sklearn包中的ensemble方法中包含了AdaBoost、Gradient Boost以及GBDT,而XGBoost则有专门的Python包来实现,具体的API请看官方文档。

参考文献:
《机器学习 周志华著》
《统计学习方法 李航著》
sklearn 及 XGBoost官方文档