GBDT

来源：互联网发布：foxmail咋样知乎编辑：程序博客网时间：2024/05/16 04:47

这一篇记录一下目前比较常用的集成算法GBDT。集成算法从根上来看，主要分为两大类--boosting和bagging。先说bagging，他的思想是建立多个弱学习期，最后的结果进行投票决定，而且每个弱学习器的训练样本都是在总样本中随机抽样的，这个算法是并行的，每个弱学习器是一起运算的。而boosting算法，其原理是在上一个弱学习器的基础上，构建下一个弱学习器，也就是根据上一个弱学习器的结果，对样本进行加权等操作，再构建下一个弱学习器，这个算法是不能并行运算的。

bagging算法的例子有随机森林，boosting算法的例子有adaboost，GBDT，XGBOOST。

adaboost是将上一个弱学习器判断错误的样本的权重加大，然后让下一个弱学习器对这些分错的样本进行重点学习，从而将误差降低，最后将这些弱学习器进行加权组合，误差率低的，赋予较大的权重，使其在决策中起到较大的作用，而误差率高的，赋予较小的权重。

损失函数可以对本身求微分得到最小值，然后再求出相应的参数。

GBDT的思想是初始学习一个基础决策树，然后用决策树输出一个结果，然后求这棵决策树的误差，然后再建立下一棵树去拟合上一棵树的误差，本质是：在m轮，寻找一个函数(决策树)h(x)，去拟合上一轮的误差。也就是不停的寻找函数，加入到前边已经求出的函数的线性组合当中。在我们得到第二棵树的输出时，我们想要的是，这棵树的误差达到最小（本轮树拟合的是上一棵树的误差，本轮的误差就是第二棵树的输出与上一棵树的误差的差值），这个误差不能用两个数相减来表示，而是用损失函数来衡量，也就是损失函数达到最小。损失函数不等于误差，当损失函数为平方损失函数时，损失函数的值等于残差，当为其他的损失函数时，值就是相当于残差的估计。

GBDT就是用损失函数的负梯度拟合本轮残差的近似值，我们用负梯度求出第一轮的残差的近似值，然后再第二轮时利用（Xi,rti）再去构建第二棵树，这时就要求出函数h(x)使第二颗树的损失函数最小