机器学习之AdaBoost，GBDT，XGBoost

来源：互联网发布：淘宝健客大药房旗舰店编辑：程序博客网时间：2024/06/06 15:37

说实话个人觉得这部分内容还是很难理解的，需要大量的数学优化方面的知识还有机器学习的思想，我先记录下我能理解的方面，错误之处，多多指教。
一.AdaBoost
这三个算法都是集成学习的boosting，所谓boosting，就是顺次建立一系列的基学习器，在建立每个学习器时，都寻找改进的方向，来提升整个模型的准确率，而应用最广的就是以决策树作为基学习器。
AdaBoost核心思想：在顺次迭代的每一次构造分类器，都根据该分类器在训练集上的分类结果，给训练集中的每个样本一个新的权值：如果该样本被分对，则权值小，如果被分错，则权值大，然后根据这个权值能够算出这个刚构建的基分类器的权值。
那么，问题来了，权值是怎么算的呢，看两个公式：

这里写图片描述

这里写图片描述
这里的e是分类器误差率，就是分错的，a这个基分类器的权值，w是每个样本的权值，所以根据这些公式就能算出权值了，这里的Z是标准化的处理，反正就是数学上的一些处理，至于为什么用这个公式，如果大家定性的分析，发现他还是合理的：误差率大，权值就调大。

进一步理解 对于整个Boost家族来说，我们要抓住本质，每次构造分类器，都使其在损失减少的方向上构造，即采用不同的损失函数做准确度的提升，对于Adaboost也是如此，我们知道，对于每个模型，都有自己对应的损失函数，线性回归是平方和损失，逻辑回归是交叉熵损失，SVM是Hinge损失，对于Adaboost，是指数损失函数，
这里写图片描述
至于他的损失函数是指数函数呢，我看书上的数学推导比较复杂，反正就是各种求最优解，最后发现他就是个指数函数，呵呵。

对于Adaboost，可以看到他对于分错的样本比较敏感，容易产生过拟合的问题，我看大神都不太推荐用这个。

二.GBDT
Gradient boosting,称为梯度提升。应用最为广的就是提升决策树。
在提升决策树中，我们假设f(x)=∑hj(x) ,第j颗决策树记做hj(x),所得的模型是f(x),这种抽象成函数的思维要养成，损失函数对于机器学习太重要了
。核心思想将平方和损失作为损失函数，这里写图片描述每一次迭代，采用负梯度作为x的新的目标值。这也很好理解，平方和求梯度就是残差，残差表示真实值和当前预测值之间的差异，如果能让残差为0，这就是极好的模型。这样想是不就很好理解啦。
其实最容易想到的方法是采用贪心的方法使损失函数最小，如公式：
这里写图片描述
这里的r是学习率，也是步长，这个可以我们控制，我看书上说用一些最优化的理论也能用，呵呵，我是没看懂他那数学推导。
但是对于大量的样本，复杂的函数而言，贪心是很难实现的，所以GBDT采用了类似梯度下降的方法，如公式，
这里写图片描述
过拟合的控制
我们知道，如果模型过于复杂，那么很可能带来过拟合的问题，在梯度提升中，我们可以通过控制学习率，就是上面说的步长，决策树的总数，每颗决策树大小等控制。这些都在sklearn包中得到了很好的支持。具体参数还是要看实际业务的，不过大家可以参照下大神们的经验值==

三.XGBoost

对就是大名鼎鼎陈天奇提出来的那个XGBoost。在GDBT的基础上理解XGBoost就比较容易了，XGBoost是将损失函数做泰勒展开到二阶导，另外，为了防止过拟合又加了正则项，
这里写图片描述
就是这个东西，学过高数的都知道，然后就是一大堆数学推导，来处理这个损失函数，最后推出这么个东西，

这里G,H代表和一阶导，二阶导相关的参数，T代表叶子结点的数目，λ为正则项的系数，然后我们就可以说这个公式可以代表决策树的结构，这个值越小，决策树的结构越好，那么我们就可以仿照最初决策树的做法，用这个公式，计算每次节点的划分贪心实现。顺便说一句，这里的损失函数也是可以自定义的。
机器学习竞赛中，XGboost往往具有很好的效果，可以防止过拟合，速度又快，推荐大家使用。

阅读全文

0 0