RF GBDT XGBOOST的区别与联系

来源：互联网发布：软件研发管理制度编辑：程序博客网时间：2024/04/27 18:45

Gradient boosting(GB)
机器学习中的学习算法的目标是为了优化或者说最小化loss Function， Gradient boosting的思想是迭代生多个（M个）弱的模型，然后将每个弱模型的预测结果相加，后面的模型Fm+1(x)基于前面学习模型的Fm(x)的效果生成的。

Gradient boosting Decision Tree(GBDT)
　　GB算法中最典型的基学习器是决策树，尤其是CART，正如名字的含义，GBDT是GB和DT的结合。要注意的是这里的决策树是回归树，GBDT中的决策树是个弱模型，深度较小一般不会超过5，叶子节点的数量也不会超过10，对于生成的每棵决策树乘上比较小的缩减系数（学习率<0.1），有些GBDT的实现加入了随机抽样（subsample 0.5<=f <=0.8）提高模型的泛化能力。通过交叉验证的方法选择最优的参数。

Xgboost
　　Xgboost是GB算法的高效实现，xgboost中的基学习器除了可以是CART（gbtree）也可以是线性分类器（gblinear）。
　　(1). xgboost在目标函数中显示的加上了正则化项，基学习为CART时，正则化项与树的叶子节点的数量T和叶子节点的值有关。
　　(2). GB中使用Loss Function对f(x)的一阶导数计算出伪残差用于学习生成fm(x)，xgboost不仅使用到了一阶导数，还使用二阶导数。
　　(3). 上面提到CART回归树中寻找最佳分割点的衡量标准是最小化均方差，xgboost寻找分割点的标准是最大化，lamda，gama与正则化项相关。

xgboost算法的步骤和GB基本相同，都是首先初始化为一个常数，gb是根据一阶导数ri，xgboost是根据一阶导数gi和二阶导数hi，迭代生成基学习器，相加更新学习器。
xgboost与gdbt除了上述三点的不同，xgboost在实现时还做了许多优化：

1、在寻找最佳分割点时，考虑传统的枚举每个特征的所有可能分割点的贪心法效率太低，xgboost实现了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者，然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。
2、xgboost**考虑了训练数据为稀疏值的情况，可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率**，paper提到50倍。
特征列排序后以块的形式存储在内存中，在迭代中可以重复使用；虽然boosting算法迭代必须串行，但是在处理每个特征列时可以做到并行。
按照特征列方式存储能优化寻找最佳的分割点，但是当以行计算梯度数据时会导致内存的不连续访问，严重时会导致cache miss，降低算法效率。paper中提到，可先将数据收集到线程内部的buffer，然后再计算，提高算法的效率。
3、xgboost 还考虑了当数据量比较大，内存不够时怎么有效的使用磁盘，主要是结合多线程、数据压缩、分片的方法，尽可能的提高算法的效率。

Random Forest：

bagging （你懂得，原本叫Bootstrap aggregating）
bagging 的关键是重复的对经过bootstrapped采样来的观测集子集进行拟合。然后求平均。。。一个bagged tree充分利用近2/3的样本集。。。所以就有了OOB预估(outof bag estimation)

GBDT和随机森林的相同点：
1、都是由多棵树组成
2、最终的结果都是由多棵树一起决定

GBDT和随机森林的不同点：
1、组成随机森林的树可以是分类树，也可以是回归树；而GBDT只由回归树组成
2、组成随机森林的树可以并行生成；而GBDT只能是串行生成
3、对于最终的输出结果而言，随机森林采用多数投票等；而GBDT则是将所有结果累加起来，或者加权累加起来
4、随机森林对异常值不敏感，GBDT对异常值非常敏感
5、随机森林对训练集一视同仁，GBDT是基于权值的弱分类器的集成
6、随机森林是通过减少模型方差提高性能，GBDT是通过减少模型偏差提高性能

RF
学习随机森林模型前，一定要先了解决策树模型。树越深，模型越复杂。
决策树模型的优点如下。
1、容易理解和解释，树可以被可视化。
2、不需要太多的数据预处理工作，即不需要进行数据归一化，创造哑变量等操作。
3、隐含地创造了多个联合特征，并能够解决非线性问题。
决策树模型最大的缺点是容易过拟合。
随机森林由很多棵不同的决策树构成，对于一个给定的预测对象，每棵决策树都输出一个label，最后采取“投票”的方式，选择得票最多的label作为最终结果。随机森林是一种集成方法，也被认为是最近邻预测器的一种。集成方法是将一组弱分类器以一定的方式组合起来，形成一个强分类器。
**构建单棵树的步骤：
1、有放回的随机采样，样本数占总数的2 / 3。
2、对于每一个结点，随机选择m个特征，从中选择能提供最好划分的特征和划分点，在下一个结点重复前两个步骤直到所有训练样例都属于同一类。**
随机森林的错误率依赖两件事。
1、树之间的相关性越大，整体错误率越高。
2、单棵树的错误率越高，整体错误率越高。
随机森林的优点：
**1、容易理解和解释，树可以被可视化。
2、不需要太多的数据预处理工作，即不需要进行数据归一化，创造哑变量等操作。
3、隐含地创造了多个联合特征，并能够解决非线性问题。
4、和决策树模型，GBDT模型相比，随机森林模型不容易过拟合。
5、自带out-of-bag (oob)错误评估功能。
6、易于并行化。**
随机森林的缺点：
1、不适合小样本，只适合大样本。
2、大多数情况下，RF模型的精度略低于GBDT模型的精度。
3、适合决策边界是矩形的，不适合对角线型的。

树的剪枝
（1）前剪枝( Pre-Pruning)
通过提前停止树的构造来对决策树进行剪枝，一旦停止该节点下树的继续构造，该节点就成了叶节点。一般树的前剪枝原则有：
a.节点达到完全纯度
b.树的深度达到用户所要的深度
c.节点中样本个数少于用户指定个数
d.不纯度指标下降的最大幅度小于用户指定的幅度
（2）后剪枝( Post-Pruning)
首先构造完整的决策树，允许决策树过度拟合训练数据，然后对那些置信度不够的结点的子树用叶结点来替代。CART 采用Cost-Complexity Pruning（代价-复杂度剪枝法），代价(cost) ：主要指样本错分率；复杂度(complexity) ：主要指树t的叶节点数，(Breiman…)定义树t的代价复杂度(cost-complexity):

信息熵H(X)
信息增益=H(D)-H(Y|X)
信息增益率=gain(x)/H(x)
Gini系数=1-sum（pk^2）
基尼系数就是熵在x=1的地方一阶泰勒展开得到f(x)=1-x
所以gini=sum[x(1-x)]=1-sum(x^2)

xgb比gbdt好的地方：
二阶泰勒展开
节点分数惩罚
增益计算不同，gbdt是gini，xgb是优化推导公式

4 0