随机森林

来源：互联网发布：全民tv帝师淘宝店地址编辑：程序博客网时间：2024/04/27 15:13

随机森林是一种多功能的机器学习算法，能够进行回归和分类，同时也是一种数据降维的手段，用于处理缺失值、异常值等。另外，也是一种集成学习的重要方法，可以将几个低效模型整合为一个高效模型。同CART模型不同的是，随机森林中有很多棵树，在根据某个对象的属性进行分类时，结果由这些树投票产生，而在回归时，随机森林的输出将会是所有决策树输出的平均值。

优点：

1）能较好的解决分类和回归的问题

2）较强的高维数据集处理能力，它可以处理成千上万的输入变量，并确定最重要的变量，因此被认为是一个不错的降维方法。此外，该模型能够输出变量的重要性程度。

3）有效的对缺失数据进行估计

4）当存在分类不平衡的情况时，随机森林能够提供平衡数据集误差的有效方法。

5）模型的上述性能可以被扩展运用到未标记的数据集中，用于引导无监督分类、数据透视和异常检测。

6）随机森林算法中包含了对输入数据的重复自抽样过程，即所谓的bootstrap抽样。这样一来，数据集中大约三分之一将没有用于模型的训练而是用于测试，因此在随机森林中我们无需再对测试集进行另外的设置。

缺点：

1）在解决回归问题时并没有像它在分类中表现得那么好，这是因为它并不能给出一个连续型的输出。当进行回归时，随机森林不能够作出超越训练集数据范围的预测，这可能导致在对某些含有特定噪声的数据进行建模时出现过度拟合。可以通过控制树的深度或叶子节点数量来防止过拟合。

2）对于许多统计建模者来说，随机森林给人的感觉像是一个黑盒子--你几乎无法控制模型内部的运行，只能在不同过的参数和随机种子之间进行尝试。

总结：

随机森林的灵魂是随机，其随机性表现在三个方面：

1）随机有放回抽样

2）随机选择特征构建决策分支

3）分裂节点时可以随机选择分裂属性

0 1