随机森林

来源:互联网 发布:全民tv帝师淘宝店地址 编辑:程序博客网 时间:2024/04/27 15:13

随机森林是一种多功能的机器学习算法,能够进行回归和分类,同时也是一种数据降维的手段,用于处理缺失值、异常值等。另外,也是一种集成学习的重要方法,可以将几个低效模型整合为一个高效模型。同CART模型不同的是,随机森林中有很多棵树,在根据某个对象的属性进行分类时,结果由这些树投票产生,而在回归时,随机森林的输出将会是所有决策树输出的平均值。

优点:

1)能较好的解决分类和回归的问题

2)较强的高维数据集处理能力,它可以处理成千上万的输入变量,并确定最重要的变量,因此被认为是一个不错的降维方法。此外,该模型能够输出变量的重要性程    度。

3)有效的对缺失数据进行估计

4)当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法。

5)模型的上述性能可以被扩展运用到未标记的数据集中,用于引导无监督分类、数据透视和异常检测。

6)随机森林算法中包含了对输入数据的重复自抽样过程,即所谓的bootstrap抽样。这样一来,数据集中大约三分之一将没有用于模型的训练而是用于测试,因此在随  机森林中我们无需再对测试集进行另外的设置。

缺点:

1)在解决回归问题时并没有像它在分类中表现得那么好,这是因为它并不能给出一个连续型的输出。当进行回归时,随机森林不能够作出超越训练集数据范围的预测,这可能导致在对某些含有特定噪声的数据进行建模时出现过度拟合。可以通过控制树的深度或叶子节点数量来防止过拟合。

2)对于许多统计建模者来说,随机森林给人的感觉像是一个黑盒子--你几乎无法控制模型内部的运行,只能在不同过的参数和随机种子之间进行尝试。

总结:

随机森林的灵魂是随机,其随机性表现在三个方面:

1)随机有放回抽样

2)随机选择特征构建决策分支

3)分裂节点时可以随机选择分裂属性


0 1