随机森林
来源:互联网 发布:全民tv帝师淘宝店地址 编辑:程序博客网 时间:2024/04/27 15:13
随机森林是一种多功能的机器学习算法,能够进行回归和分类,同时也是一种数据降维的手段,用于处理缺失值、异常值等。另外,也是一种集成学习的重要方法,可以将几个低效模型整合为一个高效模型。同CART模型不同的是,随机森林中有很多棵树,在根据某个对象的属性进行分类时,结果由这些树投票产生,而在回归时,随机森林的输出将会是所有决策树输出的平均值。
优点:
1)能较好的解决分类和回归的问题
2)较强的高维数据集处理能力,它可以处理成千上万的输入变量,并确定最重要的变量,因此被认为是一个不错的降维方法。此外,该模型能够输出变量的重要性程 度。
3)有效的对缺失数据进行估计
4)当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法。
5)模型的上述性能可以被扩展运用到未标记的数据集中,用于引导无监督分类、数据透视和异常检测。
6)随机森林算法中包含了对输入数据的重复自抽样过程,即所谓的bootstrap抽样。这样一来,数据集中大约三分之一将没有用于模型的训练而是用于测试,因此在随 机森林中我们无需再对测试集进行另外的设置。
缺点:
1)在解决回归问题时并没有像它在分类中表现得那么好,这是因为它并不能给出一个连续型的输出。当进行回归时,随机森林不能够作出超越训练集数据范围的预测,这可能导致在对某些含有特定噪声的数据进行建模时出现过度拟合。可以通过控制树的深度或叶子节点数量来防止过拟合。
2)对于许多统计建模者来说,随机森林给人的感觉像是一个黑盒子--你几乎无法控制模型内部的运行,只能在不同过的参数和随机种子之间进行尝试。
总结:
随机森林的灵魂是随机,其随机性表现在三个方面:
1)随机有放回抽样
2)随机选择特征构建决策分支
3)分裂节点时可以随机选择分裂属性
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 随机森林
- 学习android编程之路(8)—Android中Cursor类的概念和用法
- virtualBox下Centos系统扩展磁盘空间详细教程
- 以指针作为函数参数
- java apache commons HttpClient发送get和post请求的学习整理
- apache配置视频随意拖动播放功能
- 随机森林
- ajax异步获取数据后动态向表格中添加数据(行)
- iOS网络监测如何区分2、3、4G?
- Java中各Set实现类的性能分析
- Netfilter的原理和实现浅析
- adb shell dumpsys
- JAVA中如何使用log4j作为日志记录工具
- Linux下SSH用FTP命令上传文件至另一个FTP空间
- PHP接收客户端数据方式:post,HTTP_RAW_POST_DATA,input