Random Forest 实用经验(转)

来源:互联网 发布:爱五子棋打谱软件 编辑:程序博客网 时间:2024/06/13 10:53

总结两条关于random forest的实用经验。给定数据和问题,对于算法选择有参考价值。

  1. 小样本劣势,大样本优势

小样本情况下(1k~100k): RF相对与经典算法(SVM or Boosting)没优势,一般来说效果更差
大样本情况下(1M+): 这时候其他算法基本上跑不动了。RF凭借着快速的 training 和 testing,成为唯一能够实际操作的算法。 这也从一个侧面证明了工业界的哲学:数据第一,算法第二
如何针对不同问题,设计使用RF的方法,从而能够产生海量数据,是一门艺术
2. RF 与 KNN有相似的效果

RF 和 KNN 都可以看成对空间劈分的算法。RF 对空间的劈分是预计算的(在training过程中确定);而 KNN则是根据 testing sample adaptively劈分空间的。可以将RF视为KNN的一种快速算法。
KNN做不好的问题,RF也做不好

转自于
https://www.douban.com/note/212245564/

关于Knn和Random Forests的感觉
http://kkx.github.io/

0 0
原创粉丝点击