Random Forest 实用经验（转）

来源：互联网发布：爱五子棋打谱软件编辑：程序博客网时间：2024/06/13 10:53

总结两条关于random forest的实用经验。给定数据和问题，对于算法选择有参考价值。

小样本劣势，大样本优势

小样本情况下（1k~100k）： RF相对与经典算法（SVM or Boosting）没优势，一般来说效果更差
大样本情况下（1M+）：这时候其他算法基本上跑不动了。RF凭借着快速的 training 和 testing，成为唯一能够实际操作的算法。这也从一个侧面证明了工业界的哲学：数据第一，算法第二
如何针对不同问题，设计使用RF的方法，从而能够产生海量数据，是一门艺术
2. RF 与 KNN有相似的效果

RF 和 KNN 都可以看成对空间劈分的算法。RF 对空间的劈分是预计算的（在training过程中确定）；而 KNN则是根据 testing sample adaptively劈分空间的。可以将RF视为KNN的一种快速算法。
KNN做不好的问题，RF也做不好

转自于
https://www.douban.com/note/212245564/

关于Knn和Random Forests的感觉
http://kkx.github.io/

0 0