机器学习-随机森林（randomForest）模型的优化策略

来源：互联网发布：淘宝暴力引流软件编辑：程序博客网时间：2024/05/22 06:11

随机森林模型的优化主要有两个方面的策略：
1.特征选择
1）输入特征按照其重要性从高到底排序，其中特征重要性排序可以根据与输出变量的皮尔森相关系数或者由支持向量机模型得出；
2）去除与输出变量相关性很小的特征；
3）在原有特征的基础上，添加新的特征，新特征可以是原有特征集的组合或划分，例如将year按season划分，将weekend和holiday组合为restday

2.参数优化
以python的sklearn.ensemble.RandomForestRegressor库为例，主要需要调节的参数为：
1）n_estimators：表示树的数量，通常随着树的数量的增加，预测误差会逐渐减小，当到达一定数目时，误差的变化变得很小，这时候就可以确定较为合理的树的数量；n_estimators的选择可通过图形大致判断模型内误差稳定时的值。
2）max_features:表示基决策树的每个节点随机选择的最大特征数，传统决策树模型在选择特征时考虑所有可能的特征，而它降低了单个树的多样性，而由于随机森林基于集成学习思想的优点，减小max_features不仅会提升算法速度，也有可能降低测试误差，这也是RF模型在Bagging集成学习方法基础上的一个改进；对max_features的选择是逐一尝试，直到找到比较理想的值

阅读全文

0 0