机器学习中的树模型下——集成类树
来源:互联网 发布:大数据零售业案例 编辑:程序博客网 时间:2024/05/15 09:39
集成学习
目前集成学习的方法大致可以分为两种:
1、个体学习器之间存在强依赖关系、必须串行生成的序列化方法。(Boosting)
2、个体学习器之间不存在强依赖关系、可同时生成的并行化方法。(Bagging和RF)
Boosting:
Bagging:
树中的集成模型:
提升树(AdaBoostTree):
采用的是提升方法AdaBoost,基学习器是决策树(CART)。对于分类问题决策树是二叉分类树,回归问题是二叉回归树。
不同问题的提升树算法,其主要区别在于使用的损失函数不同,包括用平方误差损失函数的回归问题,用指数损失函数的分类问题,
以及用一般损失函数的一般决策问题。
一般步骤是:1、训练一个简单的树模型。
2、通过分来结果调整样本的分布(重采样或加权样本)。
3、在训练一个树模型。
4、重复前三步产生一定数量的树。通过线性组合方式得到最后的分类器。(分类准确率越高作用越大。)
随机森林(RF):
随机森林算法属于bagging类方法,只是和传统的bagging方法不同的是,传统的Bagging方法只有样本的自助采样(bootstrap sampling),
RF则增加了一个随机特征选择,使得模型的生成更具有鲁棒性,可以有效地减少过拟合现象。
RF(维度随机选择,boostrapping样本采样,bagging结合模型):
1、可以并行计算,提高效率。
2、具有决策树的所有优点。
3、可以有效地避免决策树的过拟合问题。
4、相对于一棵树,RF能做出来large-margin边界(支持向量机的目的),并且更平滑了。
5、通过投票可以对噪声具有鲁棒性。
实际应用中:通过测试多加一颗树减少一颗树来测试树的数量是否够,尽量多加树。
梯度回归树(GBDT):
GBDT属于AdaBoost类方法:
AdaBoost和GradientBoost:
AdaBoost损失函数是:exp指数函数。前向分布算法:每一步只优化加法模型的一个基函数及其系数。
GradientBoost损失函数是:任意的平滑可微函数。梯度下降算法:优化一个基函数。
下一篇比较(GBDT,XGBoost)
总结:
参考:
1、台大机器学习技法。
2、机器学习,周志华西瓜书
3、统计学习方法,李航
- 机器学习中的树模型下——集成类树
- 机器学习中的树模型上——单模型类树
- 机器学习-树类模型总结
- 机器学习 -- 模型集成与调优
- 机器学习集成算法:XGBoost模型构造
- 机器学习算法——集成学习
- 机器学习笔记——集成学习
- 学习笔记—诊断机器学习模型
- 机器学习中的常见学习模型
- 【机器学习】隐马尔科夫模型(下)——学习算法和预测算法
- Andrew NG机器学习课程笔记系列之——机器学习之神经网络模型-下(Neural Networks: Representation)
- 【机器学习算法模型】聚类算法——EM
- 机器学习(六):叠加树模型
- Python机器学习——线性模型
- Python机器学习——线性模型
- Python机器学习——线性模型
- 机器学习——BP神经网络模型
- 机器学习之——神经网络模型
- python入门(二)
- Python——break语句与continue语句
- SSM整合笔记(一)
- VLOOKUP函数使用及注意事项
- sdut3252---Lowest Unique Price (map+set维护特定值)
- 机器学习中的树模型下——集成类树
- 视图
- range 的实现细节(start、end、step)(左闭右开区间)
- 蓝桥杯ALGO-152—— 算法训练 求完数
- 欢迎使用CSDN-markdown编辑器
- 每路技术支持
- jersey实现的RESTful
- 两个小题目
- 简单的留言页面表单验证代码,包括邮箱验证