Ensemble learning:Bagging,Random Forest,Boosting
来源:互联网 发布:网络推广主要做什么 编辑:程序博客网 时间:2024/04/26 03:26
概述
- 基分类器之间应该相互独立(相关性不高也可)
- 基分类器应该好与随机猜测分类器(在二分类中应该高于0.5的准确率)
上图中虚线为基分类器,实线为组合分类器。
- 个体的学习器之间存在着很强的依赖关系,必须串行生成序列话的方法,代表的是Boosting
- 令一种不存在强的依赖关系,可以同时生成的并行化方法,代表Bagging,Random Forest
Bagging
假设共抽取N个样本,则N次都为为抽到的概率为:
则一个样本被抽到的概率为:
因此当N很大时:
out-off-bag,oob
,这是自助采样带给bagging
的里一个优点,因为我们可以用oob
进行“包外估计”out-of-bag estimate
。
bagging的算法流程:
来源:数据挖掘导论
下面给出基于CART
算法的分类结果:(关于CART参考: 统计学习方法–决策树 )
而用bagging
给出的结果:
小结:
Random Forest
简单的来说,随机森林有两个随机的过程:
第一个随机过程为:随机的又放回采样,这里和bagging一样是有放回的采样方式。
第二个随机过程为:随机的从m个特征中选择k个特征作为决策树的训练。
关于在每一颗弱小的分类器中特征个数的选择,一般推荐
overfiting
,注意因为它的两个随机的过程,因为每一个树都不一样,每个数都很弱小,即使数很多,也不会overfiting
小结
random forest
的性能要高于decision tree
,同时应当注意到决策树是一种确定性的算法,即无论跑多少遍程序,生成的都是同样的一个树,而随机森林每一次跑出的结果都是不同的。
random forest
的收敛性与bagging
相似,如下图所示:
来源:机器学习
Boosting
提升方法两个关键性的问题:
1. 在每一轮的提升时,如何改变训练数据的权重或概率分布
2. 如何线性的组合每个分类器给出的预测
AdaBoost
其图形如下所示:
最终的分类器为基本分类器的线性组合:
算法的流程如下图所示:
GBDT
来源:七月在线
MSE
去计算误差。
XGBOOST
为了不让其收敛的过于快和过拟合,因此加入正则化项,减少过拟合。
不同方法的比较
下图给出三种方法的比较:
来源:数据挖掘导论
参考资料:
1.Ji Zhu, Michigan Statistics
2.统计学习方法
3.机器学习
4.数据挖掘导论
5.七月在线
6.http://blog.csdn.net/abcjennifer/article/details/8164315
- Ensemble learning:Bagging,Random Forest,Boosting
- 集成学习(ensemble learning):bagging、boosting、random forest总结
- Ensemble learning algorithms(Bagging, Boosting, Random Foreast)
- CART, Bagging, Random Forest, Boosting
- 分类器:Cart,bagging,random forest boosting
- Random Forest及Bagging,boosting简介
- Decision stump、Bootstraping、bagging、boosting、Random Forest、Gradient Boosting
- Ensemble Learning: Bootstrap aggregating (Bagging) & Boosting & Stacked generalization (Stacking)
- 集成学习(Ensemble Learning)-bagging-boosting-stacking
- 统计学习方法——CART, Bagging, Random Forest, Boosting
- 统计学习方法——CART, Bagging, Random Forest, Boosting
- 统计学习方法——CART, Bagging, Random Forest, Boosting
- 统计学习方法——CART, Bagging, Random Forest, Boosting
- 统计学习方法——CART, Bagging, Random Forest, Boosting
- 统计学习方法——CART, Bagging, Random Forest, Boosting
- 统计学习方法——CART, Bagging, Random Forest, Boosting
- 知识总结: decision Tree, Bagging, Random Forest, Boosting
- 统计学习方法——CART, Bagging, Random Forest, Boosting
- 排序
- 如何应用卡方检验应用
- ie haslayout属性详解
- MYSQL(二)
- 全路径rest请求
- Ensemble learning:Bagging,Random Forest,Boosting
- RecyclerView使用大全
- 标准I/O库
- 解除tab页上关闭按钮的响应事件
- 利用CI钩子实现权限认证 session
- 基于web的全景漫游自动生成加编辑平台的技术实现(三)----krpano主XML文件
- C# 一般处理程序+jquery.uploadify.js 多文件上传图片/文件
- LA 5140 Squares
- Linux源代码目录结构说明