集成方法(ensemble method) Boosting Adaboost
来源:互联网 发布:金山卫士网络测速器 编辑:程序博客网 时间:2024/05/01 21:22
使用集成方法时可有多种方式:
- 不同算法的集成;
- 同一算法在不同设置下的集成;
- 数据集不同部分分配给不同分类器之后的集成;
下面主要介绍同一类型分类器的集成。
1. bagging 基于数据随机重抽样的分类器构建方法
思想:
自举汇聚法(bootstrap aggregating), 采用bootstap从原始数据集重抽样,且样本大小与原来一样大,重复S次。在S个数据集建好之后,将某个学习算法分别作用于每个数据集就得到S个分类器。对新数据进行分类时,就可应用这S个分类器进行分类,且选择分类器投票结果中最多的类别作为最后的分类结果。
随机森林就属于bagging。2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。关于随机森林可参见http://blog.csdn.net/zrjdds/article/details/50133843。
2.boosting
boosting与bagging相似,它们所使用的的多个分类器的类型都是一致的。boosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器。boosting的分类结果是基于所有分类器的加权求和,bagging中的分类器权重是相等的,而boosting中的分类器权重并不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度。
boosting中最流行的是AdaBoost。AdaBoost是adaptive boost的缩写。其运行过程如下:
训练数据中的每个样本,并赋予其一个权重,记为向量D。D初值往往将每个元素设为1/n,n是训练样本个数。首先在训练集上训练出一个弱分类器并计算该分类器的错误率,根据错误率重新调整每个样本的权重,降低上次分对的样本的权重,提高分错样本的权重。最后将所有分类器的分类结果采用加权平均汇总起来,每个分类器的权重是
错误率的定义:
而
计算出
如果某个样本被正确分类,那么该样本的权重更改为:
而如果某个样本被错分,那么该样本的权重更改为:
在计算出D之后,AdaBoost开始进入下一轮迭代。AdaBoost算法会不断地重复训练和调整权重的过程,直到训练错误率为0或者弱分类器的数目达到用户的指定值为止。
- 集成方法(ensemble method) Boosting Adaboost
- Scikit-Learn 集成方法(Ensemble method) 学习
- 集成学习(ensemble learning)之AdaBoost
- 组合方法(ensemble method) 与adaboost提升方法
- 集成学习(ensemble learning):bagging、boosting、random forest总结
- 集成学习(Ensemble Learning)-bagging-boosting-stacking
- 集成学习:Boosting及Adaboost、Gradient boosting
- 【机器学习实战】第7章 集成方法 ensemble method
- Ensemble methods(组合方法,集成方法)
- Ensemble methods(集成方法)
- boosting(AdaBoost)算法
- 机器学习:集成算法(Ensemble Method)
- 简单易学的机器学习算法——集成方法(Ensemble Method)
- caffe ensemble(模型融合+adaboost)
- boosting方法和AdaBoost算法概述
- adaboost xgboost gbdt 三个boosting方法整理
- Boosting, Online Boosting,adaboost
- Boosting, Online Boosting,adaboost
- hdu 4010 LCT
- HOG特征
- 核计划:对2025-2050年美国核战略和态势的竞争性定义
- Elasticsearch+Hbase实现海量数据秒回查询
- Android Context应该如何写
- 集成方法(ensemble method) Boosting Adaboost
- Java 基于JDK中的InvocationHandler实现动态代理
- 读取源文件内容的每一行,求和再存入最后一行
- Oracle 重建索引脚本
- android开发 如何在代码中删除最近打开的任务记录
- iOS中使用tcpClient接受服务器数据问题
- 5-1 最大子列和问题 (20分)
- Web开发从前端、后端、编程语言、到框架的初学指南
- table field Data types