Bagging,Boosting
来源:互联网 发布:日本好用面膜推荐知乎 编辑:程序博客网 时间:2024/04/28 03:02
Bagging:bootstrap aggregating的缩写
Bagging方法就是将所有training data放进一个黑色的bag中,黑色意味着我们看不到里面的数据的详细情况,只知道里面有我们的数据集。然后从这个bag中随机抽一部分数据出来用于训练一个base estimator。抽到的数据用完之后我们有两种选择,放回或不放回。
既然样本本身可以bagging,那么feature是不是也可以bagging呢?当然可以!bagging完数据本身之后我们可以再bagging features,即从所有特征维度里面随机选取部分特征用于训练。在后面我们会看到,这两个‘随机’就是随机森林的精髓所在。从随机性来看,bagging技术可以有效的减小方差,即减小过拟合程度。
在scikit-learn中,我们可以很方便的将bagging技术应用于一个分类器/回归器,提高性能:
>>> from sklearn.ensemble import BaggingClassifier>>> from sklearn.neighbors import KNeighborsClassifier>>> bagging = BaggingClassifier(n_estimators=50, bootstrap=True, KNeighborsClassifier(), bootstrap_features=True, max_samples=0.5, max_features=0.5)
---------------------------------------------------------------
Boosting: 其中主要的是AdaBoost(Adaptive Boosting)
初始化时对每一个训练例赋相等的权重1/n,然后用该学算法对训练集训练t轮,每次训练后,对训练失败的训练例赋以较大的权重,也就是让学习算法在后续的学习中集中对比较难的训练例进行学习,从而得到一个预测函数序列h_1,⋯, h_m , 其中h_i也有一定的权重,预测效果好的预测函数权重较大,反之较小。最终的预测函数H对分类问题采用有权重的投票方式,对回归问题采用加权平均的方法对新示例进行判别。
(类似Bagging方法,但是训练是串行进行的,第k个分类器训练时关注对前k-1分类器中错分的文档,即不是随机取,而是加大取这些文档的概率。)
---------------------------------------------------------------
Boosting思想的一种改进型AdaBoost方法在邮件过滤、文本分类方面都有很好的性能。
AdaBoost只适用于二分类任务,Bagging适用于多分类、回归等任务。
- boosting-bagging
- Bagging,Boosting
- Boosting和Bagging
- bootstrps、bagging 与boosting
- bootstrap bagging boosting
- bootstrps 、bagging与 boosting
- bootstrps 、bagging与 boosting
- bootstrps bagging boosting基本概念
- Boosting和Bagging
- bootstrps 、bagging与 boosting
- bootstrps 、bagging与 boosting
- bootstrap, boosting, bagging
- Boosting与Bagging
- boosting与bagging理解
- 集成学习boosting、bagging
- Bootstrap,Bagging,Boosting
- Boosting和Bagging
- Bagging 与Boosting
- Ubuntu设置中文输入法
- C语言 电子老鼠
- web应用安全笔记(有空就记一点点)
- 基于高德地图实现Marker聚合效果
- Java读写Windows共享文件夹
- Bagging,Boosting
- ccf201503-2
- LINQ教程
- Struts2和Spring MVC的区别和联系
- Concurrent——Atomic原子操作类
- azkaban的简单入门
- C语言之初学者之趣题
- 11月20日心得
- linux kernel Makefile编译流程分析