集成学习

来源：互联网发布：软件销售网站编辑：程序博客网时间：2024/05/29 10:12

注：本文中各个算法的部分借鉴

1 个体与集成

集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类系统（multi-classifier system）、基于委员会的学习（committee-based learning）等。

两种集成：1)集成中只包含同种类型的个体学习器，这样的集成是同质的，同质集成中的个体学习器被称为“基学习器”；2）集成中可包含不同类型的个体学习器，这样的集成是异质的，集成中的个体学习器被称为“组件学习器”或直接称为个体学习器。

另一个概念：

弱学习器：常指泛化性能略优于随机猜测的学习器。

个体学习器的选择准则：好而不同，即个体学习器的准确性越高、多样性越大，则集成越好。

2 Boosting

Boosting是一族可将弱学习器提升为强学习器的算法。工作机制：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到实现指定的T，最终将这T个基学习器进行加权结合。

2.1 Adaboost

adaboost算法原理及推导可以查看本人的AdaBoost 算法原理及推导（该算法是串行式集成）

3 Bagging与随机森林

Bagging是并行式的集成学习方法最著名的代表，算法框架：基于自助法（参见本人的

训练集和测试集的产生方法

），假设训练集有m个样本，我们可以采样出T个含m个训练样本的采样集，然后基于每个训练集训练出一个基学习器，再将这些学习器进行结合。在对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法。若分类预测时出现两个类收到同样票数的情形，则最简单的做法是随机选择一个。

从偏差-方差分解的角度看，Bosting主要关注降低偏差，Bagging主要关注降低方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。

3.1 随机森林（Random Forest, RF）

RF是Bagging集成上的一个扩展变体。RF在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练时引入随机属性选择。具体说，传统决策树在选择划分属性时是在当前属性结点的属性集合（假定有d个属性）中选择一个最优属性；而在RF中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。

RF简单，容易实现、计算开销小，在很多现实任务中展现出强大的性能，被誉为“代表集成学习技术水平的方法”。