Bagging与随机森林

来源：互联网发布：申通淘宝面单打印软件编辑：程序博客网时间：2024/05/08 17:01

一、Bagging算法

Bagging是并行集成学习方法最著名的代表，可以用来提高学习算法准确度的方法，这种方法通过构造一个预测函数系列，然后以一定的方式将它们组合成一个预测函数。Bagging要求“不稳定”（不稳定是指数据集的小的变动能够使得分类结果的显著的变动）的分类方法。比如：决策树，神经网络算法。

Bagging的基本流程为：

1、首先采取随机采样(bootsrap)，也就是从我们的训练集里面随机采集固定个数的样本，但是每采集一个样本后，都将样本放回。对于我们的Bagging算法，一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同，但是样本内容不同。如果我们对有m个样本训练集做T次的随机采样，，则由于随机性，T个采样集各不相同。

2、随机采样后对样本进行训练，建立分类器（ID3、C4.5、CART、SVM、Logistic回归等算法)。

3、重复上述步骤n次，即可得到n个分类器。

4、将这些弱分类器按照一定策略结合起来就可以形成强分类器，进行结合时，Bagging通常会对分类任务使用简单投票法，对回归任务使用简单平均法。

Bagging算法的流程图：

在Bagging的随机采样中，有的样本出现了多次有的样本从未出现。对于一个样本，它在某一次含m个样本的训练集的随机采样中，大约有36.8%的数据没有被采样集。对于这部分大约36.8%的没有被采样到的数据，我们常常称之为袋外数据(Out Of Bag, 简称OOB)。这些数据没有参与训练集模型的拟合，因此可以用来检测模型的泛化能力。

从偏差-方差的角度来看，Bagging主要关注降低方差（处理过拟合），因此它在不剪枝的决策树、神经网络等一首样本扰动的学习器上效用更为明显。