浅谈AdaBoost算法--附有详细示例解析

来源：互联网发布：南昌市网络教研编辑：程序博客网时间：2024/05/16 08:39

本篇文章先介绍了提升放法和AdaBoost算法。已经了解的可以直接跳过。后面给出了AdaBoost算法的两个例子，附有详细计算过程。

1、提升方法（来源于统计学习方法）

  提升方法是一种常用的统计学习方法，应用十分广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。提升算法基于这样一种思路：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。实际上，就是“三个臭皮匠顶个诸葛亮”的道理。
  历史上，Kearns和Valiant首先提出了“强可学习（strongly learnable）”和“弱可学习（weakly learnable）”的概念。指出：在概率近似正确（probably approximately correct，PAC）学习框架中，一个概念（一个分类），如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么就称这个概念是强可学习的；一个概念，如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机猜测略好，那么就称这个概念是弱可学习的。非常有趣的是Schapire后来证明强可学习与弱可学习是等价的，也就是说，在PAC学习的框架下，一个概念是强可学习的充分必要条件是这个概念是弱可学习的。
  这样一来，问题便成为，在学习中，如果已经发现了“弱学习算法”，那么能否将它提升（boost）为“强学习算法”。大家知道，发现弱学习算法通常要比发现强学习算法容易得多。那么如何具体实施提升，便成为开发提升方法时所要解决的问题。关于提升方法的研究很多，有很多算法被提出。最具代表性的是AdaBoost算法（AdaBoost algorithm）。
  对于分类问题而言，给定一个训练样本集，求比较粗糙的分类规则（弱分类器）要比求精确的分类规则（强分类器）容易得多。提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器，然后组合这些分类器，构成一个强分类器。
  这样。对于提升算法来说，有两个问题需要回答：一是在每一轮如何改变训练数据的权值分布；二是如何将弱分类器组合成为一个强分类器。

2、AdaBoost算法

对于上一小节末尾提出的提升方法的两个问题，AdaBoost算法的做法是：1、提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。2、采用加权多数表决的方法。具体的，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差大的弱分类器的权值，使其在表决中起较小的作用。
下面给出AdaBoost算法的公式：

输入：训练数据集T={（x1,y1）,（x2,y2）,...（xN,yN）},其中xi∈X⊆Rn,yi∈Y={−1,+1};弱学习算法。
输出：最终分类器G(x)。
（1）初始化训练数据的权值分布

$D 1 = (w 11, . . ., w 1 i, . . ., w 1 N), w 1 i = 1 N, i = 1, 2, . . ., N$
   注：第一次训练弱分类器时各个样本的权值是相等的。
（2）对m=1,2，…,M     注：这里是个循环
（a）使用具有权值分布Dm的训练数据集学习，得到基本分类器 $G m : X \to {- 1, + 1}$
（b）计算Gm(x)在训练集上的分类误差率 $e m = P (G m (x i) \neq y i) = \sum i = 1 n w m i I (G m (x i) \neq y i)$
注：I(Gm(xi)≠yi)：不等函数I值为1.相等函数值为0。
（c）计算Gm(x)的系数 $α m = 1 2 l o g 1 - e m e m$ 这里的对数是自然对数。注：显然αm是em的调单减函数，这里就解释了为什么对于没有正确分类的数据要加大权值。
（d）更新训练数据集的权值分布
$D m + 1 = (w m + 1, 1, . . ., w m + 1, i, . . ., w m + 1, N)$
$w m + 1, i = w m i Z m e x p (- α m y i G m (x i)) i = 1, 2, . . ., N$ 这里，Zm是规范化因子
$Z m = \sum i = 1 N w m i e x p (- α m y i G m (x i))$ 它使Dm+1成为一个概率分布。
注：自已比较Zm与wm+1,i的表达式，会发现这里的Zm就是在对wm+1,i进行归一化工作。
（3）构建基本分类器的线性组合 $f (x) = \sum m = 1 M α m G m (x)$ 得到最终分类器 $G (x) = s i g n (f (x)) = s i g n (\sum m = 1 M α m G m (x))$

注：对于增大分类错误数据的权值和分类误差计算的说明：

1、Gm(x)的系数
$α m = 1 2 l o g 1 - e m e m$ αm表示Gm(x)在最终分类器中的重要性。由αm的表达式可知，当em⩽12时，αm⩾0 ,并且αm随着em的减小而增大，所以分类误差越小的基本分类器在最终分类器中的作用越大。
2、计算基本分类器Gm(x)在加权训练数据集上的分类误差率： $e m = P (G m (x i) \neq y i) = \sum G m (x i) \neq y i w m i$ ,这里，wmi表示第m轮中第i个实例的权值，∑Ni=1=1（因为权值利用Zm进行了归一化）。这表明，Gm(x)在加权的训练数据集上的分类误差是被Gm(x)误分类杨蓓的权值之和，由此可以看出数据权值分布Dm与基本分类器Gm(x)的分类误差率的关系。

3、AdaBoost算法实例

下面提供一个例子帮助大家理解上面的概念。
给定如下表所示的训练数据。假设弱分类器由x<v或x>v产生，其阈值使该分类器在训练数据集上分类误差率最低。试用AdaBoost算法学习一个强分类器

序号 1 2 3 4 5 6 7 8 9 10 x 0 1 2 3 4 5 6 7 8 9 y 1 1 1 -1 -1 -1 1 1 1 -1

解：初始化数据权值分布

D 1 = (w 11, w 12, . . ., w 110)

w 1 i = 0.1, i = 1, 2, . . ., 10

对m=1，
（a）在权值分布为

D1的训练数据上，阈值v取2.5时分类误差率最低，故基本分类器为

G 1 (x) = {1, x < 2.5 - 1, x > 2.5

（b）显然序号为7、8、9数据产生了错误。

G1(x)在训练数据集上的误差率等于将这3个数据的权值相加，即

e 1 = P (G 1 (x i) \neq y i) = \sum i = 1 n w 1 i I (G 1 (x i) \neq y i) = 0.3

注：

I(G1(xi)≠yi)表示当

G1(xi)不等于

yi时函数I()的值为1，等于时值为0。这里只有i=7,8,9时函数I值为1，其余为0。
（c）计算

G1(x)的系数

α 1 = 1 2 log 1 - e 1 e 1 = 1 2 log 1 - e 1 e 1 = 0.4236

（d）更新训练数据的权值分布：

D 2 = (w 21, . . ., w 2 i, . . ., w 210)

w 2 i = w 1 i Z 1 exp (- α 1 y i G 1 (x i)), i = 1, 2, . . ., 10

Z 1 = \sum i = 1 N w 1 i exp (- α 1 y i G 1 (x i)) = \sum i = 1 1 - 6, 10 1 10 exp (- 0.4236 * 1) + \sum i = 7 9 1 10 exp (- 0.4236 * - 1) = 0.4583 + 0.4582 = 0.9165

w 2 i = w 1 i Z 1 exp (- α 1 y i G 1 (x i)) = 1 10 0.9165 exp (- 0.4236 * 1) = 0.07143, i = 1, 2, . . ., 6, 10

w 2 i = w 1 i Z 1 exp (- α 1 y i G 1 (x i)) = 1 10 0.9165 exp (- 0.4236 * - 1) = 0.16667, i = 7, 8, 9

D 2 = (w 21, . . ., w 2 i, . . ., w 210) = (0.07143, 0.07143, 0.07143, 0.07143, 0.07143, 0.07143, 0.16667, 0.16667, 0.16667, 0.07143,)

f 1 (x) = α 1 G 1 (x) = 0.4236 G 1 (x)

分类器

sign[f1(x)]在训练数据集上有3个误分点。
对m=2，
（a）在权值分布为

D2的训练数据上，阈值v取8.5时分类误差率最低，故基本分类器为

G 2 (x) = {1, x < 8.5 - 1, x > 8.5

（b）显然序号为4、5、6数据产生了错误。

G2(x)在训练数据集上的误差率等于将这3个数据的权值相加，即

e 2 = P (G 2 (x i) \neq y i) = \sum i = 1 n w 2 i I (G 2 (x i) \neq y i) = 0.07143 * 3 = 0.2143

注：

I(G2(xi)≠yi)表示当

G2(xi)不等于

yi时函数I()的值为1，等于时值为0。这里只有i=4,5,6时函数I值为1，其余为0。
（c）计算

G2(x)的系数

α 2 = 1 2 log 1 - e 2 e 2 = 1 2 log 1 - e 2 e 2 = 0.6496

（d）更新训练数据的权值分布：

D 3 = (w 31, . . ., w 3 i, . . ., w 310)

w 3 i = w 2 i Z 2 exp (- α 2 y i G 2 (x i)), i = 1, 2, . . ., 10

Z 2 = \sum i = 1 N w 2 i exp (- α 2 y i G 2 (x i)) = \sum i = 1 1 - 3, 10 0.07143 exp (- 0.6496 * 1) + \sum i = 7 9 0.16667 exp (- 0.4236 * 1) + \sum i = 4 6 0.07143 exp (- 0.4236 * - 1) = 0.14922 + 0.26113 + 0.41032 = 0.82067

w 3 i = w 2 i Z 2 exp (- α 2 y i G 2 (x i)) = 0.07143 0.82067 exp (- 0.6496 * 1) = 0.0455, i = 1, 2, 3, 10

w 3 i = w 2 i Z 2 exp (- α 2 y i G 2 (x i)) = 0.07143 0.82067 exp (- 0.6496 * - 1) = 0.1667, i = 4, 5, 6

w 3 i = w 2 i Z 2 exp (- α 2 y i G 2 (x i)) = 0.16667 0.82067 exp (- 0.6496 * 1) = 0.1060, i = 7 ， 8 ， 9

D 3 = (w 31, . . ., w 3 i, . . ., w 310) = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.1667, 0.1060, 0.1060, 0.1060, 0.0455)

f 2 (x) = α 1 G 1 (x) + α 2 G 2 (x) = 0.4236 G 1 (x) + 0.6496 G 2 (x)

分类器

sign[f2(x)]在训练数据集上有3个误分点。
对m=3，
（a）在权值分布为

D3的训练数据上，阈值v取5.5时分类误差率最低，故基本分类器为

G 3 (x) = {1, x > 5.5 - 1, x < 5.5

（b）显然序号为1、2、3、10的数据产生了错误。

G3(x)在训练数据集上的误差率等于将这4个数据的权值相加，即

e 3 = P (G 3 (x i) \neq y i) = \sum i = 1 n w 3 i I (G 2 (x i) \neq y i) = 0.0445 * 4 = 0.1820

注：

I(G3(xi)≠yi)表示当

G3(xi)不等于

yi时函数I()的值为1，等于时值为0。这里只有i=1,2,3,10时函数I值为1，其余为0。
（c）计算

G3(x)的系数

α 3 = 1 2 log 1 - e 3 e 3 = 1 2 log 1 - e 3 e 3 = 0.7514

（d）更新训练数据的权值分布：

D 4 = (w 41, . . ., w 4 i, . . ., w 410)

w 4 i = w 3 i Z 3 exp (- α 3 y i G 3 (x i)), i = 1, 2, . . ., 10

Z 3 = \sum i = 1 N w 3 i exp (- α 3 y i G 3 (x i)) = \sum i = 1 1 - 3, 10 0.0455 exp (- 0.7514 * - 1) + \sum i = 7 9 0.1060 exp (- 0.7514 * 1) + \sum i = 4 6 0.1667 exp (- 0.7514 * 1) = 0.38593 + 0.15000 + 0.23590 = 0.77183

w 4 i = w 3 i Z 3 exp (- α 3 y i G 3 (x i)) = 0.0455 0.77183 exp (- 0.7514 * - 1) = 0.125, i = 1, 2, 3, 10

w 4 i = w 3 i Z 3 exp (- α 3 y i G 3 (x i)) = 0.1667 0.77183 exp (- 0.7514 * 1) = 0.102, i = 4, 5, 6

w 4 i = w 3 i Z 3 exp (- α 3 y i G 3 (x i)) = 0.1060 0.77183 exp (- 0.7514 * 1) = 0.065, i = 7 ， 8 ， 9

D 4 = (w 41, . . ., w 4 i, . . ., w 410) = (0.125, 0.125, 0.125, 0.102, 0.102, 0.102, 0.065, 0.065, 0.065, 0.125)

f 3 (x) = α 1 G 1 (x) + α 2 G 2 (x) + α 3 G 3 (x) = 0.4236 G 1 (x) + 0.6496 G 2 (x) + 0.7514 G 3 (x)

分类器

sign[f3(x)]在训练数据集上有0个误分点。
于是最终分类器为：

G (x) = s i g n [f 3 (x)] = s i g n [0.4236 G 1 (x) + 0.6496 G 2 (x) + 0.7514 G 3 (x)]

3 0