Adaboost算法的前世今生

来源：互联网发布：js select 设置选中项编辑：程序博客网时间：2024/05/29 13:27

转载自http://blog.sina.com.cn/s/blog_55bb44140100tzlc.html

Adaboost算法的前世今生

引言

众所周知，模式识别的方法可以按照参与识别特征的属性来区分，可以分为两大类：一、使用定量特征（可度量）如物体长度、宽度等，来描述的各种模式，这一类主要是指决策理论，有匹配、统计、神经网络等方法；二、使用定性特征如特征结构、排列顺序等，来描绘的各种模式，这一类主要是指结构判别，主要有串和树的匹配等方法。

模式识别的完整的流程顺序是：传感器——分割组织——特征提取——分类器——后处理。其中分类器的设计部分，可以使用的理论有很多，目前主要包括：基于统计理论的方法（贝叶斯理论）、线性判别函数、神经网络的方法、随机方法（对于复杂的问题）、非度量方法（定性结构特征）

分类器得到的模型不仅要很好拟合输入数据，还要能够正确地预测未知样本的类标号。因此，训练算法的主要目标就是要建立具有很好的泛化能力模型，即建立能够准确地预测未知样本类标号的模型。

通常我们用“方差”和“偏差”来测量学习算法与给定分类问题的“匹配”和“校准”程度。“偏差”度量的是匹配的“准确性”和“质量”：一个高的偏差意味着一个坏的匹配，“方差”度量的是匹配的“精确性”和“特定性”：一个高的方差意味着一个弱的匹配。

研究表明，使用重采样技术可以提高分类器的准确率，而boosting算法就是涉及分类器设计中的重采样技术。其思想内涵在于：从给定的数据集中抽取多个数据子集，使得有可能计算任意统计量的值及其范围。

说道boosting，不得不说Arcing（adaptive reweighting and combining）自适应的权值重置和组合：重新使用和选择数据，以期达到改善分类器性能的目的。最简单的arcing版本就是bagging算法。

Bagging一个多分类器系统

bagging算法的基本思想:

给定一个弱学习算法，和一个训练集；单个弱学习算法准确率不高；将该学习算法使用多次，得出预测函数序列，进行投票，最后结果准确率将得到提高。

步骤1：从大小为n的原始数据集D中，分别独立随机的抽取n’个数据（n’<n），形成自助数据集，将这个过程独立重复多次，直到产生很多独立的自助数据集。

步骤2：每一个自助数据集都被独立的用于训练一个“分量分类器”。

步骤3、最终的分类判决由这些“分量分类器”各自的判决结果投票决定。

Bagging算法是第一个多分类器系统，后面还有（组合分类器系统）。

算法:

For t = 1, 2, …, T Do

从数据集S中取样（放回选样）

训练得到模型Ht

对未知样本X分类时,每个模型Ht都得出一个分类，得票最高的即为未知样本X的分类，也

可通过得票的平均值用于连续值的预测。

Bagging 和boosting的区别

训练集:

预测函数

准确性

使用要求

Bagging

随机选择,各轮训练集相互独立

没有权重;可以并行生成

在有些数据集中，boosting会引起退化

要求“不稳定”的分类方法

Boosting

各轮训练集并不独立,它的选择与前轮的学习结果有关

有权重;只能顺序生成

在大多数数据集中，boosting的准确性比bagging高

要求“不稳定”的分类方法

训练集的小变动能够使得分类模型显著变动

Bagging是一个纯粹的降低相关度的方法，如果树的节点具有很高的相关性，bagging就会有好的结果。早期的AdaBoost在第二步的时候采用重采样方法，即使某些样本权重增加。这种方法与bagging存在某种关联。它也是Boost的成功之处中降低相关度方面的重要部分。

AdaBoost在第二步中如果使用加权的tree-growing算法，而不是重采样算法,效果会更好。可以使用stumps作为弱分类器

最初的boosting算法

1989年Kearns and Valiant研究了PAC学习模型中弱学习算法和强学习算法两者间的等价问题，即任意给定仅仅比随机猜测稍好(准确率大于0.5)的弱学习算法，是否可以被提升为强学习算法？若两者等价，则我们只需寻找一个比随机猜测稍好的弱学习算法，然后将其提升为强学习算法，从而不必费很大力气去直接寻找强学习算法。就此问题，Schapire于1990年首次给出了肯定的答案。他主持这样一个观点：任一弱学习算法可以通过加强提升到一个任意正确率的强学习算法，并通过构造一种多项式级的算法来实现这一加强过程，这就是最初的Boosting算法的原型。

主要思想是，根据已有的训练样本集设计一个分类器，要求其准确率要比平均性能好，然后依次顺序加入多个分量分类器系统，最后形成一个总体分类器。

以一个二类问题举例。

步骤1：从大小为n的原始样本集D中随机选取n₁ 个样本点（不放回），组成样本集D₁。根据D₁训练出第一个分类器C₁。

步骤2：构造第二个样本集D₂，它是根据C₁最富信息的那些样本点组成的。在最后产生的D2集合中将有一半的样本被C1正确分类，而另一半的样本被C1错误分类。

步骤3：继续构造第三个样本集D3，方法：在D中剩余的样本中选取样本点，并且用C1和C2进行分类，如果C1和C2判决结果不同，那么就把样本加入D3，否则就忽略这个样本。然后用D3训练新分类器C3。

步骤4：用这3个分类器对新样本x进行分类，如果C1和C2的判决结果相同，则表为一类，不同则表为另一类。

Boosting方法有许多不同的变形，其中最流行的一种就是adaboost。这个名词是“adaptive boosting”的缩写。这个方法允许设计者不断的加入新的“弱分类器”，直到达到某个预定的最小错误率。

1995年Freund and Schapire提出 AdaBoost算法。

1996年Yoav Freund在Experiments with a New Boosting Algorithm中提出了AdaBoost.M1和AdaBoost.M2两种算法。其中，AdaBoost.M1是我们通常所说的Discrete AdaBoost：而AdaBoost.M2是M1的泛化形式。该文的一个结论是:当弱分类器算法使用简单的分类方法时，boosting的效果明显地统一地比bagging要好。当弱分类器算法使用C4.5时，boosting比bagging较好，但是没有前者的比较来得明显。

AdaBoost.M1 Discrete AdaBoost：

初始版本
1.获得一组样本(X)和它的分类(Y)和一个分类器(weaklearn).
2.赋予平均的权值分布D(i)
进入循环:T次
1. 赋予弱分类器权值D(i),使用弱分类器获得样本(X)到分类(Y)上的一个映射.(就是把某个X归到某个Y类中去)
2. 计算这个映射的误差e，e=各个归类错误的样本权值之和.如果e>1/2那么弱分类器训练失败,跳出循环,

训练结束(这在二值检测中是不会发生的,而多值的情况就要看分类器够不够强健了)
3. 设beta B = e / ( 1 - e ).用于调整权值.因为e<1/2.因此0<B<1
4. 如果某样本分类正确,该样本的权值就乘以B让权值变小;如果分类错误,就让该样本的权值乘以B^-1或者不变,这样就让分类正确的样本权值降低,分类错误的样本权值升高,加强了对较难分类样本的分类能力
5. 权值均衡化
循环结束
1. 最终的分类器是,当一个X进入时,遍历所有Y,寻找使(h(x)=y的情况下,log(1/B)之和)最大者即是输出分类y

书上版本

具体算法：

每个样本都赋予一个权重，T次迭代，每次迭代后，对分类错误的样本加大权重，使得下一次的迭代更加关注这些样本。

输入:(X1,Y1), (X2,Y2),…(Xn,Yn)

Xi∈X, Yi∈Y={+1,-1}

初始化权值:D1(i)=1/n

For t=1,…,T

在Dt下训练,

得到弱的假设ht: X->{-1,+1},

错误率:Εt=ΣDt(i) [ht(Xi)≠Yi]

选择α_t=1/2 ln ( (1- Εt)/ Εt ),

更改权值:

if ht(Xi)≠Yi , Dt+1(i)=Dt(i)* e^αt /Zt

if ht(Xi)=Yi , Dt+1(i)=Dt(i)* e^-αt /Zt

输出:H(X)=sign( ∑ αtht(X) )

带图版本（程序版本）：

初始赋予每个样本相等的权重1/N ；

For t = 1, 2, …, T Do

学习得到分类法Ct；

计算该分类法的错误率Et

Et=所有被错误分类的样本的权重和；

βt= Et/（1 - Et）

根据错误率更新样本的权重；

正确分类的样本： Wnew= Wold* βt

错误分类的样本： Wnew= Wold

调整使得权重和为1；

每个分类法C^t的投票价值为log [ 1 / βt ]

最大错误率问题：

将γt=1/2-Et ;

Freund and Schapire 证明:

最大错误率为:

即训练错误率随γt的增大呈指数级的减小.

最大总误差:

m : 样本个数

d : VC维

T : 训练轮数

Pr: 对训练集的经验概率

如果T值太大,Boosting会导致过适应（overfit）

《模式分类》386页

AdaBoost.M2是M1的泛化形式

.M2的流程是

1.获得一组样本(X)和它的分类(Y)和一个分类器(weaklearn).
2.对于某个样本Xi将它的分类归为一个正确分类Yi和其他不正确分类Yb
3.样本权值进行如下分布首先每个样本分到1/m的权值,然后每个不正确分类分到(1/m)/Yb的个数。也就是说样本权值是分到了每个不正确的分类上

进入循环
1. 求每个样本的权值,即每个样本所有不正确的分类的权值和,再求每个样本错误分类的权值,即不正确分类的权值除以该样本的权值.最后将每个样本的权值归一化
2. 将样本权值和某样本的不正确分类的权值输入到weaklearn,获得弱分类器的输出为各个分类的可能值
3. 计算伪错误率:
4. 更新权值
退出循环

1999年，ROBERT E. SCHAPIRE和YORAM SINGER，于Machine Learning发表论文：

Improved Boosting Algorithms Using Confidence-rated Predictions。提出了更具一般性的AdaBoost形式。提出了自信率以改善AdaBoost的性能。并提出了解决多标签问题的AdaBoost.MH和AdaBoost.MR算法，其中AdaBoost.MH算法的一种形式又被称为Real Boost算法。事实上：Discrete AdaBoost是指，弱分类器的输出值限定在{-1,+1}，和与之相应的权值调整，强分类器生成的AdaBoost算法；Real AdaBoost是指，弱分类器输出一个可能度，该值的范围是整个R，和与之相应的权值调整，强分类器生成的AdaBoost算法。

事实上，Discrete到Real的转变体现了古典集合到模糊集合转变的思想。

至于Gentle AdaBoost。考虑到(AdaBoost对”不像”的正样本权值调整很高,而导致了分类器的效率下降)，而产生的变种算法。它较少地强调难以分类的样本。Rainer Lienhart， Alexander Kuranov， Vadim Pisarevsky在论文Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection中提出在stump弱分类器(即每个弱分类器使用一个特征进行分类)上进行的对比试验中，Gentle的结果明显好于Real和Discrete。

AdaBoost.MH（real）

算法的运算流程:
1. 得到一组样本(m个)和样本相应的分类,这个分类是由K个是和否的标签组成.某一个样本可以有多个是标签.
2. 均分权值:1/mk
进入循环:
1. 由弱分类器获得各样本针对各标签的是或否结果(给出离散值或连续值)
2. 获得alpha（t）
3. 调整权值.大概是,弱分类器判断l标签的是或否,若判断正确乘以1,错误乘以-1,再乘以 ,然后…
4. 权值归一化
跳出循环
输出强分类器

Logit和Gentle算法的提出过程大致是这样的

1. 验证Boosting algorithms是一种拟合一个additive logistic regression model(加性的逻辑回归模型)的阶段式估计过程。它有最优一个指数判据,这个判据由第二定理与二项式对数似然判据是等价的。

2. 作者证明Discrete是使用adaptive Newton updates拟合一个additive logistic regression model来最小化Ee^(-yF(x))的过程，其中F(x)=求和fm(x),而fm(x)就是各层分类器的结果。

3. 作者证明Real是使用层级最优的方法来拟合一个additive logistic regression model.

4. 作者说明了为什么要选择Ee^(-yF(x))作为目标:因为大家都用这个

5. 作者证明了当（blabla一个很复杂的公式，贴不出来）时Ee^(-yF(x))最小

6. 作者证明了每次权值更新以后,最近一次训练出的弱分类器错误率为50%.

7. 作者证明了对于最优的F(x),样本的分类乘以权值的和应该为0.

于是作者用80年代兴起的逻辑回归的寻优方法中提炼出了LogitBoost(我终于找到logitBoost的logic了)

logitBoost

自适应的牛顿法,拟合加性logistic回归模型
1. 获得样本,(x,y)序列.将分类y*=(y+1)/2
2. 设置初值,F(x)=0,p(xi)=1/2
进入循环
1. 依式计算zi,wi.
2. 通过加权最小二乘的方式拟合函数fm(x).由zi拟合xi,权重为wi
3. 更新F(x),p(x)
退出循环
输出分类器sign[F(x)].
作者提出,logitAdaBoost在每一轮中都使Ee^(-y(F(x)+f(x)))最优,会使训练样本的代表性下降,于是提出了Gentle AdaBoost(牛顿步长法)

Gentle AdaBoost（matlab版）
for It = 1 : Max_Iter

nodes = train(WeakLrn, Data, Labels, distr);

for i = 1:length(nodes)

curr_tr = nodes{i};

step_out = calc_output(curr_tr, Data);

s1 = sum( (Labels == 1) .* (step_out) .* distr);

s2 = sum( (Labels == -1) .* (step_out) .* distr);

if(s1 == 0 && s2 == 0)

continue;

end

Alpha = (s1 - s2) / (s1 + s2);%注意alpha的不同 Alpha = 0.5*log((s1 + eps) / (s2+eps));real版

Weights(end+1) = Alpha;

Learners{end+1} = curr_tr;

final_hyp = final_hyp + step_out .* Alpha;

end

Z = sum(abs(Labels .* final_hyp));

if(Z == 0)

Z = 1;

end

distr = exp(- 1 * (Labels .* final_hyp) / Z);

Z = sum(distr);

distr = distr / Z;

end

ModestAdaBoost

for i = 1:length(nodes)

curr_tr = nodes{i};

step_out = calc_output(curr_tr, Data);

s1 = sum( (Labels == 1) .* (step_out) .* distr);

s2 = sum( (Labels == -1) .* (step_out) .* distr);

s1_rev = sum( (Labels == 1) .* (step_out) .* rev_distr);

s2_rev = sum( (Labels == -1) .* (step_out) .* rev_distr);

Alpha = s1 * (1 - s1_rev) - s2 * (1 - s2_rev);

其中的fm即为alpha

AdaBoost算法针对不同的训练集训练同一个基本分类器（弱分类器），然后把这些在不同训练集上得到的分类器集合起来，构成一个更强的最终的分类器（强分类器）。理论证明，只要每个弱分类器分类能力比随机猜测要好，当其个数趋向于无穷个数时，强分类器的错误率将趋向于零。

AdaBoost算法中不同的训练集是通过调整每个样本对应的权重实现的。最开始的时候，每个样本对应的权重是相同的，在此样本分布下训练出一个基本分类器h₁(x)。对于h₁(x)错分的样本，则增加其对应样本的权重；而对于正确分类的样本，则降低其权重。这样可以使得错分的样本突出出来，并得到一个新的样本分布。同时，根据错分的情况赋予h₁(x)一个权重，表示该基本分类器的重要程度，错分得越少权重越大。在新的样本分布下，再次对基本分类器进行训练，得到基本分类器h₂(x)及其权重。依次类推，经过T次这样的循环，就得到了T个基本分类器，以及T个对应的权重。最后把这T个基本分类器按一定权重累加起来，就得到了最终所期望的强分类器。

一些改进的算法

1、级联ad

一种改进的AdaBoost算法——AD_AdaBoost。Viola提出的级联结构的分类器是指一组串行的分类器。在对待识样本进行分类时，只有被前面一级的分类器判决为正的样本才被送入后面的分类器继续处理，反之则被认为是负样本直接输出。最后，只有那些被每一级的分类器都判决为正的样本才作为正样本输出。在级联结构的分类器中，Viola和jones采用 Ad aBoost 算法来对每一级的分类器进行训练。

2、一种用于不平衡数据分类的改进 Ad a B o o s t 算法

3、基于双阈值的增强型AdaBoost_快速算法

0 0