【机器学习】AdaBoost学习笔记（一）：原理

来源：互联网发布：电脑照片打印排版软件编辑：程序博客网时间：2024/05/16 01:18

前言

八月和九月参加了阿里天池的安全算法挑战赛，用了很多的集成模型，GBDT、XGBoost等等。对于刚入门的我来说，在比赛中纯粹把这些模型当成API函数，并没有了解太多的原理。现在比赛结束了（成绩不理想），想整理一些关于和树有关的经典机器学习模型来趁热打铁，所以就从AdaBoost开始整理了。

这里是LeeTioN的博客

背景知识

集成学习

在谈及AdaBoost之前，我们来看一下集成学习(ensemble learning)的概念。

集成学习通过构建并结合多个学习器来完成学习任务，通过该种方式可以获得比单一学习器显著优越的泛化性能。

其实日常生活中，我们在做出一些决定的时候，往往并不只是听从一个人的意见，而是尽可能地多地问身边的人，因为一个人的想法是局限的。同样在机器学习里面也是相似的。

一个学习器会有它的局限性，我们如果想要做到更好的预测效果，往往需要多个学习器来共同做预测，从而达到更准确的效果。

简单来说，集成学习的思想就是利用众人的力量，将多个学习器应用到同一个学习任务中，通过一种投票(voting)的方式，比如少数服从多数，最后做出决定。

拿我们常见的二分类问题来说，预测结果 y∈{−1,+1}，假设我们有T个基分类器 hi ，若每个基分类器的重要性相同(有相同的权重)，则最后的分类结果为

H(x)=sign(∑Ti=1hi(x)).

那么随之有一个问题，我们如何去生成基分类器？目前来说，有两大类：

基分类器存在强依赖关系(串行生成)
基分类器不存在强依赖关系(并行生成)

简单来说是大家常见的Boosting 和 Bagging，然后我们来看一下Boosting。

Boosting

Boosting在不同版本的叫法有所不同——目前看到的共有提升、助推、增强三种翻译方式。

Boosting在分类问题中，通过训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。当我们想训练T个分类器时，先从初始的训练集中学习到第一个分类器，根据现有的基学习器的表现对样本分布进行调整，使得先前分错的训练样本受到更大的关注。接着，再进行循环，生成下一个基分类器，直到拥有T个基分类器。

引用李航老师在《统计学习方法》中的一句话，来说明Boosting的关键。

对于提升方法(Boosting)来说，有两个问题需要回答：一是在每一轮如何改变训练数据的权值或概率分布；二是如何将弱分类器组合成一个强分类器。

AdaBoost思想

1995年，AdaBoost算法由Freund和Schapire提出，对于以上提及的Boosting要解决的两个问题，AdaBoost是这样做的：

对于训练样本的权重更改，提高前一轮被错分样本的权值，降低被正确分类的样本权值。
对于弱分类器组合，AdaBoost采取通过误差率大小来决定每个分类器的权重大小。

接下来我们来详细地看一下AdaBoost算法。

AdaBoost 算法

算法步骤

输入：训练集数据T={(x1,y1),(x2,y2),⋅⋅⋅,(xN,yN)},
yi∈Y={−1,+1}

输出：集成分类器G(x)

对每个样本赋予相同的初始权重1N;
对k=1到K循环执行(假设我们要生成K个基分类器)；
用加权后的样本拟合新的基分类器，并计算第k个模型的误差
ek=P(Gk(xi)≠yi)=∑Ni=1ωki I(Gk(xi)≠yi)
计算第k个基分类器Gk(x)的权重系数
αk=12log1−ekek
对下一次的循环做出训练集样本的权重更新
Zk=∑Ni=1wki exp(−αkyiGk(xi))
zki=wki exp(−αkyiGk(xi))
对于第k+1次循环中的训练集各个样本中的权重
wk+1,i=zkiZk
满足并跳出循环，构建基分类器的线性组合
f(x)=∑Kk=1αkGk(x)，最后 G(x)=sign(f(x))