Adaboost算法介绍

来源：互联网发布：php工作原理编辑：程序博客网时间：2024/06/04 23:20

boosting方法有许多不同的变形。其中最流行的一种就是AdaBoost方法，这个名称是“adaptive boostint”的缩写。这个方法允许设计者不断地加入新的“弱分类器”，直到达到某个预定的足够小的误差率。在AdaBoost方法中，每一个训练样本都被赋予一个权重，表明它被某个分类分类器选入训练集的概率。如果某个样本点已经被准确分类，那么在构造下一个训练集中，它被选中的概率就被降低；相反，如果某个样本点没有被正确分类，那么它的权重就得到提高。通过这样的方式，AdaBoost方法能够“聚焦于”那么较为困难（更富有信息）的样本上。在具体实现上，最初令每一个样本的权重都相同，对于第k次迭代操作，我们就根据这些权重来选取样本点，

简单来说，Adaboost是一种迭代算法，它的核心思想是在初始的权重数据分布下训练得到一个弱分类器(2类分类器)，之后通过这个弱分类器判断准确率，对那些错判(即原本标签是1的因计算得到的0，或者相反情况)的样本的加大权重，而对于分类正确的样本，降低其权重，这样被分错的样本就被突出出来，下次训练就会更多考虑这些被错分的样本，因此得到一个新的样本分布(样本权重都被更新了)。在新的分布下，再进行训练得到一个弱分类器，周而复始得到N个检测能力一般的弱检测器。这些弱检测器只比随机猜测好一点，对于二类问题来说只是比50%的猜测好一点。但是通过一定算法把这些检测能力很弱的分类器融合起来，就会得到一个分类能力很强的强分类器。使用Adaboost分类器可以把那些不重要训练数据权重减弱甚至删除，而把那些关键的数据放在训练的最上层。理论证明，只要每个简单分类器的分类能力比随机猜测好点，当简单分类器数量趋向于无穷时，强分类器的错误率也将趋于零。

0 0