分类器之Adaboost学习

来源：互联网发布：程序员在哪里写博客编辑：程序博客网时间：2024/05/29 14:15

1、原理介绍

（1）基本介绍

　　Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据特征，并将关键放在关键的训练数据上面。

主要解决的问题

　　目前，对adaBoost算法的研究以及应用大多集中于分类问题，同时近年也出现了一些在回归问题上的应用。就其应用adaBoost系列主要解决了: 两类问题、多类单标签问题、多类多标签问题、大类单标签问题，回归问题。它用全部的训练样本进行学习。

算法分析

过程分析

该算法其实是一个简单的弱分类算法提升过程，这个过程通过不断的训练，可以提高对数据的分类能力。整个过程如下所示：

　　1.先通过对N个训练样本的学习得到第一个弱分类器；

　　2.将分错的样本和其他的新数据一起构成一个新的N个的训练样本，通过对这个样本的学习得到第二个弱分类器；

　　3.将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本，通过对这个样本的学习得到第三个弱分类器；

　　4.最终经过提升的强分类器，某个数据被分为哪一类要通过多数表决。

存在的问题及改进方法

　　对于boosting算法，存在两个问题：

　　1. 如何调整训练集，使得在训练集上训练的弱分类器得以进行；

　　2. 如何将训练得到的各个弱分类器联合起来形成强分类器。

　　针对以上两个问题，adaBoost算法进行了调整：

　　1. 使用加权后选取的训练数据代替随机选取的训练样本，这样将训练的焦点集中在比较难分的训练数据样本上；

　　2. 将弱分类器联合起来，使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重，而分类效果差的分类器具有较小的权重。

　　AdaBoost算法是Freund和Schapire根据在线分配算法提出的，他们详细分析了AdaBoost算法错误率的上届，以及为了使强分类器达到错误率，算法所需要的最多迭代次数等相关问题。与Boosting算法不同的是，adaBoost算法不需要预先知道弱学习算法学习正确率的下限即弱分类器的误差，并且最后得到的强分类器的分类精度依赖于所有弱分类器的分类精度，这样可以深入挖掘弱分类器算法的能力。　AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时，每个样本对应的权重是相同的，即其中 n 为样本个数，在此样本分布下训练出一弱分类器。对于分类错误的样本，加大其对应的权重；而对于分类正确的样本，降低其权重，这样分错的样本就被突显出来，从而得到一个新的样本分布。在新的样本分布下，再次对样本进行训练，得到弱分类器。依次类推，经过 T 次循环，得到 T 个弱分类器，把这 T 个弱分类器按一定的权重叠加（boost）起来，得到最终想要的强分类器。　AdaBoost算法的具体步骤如下：

　　1. 给定训练样本集S，其中X和Y分别对应于正例样本和负例样本； T为训练的最大循环次数；

　　2. 初始化样本权重为1/n ，即为训练样本的初始概率分布；

　　3. 第一次迭代：

　　(1) 训练样本的概率分布相当下，训练弱分类器；

(2) 计算弱分类器的错误率；

　　(3) 选取合适阈值，使得误差最小；

　　(4) 更新样本权重；

　　经T次循环后，得到T个弱分类器，按更新的权重叠加，最终得到的强分类器。

　　Adaboost算法是经过调整的Boosting算法，其能够对弱学习得到的弱分类器的错误进行适应性调整。上述算法中迭代了T次的主循环，每一次循环根据当前的权重分布对样本x定一个分布P，然后对这个分布下的样本使用弱学习算法得到一个弱分类器，对于这个算法定义的弱学习算法，对所有的，都有，而这个错误率的上限并不需要事先知道，实际上。每一次迭代，都要对权重进行更新。更新的规则是：减小弱分类器分类效果较好的数据的概率，增大弱分类器分类效果较差的数据的概率。最终的分类器是个弱分类器的加权平均。

（2）这里主要集成了三种Adaboost分类器：

Real Adaboost：这是最基本的Adaboost分类器，由Fruend and Schapire最早在1996年的Game theory, on-line prediction and boosting.一文中提出；

Gentle Adaboost：该版本是一种更为鲁棒、稳定的real adaboost，目前为止，它是实际运用中最有效的级联算法，比如：Viola-Jones 在2001年论文Robust Real-time Object Detection提出的目标检测。在正常的数据集上，Gentle Adaboost只稍微优于Real Adaboost，但处理噪声图像时，Gentle Adaboost的优势便很明显，并且它对边界更具有抵抗性；

Modest Adaboost：是Adaboost分类器的折中。它在分类错误率和过度拟合中，该方法都优于Real Adaboost 和 Gentle Adaboost。

（3）弱分类器

这里使用的弱分类器是决策树——CART（Classification and Regression Trees, 分类与会归树）。

决策树是一种树图，叶子代表分类结果，而节点表示预测。树的分支用来标记：true或者false。决策树的分类过程就是树生长的过程。从根开始，然后依次生长，直到到达叶子，叶子上附带的值就是当前样本的分类。在每一步，都根据当前节点计算预测值。我们根据当前预测节点的值来选择与当前连接的下一个节点或者叶子。

CART节点的建立：

² 对n维的每一维都找到一个阈值，用来将S以最小误差分类；

² 选择误差最小的第i维，建立节点：

a.预测值xi > ⊙

b.分支true/false, 与叶子相连，有各自的分类

叶子错误率作为在树建立过程中样本误分类率，建立整个树的方法如下：

² 建立根节点

² 选择最大错误率的叶子

² 只用与已选择叶子一致的训练样本建立节点

² 用建立的节点代替已选的叶子

² 重复2-4步，直到所有的叶子都达到0错误率，或者达到迭代步长

为了使CART能够在有权重的训练数据上学习，根据权重我们仅需要估计所有错误即可。

2、函数介绍

这里，弱分类器作为类使用，而分类器都作为全局函数进行使用。

（1）function [Learners, Weights, {final_hyp}] = RealAdaBoost(WeakLrn, Data, Labels, Max_Iter, {OldW, OldLrn, final_hyp})

说明：Real Adaboot分类算法，以WeakLrn为弱分类器，最大迭代次数：Max_Iter，数据集为Data，Labels

输入：

• WeakLrn – 弱分类器；

• Data – 训练数据集，D*N维矩阵，D表示特征的维数，N表示样本个数；

• Labels – 训练标签，1*N维矩阵，N表示训练样本个数，label取值为：-1或者+1；

• Max_Iter – 迭代次数；

• OldW – 已经建立单元的权重，用于更深层的训练，是可选参数；

• OldLrn – 已经建立单元的learners，用于更深层的训练，是可选参数；

• final_hyp – 已经建立单元的训练数据输出，用于加速更深层的训练，可选参数；

输出:

• Learners – 建立learner的单元阵列，每个learner都代表CART决策树的一个节点，用对象：tree_node_w class来表示；

• Weights – learners的权重. 该矢量与Learners大小相同，并且代表最终单元的每个learner的权重；

• final_hyp – 训练数据的输出。

（2）function [Learners, Weights, {final_hyp}] = GentleAdaBoost(WeakLrn, Data, Labels, Max_Iter, {OldW, OldLrn})

说明：Gentle Adaboot分类算法，以WeakLrn为弱分类器，最大迭代次数：Max_Iter，数据集为Data，Labels，这里的参数与Real Adaboost中一致。

（3）function [Learners, Weights, {final_hyp}] = ModestAdaBoost(WeakLrn, Data, Labels, Max_Iter, {OldW, OldLrn})

说明：Modest Adaboot分类算法，以WeakLrn为弱分类器，最大迭代次数：Max_Iter，数据集为Data，Labels，这里的参数与Real Adaboost中一致。

（4）function Result = Classify(Learners, Weights, Data)

根据各自的权值，使用级联learner将数据分类。结果包含如下数据：

+1或者-1表示类别，幅值表示决策的confidence.

（5）function code = TranslateToC (Learners, Weights, fid)

使用该函数，可将分类器运用到c++中。

TN – 弱分类器的数目；

W – 弱分类器权重;

D – 阈值维数;

T – 阈值的大小;

Ts – 阈值sing. 取值为 –1 或者 +1, 如果样本应该更大或者比阈值小不能分类器正样本时，就重新采样。

（6）@tree_node_w :

类：决策树弱分类器，这是目前级联分类器中应用最广泛的弱分类器。

function tree_node = tree_node_w(max_splits) – 建立器。调用建立目标， max_splits 表示树在训练过程中建立时，最大的分支数目。

function nodes = train(node, dataset, labels, weights) – 根据权值，训练适合dataset和label的决策树；节点-包含终端树节点的单元阵列

参数：

• node - tree_node_w 类的目标，要进行合适的初始化;

• dataset – 训练集;

• labels – 训练标签;

• weights – 训练集的权重，在级联过程中需要;

输出：

• nodes – 决策树，由节点的单元阵列表示.

function y = calc_output(tree_node, XData) – 将数据Xdata用tree_node进行分类，并将结果储存在y中.

• tree_node – 分类的树节点;

• XData – 即将被分类的数据集.

• y - +1,如果XData 属于树节点；否则为-1

3、使用说明(请参照：Example1.m, Example2.m)

(1)Example1.m

%%比较gentle Adaboost 和 Modest Adaboost

% Step1: reading Data from the file

%从hog1.txt中读取训练集

%并将第1-324列作为特征，第325列作为标签

file_data1 = load('hog1.txt'); %1156*325

TrainData = file_data1(:,2:end)'; % 1156*324

TrainLabels = file_data1(:, 1)'; % 1*1156

TrainLabels = TrainLabels*2 - 1; %将标签限制在：-1和+1

%从hog2.txt中读取测试集

%并将第1-324列作为测试特征，第325列作为已知标签

file_data2 = load('hog2.txt'); %20*325

ControlData = file_data2(:,2:end)'; %20*324

ControlLabels = file_data2(:,1)'; % 1*20

ControlLabels = ControlLabels*2 - 1; %将标签限制在：-1和+1

MaxIter = 100; %迭代次数

% Step2: constructing weak learner 建立弱分类器

% pass the number of tree splits to the constructor

%这里的split可选，根据用户自行选择：1,2,3…

weak_learner = tree_node_w(3);

% Step3: 用Gentle AdaBoost 进行训练

[RLearners RWeights] = RealAdaBoost(weak_learner, TrainData, TrainLabels, MaxIter);

% Step4: 用Modest AdaBoost进行训练

[MLearners MWeights] = ModestAdaBoost(weak_learner, TrainData, TrainLabels, MaxIter);

% Step5: 用测试集分别对两种分类器训练结果进行测试

%Real Adaboost分类器测试结果

ResultR = sign(Classify(RLearners, RWeights, ControlData));

%Modest Adaboost分类器测试结果

ResultM = sign(Classify(MLearners, MWeights, ControlData));

% Step6: 计算误差

%Real Adaboost分类器分类误差

ErrorR = sum(ControlLabels ~= ResultR) / length(ControlLabels);

%Modest Adaboost分类器分类误差

ErrorM = sum(ControlLabels ~= ResultM) / length(ControlLabels);

(2)Example2.m

比较三种Adaboost算法：

Real Adaboost，Gentle Adaboost，Modest Adaboost

% Step1: reading Data from the file

%从hog1.txt中读取训练集

%并将第1-324列作为特征，第325列作为标签

file_data1 = load('hog1.txt'); %1156*325

TrainData = file_data1(:,2:end)'; % 1156*324

TrainLabels = file_data1(:, 1)'; % 1*1156

TrainLabels = TrainLabels*2 - 1; %将标签限制在：-1和+1

%从hog2.txt中读取测试集

%并将第1-324列作为测试特征，第325列作为已知标签

file_data2 = load('hog2.txt'); %20*325

ControlData = file_data2(:,2:end)'; %20*324

ControlLabels = file_data2(:,1)'; % 1*20

ControlLabels = ControlLabels*2 - 1; %将标签限制在：-1和+1

MaxIter = 200; % 级联迭代次数

% 初始化矩阵，用来存储误差

RAB_control_error = zeros(1, MaxIter);

MAB_control_error = zeros(1, MaxIter);

GAB_control_error = zeros(1, MaxIter);

% Step2: 建立弱分类器

weak_learner = tree_node_w(3);

% 初始化learner以及权重矩阵

GLearners = [];

GWeights = [];

RLearners = [];

RWeights = [];

NuLearners = [];

NuWeights = [];

% Step3: 不断迭代训练过程

for lrn_num = 1 : MaxIter

clc;

disp(strcat('Boosting step: ', num2str(lrn_num),'/', num2str(MaxIter)));

%训练 gentle adaboost

[GLearners GWeights] = GentleAdaBoost(weak_learner, TrainData, TrainLabels, 1, GWeights, GLearners);

%估计测试误差

GControl = sign(Classify(GLearners, GWeights, ControlData));

GAB_control_error(lrn_num) = GAB_control_error(lrn_num) + sum(GControl ~= ControlLabels) / length(ControlLabels);

%训练 real adaboost

[RLearners RWeights] = RealAdaBoost(weak_learner, TrainData, TrainLabels, 1, RWeights, RLearners);

%估计控制误差

RControl = sign(Classify(RLearners, RWeights, ControlData));

RAB_control_error(lrn_num) = RAB_control_error(lrn_num) + sum(RControl ~= ControlLabels) / length(ControlLabels);

%训练 modest adaboost

[NuLearners NuWeights] = ModestAdaBoost(weak_learner, TrainData, TrainLabels, 1, NuWeights, NuLearners);

%估计控制误差

NuControl = sign(Classify(NuLearners, NuWeights, ControlData));

MAB_control_error(lrn_num) = MAB_control_error(lrn_num) + sum(NuControl ~= ControlLabels) / length(ControlLabels);

end

% Step4: 分别画出三种Adaboost分类器的分类误差图

figure, plot(GAB_control_error);

hold on;

plot(MAB_control_error, 'r');

plot(RAB_control_error, 'g');

hold off;

legend('Gentle AdaBoost', 'Modest AdaBoost', 'Real AdaBoost');

xlabel('Iterations');

ylabel('Test Error');

0 0