Paper摘记：Bagging and Boosting for the Nearest Mean Classifier:

来源：互联网发布：四川广电网络公司性质编辑：程序博客网时间：2024/05/18 00:31

全名：Bagging and Boosting for the Nearest Mean Classifier:Effects of Sample Size on Diversity and Accuracy

作者：Marina Skurichina, Liudmila I. Kuncheva and Robert P.W. Duin

摘记：

理论上，组合独立的分类器，会得到比单一分类器更好的结果；组合相互依赖的分类器，得到的结果比起单一分类器，可好可坏。

Bootstrapping基于随机取样，每个分类器基于不同的样本，然后再组合分类器（不同分类器的样本能重合吗？）。

bagging机制：基于Bootstrapping，但是根据每个分类器的误差，会给每个分类器赋一个权值，最后的组合，是这些分类器的加权组合。

Boosting机制：分类器和训练数据集得到方式是被严格确定下来的。不像bagging中是随机的。在boosting的每一步中，训练数据被赋予权值，且当该数据被分类错误时，权值增大。类似SVC，增大了Margin。不同在于这边是局部的增大，而SVM是全局增大Margin。Adaboost，用重新定义训练数据权值，来代替重采样。

“arcfs”algorithm（Breiman提出）：改进的Adaboost，根据分类误差，改变权值（注意：若误差过大，说明可能是噪声数据，所以忽略）

还没搞清楚的是，每个训练数据一个权值，还是每类训练数据一个权值。（貌似是每个）

分类器差别的度量：两个分类器：Ci 和 Cj

Q 统计量Qij=（ad – bc）/（ad + bc）

a Ci 和Cj 都正确概率,
b Ci 正确， Cj 错误概率
c Ci 错误， Cj 正确概率
d Ci 和Cj 都错误概率

值域为-1到1，越接近0越好

另一个度量：disagreement measure

Dij = b+c，越大越好