Paper摘记:Bagging and Boosting for the Nearest Mean Classifier:

来源:互联网 发布:四川广电网络公司性质 编辑:程序博客网 时间:2024/05/18 00:31

全名:Bagging and Boosting for the Nearest Mean Classifier:Effects of Sample Size on Diversity and Accuracy

作者:Marina Skurichina, Liudmila I. Kuncheva and Robert P.W. Duin

摘记:

理论上,组合独立的分类器,会得到比单一分类器更好的结果;组合相互依赖的分类器,得到的结果比起单一分类器,可好可坏。

Bootstrapping基于随机取样,每个分类器基于不同的样本,然后再组合分类器(不同分类器的样本能重合吗?)。

bagging机制:基于Bootstrapping,但是根据每个分类器的误差,会给每个分类器赋一个权值,最后的组合,是这些分类器的加权组合。

Boosting机制:分类器和训练数据集得到方式是被严格确定下来的。不像bagging中是随机的。在boosting的每一步中,训练数据被赋予权值,且当该数据被分类错误时,权值增大。类似SVC,增大了Margin。不同在于这边是局部的增大,而SVM是全局增大Margin。Adaboost,用重新定义训练数据权值,来代替重采样。

“arcfs”algorithm(Breiman提出):改进的Adaboost,根据分类误差,改变权值(注意:若误差过大,说明可能是噪声数据,所以忽略)

还没搞清楚的是,每个训练数据一个权值,还是每类训练数据一个权值。(貌似是每个)

分类器差别的度量:两个分类器:Ci 和 Cj

Q 统计量Qij=(ad – bc)/(ad + bc)

a Ci 和Cj 都正确概率,
b Ci 正确, Cj 错误概率
c Ci 错误, Cj 正确概率
d Ci 和Cj 都错误概率

值域为-1到1,越接近0越好

另一个度量:disagreement measure

Dij = b+c, 越大越好