Ensemble learning algorithms(Bagging, Boosting, Random Foreast)

来源:互联网 发布:韩国主播用什么软件 编辑:程序博客网 时间:2024/03/28 23:37

集成学习算法(Ensemble learning algorithms)的主要步骤:
(1)首先,对原始训练样本数据集原始样本特征数据集采用不同的分类组合方式进行抽样;
(2)然后,选择基分类器(决策树等),基于抽样样本对每一个基分类器(决策树等)进行训练;
(3)最后,基于所有基分类器(决策树等)的分类结果采用某种投票机制得出最终分类结果。

基于Bootstrap思想的分类组合方式主要有:

  • Bagging
  • Boosting (Adaboost)
  • Random Foreast

他们之间的关系如下:

这里写图片描述

Bootstrap是靴子的带子的意思,名字来源于“pull up your own bootstraps”,意思是通过拉靴子提高自己,本来的意思是不可能发生的事情,但后来发展成通过自己的努力让事情变得更好。放在组合分类器这里,意思就是通过分类器自己提高分类的性能。

Boostrap只是提供了一种组合方法的思想,就是将基分类器的训练结果进行综合分析,而其它的名称如Bagging, Boosting是对组合方法的具体演绎。

组合方法总体上可以分为两种。
第一种,通过处理原始训练样本数据集。这种方法根据某种抽样分布,通过对原始数据集进行再抽样来得到多个数据集。抽样分布决定了一个样本被选作训练的可能性大小,然后使用特定的学习算法为每个训练集建立一个分类器。Bagging和Boosting都是这样的思想。Adaboost是Boosting当中比较出众的一个算法。

第二种,通过处理原始样本特征数据集。在这种方法中,通过选择输入特征的子集来形成每个训练集。随机森林就是通过处理输入特征的组合方法,并且它的基分类器限制成了决策树。

一般情况下,随机森林算法不仅要对原始训练样本数据集进行采样,还要对特征数据集进行采样。

资料链接:
1. http://blog.csdn.net/zjsghww/article/details/51591009
2. http://blog.csdn.net/zjsghww/article/details/51898359

0 0
原创粉丝点击