AdaBoost算法有关内容

来源:互联网 发布:我知你好歌词 编辑:程序博客网 时间:2024/05/21 14:03

AdaBoost算法有关内容

网页搜索阶段

在网页上输入“AdaBoost算法”后,打开推荐的前几个网页,了解一些基本的AdaBoost算法信息。
在某个网页的开始,说到,要想了解AdaBoost算法,就要先有关于bagging和boosting的基础知识比较好,所以我先去了解bagging和boosting的信息。了解的时候,发现首先提到的是集成学习这个知识点,以及偏倚-方差这个概念。

偏倚-方差分解

(Bias-variance decomposition, BVD)

具体内容,可以在Vpegasus的blog学习。(里面有一副图,感觉十分详细)

偏倚(bias):预测值的期望(均值)与实际值之间的差值

方差(variance):实际预测值与预测值的期望(均值)之间的差别

集成学习(Ensemble Learning)——通俗一点,就是“三个臭皮匠,顶个诸葛亮”

(南大周志华教授将Ensemble Learning翻译为集成学习)

如果算法无论如何优化都无法达到我们的要求,又或者精准算法的实现或调优成本太大, 这时,我们就会想,能不能把几个算法或模型结合起来,以’集体’的力量来解决问题,这就是集成学习产生的原因。

集成学习的思路:
在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。

集成学习关于#怎么训练每个算法#?和#怎么融合每个算法?#,主要有两种思路, 一种是bagging, 一种是boosting, 本质上分别是对于方差, 偏倚的不同优化方式。

集成学习的关键:围绕学习器的差异和强度

集成学习的一些进展:
引入半监督学习可以不牺牲个体学习器精度就能提升多样性(diversity),设计结果——UDEED算法

Ps:集成学习者认为: 只要允许我使用多个学习器,就能把弱学习器提升到足够强,根本不需要什么无标记样本。半监督学习者认为: 只要能让我使用无标记样本,就能把学习器提升到足够强,哪需要什么多学习器。双方各执一词,真是老死不相往来的节奏。

(以上的部分内容摘自Vpegasus的blog与机器学习刀光剑影 之 屠龙刀)

bagging

bagging 是并行式集成学习, 也可以说是投票式(voting)式学习. 以##少数服从多数##的原则来进行表决.

bagging有两个关键点:自助采样和投票

自助采样
Bagging是多个学习器组合的集成学习, 每个学习器(称为基学习器) 都要独立训练, 每个基学习器的输入数据是有放回的从样本中抽取子样本(subsampling), 数量一般要求同原样本的数据量(个数) 一致.(ps: 每个个体被抽到的概率是1−(1−1n)n≈63.2%)

投票
当每个基学习器训练完成后,对每个个体进行(民主)投票表决, 比如分类, 得票最多的类别即为此个体的类别.

(这一部分摘自Vpegasus的blog)

关于AdaBoost算法的内容,推荐一篇文章

初次学习,定有许多地方存在不少缺漏或错误,敬请指正~

原创粉丝点击