AdaBoost算法有关内容

来源：互联网发布：我知你好歌词编辑：程序博客网时间：2024/05/21 14:03

AdaBoost算法有关内容

网页搜索阶段

在网页上输入“AdaBoost算法”后，打开推荐的前几个网页，了解一些基本的AdaBoost算法信息。
在某个网页的开始，说到，要想了解AdaBoost算法，就要先有关于bagging和boosting的基础知识比较好，所以我先去了解bagging和boosting的信息。了解的时候，发现首先提到的是集成学习这个知识点，以及偏倚-方差这个概念。

偏倚-方差分解

(Bias-variance decomposition, BVD)

具体内容，可以在Vpegasus的blog学习。（里面有一副图，感觉十分详细）

偏倚（bias）：预测值的期望（均值）与实际值之间的差值

方差（variance）：实际预测值与预测值的期望（均值）之间的差别

集成学习(Ensemble Learning)——通俗一点，就是“三个臭皮匠，顶个诸葛亮”

(南大周志华教授将Ensemble Learning翻译为集成学习)

如果算法无论如何优化都无法达到我们的要求,又或者精准算法的实现或调优成本太大, 这时,我们就会想,能不能把几个算法或模型结合起来,以’集体’的力量来解决问题，这就是集成学习产生的原因。

集成学习的思路:
在对新的实例进行分类的时候，把若干个单个分类器集成起来，通过对多个分类器的分类结果进行某种组合来决定最终的分类，以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策。

集成学习关于#怎么训练每个算法#？和#怎么融合每个算法?#,主要有两种思路, 一种是bagging, 一种是boosting, 本质上分别是对于方差, 偏倚的不同优化方式。

集成学习的关键：围绕学习器的差异和强度

集成学习的一些进展：
引入半监督学习可以不牺牲个体学习器精度就能提升多样性（diversity），设计结果——UDEED算法

Ps:集成学习者认为: 只要允许我使用多个学习器，就能把弱学习器提升到足够强，根本不需要什么无标记样本。半监督学习者认为: 只要能让我使用无标记样本，就能把学习器提升到足够强，哪需要什么多学习器。双方各执一词，真是老死不相往来的节奏。

（以上的部分内容摘自Vpegasus的blog与机器学习刀光剑影之屠龙刀）

bagging

bagging 是并行式集成学习, 也可以说是投票式(voting)式学习. 以##少数服从多数##的原则来进行表决.

bagging有两个关键点：自助采样和投票

自助采样
Bagging是多个学习器组合的集成学习, 每个学习器(称为基学习器) 都要独立训练, 每个基学习器的输入数据是有放回的从样本中抽取子样本(subsampling), 数量一般要求同原样本的数据量(个数) 一致.(ps: 每个个体被抽到的概率是1−(1−1n)n≈63.2%)

投票
当每个基学习器训练完成后,对每个个体进行(民主)投票表决, 比如分类, 得票最多的类别即为此个体的类别.

（这一部分摘自Vpegasus的blog）

关于AdaBoost算法的内容，推荐一篇文章

初次学习，定有许多地方存在不少缺漏或错误，敬请指正~

阅读全文

0 0