机器学习_集成学习

来源：互联网发布：js有集合吗编辑：程序博客网时间：2024/05/29 12:10

1.理解什么是集成学习：所谓“集成”，是指同时构建多个学习器，这里的学习器主要针对弱学习器。

2.弱学习器主要是指泛化能力略优于随机猜测的学习器，弱的相结合会得到更好的泛化能力。三个臭皮匠嘛！

3那么这些弱的掺杂起来为什么会得到好的呢？主要思想就是投票法。所以呀我们要得到好的集成效果，必须要求个体学习器要有一定准确性，而且要有差异。如果不理解可看172页图8.2

4.现在大致讲一下adaboosting算法。大致流程

【1】首先从样本中，训练出一个分类器。初始化样本权重（m个样本，权重为1/m,主要目的：通过权重的改变使在先前基学习器做错的训练样本得到更多的关注。）

【2】算出该个体分类器的错误率。

【3】根据错误率算出该个体分类器的权值，西瓜书175页（1.adaboosting算法其实是不同个体分类器的一个加权线性组合 2.分类器的权值与错误率有关，错误率的低个体分类器将会赋予高的权值）

【4】调整样本分布，即重新赋值样本权重，使在先前基学习器做错的训练样本得到更多的关注。

【5】迭代

5.证明的大致过程

【0】adaboosting的大部分证明都是围绕损失函数最小展开的。

【1】首先证明了在集成学习这个问题中指数损失函数是 0/1损失函数的一致替代函数。

目的：在接下来的推导过程中就可以使用这个函数

【2】推导基分类器权重计算公式（由错误率计算）

【3】推导样本分布即样本权重的过程，.......说实话并没有看懂。

6.启示

【1】损失函数在svm中是规范项，但是也可以用在目标函数里，比如分类问题目标函数为分类错误最小。

【2】分类函数就是一个自变量为正，分类正确，因变量为0；而自变量为负，因变量有一定数值的函数。

7.问题

【1】为什么会有无法接受带权样本？无法重赋权以改变分布只能重采样来处理，两者做法能一样么？

【2】为什么svm目标函数不是损失最小？svm以线性可分出发，是分析问题的角度不一样么？

【3】为什么当基学习器错误率不满足条件抛弃后，学习过程会停止？继续也挺好呀

阅读全文

0 0