机器学习_集成学习

来源:互联网 发布:js有集合吗 编辑:程序博客网 时间:2024/05/29 12:10

1.理解什么是集成学习:所谓“集成”,是指同时构建多个学习器,这里的学习器主要针对弱学习器。

2.弱学习器主要是指泛化能力略优于随机猜测的学习器,弱的相结合会得到更好的泛化能力。三个臭皮匠嘛!

3那么这些弱的掺杂起来为什么会得到好的呢?主要思想就是投票法。所以呀我们要得到好的集成效果,必须要求个体学习器要有一定准确性,而且要有差异。如果不理解可看172页图8.2

4.现在大致讲一下adaboosting算法。大致流程

【1】首先从样本中,训练出一个分类器。初始化样本权重(m个样本,权重为1/m,主要目的:通过权重的改变使在先前基学习器做错的训练样本得到更多的关注。)

【2】算出该个体分类器的错误率。

【3】根据错误率算出该个体分类器的权值,西瓜书175页(1.adaboosting算法其实是不同个体分类器的一个加权线性组合   2.分类器的权值与错误率有关,错误率的低个体分类器将会赋予高的权值)

【4】调整样本分布,即重新赋值样本权重,使在先前基学习器做错的训练样本得到更多的关注。

【5】迭代

5.证明的大致过程

【0】adaboosting的大部分证明都是围绕损失函数最小展开的。

【1】首先证明了在集成学习这个问题中 指数损失 函数是 0/1损失函数 的一致替代函数。

          目的:在接下来的推导过程中就可以使用这个函数

【2】推导基分类器权重计算公式(由错误率计算)

【3】推导样本分布即样本权重的过程,.......说实话并没有看懂。

6.启示

【1】损失函数在svm中是规范项,但是也可以用在目标函数里,比如分类问题目标函数为分类错误最小。

【2】分类函数就是一个自变量为正,分类正确,因变量为0;而自变量为负,因变量有一定数值的函数。

7.问题

【1】为什么会有无法接受带权样本?无法重赋权以改变分布只能重采样来处理,两者做法能一样么?

【2】为什么svm目标函数不是损失最小?svm以线性可分出发,是分析问题的角度不一样么?

【3】为什么当基学习器错误率不满足条件抛弃后,学习过程会停止?继续也挺好呀

原创粉丝点击