集成学习
来源:互联网 发布:linux网络运维 编辑:程序博客网 时间:2024/05/29 11:44
集成学习
- 集成学习
- 基本概念
- 串行方法
- Adaboosting
- GBDT
- 并行方法
- Bagging
- Random Forest
- 结合策略
- 多样性
基本概念
集成学习是通过多个学习器来完成学习任务。就是结合多个学习器对样本进行学习,然后综合最后的结果做出一个决策。按照学习器的种类可以分为同质和异质集成。所谓的同质集成是指所有的学习器是同一种类,比如都是决策树、神经网络等;那么与之对应的异质集成就是不同种类的集合了,比如神经网络和决策树的组合等。目前的集成学习方法大致可以分为两大类:串行方法和并行方法。
串行方法
个体学习器之间存在强依赖关系的话必须串行生成相应的序列。代表的方法有boosting。
Adaboosting
boosting是一族可以将弱学习器提升为强学习器的算法。其机制大概为:先从初始训练集训练出一个基学习器,然后依据基学习器的表现对训练样本分布进行调整,使得先前基学习器判断错误的训练样本在后续中得到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至训练完所有的基学习器。Adaboosting是boosting算法族中比较有代表性的算法。
一、算法流程
假设给出样本的形式为
1、初始化训练样本的权值
2、训练基学习器
定义第
3、组合各个基学习器。错误率低的基学习器在组合中权重大;错误率高的基学习器在组合中权重小。
小结:每个基学习器的过程中使用的都是相同的样本,但根据误差率(损失函数)来优化的。而误差率的计算带有样本的分布权值且误差率会更新样本权重。因此虽然每次使用的是同一个训练集但训练出来的基学习器是不一样的,可以认为每个基学习的训练过程中优化的损失函数(经验风险)是不同的。
二、推导
一种对Adaboosting算法比较好的理解方式将其看成是基学习器的线性组合方式:
那么(3)式对
令上式等于0,可得:
Adaboosting算法是可以看成是学习器的级联,那么:
(待续……)
GBDT
GBDT(gradient boost decision tree),可以用来作分类、回归。相比于Adaboosting通过提高错误分类样本的权重来定位模型的不足,gradient boosting是通过计算梯度来定位模型的不足。它主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向。而让损失函数持续下降,就能使得模型不断改性提升性能,其最好的方法就是使损失函数沿着梯度方向下降。
并行方法
个体学习之间不存在强依赖关系,可以同时生成并行的方法。要想得到较好泛化能力的集成学习组合,需要其中的个体学习器尽可能的相互独立。为了尽可能的达成这个目的,对训练样本进行采样形成子样本,然后使用子样本去训练不同的个体学习器以提升个体学习器之间的差异。但训练这些学习器时只采用了部分样本,不足以进行有效的学习,可以改进的是可以使用相互有交叠的采样子集。并行集成学习的代表方法有:bagging和随机森林。
Bagging
采样方法使用的自助采用法:在给定的样本集中有放回的进行采样,也就是采样子集中有可能出现同一个样本。重复
Random Forest
随机森林是在以决策树为基学习器构建bagging集成的基础上进一步在决策树的训练过程中引入随机属性的选择。传统的决策树通过最优划分属性来生成树,决策树中使用信息增益(ID3算法)、信息增益率(C4.5算法)、基尼指数(CART算法)作为划分属性的选择依据。;而RF是在每个基决策树的结点中先从节点的属性集合中选出一个子属性集,然后再子属性集中选择最优划分属性。
随机森林并不限制于线性问题,对非线性问题也有很好的效果。可以用于特征选择(如何实现的?)、分类、回归。随机森林不容易产生过拟合,但也会产生过拟合特别是在数据集较小的情况下,应避免在模型中只使用相关性的特征。随机森林擅长于离散变量或者离散变量与连续变量混合的情况。
优点:
1)能够处理很高维的数据,并且不用作特征选择;
2)训练完成后,能够给出哪些特征比较重要(特征选择);
3)在创建随机森林的时候,对一般误差使用的是无偏估计;
4)实现简单、易做成并行化、训练速度快。
关于随机森林降维(特征选择):对目标属性产生许多巨大的树,然后根据对每个属性的统计结果找到信息量最大的特征子集。例如,我们能够对一个非常巨大的数据集生成非常层次非常浅的树,每颗树只训练一小部分属性。如果一个属性经常成为最佳分裂属性,那么它很有可能是需要保留的信息特征。
结合策略
学习器结合的优点:
1. 减小了学习器误选而泛化不佳的概率;
2. 减小了学习器陷入局部最优的可能性;
3. 扩大算法的假设空间。
平均法
简单平均法
投票法
绝对多数投票法:若某标记投票过半数则预测该标记,否则拒绝。
相对多数投票法:预测投票最多的标记,投票相同随机选。
学习法
使用一个学习器来作为结合模块进行训练。stacking是学习法的代表。利用初级学习器的输出构成数据集来训练次级学习器。
多样性
多样性度量
用于度量集成中个体学习器的多样性,也就是用来衡量个体学习器的多样化程度。
<1>不合度量
<2>相关系数
<3>Q-统计量
<4>
多样性增强
<1>输入属性扰动
<2>数据样本扰动
<3>输出表示扰动
<4>算法参数扰动
References:
[1]周志华:机器学习
[2]Adaboost 算法的原理与推导
[3]GBDT原理-Gradient Boosting Decision Tree
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- 集成学习
- Codeforces 101484 H Eating Pie
- 树状数组(模板)
- Windows Practice_Dll&Hook_DetourHook库
- 基于Excel的QR二维码生成工具——原理及算法详解(之六)
- windows 环境下在python中安装tensorflow报错问题
- 集成学习
- C++多态
- 1
- 17.10.3日报
- 深入理解ES6 -- 函数
- mysql列值相加为空
- [BeiJing2006]狼抓兔子 平面图最小割
- leetcode之深搜递归回溯类-----1/167/653. two sum(记忆化搜索寻找和为给定值的两个数)
- java设计模式(一)——普通工厂模式