Bagging算法与随机森林
来源:互联网 发布:软件组件 编辑:程序博客网 时间:2024/05/16 16:21
Bagging算法
一、自助采样法
给定包含m个样本的数据集D,我们对它进行采样产生数据集D’:每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采样到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D’,这就是自助采样的结果。
显然有一部分样本会在D‘中出现多次,而另一部分样本不出现。样本在m次采样中始终不被采到的概率是:
即通过自助采样法,初始数据集D中约有36.8%的样本未出现在样本数据集D‘中。于是我们可将D’用作训练集,D\D’用作测试集,这种做法简称“包外估计”
二、算法描述
我们可以采样出T个含有m个训练样本的采样集,然后基于每个采样集训练出一个集学习器,在将这些基学习器进行结合。在对预测输出进行结合时,Bagging通常对分类任务使用简单投票法,对回归任务使用简单平均法。若分类预测时出现两个类收到同样票数的情形,则最简单的做法是随机选择一个。
算法描述
输入:训练集
基学习算法
训练轮数T。
过程
for t = 1,2 , … , T do
通过自助采样法得到
end for
输出:
三、包外估计
令
则Bagging泛化误差的包外估计为
随机森林(Random Forest ,简称RF) 是 Bagging的一个扩展变体。RF再以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。
随机森林
对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含K个属性的子集,然后再从这个子集中选择一个最优属性用于划分。
K控制了随机性的引入程度
- 若令K=d,则基决策树的构建与传统决策树相同
- 若令K=1,则随机选择一个属性用于划分
- 一般情况下推荐值K=
log2d .
随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动,这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升
- Bagging算法与随机森林
- Bagging算法 与 随机森林算法 原理
- Bagging与随机森林算法原理小结
- Bagging与随机森林算法原理小结
- Bagging与随机森林算法原理小结
- Bagging与随机森林算法原理小结
- Bagging与随机森林算法原理小结
- Bagging与随机森林算法原理小结
- Bagging与随机森林
- Bagging与随机森林
- Bagging与随机森林
- Bagging与随机森林
- Bagging与随机森林
- 笔记-Bagging与随机森林
- 判别器组合算法——Bagging与随机森林
- 【集成学习】Bagging与随机森林算法原理小结
- Bagging与随机森林算法原理小结(详解)
- 机器学习—Bagging与随机森林算法详解
- 1010. Radix (25) PAT 甲级
- DBCP、C3P0、Proxool 、 BoneCP开源连接池的比较
- #ASM 翻译系列第十六弹:ASM Internal ASM Active Change Directory
- ,而它等待被提取到变量
- matlab 随机数
- Bagging算法与随机森林
- Android真机测试Log不输出
- 海思3559与全志a83t比较
- 深入理解JDBC的超时设置
- 《格局逆袭》
- Mac上使用VScode调试Unity
- 目前最全面的深度学习教程自学资源汇总
- 解决win10运行Android AVD遇到Canot lunch AVD in emulator问题
- 15个Android通用流行框架大全