Bagging
来源:互联网 发布:生有涯 知无涯 编辑:程序博客网 时间:2024/06/11 03:53
Resampling
we refit the model with repeatedly samples from a training set
- cross validation
- bootstrapping
1. 交叉验证
假定有一个变量集合上能得到最小错误率,如果是一个很大的集合,我们随机划分为训练集和测试集(验证集),找到用某种训练集训练出的在测试集上最低错误率的模型
LOOCV:对交叉验证的错误率做平均,
K-fole Cross Validatin
entropy for feature selection
信息熵
高熵即混乱而更难预测
条件熵
信息增益:IG, information gain, 作为互信息
更低的条件熵(更高的信息增益)即选为最佳特征,
岭回归
消减维数,取折中,
Decision trees
决策树
- 回归树
- 分类树
- pruning trees 剪枝
- trees vs. Linear Models
决策树的构造过程其实就是评估所有子特征,根据特特征的重要性来进行分类的方法
首先需要评估各个特征的信息熵——决定性作用最大的那个特征作为根节点
>
1、给定下列数据集,其中每个样本有两个属性,记为属性A和属性B,这些样本分为三类,分别记作 C1, C2, 和C3。 计算A和B的信息增益值(IG), 并基于计算的结果,给出决策树判断的流程。
Answer:
1. the IG for A :
the IG for B
IG_A= -0.4(0.5log0.5+0.5log0.5)-0.2(0.5log0.5+0.5log0.5)-0.4(1log1)=0.6log2=0.18
IG_B=
-0.5(0.8log0.8+0.2log0.2)-0.5(0.6log0.6+0.2log0.2+0.2log0,2)=0.315
显然A属性对分类来说更好,基于运算结果,会给出决策树的流程:
A的可信度更高,因此从A开始划分,
if(A<=1)
if(B<=1)
C3
else if(B<=2)
C1(p(C1|B)>p(C2|B)
else if (A<=2)
if(B<=1)
C2
else if(B<=2)
C1
else if(A<=3)
C2
end
Bagging
bootstrap aggregrating
多个分类器自助聚合
重采样:重复采样实验,不同的分类树,对实验结果合成
- 分类:投票,奇数个分类器,(正样本负样本)多数为胜
- 回归:平均,降低方差
不仅仅降低方差(variance),也可以降低误差(bias)
贝叶斯误差:最优误差(Pe最小)
回归树的好处:能知道哪个属性最重要,作为父节点
Random Forest
随机森林
- Bagging
- Bagging
- bagging
- bagging简介
- boosting-bagging
- Bagging 简述
- Bagging,Boosting
- Boosting和Bagging
- bootstrps、bagging 与boosting
- bootstrap bagging boosting
- bootstrps 、bagging与 boosting
- bootstrps 、bagging与 boosting
- bootstrps bagging boosting基本概念
- Boosting和Bagging
- bootstrps 、bagging与 boosting
- 集成学习 bagging-adaboost
- weka[5] - Bagging
- ESL-chapter8-bagging
- AndroidStudio 升级3.0.0(10月27日)
- 07打开r40m平台Android6.0下验证SPI0(分色排版)
- GMIC全球顾问委员会成立 张亚勤博士任首届主席
- 英特尔:GPU已out,Nvidia的人工智能之路会越来越难
- ssh服务
- Bagging
- palindrome
- 街道网络路径数目计算
- [HTML5][JSP]利用FormData对象完成表单的异步上传|文件上传|图文同时上传
- 说说前端那些事----递归
- 传统的socket之BIO到伪异步IO到NIO最后到AIO简介
- 卡皇回归!英伟达发布满血版泰坦,加入 Mac OS 驱动
- GMIC 2017大会亮点提前看 明星科学家都在这里
- nginx反向代理配置