Bagging

来源:互联网 发布:生有涯 知无涯 编辑:程序博客网 时间:2024/06/11 03:53

Resampling

we refit the model with repeatedly samples from a training set
- cross validation
- bootstrapping
1. 交叉验证
假定有一个变量集合上能得到最小错误率,如果是一个很大的集合,我们随机划分为训练集和测试集(验证集),找到用某种训练集训练出的在测试集上最低错误率的模型
LOOCV:对交叉验证的错误率做平均,CV(n)=1/nni=1MSE

LOOCV the validation set less bias simple less variable MSE easy to implent

K-fole Cross Validatin

entropy for feature selection

信息熵
高熵即混乱而更难预测
条件熵
信息增益:IG, information gain, 作为互信息
H(Y)H(Y|X)

H(Y)=yYp(y)logp(y)

H(Y|X)=xXp(x)yYp(y|x)logp(y|x)

更低的条件熵(更高的信息增益)即选为最佳特征,

岭回归

消减维数,取折中,

Decision trees

决策树
- 回归树
- 分类树
- pruning trees 剪枝
- trees vs. Linear Models

决策树的构造过程其实就是评估所有子特征,根据特特征的重要性来进行分类的方法
首先需要评估各个特征的信息熵——决定性作用最大的那个特征作为根节点
>

1、给定下列数据集,其中每个样本有两个属性,记为属性A和属性B,这些样本分为三类,分别记作 C1, C2, 和C3。 计算A和B的信息增益值(IG), 并基于计算的结果,给出决策树判断的流程。

类别 属性A 属性B C3 1 2 C3 1 1 C1 1 2 C1 1 2 C1 2 2 C2 2 1 C2 3 1 C2 3 1 C2 3 1 C2 3 2

Answer:
1. the IG for A :

xX 1 2 3 yY 2C1 0C2 2C3 1C1 1C2 0C3 0C1 4C2 0C3

the IG for B

xX 1 2 3 yY 0C1 4C2 1C3 3C1 1C2 1C3 0C1 0C2 0C3

H(Y|X)=xXp(x)yYp(y|x)logp(y|x)

pA(x=1)=4/(4+2+4)=0.4
pA(x=2)=0,2
pA(x=3)=0.4

pB(x=1)=5/10=0.5
pB(x=2)=0.5
pB(x=3)=0

pA(y=c1|x=1)=2/(2+2)=0.5
pA(y=c2|x=1)=0
pA(y=c3|x=1)=0.5

pA(y=c1|x=2)=0.5
pA(y=c2|x=2)=0.5
pA(y=c3|x=2)=0

pA(y=c1|x=3)=0
pA(y=c2|x=3)=1
pA(y=c3|x=3)=0

IG_A= -0.4(0.5log0.5+0.5log0.5)-0.2(0.5log0.5+0.5log0.5)-0.4(1log1)=0.6log2=0.18
IG_B=
-0.5(0.8log0.8+0.2log0.2)-0.5(0.6log0.6+0.2log0.2+0.2log0,2)=0.315
显然A属性对分类来说更好,基于运算结果,会给出决策树的流程:
A的可信度更高,因此从A开始划分,
if(A<=1)
if(B<=1)
C3
else if(B<=2)
C1(p(C1|B)>p(C2|B)
else if (A<=2)
if(B<=1)
C2
else if(B<=2)
C1
else if(A<=3)
C2
end

Created with Raphaël 2.1.0开始A/B确认?结束yesno

Bagging

bootstrap aggregrating
多个分类器自助聚合

重采样:重复采样实验,不同的分类树,对实验结果合成
- 分类:投票,奇数个分类器,(正样本负样本)多数为胜
- 回归:平均,降低方差
不仅仅降低方差(variance),也可以降低误差(bias)

贝叶斯误差:最优误差(Pe最小)

回归树的好处:能知道哪个属性最重要,作为父节点

Random Forest

随机森林

原创粉丝点击