Bagging

来源：互联网发布：生有涯知无涯编辑：程序博客网时间：2024/06/11 03:53

Resampling

we refit the model with repeatedly samples from a training set
- cross validation
- bootstrapping
1. 交叉验证
假定有一个变量集合上能得到最小错误率，如果是一个很大的集合，我们随机划分为训练集和测试集（验证集），找到用某种训练集训练出的在测试集上最低错误率的模型
LOOCV：对交叉验证的错误率做平均，CV(n)=1/n∑ni=1MSE

LOOCV the validation set less bias simple less variable MSE easy to implent

K-fole Cross Validatin

entropy for feature selection

信息熵
高熵即混乱而更难预测
条件熵
信息增益：IG, information gain, 作为互信息
H(Y)−H(Y|X)

H (Y) = - \sum y \in Y p (y) l o g p (y)

H (Y | X) = - \sum x \in X p (x) \sum y \in Y p (y | x) l o g p (y | x)

更低的条件熵（更高的信息增益）即选为最佳特征，

岭回归

消减维数，取折中，

Decision trees

决策树
- 回归树
- 分类树
- pruning trees 剪枝
- trees vs. Linear Models

决策树的构造过程其实就是评估所有子特征，根据特特征的重要性来进行分类的方法
首先需要评估各个特征的信息熵——决定性作用最大的那个特征作为根节点
>

1、给定下列数据集，其中每个样本有两个属性，记为属性A和属性B，这些样本分为三类，分别记作 C1, C2, 和C3。计算A和B的信息增益值（IG），并基于计算的结果，给出决策树判断的流程。

类别属性A 属性B C3 1 2 C3 1 1 C1 1 2 C1 1 2 C1 2 2 C2 2 1 C2 3 1 C2 3 1 C2 3 1 C2 3 2

Answer:
1. the IG for A :

x∈X 1 2 3

y∈Y 2C1 0C2 2C3 1C1 1C2 0C3 0C1 4C2 0C3

the IG for B

x∈X 1 2 3

y∈Y 0C1 4C2 1C3 3C1 1C2 1C3 0C1 0C2 0C3

H (Y | X) = - \sum x \in X p (x) \sum y \in Y p (y | x) l o g p (y | x)

pA(x=1)=4/(4+2+4)=0.4
pA(x=2)=0,2
pA(x=3)=0.4

pB(x=1)=5/10=0.5
pB(x=2)=0.5
pB(x=3)=0

pA(y=c1|x=1)=2/(2+2)=0.5
pA(y=c2|x=1)=0
pA(y=c3|x=1)=0.5

pA(y=c1|x=2)=0.5
pA(y=c2|x=2)=0.5
pA(y=c3|x=2)=0

pA(y=c1|x=3)=0
pA(y=c2|x=3)=1
pA(y=c3|x=3)=0

IG_A= -0.4(0.5log0.5+0.5log0.5)-0.2(0.5log0.5+0.5log0.5)-0.4(1log1)=0.6log2=0.18
IG_B=
-0.5(0.8log0.8+0.2log0.2)-0.5(0.6log0.6+0.2log0.2+0.2log0,2)=0.315
显然A属性对分类来说更好，基于运算结果，会给出决策树的流程：
A的可信度更高，因此从A开始划分，
if(A<=1)
if(B<=1)
C3
else if(B<=2)
C1(p(C1|B)>p(C2|B)
else if (A<=2)
if(B<=1)
C2
else if(B<=2)
C1
else if(A<=3)
C2
end

Bagging

bootstrap aggregrating
多个分类器自助聚合

重采样：重复采样实验，不同的分类树，对实验结果合成
- 分类：投票，奇数个分类器，（正样本负样本）多数为胜
- 回归：平均，降低方差
不仅仅降低方差（variance），也可以降低误差（bias）

贝叶斯误差：最优误差（Pe最小）

回归树的好处：能知道哪个属性最重要，作为父节点

Random Forest

随机森林

阅读全文

0 0