从决策树到GBDT

来源：互联网发布：cnc编程兼职群编辑：程序博客网时间：2024/05/22 03:49

决策树

非参数模型：不能用有限个参数来描述，随样本数量变化。

优点：

容易解释
可扩展到大规模数据，
不要求对特征做预处理
- 能处理离散和连续值混合的输入
- 对特征的单调变换，如log、标准化等，不敏感，只与数据的排序有关；
- 能自动进行特征选择；
- 可处理缺失数据等。

缺点：

预测正确率不高。+boosing=GBDT
模型不稳定，输入数据小的变化（如一两个数据点的取值变化）会带来树结构的变化。+bagging=RamdomForest
样本太少时容易过拟合

如何建树

建树目标

使训练集上模型的预测值与真值差距越来越小

建树过程

根节点包含全部样本
分裂。目标：减小该节点的 [ 不纯净度]。方法：对特征j和阈值T，小于的样本分到左子节点，大于的样本分到右子节点。对左右节点分别计算节点的不纯净度，加权平均作为分裂后的总不纯净度，与父节点的不纯净度进行比较。选择【分裂后的总不纯净度】最小的特征j和阈值T进行分裂。sklearn中DecisionTree穷举搜索所有特征的所有可能取值，把连续特征当作离散特征处理，没有实现剪枝。
继续对左右子节点进行分裂。
停止分裂。（1）不纯净度减少太少；（2）树的深度超过了最大深度，或叶子节点超过一定数目；（3）左右分支的样本分布足够纯净；（4）左右分支中样本数目足够少。

建树指标

不纯净度

分类决策树
- 错分率：H(D)=1|D|∑i∈DI(yi≠y^)=1−π^y^
- 熵：H(D)=−∑Cc=1π^clogπ^c
- Gini系数：H(D)=∑Cc=1π^c(1−π^c)=1−∑Cπ^2c

其中π^c=1|D|∑i∈DI(yi=c)
以5个样本为例，类别分别为[1,1,2,3,4]，π^1=25，π^2=π^3=π^4=15，y^=1，
错分率为35，熵为−(25log25+35log15),Gini系数为1−((25)2+3∗(15)2)

回归决策树
- 属于某一结点的所有样本的y的方差，即L2损失

如何剪枝

剪枝描述

使用校验集来进行剪枝，类似线性模型中的正则项，保证模型复杂度不要太高，防止过拟合

剪枝准则：Cost complexity pruning

C C (T) = E r r (T) + α | T |

其中

Err(T)代表树的错误率，

α是正则因子，

|T|是树的节点数目。形同机器学习模型的目标函数：

J(θ)=∑Ni=1L(f(Xi;θ),yi)+λΩ(θ)

剪枝过程

自底向上进行剪枝，直至根节点。
当α从0开始增大，树的一些分支被剪掉，得到不同α对应的树。采用交叉验证得到最佳α。

GBDT（Gradient boosting descision tree)

Boosting 与 AdaBoost

http://www.jianshu.com/p/a6426f4c4e64
boosting描述：模型输出为多个弱学习器的加权平均
adaptive boosting描述：初始每个样本的权重（分布概率）均为1N，训练得到一个分类器后对样本做预测。对错误率<12的分类器，降低正确分类的样本权重，提高误分样本的权重；对错误率>12的分类器，增加正确分类的样本权重，降低误分样本的权重；错误率=12的分类器的权重为0。继续训练下一个分类器。

如何选择弱学习器的权重α和样本的权重w?

确定样本权重w

目标：指数损失最小。考虑两类分类问题，样本标签yi∈{−1,1}。多类问题可通过ovr策略进行扩展。

E R R t r a i n 假 设 存 在 w m, i 使 = 1 N \sum i = 0 N {10 y i \neq s g n (f (X i)) e l s e \leq 1 N \sum i = 0 N e x p (- y i f (X i)) = 1 N \sum i = 0 N e x p (- y i (α 1 f 1 (X i) + α 2 f 2 (X i) + \dots + α M f M (X i))) = 1 N \sum i = 0 N [\prod m = 1 M e x p (- y i α m f m (X i)] = \prod m = 1 M [\sum i = 0 N w m, i e x p (- y i α m f m (X i))]

如何求解

wm,i?设

R M, i = \prod M m = 1 e x p ( - y i α m f m ( X i ) ) \prod M m = 1 [ \sum N i = 0 w m , i e x p ( - y i α m f m ( X i ) ) ]

原问题等价于求解

wm,i使得

∑Ni=1RM,i=1N。

当M=1时

1 N \sum i = 0 N e x p (- y i α f (X i)) = \sum i = 0 N w 1, i e x p (- y i α f (X i))

可得

w1,i=1N

对于M>=2

R M + 1, i = e x p ( - y i α M + 1 f M + 1 ( X i ) ) \sum N i = 0 w M + 1 , i e x p ( - y i α M + 1 f M + 1 ( X i ) ) R M, i

对所有样本求和，可得

\sum i = 0 N R M, i e x p (- y i α M + 1 f M + 1 (X i)) = 1 N \sum i = 0 N w M + 1, i e x p (- y i α M + 1 f M + 1 (X i))

若令

wM+1,i=1NRM,i，则上式成立。进而有

w M + 1, i = 1 N R M, i = 1 N e x p ( - y i α M f M ( X i ) ) \sum N i = 0 w M , i e x p ( - y i α M f M ( X i ) ) R M - 1, i = e x p ( - y i α m f m ( X i ) ) \sum N i = 0 w m , i e x p ( - y i α m f m ( X i ) ) w M, i

即为样本权重更新公式。

确定弱学习器权重α

目标：指数损失最小。此时损失已可以表述为

E R R t r a i n = \prod m = 1 M [\sum i = 0 N w m, i e x p (- y i α m f m (X i))]

令

Zm=∑Ni=0wm,iexp(−yiαmfm(Xi))，对

α求偏导令其为0

\partial Z m \partial α m = - \sum i = 0 N w m, i y i f m (X) e x p (- y i α m f m (X i)) = {- \sum X i \in A w m, i e x p (- α m) \sum X i \in A ¯ w m, i e x p (α m) i f X i \in A, A = {X i : y i f m (X i) = 1} i f X i \in A ¯, A ¯ = {X i : y i f m (X i) = - 1} 分 类 正 确 样 本 集 合 分 类 错 误 样 本 集 合 = 0

\sum X i \in A w m, i e x p (- α m) = \sum X i \in A ¯ w m, i e x p (α m)

\sum X i \in A w m, i = \sum X i \in A ¯ w m, i e x p (2 α m)

α m = 1 2 l o g \sum X i \in A w m , i \sum X i \in A ¯ w m , i = 1 2 l o g 1 - ϵ m ϵ m

其中ϵm=∑Xi∈A¯wm,i∑wm,i为第m个分类器的分类误差，即正确率高的弱分类器权重更大。

Gradient Boosting

f m (x) = f m - 1 (x) + η ϕ m (x)

其中

fm(x)是第m次迭代获得的分类器，

ϕm(x)通过拟合损失函数对f(x)的负梯度得到，

η是学习率，也称步长。该算法的思想源于一阶泰勒展开。

Random Forest(bagging)

模型描述：

f^a v g (x) = 1 B \sum b = 1 B f^b (x)

其中

f^b(x)是森林中的某棵决策树的预测结果。每一棵决策树通过（1）随机选择一部分特征；（2）随机选择一部分样本，对原N个样本的N次有放回抽样，重复B次以获得训练B颗树的数据，即Bootstrap Aggregating，训练得到。

阅读全文

0 0