梯度提升思想

来源：互联网发布：西游记源码编辑：程序博客网时间：2024/05/12 18:48

F m (x i) = \sum j = 1 m α j G j (x i) = F m - 1 (x i) + α m G m (x i)

F m (x i) = \sum j = 1 m T j = F m - 1 (x i) + T m (x i)

公式1是Adaboost模型，

Gm∈{1,−1}，

αm是公式的权重（唯一）。公式2是提升树模型，

Tm=∑Kk=1αmkI(xi∈Rmk)输出是某叶节点

Rmk的取值

αmk（数量由叶节点数目决定）。对于二分类问题，提升树是Adabost的一种特殊情况，提升树叶节点的取值为带符号的Adaboost权重

±αm

提升模型有三种损失函数，对于分类问题（adaboost）用指数损失函数

L (y, F m) = \sum i = 1 n e x p (- y i F m (x i))

回归问题（提升回归树）用平方差损失函数

L (y, F m) = \sum i = 1 n (y i - F m (x i)) 2

一般决策问题用一般损失函数。

模型目标函数为其损失函数，训练目的是使的目标函数最小。此模型使用梯度提升算法，每一步弱预测模型依据损失函数的梯度方向）
思想：对目标函数泰勒展开，仅考虑一阶导数的情况。对L(y,Fm(x))使用泰勒展开近似 $L (y, F m (x)) = L (y, F m - 1 (x) + f m (x)) ≃ L (y, F m - 1) + \partial L ( y , F m - 1 ) \partial F m - 1 f m (x)$ 当fm(x)方向取−[∂L(y,Fx)∂Fx]Fx=Fm−1时，梯度下降最快（因为正交，梯度下降法），此时更新后的模型应为 $F m (x) = F m - 1 - λ m \partial L ( y , F m - 1 ) \partial F m - 1$ 其中λm为步长，最终fm=−λm∂L(y,Fm−1)∂Fm−1，在回归问题中fm为基函数，分类问题为基函数+分类器权重
由上面的分析可得提升方法的一般步骤为：
1）计算伪残差rmi=−[∂L(yi,Fx)∂Fx]Fx=Fm−1，其中i表示样本号，m表示基函数（分类器）号
2）基于rmi,i∈1,2,..,n，构建新函数f¯m（分类问题为基函数，CART回归树输出为叶子节点）
3）将f¯m带入损失函数，求解步长λm=argminλL(y,Fm−1−λf¯m)（分类：分类器权重；回归：叶节点取值）
4）更新Fm=Fm−1+λf¯m

模型为加法模型，损失函数为指数损失函数，参数为分类器Gm(x)∈{−1,1}和分类器权重αm
梯度提升推导：
1）对损失函数L(y,fm−1)求梯度： $r m i = y i e x p (- y i f m - 1) = y i w ¯ m i$ 可理解为带权重的样本，对模型影响度不同
2）根据rm创建新的基函数Gm,使Gm与rm尽量接近 $G m = a r g min G \sum i = 1 n w ¯ m i I (y i \neq G (x i))$
3）将基函数Gm带入损失函数求分类器权重（步长）αm
$α m = a r g min α \sum i = 1 n w ¯ m i e x p (- y i α G m (x i))$ 损失函数变为仅关于α的函数，对α求导得 $α m = 1 2 l o g 1 - e m e m e m = \sum n i = 1 w ¯ m i I ( y i \neq G m ( x i ) ) \sum i = 1 n w ¯ m i = \sum i = 1 n w m i I (y i \neq G m (x i))$ 3）更新模型fm(x)=fm−1(x)+αmGm(x)，继续重复1），其中w¯m+1,i=w¯m,iexp(−yiαmGm(xi))
前向分布算法推导
损失函数可写为： $L (y, f m) = L (y, f m - 1 + α m G m) = \sum i = 1 n e x p (- y i (f m - 1 + α m G m (x i))) = \sum i = 1 n w ¯ m i e x p (- y i α G (x i)) w ¯ m i = e x p (- y i f m - 1 (x i)$ 然后最小化损失函数，与2中2)形式相同
算法性能：误差率与分类器个数成指数关系

1）损失函数为平方损失，对损失函数求梯度，得到伪残差：

r m i = y i - F m - 1 (x i)

2）对

rmi拟合一个回归树，得到第m棵树的叶节点区域

Rmk

(R m, α m) = a r g min R, α \sum i = 1 n (r m i - T m (x i)) 2

3）将给出的

Rmk带入损失函数，求极小值

(α m 1, α m 2) = a r g min α [\sum x i \in R m 1 (y i - α 1) 2 + \sum x i \in R m 2 (y i - α 2) 2]

得到

α为每个叶节点区域中所有

yi的均值.
4）遍历所有可能的切分点（将所有

yi都尝试作为切分点），得到所有叶节点区域

Rmk，重复2）3）步，找到最优解。合并形式为

(Rm,αm)=argminR∑ni=1[∑Kk=1minα∑xi∈Rk(yi−αk)2]
5）更新

Fm(xi)=Fm−1+Tm=Fm−1(xi)+∑Kk=1αmkI(xi∈Rmk)
6）其中2）同样可用前向分布算法得出

0 0