基于残差的提升树

来源:互联网 发布:快递群发短信软件 编辑:程序博客网 时间:2024/06/05 03:33

注:本文中所有公式和思路来自于李航博士的《统计学习方法》一书,我只是为了加深记忆和理解写的本文。


首先应该先介绍一下提升树,提升树模型采用了加法模型和前向分布算法,基于决策树的提升也就是提升树,也就是多个基函数累加得来,这里的基函数我们可以广泛的指代我们常用回归或者分类器而不仅仅是y=ax+b这种直观的函数,例如决策树、SVM等,因为我们给定一个样本x会输出对应的预测值y,所以可以将决策树、SVM这些算法当成基函数f。


既然是基于残差的决策树,那么就有基于其他的决策树,后续还会介绍基于伪残差的决策树(GBDT),所谓残差就是样本x的标记值y与预测值的差值而已

提升树算法:

提升树是加法模型和前向分布算法的结合实现的,这个加法模型我们不妨用如下公式表达:


那么首先不出意外会要确定一个f0(x0),这里不妨设定f0(x)=0,那么第m步的模型应该是:


其中fm-1(x)是当前的模型,fm(x)是下一个要算的,通过经验风险极小化求得下一棵决策树的Θm


当采用平方误差作为损失函数时,则有

将f(x)带入公式,此时的损失为:


其中r = y - fm-1(x)就是前边提到的残差,所以提升树实际是针对残差进行拟合的

具体算法如下:

 


到这就将提升树的推导过程以及算法介绍完了,实际上个人觉得这种方式会很容易过拟合,即使是后续要介绍的GBDT也是很有可能造成过拟合(个人认为)。

1 0
原创粉丝点击