≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(十五)
来源:互联网 发布:2017淘宝互刷群 编辑:程序博客网 时间:2024/06/07 02:34
梯度树提升算法(GTBA, gradient tree boosting algorithm)
继续boosting类算法哎。小小预告一下,下节课会直接跳到随机森林,老师貌似是想把各种分类器都一下子讲到,然后有点前后照应的比较~真有意思,若是以前扔给我这种问题我肯定run一个logit regression就不管了,现在倒是有各种线性的、广义线性的、非线性的模型可以试着玩了,爽哎~
------------------
1. 自适应基函数模型
小小的复习一下上节课那个框架。
1. 数据。
2. 模型。
为参数。
3. 损失函数(准则)。
为损失函数,然后就转为一个优化问题:
4. 算法。 前向分步算法。
- 初始化:
f0(x)=0
- 。
在此框架之下,除了上节课的Adaboost之外,还可以套用多种其他的基函数,然后1)定义损失函数 2)给出迭代那一步的优化算法,就可以实现一种boost提升算法了。
2. 应用回归问题
先采用均方误差的损失函数,定义
,这样就可以得到
然后定义:
之后用回归树来求的话,就是梯度回归树算法。
梯度回归树提升算法
- 初始化:
f0(x)=0
- 。
3. GTBA,梯度树提升算法
先吹捧一下:这个算法就是此书作者本人开发的,然后已经搞出来了软件包,可以做回归也可以做分类,貌似效果还胜过随机森林(当然是作者自己给出的那些例子...)。
损失函数
为可微的。
我们的优化目标是
在这些观测点上的值有关。感觉这里就是说,我们使用有限的观测到的信息来推断一个连续的函数,然后类推并用于其他未观测到的点。
定义:
的泛函问题转化为一个优化多元函数的问题...而对于一个多元函数,我们可以直接用梯度下降法。定义梯度为:
。累加起来,就是
改变。
定义完梯度下降之后,就是GTBA算法了。
- 初始化。
- 迭代:For m=1 to M,计算
rim=∂L(yi,f(xi))∂f(xi)|fm−1
- 。
一些梳理
1. 参数。这里显然有如下参数需要设定:
- M:迭代次数。这是这个算法最主要的参数,需要用Cross-validation来算。
- J:树的大小。建议4-8,默认为6。
μ
- :次采样率,0-1直接,默认0.5。用于做subsampling。
2. 特征变量评价
这个算法的一大优势就是可以给出各个自变量的评价。比如
的时候我们可能面临特征变量选择问题。
用t表示树中的节点,
表示t节点产生的均方误差的减小值。之后定义:
,可用这个值来刻画变量的重要性,从而进行特征评价。
3. 通用工具
该算法对于数据无特殊要求,有一批
都可以扔进去试试,故可以作为其他算法的benchmark。
此外,从贝叶斯分类器的角度,我们要找的是
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(十五)
- 统计学习精要(The Elements of Statistical Learning)课堂笔记(二十五):降维和PCA
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(一)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(二)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(三)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(四)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(一)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(二)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(三)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(四)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(五)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(六)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(七)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(八)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(九)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(十)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(十一)
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(十二)
- oracle user_tables 系统表
- 配置有线PC静态IP并且与zynq主板连接
- 165. Compare Version Numbers
- Mybatis-基于注解的增删改查
- c# windowsservice安装执行用户权限控制
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(十五)
- mysql中索引的使用
- 初识Kotlin——语法简介
- OpenCV(1)-OpenCV 在ubuntu的安装
- libsvm的使用(Python、gnuplot的下载安装)
- 苹果个人公司类型开发者账号申请(99美元)详解
- PAT乙级 记录每道题应该注意的地方
- OpenGL 驱动 与 扩展的关系
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(十六)