决策树
来源:互联网 发布:网络打印机搜索不到 编辑:程序博客网 时间:2024/06/03 20:07
决策树
Regression Trees
数据:
- 决策树算法需要决定划分特征和划分点,以及树该有的形状
假设:将数据划分为
最小化平方差和:
- 树的大小是一个tuning parameter,用于控制模型的复杂度
代价:
Qm(T)=1Nm∑xi∈Rm(yi−c^m)2
复杂度代价标准:
Classification Trees
- 与回归不同的在于代价函数的选择和剪枝的方法
p^mk=1Nm∑xi∈RmI(yi=k)
表示m区域中k类数据所占据的比例
集中常见的测量
误分类率 :
1Nm∑xi∈RmI(yi≠k(m)=1−p^mk(m)
基尼系数:∑k≠k′p^mkp^mk′=∑k=1Kp^mk(1−p^mk)
cross-entropy−∑k=1Kp^mklogp^mk
对于二元分类而言,如果p是第二个类的比例,三种measures相当于
决策树的缺点:不稳定,high variance,很小的数据变化能够改变整个划分;缺乏smoothness
邮件分类的例子
Sensitivity:
Specificity :
Bagging,Random Forests,Boosting
bagging(Bootstrap aggregation):a general-purpose procedure for reducing the variance of a statistical learning method
减少variance的方法:
- 从总体中取出更多的样本,分别对不同的样本建模,取平均作为预测的结果
- 从总体中获取无限的样本是不实际的,因此利用从单个训练样本中反复取样
out-of-bag(OBB):利用取样外的数据进行测试计算error
random forests:对特征和样本都同时取样
boosting:特点是,树是顺序生成的
Boosting for Regression Trees
1. 设置f^(x)=0 和ri=yi
2. Forb=1,2,...,B, :
拟合f^b ,with d splits to the training data(X,r)
更新f^ :
f^(x)←f^(x)+λf^b(x)
更新residuals,
ri←ri−λf^b(x)
3.输出
f^(x)=∑b=1Bf^b(x)
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- Euclid‘s algorithm
- 支撑Spring的基础技术:反射,动态代理,cglib等
- Spring连接两个以上数据库
- vm下centos网络配置(转)
- PAT-A1058 A+B in Hogwarts (20)(模拟)
- 决策树
- ODBC和JDBC区别
- 常见Oracle HINT的用法
- C++基础总结(2)---字符串
- Java多线程之Executor框架(2)
- Cocos2d-x的坐标系
- noip 2000年 乘积最大 - DP
- HDOJ-1503 Advanced Fruits
- adb 通信协议分析以及实现(一)