决策树算法以及熵、条件熵、信息增益等整理
来源:互联网 发布:yy网络怎么创建直播间 编辑:程序博客网 时间:2024/06/05 04:38
一、ID3算法(按照信息增益最大为原则)
理解熵、条件熵:
首先有定义是某事件发生的概率小,则该事件的信息量大。
熵定义:如果一件事有k种可的结果,每种结果的概率为
pi , i=1,2,…,k
信息熵的公式为:
联系之前的定义某事件发生的概率小,则该事件的信息量大。
也就是说信息量是描述变量的不确定性的,值越大表示该事件越不确定(也就是概率小嘛),因此,引入其他变量使得这种不确定性降低(也就是条件熵)
条件熵表示在条件X下Y的信息熵,公式为:
信息增益:
信息增益=信息熵-条件熵
算法流程理解:
http://blog.csdn.net/gumpeng/article/details/51397737
http://blog.csdn.net/acdreamers/article/details/44661149
缺点:
1.用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值 多的属性。
2.ID3算法涉及到递归,当文本规模很大的时候内存会出问题
二、C4.5
引入了信息增益率的概念。
信息增益率定义:特征A对训练数据集D的信息增益比定义为其信息增益与训练数据D关于特征A的值的熵HA(D)之比
三、CART
CART算法首先计算不纯度,然后利用不纯度计算Gini指标。以满意度预警模型为例,计算自变量故障原因的Gini指标时,先按照故障原因可能的子集进行划分,即可以将故障原因具体划分为如下的子集:{1,2,3}、{1,2}、{1,3}、{2,3}、{1}、{2}、{3}、{},共计8(2^V)个子集。由于{1,2,3}和{}对于分类来说没有任何意义,因此实际分为2^V-2共计6个有效子集。然后计算这6个有效子集的不纯度和Gini指标,选取最小的Gini指标作为分裂属性。
不纯度计算公式为:
参考链接:
http://blog.csdn.net/x454045816/article/details/44726921
- 决策树算法以及熵、条件熵、信息增益等整理
- 通俗理解决策树中的熵&条件熵&信息增益
- 条件熵 信息增益
- 决策树,信息熵,信息增益,Gini
- 信息增益以及决策树算法-机器学习实战(python)
- 2.1、决策树之信息增益与熵
- 信息熵、条件熵、信息增益
- 关于信息增益、信息熵、条件熵
- 机器学习笔记之信息熵、信息增益和决策树(ID3算法)
- 关于决策树ID3算法,熵,信息增益率的权威解释,稍后奉上python代码
- 通俗理解决策树算法中的信息增益
- 【机器学习-西瓜书】四、决策树:信息熵;信息增益;增益率;ID3;C4.5
- 机器学习_决策树_香农熵和信息增益
- 决策树中熵和信息增益的计算
- 信息熵 条件熵 信息增益 信息增益比 GINI系数
- 信息熵 条件熵 信息增益 信息增益比 GINI系数
- 决策树之信息增益
- 信息增益与决策树
- Mahmoud and a Message CodeForces
- 数据库的四种隔离级别
- 【LeetCode算法练习(C++)】Search in Rotated Sorted Array
- Shell环境和变量生存期
- 设计模式--面向对象设计原则、UML
- 决策树算法以及熵、条件熵、信息增益等整理
- code forces 894C [分割构造gcd]
- [OpenGL] 初识GLFW
- 为ActiveMQ服务器设置安全验证
- Celery-4.1 用户指南: Routing Tasks
- ubuntu 安装redis两种方式 教程
- Python3实现银行家算法、安全性算法
- 如何根据一个式子判断是什么进制
- 想知道错误原因