ID3(Iterative Dichotomiser 3)算法原理详解
来源:互联网 发布:bamboo mac 手绘 编辑:程序博客网 时间:2024/05/29 06:37
1.信息熵
熵这个概念最早起源于物理学,在物理学中是用来度量一个热力学系统的无序程度,而在信息学里面,熵是对不确定性的度量。在1948年,香农引入了信息熵,将其定义为离散随机事件出现的概率,一个系统越是有序,信息熵就越低,反之一个系统越是混乱,它的信息熵就越高。所以信息熵可以被认为是系统有序化程度的一个度量。
假设变量
意思就是一个变量的变化情况越多,那么信息熵越大越不稳定。
2.信息增益
信息增益针对单个特征而言,即看一个特征t,系统有它和没有它时信息熵之差。下面是weka中的一个数据集,关于不同天气是否打球的例子。特征是天气,label是是否打球。
共有14个样本,9个正样本(yes)5个负样本(no),信息熵为:
接下来会遍历outlook, temperature, humidity, windy四个属性,求出用每个属性划分以后的信息熵假设以outlook来划分,此时只关心outlook这个属性,而不再关心其他属性:
此时的信息熵为:
总的信息熵为
即
IG:Information Gain(信息增益)
同理可以计算选择其他分类属性的信息增益,选择信息增益最大的属性作为分类属性。分类完成之后,样本被分配到3个叶子叶子节点:
当子节点只有一种
3.ID3算法总结
IG: Information Gain(信息增益)
其中
注意: ID3只能正对nominal attribute,即标称属性
- ID3(Iterative Dichotomiser 3)算法原理详解
- 决策树算法详解(ID3)
- 决策树ID3算法原理
- ID3算法详解
- 分类算法-----决策树(ID3)算法原理和Python实现
- ID3算法的原理及实现(Python)
- (决策树)ID3算法
- 决策树分类算法-ID3算法原理
- 决策树学习 之 ID3算法原理
- 决策树算法原理及JAVA实现(ID3)
- ID3决策树算法原理及C++实现
- SLIC算法(Simple Linear Iterative Clustering)
- 详解决策树ID3算法划分数据集
- 分类算法之决策树ID3详解
- ID3算法详解及python实现
- id3算法(python代码)
- id3算法(python代码)
- 决策树(一)ID3算法
- centos7.2部署tomcat8
- PAT甲级 1029. Median (25)
- hiho一下 第156周 岛屿
- zhihu-spider之Druid——zhihu-spider开源项目使用技术详解(其三)
- 操作系统知识点
- ID3(Iterative Dichotomiser 3)算法原理详解
- Android studio 中SHA1码和MD5值得获取
- jquery ajax error函数详解
- 分布式服务化系统一致性的“最佳实干”
- UVALive
- 一些框架的中文文档 仅作记录,日后学习用
- Unity奇葩现象汇总
- Linux系统安装软件
- Flume netcat被动source示例