决策树中基本概念——香农熵
来源:互联网 发布:unity3d 2d物体跳跃 编辑:程序博客网 时间:2024/05/29 18:53
在学习决策树时,最重要的步骤是构建决策树。
其中,最重要的步骤是根据属性划分数据集,其中先使用哪个属性,后使用哪个属性,是决定决策树构建的好坏的重要标准。
其中,使用属性构建数据集,最重要的参考标准,就是使划分后的信息增益最大。
这里就使用到一个概念:信息熵。
熵:表示随机变量不确定性,即混乱程度的量化指标。
熵越大,不确定性越大,越无序;越小,确定性越大,越有序。
同理,一条信息的信息量大小,与不确定性直接相关。
不确定性越大,信息量越大,熵越大;
确定性越大,信息量越小,熵越小。
熵的单位是bit。
不计算信息量等,直接存储一个文件,需要的是正常的存储空间大小。
通过压缩算法,仅保留有用信息的情况下,存储的是文件的信息量。
两者数量上的差距,是冗余度。
由此可见:冗余度越大,可压缩的空间越大。反之,亦然。
香农熵的计算公式为:
注意公示的负号,P(x)表示随机变量某个取值的概率。
注意事项:
另一种度量集合无序程度的方法是:Gini impurity,基尼不纯度。
参考文章:
1、http://baike.baidu.com/link?url=1vvwdVLVFHE9e5vJEFEnK95cHSVQYy7YoCq9jjTq66MvBdGB11cxAANbN4VWjRW8X0wyrEC5n5SDAnotlPPCmq
0 0
- 决策树中基本概念——香农熵
- 决策树算法(三)——计算香农熵
- 决策树 香农熵
- 基于香农熵的决策树算法
- 机器学习_决策树_香农熵和信息增益
- 信息的混杂度——香农熵
- 机器学习(2.100)数据知识积累——香农熵
- 机器学习实战 决策树代码 计算香农熵 Error return arrays must be of ArrayType
- 香农信息熵
- 计算香农熵
- 香农熵的概念
- 信息增益-香农熵
- 香农
- 数据挖掘导论(4)——分类:基本概念、决策树与模型评估
- 今天是数电发明人——香农的生日,纪念一下
- 决策树归纳 基本概念
- 决策树(一):基本概念
- 机器学习基础(五十八)—— 香农熵、相对熵(KL散度)与交叉熵
- HashMap原理解析
- fiddler重定向本地服务器URL到线上URL
- jQuery 选择器
- 利用select/poll监听多个设备详解
- Linux locate --快速搜索档案系统内是否有指定档案 2013年7月3日
- 决策树中基本概念——香农熵
- Unity编辑器之inspector处理
- [软件人生]关于认知,能力的思考——中国城市里的无知现象片段补充之一
- Java并发总结一 :1~2
- applePay 项目的配置和集成
- c++构造函数
- PCA (主成分分析)详解 (写给初学者) 结合matlab
- 30个实用的Linux find命令示例
- Linux make --强大的编译工具