熵与信息增益随记
来源:互联网 发布:电驴连接不上kad网络 编辑:程序博客网 时间:2024/06/04 19:19
最近在一些地方用到了最大熵和信息增益的概念,所以回过头来重新复习了一下具体的概念。
熵与信息增益
在决策树算法中,决定特征优先级时,需要用到熵的概念,先挖个坑
1信息量
信息量是用来衡量一个事件的不确定性的;一个事件发生的概率越大,不确定性越小,则它所携带的信息量就越小。
2 熵
熵是用来衡量一个系统的混乱程度的,代表一个系统中信息量的总和;信息量总和越大,表明这个系统不确定性就越大。
信息量用来衡量一个事件的不确定度,熵则用来衡量一个系统(也就是所有事件)的不确定度。
那如何度量系统中所有事件的不确定度?期望。
注:熵的单位随着公式中log运算的底数而变化,当底数为2时,单位为“比特”(bit),底数为e时,单位为“奈特”。
下面手撸了一遍公式,如下所示
其实概念在这里有一定的承继关系 熵—–》条件熵 ——》信息增益——》互信息
小结:
1.根据最大似然估计的正确性可以断定:
2. 最大熵的解(无偏的对待不确定性)是最符合样本数据分布的解,即最大熵模型的合理性;
3.信息熵可以作为概率分布集散程度的度量,使用熵的近似可以推导出gini系数,在统计问题、决策树等问题中有重要应用;
熵:不确定性的度量;
最大熵模型:对不确定度的无偏分配;
阅读全文
0 0
- 熵与信息增益随记
- 熵与信息增益
- 信息熵与信息增益
- 信息熵、信息增益与信息增益率
- 信息熵、信息增益与信息增益率
- 信息熵与信息熵增益
- 信息熵与信息增益的概念
- 信息熵与信息增益的理解
- 信息增益与信息增益率详解
- 2.1、决策树之信息增益与熵
- 信息增益与决策树
- 决策树与信息增益
- 熵,信息增益,信息增益率,Gini
- 信息增益 熵 信息增益率
- 熵、信息增益、信息增益比
- 熵,信息增益,信息增益率,Gini
- 对信息熵与信息增益的初步理解
- 条件熵 信息增益
- 『0009』
- linux误删误改系统文件导致系统无法启动急救方法
- 关于上传按钮丑,要替换样式的一个简单方法
- 一元多项式的乘法与加法运算(20 分)
- js将字符串转换成对象和数组
- 熵与信息增益随记
- <包法利夫人>读后感
- 『0009』
- 算法设计:字典序问题
- implicitlywait
- 个人环境搭建——搭建jenkins持续构建集成环境
- 【JVM】4_利用GCLib测试方法区溢出
- 冒泡排序:python
- 【leetcode】搜索范围(二分查找升序数组target元素上下界)