熵、信息增益
来源:互联网 发布:先锋乒羽淘宝商城微店 编辑:程序博客网 时间:2024/06/05 19:35
如果分类的事务可能划分在多个分类中,符号xi的信息量为:L(xi)=-log(2,p(xi)),p(xi)为选择xi类的概率。
熵(entropy):信息量的期望,其公式为:
从熵的公式可以看出:
1)当类数n一定时,p(x1)= p(x2)=...=p(xn)=1/n时,熵最大,最大熵为log(2, n)
2)当类数n增大时,熵H会增大
从而可以得出:熵反映的是数据的不纯度,或者无序度,熵越大,混合的数据越多,这里的混合指两个方面:
1)每个类的概率相当。比如只有两类,某个类出现的概率非常大,而另外一个类出现的概率非常小,那么该数据比较纯,熵很小;反之,如果两个类的概率一样大(如果用频率来表示概率,也就是属于两个类的样本数一样多),则数据越不纯,熵很大
2)类的种数n很大。当向一个数据集中增加一个样本,且该样本属于例外一个类,此时类数为n+1,样本熵也会增加。
信息增益(information gain):熵的减少量,反映数据纯度的增大量或者数据无序度的减少量,公式:
info_gain = old_entropy - new_entropy
运用:
在构造决策树中,按照某一个特征划分的标准是,划分后数据的信息增益最大。
0 0
- 熵,信息增益,信息增益率,Gini
- 信息增益 熵 信息增益率
- 熵、信息增益、信息增益比
- 熵,信息增益,信息增益率,Gini
- 条件熵 信息增益
- 熵和信息增益
- 熵、信息增益
- 熵与信息增益
- 熵、信息增益
- 熵、信息增益
- 信息增益-香农熵
- 信息熵与信息增益
- 信息熵和信息增益
- 信息熵、gini、信息增益
- 信息熵、信息增益与信息增益率
- 信息熵、信息增益与信息增益率
- 特征工程:信息熵、信息增益、信息增益率
- 信息增益相关介绍(熵、信息增益、特征)
- AS3菜鸟晋级大神必经之路系列之开篇点题
- class parent{
- bash 语法的特殊性
- windows网络编程实现简单WSASocket的C/S结构
- 两个队列实现一个栈
- 熵、信息增益
- 数据结构_递归算法的应用_打印n个数的全排列数
- Lucene从入门到熟悉(一)概念&建立索引
- (黎活明老师讲学)Android学习(二)---从网络上获取网页
- Windows 内存管理的一些点点滴滴
- LeetCode 007. Reverse Integer
- hdu1028(母函数)
- UI控件使用案例<四>
- android使用lrucache与softReference对图片进行优化