信息熵、gini、信息增益

来源:互联网 发布:单片机wifi通信编程 编辑:程序博客网 时间:2024/06/06 02:56

样本集合的不确定性描述:信息熵、gini

信息熵在x=1处一阶泰勒展开就是基尼指数

 

gini


f(x)=lnx=ln[1+(x-1)]=(x-1)-1/2(x-1)^2+1/3(x-1)^3-1/5(x-1)^5
忽略掉高次项,可以得到f(x)≈x-1。这样 -pklogpk≈pk(1-pk)了,就更可以看到基尼指数与熵很近似了。

1、信息增益

2、gini


选择特征是选择条件基尼系数小的特征。


原创粉丝点击