自然语言和机器学习笔记

来源:互联网 发布:非苹果电脑安装mac os 编辑:程序博客网 时间:2024/06/07 07:04

信息熵(Information Entropy)

    信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。

    计算给定的样本集X的信息熵的公式:

Entropy(X) = ∑-pi log2pi

    信息熵越大表示样本集S分类越分散,信息熵越小则表明样本集X分类越集中。当S中n个分类出现的概率一样大时(都是1/n),信息熵取最大值log2(n)。当X只有一个分类时,信息熵取最小值0。

参考资料:

to

be

continued