条件熵

来源：互联网发布：最近朋友圈网络红人编辑：程序博客网时间：2024/05/18 02:36

信息熵的概念是由香农在信息论中提出的，目的是为了度量事件的不确定性。这是一个开创性的工作，把看不见摸不着的“不确定性”竟然量化了，这实在是太伟大了。现在，熵的概念已经应用到了各行各业，包括机器学习，人工智能。例如最大熵模型（maximum entropy model）的核心就是熵值的概念。
我们首先具体的通过符号定义一下熵的概念（以离散随机变量介绍）。假设离散随机变量X的概率分布是P(X)，则其熵是：

H (P) = - \sum x P (x) l o g P (x) (1)

熵满足下面的不等式

0 \leq H (P) \leq l o g | X | (2)

右边等式成立的条件是当

X服从均匀分布。均匀分布代表了随便变量X的不确定性最大，因为此时对X几乎等于一无所知。

此时我们接着介绍条件熵。假设上面的X代表学生的身高（这里我们将身高离散化），用Y表示学生的体重（同样对体重离散化）。那么条件熵就表示为

H (Y | X) = - \sum x, y P ˜ (x) P (y | x) l o g P (y | x) (3)

具体怎么理解呢？假设我们先只考虑身高为1.62到1.64的学生，这一部分学生中体重的不确定可以计算为：

H (y | x i) = - \sum y P (y | x i) l o g P (y | x i) (4)

那么整个数据集的不确定性（也就是熵）就是各个分段身高对应的学生群体的不确定性之和。但是这里还要注意一个问题，身高的分布并不是均匀的，例如上面身高1.62到1.64的学生可能非常多，且这部分学生的体重不确定性最大，如果均匀对待这部分身高的学生，那么总体的不确定计算出来的就会偏小。因此我们还要考虑身高的分布，即

P˜(x)，也就是考虑加权和，这样就得到了公式(3)。

0 0