熵最大定理两种理解

来源：互联网发布：linux 查看系统信息编辑：程序博客网时间：2024/06/07 01:09

在信息论中，我们会关注一个信息源熵的大小。简单的说，熵表征了一个信源的不确定度。我们已经对下面这个定理烂熟于心：在所有定义在有限字符集上的随机符号中，熵最大发生在等概时，为H(x) = logM，M为符号个数。

首先我们可以从直观上理解熵最大定理：既然熵表征了一个信源不确定度大小，那么这个信源越是让人琢磨不透，它的信息量就越大。就好比我们会以掷硬币的方式来决定一些事情(足球比赛中的攻守方向)，是因为在这一过程中蕴含着不确定度，而且最大。因为两种情况是以等概率的可能出现，所以‘变幻莫测’。另一个极端，如果某件事情发生的概率是0或者是1，那么这个信源就没有什么‘秘密’可言了，就好比我们不会采用一个只会出现正面的劣质硬币来决定开球顺序一样，它没有‘价值’(对于通信来说，价值就是要把张三知道的东西，传给李四，所以这个东西必须存在！)

但是，直观的认识只能帮助我们更好的理解这个概念，严谨的证明也是必须的，而且也是从另一种角度看待问题的方法论。首先介绍一种高等数学里很容易想到的方法：既然是求极值问题，并且存在约束条件(所有概率和为1)，那么我们会很自然想到采用拉格朗日乘数法求解，如下(来自维基百科)：

上面这种理解很严谨，也很容易想到，但是其实当我再回过头来观察这个问题时，我却发现这个完全可以转化为下面一个不等式形式，并且证明不等式是高中数学里的基本技能，我们有一套的函数，一套的方法，所以我们可以换种角度来思考，下面也会提到高中学习中，我最喜欢的一个不等式，记得当时一看见这个不等式，就感觉好美，功能强大，运用起来简单，再加图像美，这就是当时我对‘数学美’的理解。

现在的问题变为：H(x)-logM <= 0,当且仅当等概率时取等号。

证明：

上面用到了重要不等式lnx <= x-1当且仅当x=1取等号(图像画出来更好理解)。等价与logu<=loge(u - 1)。从上式可以很容易看出当且仅当对每个x，都必须有p(x) = 1/M时，也就是等概时，H(x)取最大值logM。

注：写这篇文章主要是为了纪念我心目中一个美好的不等式，还记得当时高中的最后的大题连续好几次研究这个不等式，时间一转就四年了，好快，用T大同学在ACM开幕式上的发言来说，就是：它是我的初恋，我能不喜欢吗？。嗯，就这样~晚安~

熵最大定理 两种理解

熵最大定理两种理解