评论《怎样度量信息》

来源：互联网发布：日系mac单机游戏编辑：程序博客网时间：2024/04/27 19:52

Google黑板报上有一个系列《数学之美》非常的不错，到目前为止共有四期，链接分别如下：

http://googlechinablog.com/2006/04/blog-post.html

http://googlechinablog.com/2006/04/blog-post_10.html

http://googlechinablog.com/2006/04/4.html

http://googlechinablog.com/2006/04/blog-post_17.html

其第一期和第三期都是统计语言模型的话题，一是概述，三介绍了HMM，统计语言模型在NLU/NLP中的应用方兴未艾，不再赘述。而二谈到了中文分词，因为有做SegWord的计划，所以也曾经粗略的分析过中文分词的问题，可见于：

http://blog.csdn.net/cs_/archive/2006/02/20/603661.aspx

http://blog.csdn.net/cs_/archive/2006/02/23/607215.aspx

倒是第四期，题目为“怎样度量信息？”，并有一段举例：

那么我们如何量化的度量信息量呢？我们来看一个例子，马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯，赛后我问一个知道比赛结果的观众“哪支球队是冠军”？他不愿意直接告诉我，而要让我猜，并且我每猜一次，他要收一元钱才肯告诉我是否猜对了，那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号，从 1 到 32，然后提问： “冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了，我会接着问： “冠军在 1-8 号中吗?” 假如他告诉我猜错了，我自然知道冠军队在 9-16 中。这样只需要五次，我就能知道哪支球队是冠军。所以，谁是世界杯冠军这条消息的信息量只值五块钱。

当然，香农不是用钱，而是用 “比特”（bit）这个概念来度量信息量。一个比特是一位二进制数，计算机中的一个字节是八个比特。在上面的例子中，这条消息的信息量是五比特。（如果有朝一日有六十四个队进入决赛阶段的比赛，那么“谁世界杯冠军”的信息量就是六比特，因为我们要多猜一次。）

由这个例子引出香农信息伦的确是非常精彩的。但若以此来度量信息（这个世界中的所有信息）、处理自然语言，却是值得商榷的，或者说，不应忘了给予反思。

我们仍从这个例子开始，32个球队，如巴西队、意大利队、德国队等，若想知道谁是冠军，对球队进行编号然后用二分法查找，也就是在这种模型下对检索过程进行编码，码长便可以衡量这个结果的“信息量”。但这是有前提的，也就是说，我们在追问“冠军是谁”的信息量时，我们对这个“信息”已经进行了加工，也就是把球队集合与自然数集进行了映射（作标号），换句话说，这是一种结构化的信息。作为信息检索方向的研究与应用，我们当然更希望深入了解非结构化信息的信息量计算。

回过头来看什么是信息，香农信息论的确第一次给出了形式化的定义，也就是《怎样度量信息》中提到的信息熵计算公式。这个定义的哲学就是，信息量是对不确定性的衡量。一个事件越是确定的，对你而言信息量也就越小，如人总是会死的，明天太阳将从东方升起，这些对人而言，信息熵几乎都是为0的。（因为人对这些信息熵的计算是在一定的模型之上）。

但对于机器而言，一个请求“哪支球队是冠军？”意味着什么？如果它的内部已经有了球队集合的映射，并精确“知道”这个输入的意义是什么，自然其信息量也就是5bit。但若在一个非结构化的信息环境中，比如新闻报道的大规模文档集合中，这个请求的信息量是多少？它意味着什么呢？

首先，对于请求，这个结构表达的是一种疑问信息，需要匹配是冠军的球队，信息的主体是：

球队是冠军

-〉球队获得了冠军称号（冠军杯）

这是一种逻辑结构，“是”结构和“获得了”结构在这种自然语言逻辑的环境中信息量是等价的（等同的），当然还有众多的变体。在这种逻辑结构中，除了谓词，还有一些关键的实体单元，如球队、冠军（称号、杯）等，都是具有意义的。

在大规模的新闻文档中回答这个请求，除了理解其信息结构和意义之外，自然是理解信息源的结构和意义。

这样，我们才能在报道繁杂的文档中，计算出我们所需要的答案。那么，这个过程的信息量是多少？刨除“逻辑结构”这样的模型化名词，我们用一个串去到另一个串中去匹配我们所需要的串，这个过程中信息量应该如何度量？什么又是信息呢？

国内现在对香农信息论有一种批评的声音（可检索钟义信教授的全息自然语言理解方向的探索材料），认为它只研究信息传输过程中噪声环境下的处理，并不涉及信息的理解，我觉得一个不容回避的问题是，既然谈到信息，就不能仅仅关注到不确定性的度量，还要关注到意义的度量（这里用了语言哲学方面的提法，而不是语言学的提法：语义，为的是促进反思）。所以《怎样度量信息》中提到“有了“熵”这个概念，我们就可以回答本文开始提出的问题，即一本五十万字的中文书平均有多少信息量。”这个说法及其后文的计算方法，我觉得对于这篇blog所提到的主题和google的使命来讲是值得再思考的。因为信息和信息量的度量，对我们来讲是意义重大的，或许，这远非信息熵所能表达。

仅作继续思考的材料。