数学与信息论 基础

来源:互联网 发布:休闲网游 知乎 编辑:程序博客网 时间:2024/04/27 16:57

信息熵

信息论的知识有香农开创。

熵的值越大,事件的不确定性越大,能正确估计该事件的难度越高,需要的编码量越大,即信息含有的较多。

 

熵是信息量的量度。

 

在取以2为底的对数时,熵的单位是比特。

H(P)=ΣP(x)log21/P(x)

一个事件某种情况的概率越小,意味着情况的分类越细微,信息量越大。

概率空间中的解的概率越大,意味着这种情况更能反映该事件的性质。

熵是概率负对数的概率加权平均。

 

熵给出的是最好的可能编码情况。实际使用的编码常常比熵值大一些。

 

熵还可以作为衡量随机变量取值和相关概率搜索空间大小的一种手段。

 

The propertiesof entropy:

1.the value ofentropy is nonnegative.

2.if H(x) = 0,there is no information since the value of x is totally determined.

3.the value ofentropy increases with the length of the message.

 

The entropy ofa coin experiment is a parabolic crave open downwards.

The x axis isthe possibility of having one certain side.

 

Since theentropy is related with the length of the message, we can define another volumeentropy rate to describe the property of one certain kind of information.

Hrate=1/n *H(X1n)

WhereH(x1n) means联合熵。

 

互信息:
I(x,y)=H(x)-H(x|y)=H(Y)-H(Y|X)

表示了已知yx信息的减少量。

 

互信息的性质:

1.互信息和两个变量的相互依赖程度相关。如果互信息为0,则两个变量相互独立。

2.互信息的大小还和两个变量本身的熵相关。两个完全相关的变量,其自身的熵越大,互信息越大。

3.熵可以称为一个变量的自互信息。

 

 

香农借助于信息论的概念,描述了信道通信的目标,即在新年到存在噪声的情况下,优化通信信息的吞吐量和准确率。

压缩率和准确率之间存在着矛盾。

我们利用去除冗余信息的方法实现压缩,又通过加入可控额外信息的方法实现传输的准确率。

编码时,我们既要减少冗余信息实现传输的压缩,又要通过加入可控冗余信息的方法保证传输的可靠性。

 

在信息论中,刻画信道的最重要量是信道容量(capacity)信道容量表明在任意低的传输错误率的情况下传输信息 的速率。 对于一个无记忆信道而言,香农第二定理表明信道容量可以用互信息表示

C=maxP(x)I(X;Y)

按照该定义,我们可以设计一个编码方案,使得概率分布px)可以使得上式中的互信息最大,达到最高的通信率。

 

Example:二院对称信道。如果翻转的概率是1/2则该信道对通信毫无意义。因为没有任何有用的信息。

 

机器翻译可以看做一种特殊的解码过程。

例如:要将一片英文文本翻译为法语,可以认为法语是最初的输入信号,而英语是经过一个噪声信道收到干扰后的信号。我们的目的是将受到某种变换的法语(即需要我们翻译的英语文本)还原为法语。

 

 

观点:该模型有可能从本性上无法完成跨语言的翻译。从对一段描写景色的文字的翻译可以看出,翻译的过程是涉及到文化心理与思维模式等诸多问题的复杂过程。例如,人类进行对描写性文字的翻译是首先经过图文转换,想象出文字描述的画面,再用母语重写整个画面。在这个重写过程中,原文只是起到辅助作用,而不是决定性作用。在翻译的过程中,如果原文和译文语言的表达习惯不同(即在文化心理上存在本性的不可翻译),那么一个好的翻译会遵循译文的习惯,而不考虑原文。

英语和法语有着很深的渊源和相似的民族文化心理,所以本性上的不可翻译现象可能存在得较少,进而让信道模型取得了相当好的效果。但是英汉之间的翻译存在着很多问题。比如汉文化中的“孝”又如英语中的“mandate”等。涉及到文化和心理的翻译并非简单的信号还原问题。比如输入的是数字而输出的是描写性语句。存在本性上的不可直译。让一个人同时将汉语和英语作为母语,他也不可能对孟子涉及“气”的文章进行很好的翻译。对文章的翻译可能做到,但有关“气”的文化心理却不可能传达。如一气呵成,一身正气等。

 

 

Relative entropy:相对熵

从信息论的角度看,相对熵表示一个概率密度函数为p的信息按照概率密度q编码多使用的比特位。

 

混乱度

交叉熵表明了一个语言模型的成功程度。

 

 

原创粉丝点击