数学之美3

来源：互联网发布：伍聚网络股票编辑：程序博客网时间：2024/05/16 08:50

到目前为止，它一直被认为是解决大多数自然语言处理问题最为快速、有效的方法。

1. 信息熵。如果一个信息有32中可能性，你至少需要多少次才能猜中？答案是通过二分法，至少log32=5次就可以猜中。5就是信息熵。

公式：H（x)=求和【-(P(x)*logP（x）】.

实际上信息熵表示的是不确定性的度量。

2. 信息的作用：消除不确定性。假如你不知道地方将要做出什么动作，那么给你一个相关信息，你就能降低对方动作的不确定性判断。

3. 那什么是相关信息：就是能降低不确定性的信息。那怎么衡量他降低了多少不确定性？答案是看目标信息与提供信息的条件熵：

H（X|Y)=-求和【P(X,Y)*P(X|Y)】X是目标信息，Y是提供的信息。

可以证明的是H(X|Y)<=H(X)。更进一步，H(X|Y,Z)=-求和【P(X,Y,Z)*P(X|Y,Z)】<=H(X|Y) <= H(X).

就是说条件越多，条件熵越小，目标信息X的不确定性越少。等号成立的条件是，提供的信息与X无关。

源熵H(X)-条件熵H(X|Y)=I(X;Y)，就是减少的不确定性的量化值，它的名字叫互信息

4. 还有一个概念叫相对熵，衡量的是两个分布函数的相似性，TF-IDF的理论依据就是它。

0 0