数学之美3

来源:互联网 发布:伍聚网络股票 编辑:程序博客网 时间:2024/05/16 08:50

第5章     隐含马尔可夫模型

到目前为止,它一直被认为是解决大多数自然语言处理问题最为快速、有效的方法。



1. 信息熵。如果一个信息有32中可能性,你至少需要多少次才能猜中?答案是通过二分法,至少log32=5次就可以猜中。5就是信息熵。
        公式:H(x)=求和【-(P(x)*logP(x)】.
        实际上信息熵表示的是不确定性的度量。
2. 信息的作用:消除不确定性。假如你不知道地方将要做出什么动作,那么给你一个相关信息,你就能降低对方动作的不确定性判断。
3. 那什么是相关信息:就是能降低不确定性的信息。那怎么衡量他降低了多少不确定性?答案是看目标信息与提供信息的条件熵:
        H(X|Y)=-求和【P(X,Y)*P(X|Y)】X是目标信息,Y是提供的信息。
        可以证明的是H(X|Y)<=H(X)。更进一步,H(X|Y,Z)=-求和【P(X,Y,Z)*P(X|Y,Z)】<=H(X|Y) <= H(X).
        就是说条件越多,条件熵越小,目标信息X的不确定性越少。等号成立的条件是,提供的信息与X无关。
        源熵H(X)-条件熵H(X|Y)=I(X;Y),就是减少的不确定性的量化值,它的名字叫互信息
4. 还有一个概念叫相对熵,衡量的是两个分布函数的相似性,TF-IDF的理论依据就是它。

0 0