统计自然语言处理概率论和信息论基本概念及其推导过程

来源：互联网发布：生日祝福网页源码编辑：程序博客网时间：2024/05/17 14:16

最近看《统计自然语言处理》，遇到不少公式，在此做一下笔记，写下一些关键知识点和关键公式的推导过程。下面是书中第二章的主要内容。

2.1 概率论基本概念

2.1.1 概率

概率的三个公理
(1) 非负性： P(A)≥0
(2) 规范性： P(Ω)=1
(3) 可列可加性：
事件A1,A2,...,Ai,...互不相容（Ai∩Aj=∅），则有

P (⋃ i = 0 \infty A i) = \sum i = 0 \infty P (A i)

2.1.3 条件概率

如果A和B是样本空间Ω上的两个事件，P(B)>0，那么在给定B时A的条件概率P(A∣B)为

P (A ∣ B) = P ( A \cap B ) P ( B )

概率的乘法定理

P (A \cap B) = P (B) P (A ∣ B) = P (A) P (B ∣ A)

其一般形式为

P (A 1 \cap \dots \cap A n) = P (A 1) P (A 2 ∣ A 1) P (A 3 ∣ A 1 \cap A 2) \dots P (A n ∣ ⋂ i = 1 n - 1 A i)

条件概率的三个基本性质：
(1) 非负性： P(A∣B)≥0
(2) 规范性： P(Ω∣B)=1
(3) 可列可加性：如果事件A1,A2,⋯,Ai,⋯互不相容，则

P (\sum i = 1 \infty A i ∣ B) = \sum i = 1 \infty P (A i ∣ B)

如果Ai,Aj条件独立，当且仅当

P (A i, A j ∣ B) = P (A i ∣ B) P (A j ∣ B)

2.1.4 贝叶斯法则

假设B是样本空间Ω的一个划分，即∑iBi=Ω。如果A⊆⋃iBi，并且Bi互不相交，那么A=∑i=1BiA，于是P(A)=∑i=1P(BiA)。由乘法定理可得

P (A) = \sum i P (A ∣ B i) P (B i)

上式称为全概率公式。
下面给出贝叶斯法则的精确描述。
假设A为样本空间的事件，如果A⊆⋃iBi，P(A)>0，并且i≠j，Bi∩Bj=∅，P(Bi)>0 (i=1,2,⋯,n)，则

P (B j ∣ A) = P ( A ∣ B j ) P ( B j ) P ( A ) = P ( A ∣ B j ) P ( B j ) \sum n i = 1 P ( A ∣ B i ) P ( B i )

2.1.8 贝叶斯决策理论

2.2 信息论基本概念

2.2.1 熵 (Entropy)

如果X是一个离散型随机变量，取值空间为R，其概率分布为p(x)=P(X=x),x∈R。那么，X的熵H(X)定义为：

H (X) = H (p) = - \sum x \in R p (x) log 2 p (x)

2.2.2 联合熵和条件熵

离散型随机变量X,Y∼p(x,y)，X,Y的联合熵(joint entropy) H(X,Y)定义为

H (X, Y) = - \sum x \in X \sum y \in Y p (x, y) log p (x, y)

联合熵实际上就是描述一对随机变量平均所需要的信息量。
在给定随机变量

X的情况下，随机变量

Y的条件熵(conditional entropy)由下式给定：

H (X, Y) = \sum x \in X p (x) H (Y ∣ X = x) = \sum x \in X p (x) [- \sum y \in Y p (y ∣ x) log p (y ∣ x)] = - \sum x \in X \sum y \in Y p (x, y) log p (y ∣ x)

对联合熵定义公式展开，

H (X, Y) = - \sum x \in X \sum y \in Y p (x, y) log p (x, y) = - \sum x \in X \sum y \in Y p (x, y) log [p (x) p (y ∣ x)] = - \sum x \in X \sum y \in Y p (x, y) [log p (x) + log p (y ∣ x)] = - \sum x \in X \sum y \in Y p (x, y) log p (x) - \sum x \in X \sum y \in Y p (x, y) log p (y ∣ x) = - \sum x \in X log p (x) \sum y \in Y p (x, y) - \sum x \in X \sum y \in Y p (x, y) log p (y ∣ x) = - \sum x \in X p (x) log p (x) - \sum x \in X \sum y \in Y p (x, y) log p (y ∣ x) = H (X) + H (Y ∣ X)

我们称上式为熵的连锁规则(chain rule for entropy)。推广到一般情况，有

H (X 1, X 2) = H (X 2 ∣ X 1) + H (X 1)

H (X 1, X 2, X 3) = H (X 3, X 2 ∣ X 1) + H (X 1) = H (X 3 ∣ X 2, X 1) + H (X 2 ∣ X 1) + H (X 1)

H (X 1, X 2, \dots, X n) = H (X 1) + H (X 2 ∣ X 1) + \dots + H (X n ∣ X 1, \dots, X n - 1) = \sum i = 1 n H (X i ∣ X i - 1, \dots, X 1)

一般地，对于一条长度为n的信息，每一个字符或字的熵为

H r a t e = 1 n \sum x 1 n p (x 1 n) log p (x 1 n))

这个数值成为熵率(entropy rate)。其中，变量

X1n表示随机变量序列

(X1,X2,⋯,Xn)，

x1n=(x1,x2,⋯,xn)。
如果假定一种语言是由一系列符号组成的随机过程，

L=(Xi)，那么，我们定义这种语言

L的熵为

H r a t e (L) = lim n \to \infty 1 n H (X 1, X 2, \dots, X n)

2.2.3 互信息

根据熵的连锁规则(chain rule for entropy)，有

H (X, Y) = H (X) + H (Y ∣ X) = H (Y) + H (X ∣ Y)

因此，

H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X)

这个差叫做X和Y的互信息(mutual information)，记作I(X;Y)

I (X; Y) = H (X) - H (X ∣ Y)

I(X;Y)反映的是在知道了Y的值以后X的不确定性的减少量。可以理解为Y的值透露了多少关于X的信息量。
(注： H(X∣Y)可以理解为“在Y确定的条件下X的不确定性”)
将I(X;Y)展开，

I (X; Y) = H (X) - H (X ∣ Y) = H (X) + H (Y) - H (X, Y) = \sum x p (x) log 1 p ( x ) + \sum y p (y) log 1 p ( y ) + \sum x, y p (x, y) log p (x, y) = \sum x log 1 p ( x ) \sum y p (x, y) + \sum y log 1 p ( y ) \sum x p (x, y) + \sum x, y p (x, y) log p (x, y) = \sum x, y p (x, y) log 1 p ( x ) + \sum x, y p (x, y) log 1 p ( y ) + \sum x, y p (x, y) log p (x, y) = \sum x, y p (x, y) log p ( x , y ) p ( x ) p ( y )

条件互信息定义

I (X; Y ∣ Z) = I ((X; Y) ∣ Z) = H (X ∣ Z) - H (X ∣ Y, Z)

条件互信息连锁规则

I (X 1, X 2, \dots, X n; Y) = H (X 1, X 2, \dots, X n) - H (X 1, X 2, \dots, X n ∣ Y) = = I (X 1, Y) + \dots + I (X n; Y | X 1, \dots, X n - 1) = \sum i = 1 n I (X i; Y ∣ X 1, \dots, X i - 1)

2.2.4 相对熵

相对熵(relative entropy)是衡量相同事件空间里两个概率分布相对差异的测度。两个概率分布p(x)和q(x)的相对熵定义为

D (p ∥ q) = \sum x \in X p (x) log p ( x ) q ( x )

表示成期望值为

D (p ∥ q) = E p (log p ( x ) q ( x ))

互信息实际上就是衡量一个联合分布与独立性差距多大的测度(书中有证明过程)：

I (X; Y) $ = D (p (x, y) ∥ p (x) p (y))

下面推导条件相对熵和相对熵的连锁规则：

D (p (y ∣ x) ∥ q (y ∣ x)) = \sum x p (x) \sum y p (y ∣ x) log p ( y ∣ x ) q ( y ∣ x )

D (p (y, x) ∥ q (y, x)) =

D (P (X ∣ Y) | | Q (X ∣ Y)) = \sum x, y p (x ∣ y) log p ( x ∣ y ) q ( x ∣ y ) ? ? ? N o

因为

\sum x, y p (x ∣ y) \neq 1

另一方面

\sum x p (x ∣ y) = 1

\sum x p (x ∣ y) log p ( x ∣ y ) q ( x ∣ y )

是Y=y条件下的条件相对熵，记为D(P(X∣y)||Q(X∣y))。这里只是算了一个Y=y条件下的相对熵，对所有y计算相对熵为下式

\sum y p (y) D (P (X ∣ y) | | Q (X ∣ y)) = \sum y p (y) \sum x p (x ∣ y) log p ( x ∣ y ) q ( x ∣ y ) = \sum x, y p (x, y) log p ( x ∣ y ) q ( x ∣ y )

2.2.5 交叉熵

交叉熵(cross entropy)用于衡量估计模型与真实概率分布之间的差异情况。
如果一个随机变量X∼p(x)，q(x)为用于近似p(x)的概率分布，那么随机变量Xh和模型q之间的交叉熵定义为

H (X, q) = H (X) + D (p | | q) = - \sum x p (x) log q (x)

定义语言L=(X)∼p(x)与其模型q的交叉熵为

H (L, q) = - lim n \to \infty 1 n \sum x 1 n p (x 1 n) log q (x 1 n)

其中，x1n=x1,x2,⋯,xn为L的词序列(样本)。

阅读全文

0 0