最大熵模型中的对数似然函数的解释

来源：互联网发布：京东自动抢购软件编辑：程序博客网时间：2024/05/17 02:27

最近在学习最大熵模型，看到极大似然估计这部分，没有看明白条件概率分布p(y|x)的对数似然函数。上网查了很多资料都没有一个合理的解释。基本直接给出对数似然函数的一般形式:

L p ⎯ ⎯ = \prod x p (x) p ⎯ ⎯ (x) .

其实并没有解决问题。为了方便以后其他人的学习和理解，我结合自己的理解给出完整的解释。

其实第一眼之所以不理解，因为这是最大似然函数的另外一种形式。一般书上描述的最大似然函数的一般形式是各个样本集X中各个样本的联合概率:

L (x 1, x 2, . . ., x n; θ) = \prod i = 1 n p (x i; θ) .

其实这个公式和上式是等价的。

x1,x2,...,xn是样本具体观测值。随机变量

X是离散的，所以它的取值范围是一个集合，假设样本集的大小为

n，

X的取值有

k个，分别是

v1,v2,...,vk。用

C(X=vi)表示在观测值中样本

vi出现的频率。所以

L(x1,x2,...,xn;θ)可以表示为：

L (x 1, x 2, . . ., x n; θ) = \prod i = 1 k p (v i; θ) C (X = v i) .

对等式两边同时开

n次方，可得

L (x 1, x 2, . . ., x n; θ) 1 n = \prod i = 1 k p (v i; θ) C ( X = v i ) n .

因为经验概率

p⎯⎯(x)=C(X=vi)n，所以简写得到:

L (x 1, x 2, . . ., x n; θ) 1 n = \prod x p (x; θ) p ⎯ ⎯ (x) .

很明显对

L(x1,x2,...,xn;θ)求最大值和对

L(x1,x2,...,xn;θ)1n求最大值的优化的结果是一样的。整理上式所以最终的最大似然函数可以表示为：

L (x; θ) = \prod x p (x : θ) p ⎯ ⎯ (x) .

忽略

θ，更一般的公式就是本文的第一个公式。集合公式一，参考v_JULY_v博客中的最大熵模型中的数学推导（http://m.blog.csdn.net/v_july_v/article/details/40508465），可得到联合概率密度的似然函数，即最大熵中的对数似然函数：

L p ⎯ ⎯ = = = = log \prod x, y p (x, y) p ⎯ ⎯ (x, y) \sum x, y p ⎯ ⎯ (x, y) log p (x, y) \sum x, y p ⎯ ⎯ (x, y) log [p ⎯ ⎯ (x) p (y | x)] \sum x, y p ⎯ ⎯ (x, y) log p (y | x) + \sum x, y p ⎯ ⎯ (x, y) log p ⎯ ⎯ (x)

上述公式第二项是一个定值(都是样本的经验概率），一旦样本集确定，就是个常数，可以忽略。所以最终的对数似然函数为：

L p ⎯ ⎯ = \sum x, y p ⎯ ⎯ (x, y) log p (y | x) .

上式就是最大熵模型中用到的对数似然函数。

阅读全文

4 0