parameter estimation for text analysis

来源：互联网发布：赛为智能人工智能编辑：程序博客网时间：2024/06/05 22:43

p (θ | X) = p ( X | θ ) p ( θ ) p ( X )

其中

p(θ)称为先验，

p(X|θ)称为似然，

p(θ|X)称为后验,

p(X)称为evidence ,又叫边际似然（marginal likelihood）。

最大似然估计(MLE)是最大化似然函数p(X|θ)。
最大后验概率(MAP)是最大化p(X|θ)p(θ)

两者都是点估计。最大后验概率是对参数指定一个先验分布。得到的值介于先验和MLE之间。

贝叶斯估计是基于贝叶斯公式进行求解，它将参数θ也看做随机变量，为θ指定一个先验分布，通过计算得到p(θ|X)。

共轭

对似然函数，选定一个先验后，得到一个与先验具有相同函数形式的的后验分布（除了系数不同），此时，我们说先验分布和后验分布是共轭的，同时，这个先验是似然的共轭先验。

Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. —-from wiki

共轭的好处是计算方便，同时超参数有明确的物理意义，就是伪计数。另外一个好处就是在计算似然函数时可以把似然函数中的参数通过积分给消掉，从而把似然表示为超参数的函数。这个要通过推导才能看出来。

在定义似然函数时，以伯努利分布和二项分布为例，什么时候要在似然函数上加上二项分布的系数，什么时候不加？当我们只是对一系列伯努利实验的结果序列进行建模时不用加系数。当我们对一系列伯努利实验的每个结果的次数进行建模时就要加上系数。

这里的叙述可能有问题，二项分布的似然函数的表达式是pk(1−p)n−k

unigram model假设文档之间独立，词之间也独立，那么生成一个文档的过程就是一个多次的多项式分布实验，重复N次就生成了N个单词。这是最简单的模型，其实就是多次的多项式分布实验。

其实也可以给unigram model中的单词被选中的概率一个先验分布，从而使用贝叶斯估计的那一套来进行计算。

贝叶斯网络是一类图模型，用来表示概率分布和条件依赖。
贝叶斯网路是一个有向图，节点表示随机变量，边表示条件关系，其中观测变量和隐含变量的表示又有不同。盘子表示随机变量的多次重复出现，右下角是出现次数。

推导

首先应该了解gamma函数：
gamma函数是阶乘函数在实数与复数上的扩展，定义为：

Γ (x) = \int \infty 0 t x - 1 e t d t

如果x为正整数，有如下性质：

Γ (n) = n!

同时有如下递推公式:

Γ (x + 1) = x Γ (x)

下面是Dirichlet分布，该分布是Beta分布从二维到K维的推广。

该分布的概率密度函数为：

f (p, α) = Γ ( \sum K k = 1 α k ) \prod K k = 1 Γ ( α k ) \prod k = 1 K p α k - 1 k = 1 Δ ( α ) \prod k = 1 K p α k - 1 k 1 Δ ( α ) = Γ ( \sum K k = 1 α k ) \prod K k = 1 Γ ( α k ) α = (α 1, α 2, . . ., α k) p = (p 1, p 2, . . ., p k)

根据概率分布的定义:

\sum k = 1 K f (p k, α) = 1

有

Δ (α) = \int \prod k = 1 K p α k - 1 k d K p

上面的式子在LDA的推导中会一直用到。

collapsed LDA推导

先约定下各个符号的含义。
M：文档数
K：主题数
V：词汇表大小
α⃗ :文档的主题分布的先验分布的超参数
β⃗ :主题的单词分布的先验分布的超参数
θ⃗ m:表示p(z|d=m),文档m的主题分布，每个文档一个向量，构成矩阵Θ={θ⃗ m}Mm=1(M∗K）
φ⃗ k表示p(t|z=k),主题k的单词分布，每个主题一个，构成矩阵Φ={φ⃗ k}Kk=1(k∗V)

在LDA中隐含变量是每个单词的主题zm,n
collapsed的意思是把某些参数通过积分的形式给去掉。在LDA中就是把Θ和Φ 给积掉。

我们推断的目标是p(z|w)，即主题关于单词的后验分布。

p (z | w) = p ( z , w ) p ( w ) = \prod W i = 1 p ( z i , w i ) \prod W i = 1 \sum K k = 1 p ( z i = k , w i )

W表示词汇表的大小
由于分母难以计算，我们使用gibbs抽样，通过计算full conditional

p(zi|z⃗ ¬i,w⃗ )来模拟

p(z|w),而full conditional可以通过下式计算

p (z i | z ⃗ \neg i, w ⃗) = p ( z ⃗ , w ⃗ ) p ( z ⃗ \neg i , w ⃗ ) = p ( z ⃗ , w ⃗ ) \int Z p ( z ⃗ , x ⃗ ) d z i

我们先求分子的联合分布。

p (w ⃗, z ⃗ | α ⃗, β ⃗) = p (w ⃗ | z ⃗, β ⃗) p (z ⃗ | α ⃗)

下面我们对两个概率分布分开处理

p (w ⃗ | z ⃗, β ⃗) = \int p (w ⃗, | z ⃗, Φ) p (Φ | β ⃗) d Φ

p (w ⃗ | z ⃗, Φ) = \prod i = 1 W p (w i | z i) = \prod i = 1 W φ z i, w i = \prod k = 1 K \prod i : z i = k p (w i = t | z i = k) = \prod k = 1 K \prod t = 1 V φ n (t) k k, t

n(t)k表示单词t在主题k中出现的次数。

p (Φ | β ⃗) = \prod k = 1 K p (φ ⃗ k | β ⃗) = \prod k = 1 K 1 Δ ( β ⃗ ) \prod t = 1 V φ β t - 1 k, t

β⃗ 是一个V维的向量。

p (w ⃗ | z ⃗, β ⃗) = \int p (w ⃗, | z ⃗, Φ) p (Φ | β ⃗) d Φ = \int \prod k = 1 K \prod t = 1 V φ n (t) k k, t \prod k = 1 K 1 Δ ( β ⃗ ) \prod t = 1 V φ β t - 1 k, t d φ k \to = \int \prod k = 1 k 1 Δ ( β ⃗ ) \prod t = 1 V φ n (t) k + β t - 1 k, t d φ k \to = \prod k = 1 k 1 Δ ( β ⃗ ) \int \prod t = 1 V φ n (t) k + β t - 1 k, t d φ k \to = \prod k = 1 K Δ ( n k \to + β ⃗ ) Δ ( β ⃗ ) n k \to = {n (t) k} V t = 1

n(t)k是一个K*V的矩阵，表示主题k中单词t出现的次数。符号表示不准确。

下面求p(z⃗ |α⃗ )

p (z ⃗ | α ⃗) = \int p (z ⃗ | Θ) p (Θ | α ⃗) d Θ

类似地

p (z ⃗ | Θ - -) = \prod i = 1 W p (z i | d i) = \prod m = 1 M \prod k = 1 K p (z i = k | d i = m) = \prod m = 1 M \prod k = 1 K θ n (k) m m, k

p (Θ | α ⃗) = \prod m = 1 M p (θ ⃗ m | α ⃗ ） = \prod m = 1 M 1 Δ ( α ⃗ ) \prod k = 1 K θ α k - 1 m, k

di表示单词i所属的文档。nkm表示文档m中主题k出现的次数。
同样，我们把Θ给积分掉。

p (z ⃗ | α ⃗) = \int p (z ⃗ | Θ) p (Θ | α ⃗) d Θ = \int \prod m = 1 M \prod k = 1 K θ n (k) m m, k \prod m = 1 M 1 Δ ( α ⃗ ) \prod k = 1 K θ α k - 1 m, k d θ m \to = \int \prod m = 1 M 1 Δ ( α ⃗ ) \prod k = 1 K θ n (k) m + α k - 1 m, k d θ m \to = \prod m = 1 M 1 Δ ( α ⃗ ) \int \prod k = 1 K θ n (k) m + α k - 1 m, k d θ m \to = \prod m = 1 M Δ ( n m \to + α ⃗ ) Δ ( α ⃗ ) n m \to = {n k m} K k = 1

所以:

p (z ⃗, w ⃗ | α ⃗, β ⃗) = \prod k = 1 K Δ ( n k \to + β ⃗ ) Δ ( β ⃗ ) \cdot \prod m = 1 M Δ ( n m \to + α ⃗ ) Δ ( α ⃗ )

有了上面的联合分布，我们可以求单词w(m,n)的full conditional
有了这个联合分布，我们就可以使用gibbs 抽样对这个分布进行采样，因为w是观测到的已知数据，只有z是隐含变量，所以我们实际上真正需要采样的分布是p(z|w)。

p (z i = k | z ⃗ \neg i, w ⃗) = p ( z ⃗ , w ⃗ ) p ( z ⃗ \neg i , w ⃗ ) = p ( w ⃗ | z ⃗ ) p ( w ⃗ \neg i | z ⃗ \neg i ) p ( w i ) p ( z ⃗ ) p ( z ⃗ \neg i ) = \prod K k = 1 Δ ( n k \to + β ⃗ ) Δ ( β ⃗ ) \cdot \prod M m = 1 Δ ( n m \to + α ⃗ ) Δ ( α ⃗ ) \prod K k = 1 Δ ( n k , \neg i \to + β ⃗ ) Δ ( β ⃗ ) \cdot \prod M m = 1 Δ ( n m , \neg i \to + α ⃗ ) Δ ( α ⃗ ) \approx Δ ( n k \to + β ⃗ ) Δ ( n k , \neg i \to + β ⃗ ) Δ ( n m \to + α ⃗ ) Δ ( n m , \neg i \to + α ⃗ ) = \prod V t = 1 Γ ( n ( t ) k + β t ) Γ ( \sum V t = 1 n ( t ) k + β t ) \prod V t = 1 Γ ( n ( t ) k , \neg i + β t ) Γ ( \sum V t = 1 n ( t ) k , \neg i + β t ) \prod K k = 1 Γ ( n ( k ) m + α k ) Γ ( \sum K k = 1 n ( k ) m + α k ) \prod K k = 1 Γ ( n ( k ) m , \neg i + α k ) Γ ( \sum K k = 1 n ( k ) m , \neg i + α k ) = Γ ( n ( t ) k + β t ) Γ ( \sum V t = 1 n ( t ) k , \neg i + β t ) Γ ( n ( t ) k , \neg i + β t ) Γ ( \sum V t = 1 ( n ( t ) k + β t ) ) Γ ( n ( k ) m + α k ) Γ ( \sum K k = 1 n ( k ) m , \neg i + α k ) Γ ( n ( k ) m , \neg i + α k ) Γ ( \sum K k = 1 n ( k ) m + α k ) = n ( i ) k , \neg i + β t \sum V t = 1 n ( i ) k , \neg i + β t n ( k ) m , \neg i + α k [ \sum K k = 1 n ( k ) m + α k ] - 1

有如下关系式。

\sum t = 1 V (n (t) k + β t) = \sum t = 1 V (n (t) k, \neg i + β t) + 1

\sum k = 1 K n (k) m + α k = \sum k = 1 K (n (k) m, \neg i + α k) + 1

n (t) k + β t = n (t) k, \neg i + β t + 1 n (k) m + α k = n (k) m, \neg i + α k + 1

而gamma函数又有如下性质：

Γ (x + 1) = x Γ (x)

下面求两个参数集合

利用贝叶斯公式

p (θ m \to | M, α ⃗) = 1 Z θ m \prod n = 1 N m p (z m, n | θ m \to) p (θ m \to | α ⃗) = D i r (θ m \to | n m \to + α ⃗)

p (φ k \to | M, β ⃗) = 1 Z φ k \prod i : z i = k p (w i | φ ⃗ k) p (φ ⃗ k | β ⃗) = D i r (φ ⃗ k | n ⃗ k + β ⃗)

如何预测新的文档的主题分布？

在训练中得到了主题关于单词的概率分布，在预测时我们认为这个概率分布式固定的，只需要预测新文档的主题分布就可以了。
分为如下几步：
1.首先，随机初始化新文档的每个单词的主题
2.按照gibbs抽样规则，对每个词的主题进行抽样，
3.重复2，直到gibbs sampling收敛。
4.统计新文档的主题分布。
参考:
1.https://zh.wikipedia.org/wiki/%CE%93%E5%87%BD%E6%95%B0
2.https://zh.wikipedia.org/wiki/%E7%8B%84%E5%88%A9%E5%85%8B%E9%9B%B7%E5%88%86%E5%B8%83
3.https://cxwangyi.files.wordpress.com/2012/01/llt.pdf
4.LDA八卦

0 0