n-gram重探 Q&A

来源：互联网发布：linux虚拟机建立文件夹编辑：程序博客网时间：2024/06/06 04:18

虽然之前一直用这个最基本的模型，但今天发现自己对这个模型确实不够熟悉，因此，对此参考了不少文献，以问答的形式进行了整理。

1、n-gram的训练是什么？训练的参数是什么？

对于模型某条字符串的计算公式是：P(wk1) = P(w1)P(w2|w1)⋯P(wk|wk−11)，n-gram就是P(wk|wk−11)=P(wk|wk−1k−n+1)，忽略了它的历史。
假设在一个模型里，单词数量为V。对于一个1-gram来说，有V−1个独立的参数，对于这些参数，我们施加一个约束（参数和为1）。对于一个2-gram来说，P(w2|w1)的独立参数个数是 V(V−1)，而P(w)的个数是V−1，因此总的独立参数为V(V−1)+（V−1）=V2−1。总之，一个n-gram的独立参数个数是Vn−1，其中对于P(wn|wn−11)的参数是Vn−1(V−1)，我们叫做n阶参数（order-n parameters）；加上（n−1）-gram的总共Vn−1−1个参数，和为Vn−1−1个参数。
说完了参数，我们说下训练。对于训练集，我们对以上参数进行最大似然估计（MLE），估计方法如下：P(wn|wn−11)=C(wn−11wn)∑wC(wn−11w)，其中C是count的意思。

2、n-gram这里的MLE是怎么得出来的？

统计次数就代表了它的最大似然估计，是因为对于n-gram模型来说，我们把这个模型的预测，当成了一个多项分布。对于后继出现的词汇的概率，根据其多项分布的概率进行预测。从直观上这么理解多项分布：我们获得一个语料，类似于骰子，这个骰子有X面，每一面对应着上面所提到的独立参数。每一面都是互斥的，穷举的状态，其和为1。（这个多项分布的概念，在很多自然语言处理书和论文里都没有提及，以至于MLE结果的得出不容易理解。）
P(x1,x2⋯,xk)=∏i=1kpxii，满足∑i=1kpi=1
x1,x2⋯,xk是指示变量，当输出的状态为k是xk为1，否则为0。这里的状态，就是预测的词汇。对于多项分布，其参数，也就是pi的最大似然估计是：
pi^=∑txtiN
这也就是刚好是统计次数，count部分。

3、n-gram既然使用了MLE，那能不能引入最大后验估计（MAP）或者贝叶斯估计？

答案是可以的。我们问题1里提到的参数，如果看成是一个随机变量，那么我们可以引入先验分布，使用贝叶斯公式。
p(θ|χ)=p(χ|θ)p(θ)∫p(χ|θ′)p(θ′)dθ′
最大后验估计： θMAP=argmaxθ∈Θp(χ|θ)p(θ)
贝叶斯估计： θB=E[θ|χ]
正如问题2所说，n-gram使用了多项分布，而我们都知道多项分布的共轭分布是狄利克雷分布，因此，使用狄利克雷分布作为先验分布，是一个很自然而想法。
在狄利克雷先验下的最大后验估计是：
θMAP=argmaxθ∈ΘΓ(∑Kk=1αK)∏Kk=1Γ(αK)∏k=1Kθnk+αk−1k
等价于加m平滑的最大似然估计，先验可以通过大量通用语料训练，然后使用小规模的领域专用数据进行计算贝叶斯最大后验估计。

0 0