N-gram 语言模型

来源：互联网发布：帝国cms 调用播放器编辑：程序博客网时间：2024/05/16 05:54

n 元文法(n-gram)模型。

通常地，当n=1时，即出现在第i位上的基元wi独立于历史；一元文法也被写为uni-gram或monogram。

当 n=2 时，2-gram(bi-gram) 被称为1阶马尔可夫链。

当 n=3 时，3-gram(tri-gram)被称为2阶马尔可夫链。

依次类推。

为了保证条件概率在 i=1 时有意义，同时为了保证句子内所有字符串的概率和为 1，即可以在句子首尾两端增加两个标志: <BOS>w1 w2 w3 w4……wm <EOS>

如果汉字的总数为:N

一元语法：1）样本空间为N。2）只选择使用频率最高的汉字。

2元语法： 1）样本空间为 N*N。2）效果比一元语法明显提高。

估计对汉字而言四元语法效果会好一些。

智能狂拼、微软拼音输入法基于 n-gram。

参数估计：训练语料（用于建立模型，确定模型参数的已知语料）、最大似然估计

出现问题：数据匮乏(稀疏) (Sparse Data) 引起零概率问题，

如何解决？数据平滑(data smoothing)

语言模型的自适应方法：

基于缓存的语言模型

基于混合方法的语言模型

基于最大熵的语言模型

0 0