N-gram 语言模型

来源:互联网 发布:帝国cms 调用播放器 编辑:程序博客网 时间:2024/05/16 05:54
n 元文法(n-gram)模型。
通常地,当n=1时,即出现在第i位上的基元wi独立于历史;一元文法也被写为uni-gram或monogram。
当 n=2 时,2-gram(bi-gram) 被称为1阶马尔可夫链。
当 n=3 时,3-gram(tri-gram)被称为2阶马尔可夫链。
依次类推。
为了保证条件概率在 i=1 时有意义,同时为了保证句子内所有字符串的概率和为 1,即可以在句子首尾两端增加两个标志: <BOS>w1 w2 w3 w4……wm <EOS>

如果汉字的总数为:N
一元语法:1)样本空间为N。2)只选择使用频率最高的汉字。
2元语法: 1)样本空间为 N*N。2)效果比一元语法明显提高。
估计对汉字而言四元语法效果会好一些。
智能狂拼、微软拼音输入法基于 n-gram。

参数估计:训练语料(用于建立模型,确定模型参数的已知语料)、最大似然估计

出现问题:数据匮乏(稀疏) (Sparse Data) 引起零概率问题,
如何解决?数据平滑(data smoothing)

语言模型的自适应方法:
基于缓存的语言模型
基于混合方法的语言模型
基于最大熵的语言模型
0 0
原创粉丝点击