数学之美——统计语言模型

来源：互联网发布：js文件怎么运行编辑：程序博客网时间：2024/05/23 21:38

广泛应用于：机器翻译，语音识别，印刷体或手写体的识别，拼音纠错，汉字输入和文献查询。

马尔科夫假设：N元模型（N-1阶马尔科夫假设）：每个词和前面的N-1个词有关。
N-1的一元模型就是上下文无关模型。实际应用中最多的是N=3的三元模型，更高阶的很少使用。google的罗塞塔翻译系统和语音搜索系统使用的是四元模型，该模型存储于500台以上的服务器中。

零概率问题，平滑方法的处理：之所以敢用采样数据进行观察的结果来预测概率，是因为有大数定理的支持。1953年古德在他老板图灵指导下提出在统计中相信可靠的统计数据，对于不可信的统计数据打折扣，同时将折扣出来的一小部分概率给予未看见的事件（零概率）

语料选取：训练语料和应用数据一致，搜索质量反而好。例如搜索选用新闻语料训练，不如网页语料好了。训练语料和应用数据一致，并且训练量足够大的情况下，训练语料的噪音高低也会对模型的效果也会产生一定的影响，所以能用pattern过滤的可以先过滤了。

缺点：但是三元模型甚至更高阶的模型也不能覆盖所有的语言现象。在自然语言中，上下文之间的相关性可能跨度非常大，甚至可以从一个段落跨到另一个段落，无论怎么提高模型的阶数，也无可奈何，这就是马尔科夫假设的局限性，需要采用其他的一些长程依赖。

0 0