数学之美——统计语言模型

来源:互联网 发布:js文件怎么运行 编辑:程序博客网 时间:2024/05/23 21:38

广泛应用于:机器翻译,语音识别,印刷体或手写体的识别,拼音纠错,汉字输入和文献查询。

马尔科夫假设:N元模型(N-1阶马尔科夫假设):每个词和前面的N-1个词有关。
N-1的一元模型就是上下文无关模型。实际应用中最多的是N=3的三元模型,更高阶的很少使用。google的罗塞塔翻译系统和语音搜索系统使用的是四元模型,该模型存储于500台以上的服务器中。

零概率问题,平滑方法的处理:之所以敢用采样数据进行观察的结果来预测概率,是因为有大数定理的支持。1953年古德在他老板图灵指导下提出在统计中相信可靠的统计数据,对于不可信的统计数据打折扣,同时将折扣出来的一小部分概率给予未看见的事件(零概率)

语料选取:训练语料和应用数据一致,搜索质量反而好。例如搜索选用新闻语料训练,不如网页语料好了。训练语料和应用数据一致,并且训练量足够大的情况下,训练语料的噪音高低也会对模型的效果也会产生一定的影响,所以能用pattern过滤的可以先过滤了。

缺点:但是三元模型甚至更高阶的模型也不能覆盖所有的语言现象。在自然语言中,上下文之间的相关性可能跨度非常大,甚至可以从一个段落跨到另一个段落,无论怎么提高模型的阶数,也无可奈何,这就是马尔科夫假设的局限性,需要采用其他的一些长程依赖。

0 0
原创粉丝点击