N-gram 语言模型
来源:互联网 发布:帝国cms 调用播放器 编辑:程序博客网 时间:2024/05/16 05:54
n 元文法(n-gram)模型。
通常地,当n=1时,即出现在第i位上的基元wi独立于历史;一元文法也被写为uni-gram或monogram。
当 n=2 时,2-gram(bi-gram) 被称为1阶马尔可夫链。
当 n=3 时,3-gram(tri-gram)被称为2阶马尔可夫链。
依次类推。
为了保证条件概率在 i=1 时有意义,同时为了保证句子内所有字符串的概率和为 1,即可以在句子首尾两端增加两个标志: <BOS>w1 w2 w3 w4……wm <EOS>
如果汉字的总数为:N
一元语法:1)样本空间为N。2)只选择使用频率最高的汉字。
2元语法: 1)样本空间为 N*N。2)效果比一元语法明显提高。
估计对汉字而言四元语法效果会好一些。
智能狂拼、微软拼音输入法基于 n-gram。
参数估计:训练语料(用于建立模型,确定模型参数的已知语料)、最大似然估计
出现问题:数据匮乏(稀疏) (Sparse Data) 引起零概率问题,
如何解决?数据平滑(data smoothing)
语言模型的自适应方法:
基于缓存的语言模型
基于混合方法的语言模型
基于最大熵的语言模型
0 0
- 语言模型n-gram
- N-Gram语言模型
- N-gram 语言模型
- 语言模型/N-Gram模型
- 语言统计模型 N-Gram
- 语言模型(N-Gram)
- 语言模型(N-Gram)
- 语言模型(N-Gram)
- 语言模型(N-Gram)
- 语言模型(N-Gram)
- 语言模型(N-Gram)
- 语言模型(N-Gram)
- 语言模型(N-Gram)
- ARPA的n-gram语言模型格式
- SRILM--语言模型--N-Gram基本介绍
- ARPA的n-gram语言模型格式
- N-gram统计语言模型(总结)
- N-gram语言模型文本分类器
- Morris Traversal方法遍历二叉树(非递归,不用栈,O(1)空间)
- HTML+CSS+JS练手小玩意
- nutz找不到方法
- qt-5.6.0 移植之qt源码编译-configure选项
- Xiongnu's Land (线性扫描,二分)
- N-gram 语言模型
- 再看补码
- 虚拟现实在医学领域的应用和发展前景
- 在href中使用window.open()的方法
- JQuery积累 -- 异步提交form表单
- 开源项目: FlycoTabLayout——CommonTabLayout
- Android 权限
- opencv 视频播放
- java作业调度