关于N-Gram模型
来源:互联网 发布:网上买钻戒靠谱吗 知乎 编辑:程序博客网 时间:2024/05/08 02:58
我把N-Gram关键的几句话贴出来(对别人帖子的一些修改):
但是这种方法存在两个致命的缺陷:一个缺陷是参数空间过大,不可能实用化;另外一个缺陷是数据稀疏严重。
剩下的工作就是在训练语料库中数数儿了,即统计序列C(W1 W2…Wn) 出现的次数和C(W1 W2…Wn-1)出现的次数。
这里还有一个问题要说,那就是数据稀疏问题了,假设词表中有20000个词,如果是bigram那么可能的N-gram就有400000000个,如果是trigram,那么可能的N-gram就有8000000000000个!那么对于其中的很多词对的组合,在语料库中都没有出现,根据最大似然估计得到的概率将会是0,这会造成很大的麻烦,在算句子的概率时一旦其中的某项为0,那么整个句子的概率就会为0,最后的结果是,我们的模型只能算可怜兮兮的几个句子,而大部分的句子算得的概率是0. 因此,我们要进行数据平滑(data Smoothing),数据平滑的目的有两个:一个是使所有的N-gram概率之和为1,使所有的N-gram概率都不为0。
- 关于N-Gram模型
- N-gram模型
- N-gram模型
- N-gram模型
- N-gram模型
- N-gram模型
- N-gram模型
- N-gram模型
- N-gram模型
- n-gram模型
- 语言模型n-gram
- N-Gram模型
- N-Gram模型2
- N-gram模型
- N-gram模型简介
- N-gram模型
- n-gram 模型
- n-gram模型
- USACO第一题RIDE,我的飞船在哪里
- 新线程的回调函数也可以是有一个Lambda表达式的形式
- hdoj 又一版 A+B 1877 (机制转换)
- Problem G: C语言习题 n个数逆序
- iOS9中如何在日历App中创建一个任意时间之前开始的提醒(一)
- 关于N-Gram模型
- Linux Shell 1>/dev/null 2>&1 含义
- JavaScript控制页面显示和隐藏带案例
- HQL执行的三种方式
- 变量、作用域和内存问题
- nyoj--61 传字条(一)(多线程dp)
- hdoj--1877--又一版 A+B(水题)
- TLS线程局部存储
- Java 数组实现冒泡排序