《数学之美》读书笔记(四)

来源:互联网 发布:linux自学 带不带桌面 编辑:程序博客网 时间:2024/04/28 07:23

关于分词


统计语言模型方法进行分词

最好的一种分词方法应该保证分完词后这个句子出现的概率最大;

如果穷举所有可能的分词方法并计算每种可能性下句子的概率,计算量相当大。可以看成动态规划问题Dynamic Programming,并利用维特比Viterbi解码算法快速找到最佳分词。


孙茂松教授的贡献:解决了没有词典时的分词

吴德凯教授:将中文分词方法用于英文词组的分割,并且将英文词组和中文词组在机器翻译时对应起来;


英文照样需要分词,比如手写体识别,空格并不明显。


一个分词器同时支持不同层次的词的切分

首先需要一个基本词表和一个复合词表;前者包括无法在切分的词。后者包括复合词及其组成。

接下来根据两个表各建立一个语言模型,如L1和L2

然后根据基本词表和L1对句子进行分词,得到小粒度结果;

再用复合词表和语言模型L2进行第二次分词,输出复合词串。

0 0
原创粉丝点击