《数学之美》读书笔记（四）

来源：互联网发布：linux自学带不带桌面编辑：程序博客网时间：2024/04/28 07:23

关于分词

统计语言模型方法进行分词

最好的一种分词方法应该保证分完词后这个句子出现的概率最大；

如果穷举所有可能的分词方法并计算每种可能性下句子的概率，计算量相当大。可以看成动态规划问题Dynamic Programming，并利用维特比Viterbi解码算法快速找到最佳分词。

孙茂松教授的贡献：解决了没有词典时的分词

吴德凯教授：将中文分词方法用于英文词组的分割，并且将英文词组和中文词组在机器翻译时对应起来；

英文照样需要分词，比如手写体识别，空格并不明显。

一个分词器同时支持不同层次的词的切分

首先需要一个基本词表和一个复合词表；前者包括无法在切分的词。后者包括复合词及其组成。

接下来根据两个表各建立一个语言模型，如L1和L2

然后根据基本词表和L1对句子进行分词，得到小粒度结果；

再用复合词表和语言模型L2进行第二次分词，输出复合词串。

0 0