ngram模型中文语料实验step by step(1)-分词与统计

来源：互联网发布：什么美食软件好编辑：程序博客网时间：2024/05/22 01:38

ngram模型是统计语言的最基本的模型了，这里将给出用中文语料做实验建立ngram模型的个人总结，主要参考sun拼音2.0的代码以及有点意思拼音输入法，会参考srilmstevejian.cublog.cn。我会尽量逐步完成所有的实验总结。

分词与统计

对于中文语料和英文不同需要我们先进行分词，当然如果是切分好空格隔开的语料就简单许多。假设是普通的语料，sun拼音的做法是采用正向最大匹配分词，并且去掉可能有歧义的部分，当然这些都是首先依赖于词典。

利用词典文本建立一个存储字典中词的索引结构。可以选择hash map,map,trie树等结构，这里选择double array trie作为索引结构。我这里采用的是GBK的编码方式对于每一个字给予一个trie树种的编码，同时对于每一个词典中的词给予一个唯一的int型的编号，我们在后续统计三元组以及建立ngram模型的时候采用都是词的编号而不是词本身，这主要是为了节省空间，方便数据结构写硬盘以及排序，当然用string其实也是可以的。我们的词典中会保证有所有的GBK单字作为词。
基于1步骤词典的最大匹配分词，这里为了简单只考虑中文，而英文，标点等等都作为分割符号。为了简单没有采用句子开始符号和结尾符号而是采用统一的分割符号。10表示分隔符号，用9表示歧义。与sun拼音不同的是这里采用直接逐句分词添加到统计模块的做法而不是对于整个文本分词写文件再读文件再统计三元组的做法。这样可以方便处理比如直接从数据库中的用户查询作为语料。统计的时候可以采用map/hash_map+sort的方法(其实就是单机版的map_reduce)，保证最后三元组是排好序的从而方便ngram模型的建立。如果语料较大可以考虑利用hadoop统计。
关于歧义部分的识别处理，参考 “有点意思拼音输入法”
1. 在processSingleFile()中，逐句读取语料库，例如，"为人民办实事的精神"，然后进行调用SIMDict::matchLongest()进行最长匹配。
  因为辞典中有“为人民”这个词条，因此分割到的第一个词是“为人民”，其长度为3，然后调用getAmbiLen()，来分析是否有交集歧义,并返回最大交集歧义的长度。下面是每次迭代的情况：
2. 人民, 办实事的精神 -> i=1, len=2, word_len=3, 对“人民办实事”进行最长匹配，分割到的词为“人民”，其长度为2，
3. 民办, 实事的精神 -> i=2, len=2, word_len=4, 对“民办实事”进行最长匹配，分割到的词为“民办”，其长度为2，因为i与len的合超过了最初传入的word_len，则设置word_len为4，继续迭代。可以看出，此时歧义已经检测到了。
4. 办实事, 的精神 -> i=3, len=3, word_len=6
5. 实事, 的精神 -> i=4, len=2, word_len=6
6. 事, 的精神 -> i=5, len=1, word_len=6, 最后歧义的长度为6
7. 退出循环，返回得到的长度，即6
8. 如果指定了ambiguous-id，则会将这6个字符作为一个AMBI-ID（由参数-a指定），输出到分词的结果中。然后跳过这6个字符，继续进行分词。当句子结束时，如果使用二进制格式输出，则会输出一个句子结束的ID（由参数-s指定）。最后得到的结果是:
  $ echo "为人民办实事的精神" | ./mmseg -d ../raw/dict.utf8 -f text -s 10 -a 9
  <ambi>为人民办实事</ambi> 的精神

那么，我们最终得到的分词结果中，所有的交集歧义都作为作为一个词AMBI-ID，相当于我们忽略了这部分信息（这个比例并不低）。这样在我们后面的统计中，绝大部分的3元组都可以保证是有意义和有价值的。进而训练得到的统计语言模型，能够排除交集歧义的影响。然后，可以这个模型，使用slmseg，重新对语料库进行分词，并计算新的语言模型。这一次，原来忽略的带有歧义的信息，我们也加以利用。

实验结果。
- 测试文本

小明读了一本书。小红读了一本书。
美丽的心灵，美丽的世界，美丽的心灵
最伟大的足球运动员！
为人民办实事的精神

分词结果（注意结果和字典有很大关系：）

不考虑去除歧义的最大匹配切分:

(10) 小明(95986) 读(696) 了(1740) 一(3322) 本书(10966) 。(10) 小红(95813) 读(696) 了(1740) 一(3322) 本书(10966) 。(10)
(10) 美丽(61314) 的(605) 心灵(97425) ，(10) 美丽(61314) 的(605) 世界(79499) ，(10) 美丽(61314) 的(605) 心灵(97425) (10)
(10) 最(3843) (10) 伟大(90591) (10) 的(605) (10) 足球(117470) (10) 运动员(108391) (10)
(10) 为人(90374) 民办(62366) 实事(79157) 的(605) 精神(48942) (10)

考虑去除歧义部分的最大匹配切分(注意我的词典里面没有”办实事”这个词):

(10) 小明(95986) 读(696) 了(1740) 一(3322) 本书(10966) 。(10) 小红(95813) 读(696) 了(1740) 一(3322) 本书(10966) 。(10)
(10) 美丽(61314) 的(605) 心灵(97425) ，(10) 美丽(61314) 的(605) 世界(79499) ，(10) 美丽(61314) 的(605) 心灵(97425) (10)
(10) 最(3843) (10) 伟大(90591) (10) 的(605) (10) 足球(117470) (10) 运动员(108391) (10)
(10) <ambi>为人民办</ambi>(9) 实事(79157) 的(605) 精神(48942) (10)

另外需要注意如果是用分好词的语料，显然应该对应空格不作为gap（标号为10）处理。

统计排序的结果

仅给出按照上面不去除歧义部分的分词对应的统计结果:

<b> 的 <b> 110 605 10 <b> 最 <b> 110 3843 10 <b> 美丽 的 310 61314 605 <b> 为人 民办 110 90374 62366 <b> 伟大 <b> 110 90591 10 <b> 小红 读 110 95813 696 <b> 小明 读 110 95986 696 <b> 运动员 <b> 110 108391 10 <b> 足球 <b> 110 117470 10 的 <b> 足球 1605 10 117470 的 精神 <b> 1605 48942 10 的 世界 <b> 1605 79499 10 的 心灵 <b> 2605 97425 10 读 了 一 2696 1740 3322 了 一 本书 21740 3322 10966 一 本书 <b> 23322 10966 10 最 <b> 伟大 13843 10 90591 本书 <b> <b> 110966 10 10 本书 <b> 小红 110966 10 95813 精神 <b> <b> 148942 10 10 美丽 的 世界 161314 605 79499 美丽 的 心灵 261314 605 97425 民办 实事 的 162366 79157 605 实事 的 精神 179157 605 48942 世界 <b> 美丽 179499 10 61314 为人 民办 实事 190374 62366 79157 伟大 <b> 的 190591 10 605 小红 读 了 195813 696 1740 小明 读 了 195986 696 1740 心灵 <b> <b> 197425 10 10 心灵 <b> 美丽 197425 10 61314 运动员 <b> <b> 1108391 10 10 足球 <b> 运动员 1ngram_builder.ngramTypeNum(1) ------- 19ngram_builder.ngramTypeNum(2) ------- 21ngram_builder.ngramTypeNum(3) ------- 13ngram_builder.tokenNum() ------- 40