中文分词入门之最大匹配法

来源：互联网发布：移动怎么接网络电视编辑：程序博客网时间：2024/04/30 14:04

转载自http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation

中文分词在中文信息处理中是最最基础的，无论机器翻译亦或信息检索还是其他相关应用，如果涉及中文，都离不开中文分词，因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了，当年师兄布置给我的第一个学习任务就是实现最大匹配法的分词算法（正向、逆向）。记得当时对自己参考学习最有帮助的是北大詹卫东老师“中文信息处理基础”的课件和源程序，不过他实现的是mfc程序，词表存储在数据库里。自己实现时用纯c++实现，利用hash_map存储词表。这里我介绍一下相关的知识和一个简单的程序示例，部分参考自詹老师的讲义。

　　逆向匹配法思想与正向一样，只是从右向左切分，这里举一个例子：
　　　输入例句：S1=”计算语言学课程有意思” ；
　　　定义：最大词长MaxLen = 5；S2= ” “；分隔符 = “/”；
　　　假设存在词表：…，计算语言学，课程，意思，…；
　　　最大逆向匹配分词算法过程如下：
　（1）S2=”"；S1不为空，从S1右边取出候选子串W=”课程有意思”；
　（2）查词表，W不在词表中，将W最左边一个字去掉，得到W=”程有意思”；
　（3）查词表，W不在词表中，将W最左边一个字去掉，得到W=”有意思”；
　（4）查词表，W不在词表中，将W最左边一个字去掉，得到W=”意思”
　（5）查词表，“意思”在词表中，将W加入到S2中，S2=” 意思/”，并将W从S1中去掉，此时S1=”计算语言学课程有”；
　（6）S1不为空，于是从S1左边取出候选子串W=”言学课程有”；
　（7）查词表，W不在词表中，将W最左边一个字去掉，得到W=”学课程有”；
　（8）查词表，W不在词表中，将W最左边一个字去掉，得到W=”课程有”；
　（9）查词表，W不在词表中，将W最左边一个字去掉，得到W=”程有”；
　（10）查词表，W不在词表中，将W最左边一个字去掉，得到W=”有”，这W是单字，将W加入到S2中，S2=“ /有 /意思”，并将W从S1中去掉，此时S1=”计算语言学课程”；
　（11）S1不为空，于是从S1左边取出候选子串W=”语言学课程”；
　（12）查词表，W不在词表中，将W最左边一个字去掉，得到W=”言学课程”；
　（13）查词表，W不在词表中，将W最左边一个字去掉，得到W=”学课程”；
　（14）查词表，W不在词表中，将W最左边一个字去掉，得到W=”课程”；
　（15）查词表，“意思”在词表中，将W加入到S2中，S2=“ 课程/ 有/ 意思/”，并将W从S1中去掉，此时S1=”计算语言学”；
　（16）S1不为空，于是从S1左边取出候选子串W=”计算语言学”；
　（17）查词表，“计算语言学”在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ 有/ 意思/”，并将W从S1中去掉，此时S1=”"；
　（18）S1为空，输出S2作为分词结果，分词过程结束。

0 0