中文分词入门之最大匹配法
来源:互联网 发布:移动怎么接网络电视 编辑:程序博客网 时间:2024/04/30 14:04
转载自http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation
中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了,当年师兄布置给我的第一个学习任务就是实现最大匹配法的分词算法(正向、逆向)。记得当时对自己参考学习最有帮助的是北大詹卫东老师“中文信息处理基础”的课件和源程序,不过他实现的是mfc程序,词表存储在数据库里。自己实现时用纯c++实现,利用hash_map存储词表。这里我介绍一下相关的知识和一个简单的程序示例,部分参考自詹老师的讲义。
逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子:
输入例句:S1=”计算语言学课程有意思” ;
定义:最大词长MaxLen = 5;S2= ” “;分隔符 = “/”;
假设存在词表:…,计算语言学,课程,意思,…;
最大逆向匹配分词算法过程如下:
(1)S2=”";S1不为空,从S1右边取出候选子串W=”课程有意思”;
(2)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有意思”;
(3)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有意思”;
(4)查词表,W不在词表中,将W最左边一个字去掉,得到W=”意思”
(5)查词表,“意思”在词表中,将W加入到S2中,S2=” 意思/”,并将W从S1中去掉,此时S1=”计算语言学课程有”;
(6)S1不为空,于是从S1左边取出候选子串W=”言学课程有”;
(7)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程有”;
(8)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程有”;
(9)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有”;
(10)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有”,这W是单字,将W加入到S2中,S2=“ /有 /意思”,并将W从S1中去掉,此时S1=”计算语言学课程”;
(11)S1不为空,于是从S1左边取出候选子串W=”语言学课程”;
(12)查词表,W不在词表中,将W最左边一个字去掉,得到W=”言学课程”;
(13)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程”;
(14)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程”;
(15)查词表,“意思”在词表中,将W加入到S2中,S2=“ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=”计算语言学”;
(16)S1不为空,于是从S1左边取出候选子串W=”计算语言学”;
(17)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=”";
(18)S1为空,输出S2作为分词结果,分词过程结束。
0 0
- 中文分词入门之最大匹配法
- 中文分词入门之最大匹配法
- MMSEG系统:中文分词入门之最大匹配法扩展
- 中文分词之最大匹配
- 中文分词-- 正向最大匹配法分词
- 中文分词算法之最大逆向匹配法
- 中文分词--逆向最大匹配
- 中文分词--逆向最大匹配
- 【分词】正向最大匹配中文分词算法
- 分词】正向最大匹配中文分词算法
- 【分词】正向最大匹配中文分词算法
- 【分词】正向最大匹配中文分词算法
- 中文分词 正向最大匹配法 逆向最大匹配法 双向最大匹配法
- 最大匹配法分词
- 中文分词——正向最大匹配法
- 中文分词——正向最大匹配法
- 用正向最大匹配法进行中文分词
- 用双向最大匹配法进行中文分词
- 删除二叉树中的度数为1的所有结点
- 1 How the GNU Radio scheduler iscalled and what it does
- 使用dom4j和XPath解析XML之例子二
- net ToString格式(转载)
- 开篇
- 中文分词入门之最大匹配法
- Android ImageView 显示网络图片并下载保存
- linux系统下安装两个或多个tomcat
- 韦博士粉底液自然修饰 提升女性独有气质
- Android的Activity之间的值传递
- 内核签名机制
- ubuntu aptitude命令使用总结
- list set和 map的区别
- 摘抄一些关于网络开发的帖子