中文的全文索引算法

来源:互联网 发布:阿里云服务器安全性 编辑:程序博客网 时间:2024/04/29 18:01

自动分词是基于字符串匹配的原理进行的;所谓自动分词方法,指的是汉字字符串匹配
的进行方式。
1. 最大匹配法 亦称MM法;其基本思想是这样的,假设自动分词词典(或词库)中的最
长词条是i个字,则取被处理材料当前字符串序列中的前i个字作为匹配字段,查找词
典,若词典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来;
如果在词典中找不到这样一个i字词,则匹配失败,匹配字段去掉最后一个字,剩下的
字段重新进行匹配,如此进行下去,直到匹配成功,也就是完成一轮匹配,切分出一个
词为止。
这种分词方法,在由北京航空学院等十多个单位协同进行的我国第一次大规模现代汉语
词频统计工作中,实现了我国第一个自动分词系统CDWS。
2. 逆向最大匹配法 亦称OMM法,或RMM,IMM法;其基本原理和MM法相同,不同的是分
词切分方向;它从被处理材料的末端开始匹配,每次取最末端的i个字作为匹配字段,
匹配失败则去掉最前面的一个字。OMM法要求配置逆序分词词典。
3. 逐词遍历匹配法, 它把词典中的词按照由长到短递减的顺序逐个搜索匹配整个代处
理材料,直到把所有的词都切分出来为止。
4. 设立切分标志法 ,这种方法首先要收集那些标点符号(称为自然切分标志)以外的
众多非自然切分标志,例如,只充当词首字或词尾字的字,对这些非自然切分标志进行
搜索,根据这些标志,把句子切分为若干较短的字段,然后再使用MM或者OMM等方法进
行进一步的切分。准确的说,这种方法并不是一种真正意义上的分词方法,只不过是自
动分词的一种前处理方式而已。而且,这种前处理并没有提高分词精确度,却要额外消
耗时间扫描切分标志,增加分词的时间复杂度。
5. 正向最佳匹配法和逆向最佳匹配法 最佳匹配法的出发点,是在词典中按词频的大
小排列词条,以求缩短对分词词典的搜索时间,达到最佳效果,从而降低分词的时间复
杂度,以加快分词速度。实际上,这是对分词词典预先进行的一种加工,也不是纯粹意
义上的一种分词方法。
作者:baite

原创粉丝点击