关于Lucene全文检索的思考与改进

来源:互联网 发布:视频合成软件电脑 编辑:程序博客网 时间:2024/04/30 10:42
通过前段时间对于Lucene的研究与使用,对于一些不足有一些体会:一,中文分词问题的改进 目前采用的是二元拆分法,如“中华人民共和国”拆分为“中、中华、华、华人、人、人民、民、民共、共、共和、和、和国、国”。 二元拆分法具有非常明显的劣势。 首先,匹配效率低。我不希望查“中华人民共和国”的时候将“中华民国”也一起列在查询结果中。 其次,生成后的索引占据的存储空间比较大。可想而知,采用二元拆分法,n长度单词的存储空间为(2*n - 1)。 还有,就是生成索引的时间较长。 二元拆分的优势在于分词算法比较易于实现。 通过翻阅网上的相关文章,我考虑几类该进方法: 首先,通过维护一个分词词典进行词条匹配。利用一定的算法将待分析的字符串与词典中的最大的词条进行匹配,将匹配成功的某个字符串写入索引。 参考 1.《中文搜索引擎技术揭密:中文分词》:http://www.csdn.net/news/newstopic/15/15333.shtml 2. 海量科技:http://www.hylanda.com
原创粉丝点击