关于Lucene全文检索的思考与改进

来源：互联网发布：视频合成软件电脑编辑：程序博客网时间：2024/04/30 10:42

通过前段时间对于Lucene的研究与使用，对于一些不足有一些体会：一，中文分词问题的改进目前采用的是二元拆分法，如“中华人民共和国”拆分为“中、中华、华、华人、人、人民、民、民共、共、共和、和、和国、国”。二元拆分法具有非常明显的劣势。首先，匹配效率低。我不希望查“中华人民共和国”的时候将“中华民国”也一起列在查询结果中。其次，生成后的索引占据的存储空间比较大。可想而知，采用二元拆分法，n长度单词的存储空间为（2*n - 1）。还有，就是生成索引的时间较长。二元拆分的优势在于分词算法比较易于实现。通过翻阅网上的相关文章，我考虑几类该进方法：首先，通过维护一个分词词典进行词条匹配。利用一定的算法将待分析的字符串与词典中的最大的词条进行匹配，将匹配成功的某个字符串写入索引。参考 1.《中文搜索引擎技术揭密：中文分词》：http://www.csdn.net/news/newstopic/15/15333.shtml 2. 海量科技：http://www.hylanda.com