理解Lucene索引过程

来源:互联网 发布:网络限制指令 编辑:程序博客网 时间:2024/06/05 09:29

理解索引过程

Lucene索引过程分为三个主要的阶段:将数据转换为文本、分析文本、将分析过的文本保存到索引库中


1 转换成文本

在索引之前,必须将数据转换为Lucene可以处理的格式——纯文本字符流。

2 分析

完成了针对待索引数据的预处理,并创建了带有若干个域的Document对象,就可以调用IndexWriter的addDocument(Document)方法,将数据传递给Lucene来进行索引操作。

对数据进行索引处理时,Lucene会首先分析数据使之更适合被索引。分析数据时,先将文本数据切分成一些词汇单元tokens,然后对它们进行一些可选操作。

3 将分析后的数据写入索引

Lucene将输入数据以倒排索引的数据结构进行存储。(这种data structure可以迅速回答诸如“哪些文档包含词汇x?”一类的问题)


原创粉丝点击