Lucene索引的详细结构

来源：互联网发布：注射水银知乎编辑：程序博客网时间：2024/06/06 21:04

一、基本概念

下图就是Lucene生成的索引的一个实例：

http://forfuture1978.javaeye.com

Lucene的索引结构是有层次结构的，主要分以下几个层次：

• 索引(Index)：

◦ 在Lucene中一个索引是放在一个文件夹中的。

◦ 如上图，同一文件夹中的所有的文件构成一个Lucene索引。

• 段(Segment)：

◦ 一个索引可以包含多个段，段与段之间是独立的，添加新文档可以生成新的段，不同的段可以

合并。

◦ 如上图，具有相同前缀文件的属同一个段，图中共两个段 "_0" 和 "_1"。

◦ segments.gen和segments_5是段的元数据文件，也即它们保存了段的属性信息。

• 文档(Document)：

◦ 文档是我们建索引的基本单位，不同的文档是保存在不同的段中的，一个段可以包含多篇文

档。

◦ 新添加的文档是单独保存在一个新生成的段中，随着段的合并，不同的文档合并到同一个段

中。

• 域(Field)：

http://forfuture1978.javaeye.com 1.3 Lucene学习总结之三：Lucene的索引文件格式 (1)

第 27 / 550 页

◦ 一篇文档包含不同类型的信息，可以分开索引，比如标题，时间，正文，作者等，都可以保存

在不同的域里。

◦ 不同域的索引方式可以不同，在真正解析域的存储的时候，我们会详细解读。

• 词(Term)：

◦ 词是索引的最小单位，是经过词法分析和语言处理后的字符串。

Lucene的索引结构中，即保存了正向信息，也保存了反向信息。

所谓正向信息：

• 按层次保存了从索引，一直到词的包含关系：索引(Index) –> 段(segment) –> 文档(Document)–>

域(Field) –> 词(Term)

• 也即此索引包含了那些段，每个段包含了那些文档，每个文档包含了那些域，每个域包含了那些词。

• 既然是层次结构，则每个层次都保存了本层次的信息以及下一层次的元信息，也即属性信息，比如一本

介绍中国地理的书，应该首先介绍中国地理的概况，以及中国包含多少个省，每个省介绍本省的基本概

况及包含多少个市，每个市介绍本市的基本概况及包含多少个县，每个县具体介绍每个县的具体情况。

• 如上图，包含正向信息的文件有：

◦ segments_N保存了此索引包含多少个段，每个段包含多少篇文档。

◦ XXX.fnm保存了此段包含了多少个域，每个域的名称及索引方式。

◦ XXX.fdx，XXX.fdt保存了此段包含的所有文档，每篇文档包含了多少域，每个域保存了那些信

息。

◦ XXX.tvx，XXX.tvd，XXX.tvf保存了此段包含多少文档，每篇文档包含了多少域，每个域包含了

多少词，每个词的字符串，位置等信息。

所谓反向信息：

• 保存了词典到倒排表的映射：词(Term) –> 文档(Document)

• 如上图，包含反向信息的文件有：

◦ XXX.tis，XXX.tii保存了词典(Term Dictionary)，也即此段包含的所有的词按字典顺序的排序。

◦ XXX.frq保存了倒排表，也即包含每个词的文档ID列表。

◦ XXX.prx保存了倒排表中每个词在包含此词的文档中的位置。

阅读全文

0 0