搜索系统18:lucene索引文件结构

来源:互联网 发布:mac office好用吗 编辑:程序博客网 时间:2024/05/18 03:27
1.多文件索引与复合索引的区别

2.segments(段)文件

3.段元数据
.si 保存了索引段的元数据信息

4.fnm(域名)文件
相当于solr里的schemal.xml文件

5.项词典(.TIS、TII)文件
lucene老版本的项词典是tis文件,新版本是tim文件,如图:
我没在这个文件里找到字段名,可能已经转成了数值。
《lucene in Action》里有对这几个文件结构介绍的图:
有资料说.tim文件中存储着每个域中Term的统计信息且保存着指向.doc, .pos, and .pay 索引文件的指针。
.tip文件保存着Term 字典的索引信息,可支持随机访问。

6.域存储文件
.fdt 存储域内容
.fdx 文件包含了简单的索引信息,该信息用来将该域对应的文档号保存至.tdt文件中的对应位置。

7.锁文件
write.lock 防止多个IndexWriter同时写到一份索引文件中。

8.索引字段加权因子
.nvd, .nvm
.nvm 文件保存索引字段加权因子的元数据
.nvd 文件保存索引字段加权数据