lucene产生的索引文件格式详解
来源:互联网 发布:管理货的软件 编辑:程序博客网 时间:2024/05/20 16:40
本文介绍lucene中segment,.fnm,.fdx,.fdt,.tii,.tis,deletable ,.cfs等格式文件的用途。
这个是lucene创建索引产生的文件:
1.索引的segment
每个segment代表lucene的一个完整索引段。通常,在一个索引中,会包含有多个segment。每个segment都有一个统一的前缀,这个前缀是根据当前索引的document数量而确立的。前缀名是Document数量转为36进制后,在前面加上下划线“_”而构成的。
通常,在一个完整的索引中,有且只有一个“segments”文件,这个文件没有后缀,它记录了当前索引中所有segment的信息。
2.fnm格式
.fnm格式的文件包含了Document中的所有Field名称。可以清楚地看到,所有加入的Field名称都在其中进行了保存。
3.fdx和.fdt格式
.fdx和.fdt是综合使用的两类文件,其中.fdt类型文件用于存储具有Store.YES属性的Field数据。而.fdx类型文件则是一个索引,用于存储Document在下面代码就是创建索引的代码。
4.tii和.tis格式
.tis文件用于存储分词后的词条(Term),而.tii就是它的所有文件,它标明了每个.tis文件中词条的位置.
5.deletable格式
在Lucene的索引中,所有的文档被删除后并不是立刻从索引中去除,而是留待下次合并索引或对索引进行优化时菜真正删除,这有点类似windows的回收站原理。这种功能是通过deletable文件实现的。所有的文档在被删除后,会首先在deletable文件中留一个记录,要真正删除时,才将索引除去。
6.复合索引格式 .cfs
在IndexWriter中有一个属性:useCompoundFile,它的默认值为True,这个属性的含义是:是否使用复合索引格式保存索引。索引的内容可能非常大,文件数量可能非常的多,如果遇到这种情况,系统打开文件的数量巨大将会极大地耗费系统资源。因此,Lucene提供了一个单文件索引格式,也就是所谓的复合索引格式。
使用复合索引格式存储Document内容时,只需要在初始化完成一个IndexWriter对象后,使用SetUseCompoundFile(boolean)方法,将UserCompoundFile的属性值设置为True就可以了。
- lucene产生的索引文件格式详解
- lucene产生的索引文件格式详解
- Lucene的索引文件格式
- Lucene的索引文件格式
- Lucene的索引文件格式
- Lucene的索引文件格式
- Lucene的索引文件格式(二)
- lucene学习资料(索引文件格式详解)
- Lucene的索引详解
- Lucene索引文件格式
- Lucene索引文件格式
- lucene-索引文件格式
- lucene索引文件格式介绍
- lucene 索引文件格式
- Lucene索引文件格式分析
- lucene-索引文件格式
- lucene索引文件格式介绍
- lucene 索引文件格式
- 内存管理一
- PCH file built from a different branch ((clang-425.0.24)) than the compiler
- What every SharePoint administrator needs to know about Alternate Access Mappings (Part 1 of 3)
- Linux内存管理之mmap详解
- 开源中间件tomcat服务器安全配置基线指导
- lucene产生的索引文件格式详解
- Java线程同步如何才能排除阻塞
- 【转】USB的描述符介绍
- 对象使用self注意事项
- 多线程开发的捷径:构建Java并发模型框架
- httpClient实例
- 手动安装ubuntu的grub
- Unity3D中C#和JS的方法互相調用
- Lucene学习笔记(1):Lucene的索引文件格式