【Lucene】索引库的优化
来源:互联网 发布:linux给文件赋权限 编辑:程序博客网 时间:2024/06/05 06:20
什么是索引库?
索引库是Lucene的重要的存储结构,它包括二部份:原始记录表,词汇表
原始记录表:存放的是原始记录信息,Lucene为存入的内容分配一个唯一的编号
词汇表:存放的是经过分词器拆分出来的词汇和该词汇在原始记录表中的编号
为什么要将索引库进行优化?
在默认情况下,向索引库中增加一个Document对象时,索引库自动会添加一个扩展名叫*.cfs的二进制压缩文件,如果向索引库中存Document对象过多,那么*.cfs也会不断增加,同时索引库的容量也会不断增加,影响索引库的大小。
优化方式:
第一种:合并cfs文件,合并后的cfs文件是二进制压缩字符,能解决是的文件大小和数量的问题,每次添加都合并indexWriter.addDocument(document);indexWriter.optimize();indexWriter.close();
第二种:设定合并因子,自动合并cfs文件,默认10个cfs文件合并成一个cfs文件
indexWriter.addDocument(document);indexWriter.setMergeFactor(10);indexWriter.close();
使用RAMDirectory,类似于内存索引库,能解决是的读取索引库文件的速度问题,它能以空换时,提高速度快,但不能持久保存,因此启动时加载硬盘中的索引库到内存中的索引库,退出时将内存中的索引库保存到硬盘中的索引库,且内容不能重复。
DirectoryfsDirectory = FSDirectory.open(new File("E:/indexDB"));Directory ramDirectory = new RAMDirectory(fsDirectory); IndexWriter fsIndexWriter = new IndexWriter(fsDirectory,LuceneUtil.getAnalyzer(),true,LuceneUtil.getMaxFieldLength());IndexWriter ramIndexWriter = new IndexWriter(ramDirectory,LuceneUtil.getAnalyzer(),LuceneUtil.getMaxFieldLength()); ramIndexWriter.addDocument(document);ramIndexWriter.close(); fsIndexWriter.addIndexesNoOptimize(ramDirectory);fsIndexWriter.close();
阅读全文
0 0
- Lucene 索引库的优化
- Lucene索引库的优化
- 【Lucene】索引库的优化
- Lucene索引库的简单优化
- Lucene索引库的简单优化
- lucene学习四:索引库的优化
- Lucene索引存储的优化
- lucene索引库优化建议
- lucene索引库优化一
- lucene索引库优化二
- 全文检索之lucene的优化篇--创建索引库
- 全文检索之lucene的优化篇 建索引库
- 全文检索之lucene的优化篇--创建索引库
- Lucene的几点索引建设优化
- 【Lucene】使用反射技术优化Lucene索引库的查询与创建
- Lucene.net索引优化
- lucene-优化索引
- lucene-索引的优化和索引过程查看
- 【常用排序算法】插入排序/二分插入排序/希尔排序 (Java实现)
- 不带端口号和项目名的域名访问
- Qt 之 模仿 QQ登陆界面——样式篇
- CNN卷积各层的参数和链接个数的计算
- [C/C++] 动态库与静态库
- 【Lucene】索引库的优化
- 日常监控运维需关注点
- 【深度学习】神经网络2. epoch, iteration, batchsize相关理解和说明
- Ubuntu16下openface的安装与测试
- 系统间通信方式之(ActiveMQ的使用性能优化3)(十四)
- 使用NPOI导出Excel模板
- 第二章 SQL命令参考-SELECT
- ElasticSearch之高亮显示
- C++语法之操作符重载函数