solr使用的一点记录
来源:互联网 发布:淘宝客qq群软件 编辑:程序博客网 时间:2024/05/22 07:03
lucene版本3.1,solr版本3.0
对pubmed 3200多万篇,总计64G的医学文献摘要数据进行索引,索引了大约6个小时,索引之后发现还有18G,发现搜索是支持phrase query的,但是不需要高亮(因为文本数据不store在solr上而在cabinet上),text的定义中加上了termPositions=false,明天看看索引会不会小一点.
对八百多万篇中文医学文献34G,只索引了一半17G,花了22分钟,索引大小为2.3G,下载mmseg 1.8.5,使用textComplex方式进行分词,索引大小1.7G,使用时间大约25分钟,再使用textMaxWord方式分词,索引大小1.8G,使用时间25分钟,使用StopwordFilter之后索引减少到1.6G.
另外看到documentCache 使用lrucache,大小为512,hitRatio有0.5,把它改成了fastlrucache,大小设成1024,看看hitratio有没有增加.
0 0
- solr使用的一点记录
- 一点eclipse的使用记录
- 使用solr遇到的一些错误记录
- 使用Linux的一点记录(个人)
- _snprintf 使用的一点错误记录
- 关于FineUI使用问题的一点记录。
- 记录一点AndroidStudio使用SVN的经验
- 每次记录一点Idea的使用心得
- 学习使用solr时遇到的一些问题,记录
- 第一次学solr的记录
- 重装系统的一点记录
- kvo 的一点记录
- shiro的一点记录
- CATransform3D的一点记录
- INSTR的一点记录
- css 的一点记录
- 一点幼稚的记录
- Lucene和solr的一点理解
- PrintkTimes for linux
- 关于canvas(html5)的用法
- Linux命令详解之序
- oracle exp/imp时版本规则
- Cannot find the declaration of element 'beans'. 的解决方法
- solr使用的一点记录
- 基于redis快速通讯录匹配策略
- Windows CE下的串口通信编程(by fllsoft)
- Android网络开发中如何使用JSON进行网络通信
- 你必须知道的十大编程格言
- Debugging Portal for linux
- 05-Linux-文件基本操作管理
- 加密Windows CE系统(by fllsoft)
- 【Java设计模式】之代理模式