大数据下xapian建索引速度问题可能的解决方案以及索引数据的压缩处理
来源:互联网 发布:倚天美指的交易软件 编辑:程序博客网 时间:2024/06/09 18:19
xapian索引速度解决方案:
第一种方案:
vi /etc/profile添加一行export XAPIAN_FLUSH_THRESHOLD=280000(默认是10000)
source /etc/profile 使修改对当前命令行生效
echo $XAPIAN_FLUSH_THRESHOLD一下查看是否生效
第二种方案:
vi ~/.bashrc添加一行export XAPIAN_FLUSH_THRESHOLD=280000
source一下
echo $XAPIAN_FLUSH_THRESHOLD一下查看是否生效(这里可以新打开命令行)
索引数据的压缩处理:
具体文档参考:http://xapian.org/docs/admin_notes.html#compacting-a-database
简单介绍一下,这个命令可以用来压缩xapian数据,并且可以合并多个数据文件夹到一个数据文件夹
这样做,可以带来,两点好处,第一点,数据文件中的一些btree的一些预留空间会被压缩掉,数据文件会减小,第二点就是,由于第一点数据减少带来的读取性能也有一定的提升。
但是推荐是在这些个数据库文件夹不会再被修改或新增记录时使用,因为compact会降低后续修改的性能,但是不阻止你后续修改。
我们的使用场景是对于建好的每个单独的索引数据库文件不会再有更多的修改,
所以适合我们做这样的操作。
操作命令示例如下:(我正在61服务器上执行的任务)
arthas@arthas:~/dev/data/20131129$ time xapian-compact -F --multipass _master_timeline_weibo_3853/ _master_timeline_weibo_3869/ _master_timeline_weibo_3885/ _master_timeline_weibo_3901/ _master_timeline_weibo_3861/ _master_timeline_weibo_3877/ _master_timeline_weibo_3893/ _master_timeline_weibo_3909/ compact_weibo
将~/dev/data/20131129目录下的_master_timeline_weibo_3853/ _master_timeline_weibo_3869/ _master_timeline_weibo_3885/ _master_timeline_weibo_3901/ _master_timeline_weibo_3861/ _master_timeline_weibo_3877/ _master_timeline_weibo_3893/ _master_timeline_weibo_3909/ 这8个weibo schema数据文件夹
压缩到~/dev/data/20131129目录的compact_weibo下,如上面红色标注最后一个路径参数,为输出文件夹。
- 大数据下xapian建索引速度问题可能的解决方案以及索引数据的压缩处理
- 强大的大数据全文索引解决方案-ClouderaSearch
- 大容量加载数据到现有表以及sql server数据库删除聚集索引的问题
- 大索引技术,大数据的未来
- 大索引技术,大数据的未来
- 大索引技术,大数据的未来
- 大索引技术大数据的未来
- 大索引技术大数据的未来
- 大索引技术大数据的未来
- 大索引技术大数据的未来
- mysql下的快速导入导出数据以及索引禁用
- coreseek 大数据联表建立索引速度慢的解决办法
- 学习Xapian(1) – 基础的建索引和搜索
- 在外键末加索引的情况下,可能带来的问题
- Mysql的索引以及使用索引可能失效的场景
- mongodb nosql 大数据提高查询速度-索引
- 大数据索引
- 大数据索引
- python--流程控制语句
- 用 GStreamer 简化 Linux 多媒体开发
- POJ-3469 Dual Core CPU 网络流
- 内存分配器
- 职业发展思维缺陷
- 大数据下xapian建索引速度问题可能的解决方案以及索引数据的压缩处理
- onItemClick中的position怎么从1开始了
- 最新出炉,针对redis2.8.1验证sentinel功能,一且正常,看样子2.6确实存在严重问题
- java 中的Unsafe(转)
- Excel制作隐藏的下拉选
- 怎样打好古筝基础,练好基本功?
- C(n,k)
- java API的一些知识点(一)
- 关于gcc,libc,glibc等相关概念的理解