索引的一种组织形式
来源:互联网 发布:北京立方米网络 编辑:程序博客网 时间:2024/05/16 11:09
之前考虑可以把所有的term都放在内存里,因为即使像GOV2 http://ir.dcs.gla.ac.uk/test_collections/gov2-summary.htm这样的语料库,所有的term和也只有4.9*10^7个,是可以考虑把其放入内存中的,但考虑到很多商业公司考虑的多元索引技术(比如把Information Retrieve作为一个词单独索引),这样就会大大加大索引的数量,这样内存可能就未必放的下,有实验表明如果按将要介绍的方法组织索引,对性能的损耗和把全部索引放入内存比较微乎其微却极大的节约了内存,再结合到我们可怜的硬件条件:-( 这个索引组织还是很有意义的。
组织方法如上图。在右侧的on-disk index data说明右侧的数据都是保存在硬盘上的,图中画出3块,每一块都严格分配64K大小(不足用‘#’补齐),每一块的内容是List(term, posting list),为了严格控制每一块保持64K大小,有的term可能会被分在两个块里(如hurried在第二块和第三块中),有的term可能独占好几个块(如hurt)。左侧的数据保存在内存中,是一个(term ,posting)的数组,每一个元素term表示它所指向块的第一个term,每个元素的posting表示它指向第一个term的posting位置。这样访问任意一个term只需要在memory中算出它可能在的block,然后把硬盘上这个block(64k) load到内存中查找即可。
这种方法其实是对Lucene中term索引和跳表(skip list)的一种巧妙融合,相对于Lucene能减少一次对硬盘的一次随机读。
参考http://book.douban.com/subject/4881120/
- 索引的一种组织形式
- 软件公司的项目组织形式
- ElasticSearch代码的组织形式
- 图像的存储组织形式
- 数据文件的组织形式
- 团队的组织形式
- 政府采购的组织形式
- unity shader的组织形式
- 再谈VMM文件的组织形式
- linux中文件的组织形式
- 二、unity shader的组织形式
- 索引的十一种功能
- 【索引函数】的一种用法
- 索引的十一种功能
- 索引的十一种功能
- 索引的十一种功能
- 索引的十一种功能
- 索引的十一种功能
- 进度条
- C语言文件传输客户端
- 自定义Android Toasts风格
- EBS实践—PO内部申请自动接收入库
- C语言文件传输客户端
- 索引的一种组织形式
- 文件传输协议的服务器
- vbs脚本:WriteText
- 手把手教你用vmware安装oracle10g RAC(一)
- 51单片机的串口通讯
- 这里有些东西需要看!
- 提高程序执行效率,Web开发技巧30条
- SOCKS 4协议中文文档意译版
- 手把手教你用vmware安装oracle10g RAC(二)