索引的一种组织形式

来源：互联网发布：北京立方米网络编辑：程序博客网时间：2024/05/16 11:09

之前考虑可以把所有的term都放在内存里，因为即使像GOV2 http://ir.dcs.gla.ac.uk/test_collections/gov2-summary.htm这样的语料库，所有的term和也只有4.9*10^7个，是可以考虑把其放入内存中的，但考虑到很多商业公司考虑的多元索引技术（比如把Information Retrieve作为一个词单独索引），这样就会大大加大索引的数量，这样内存可能就未必放的下，有实验表明如果按将要介绍的方法组织索引，对性能的损耗和把全部索引放入内存比较微乎其微却极大的节约了内存，再结合到我们可怜的硬件条件:-( 这个索引组织还是很有意义的。

组织方法如上图。在右侧的on-disk index data说明右侧的数据都是保存在硬盘上的，图中画出3块，每一块都严格分配64K大小（不足用‘＃’补齐），每一块的内容是List(term, posting list)，为了严格控制每一块保持64K大小，有的term可能会被分在两个块里（如hurried在第二块和第三块中），有的term可能独占好几个块（如hurt）。左侧的数据保存在内存中，是一个(term ,posting)的数组，每一个元素term表示它所指向块的第一个term，每个元素的posting表示它指向第一个term的posting位置。这样访问任意一个term只需要在memory中算出它可能在的block，然后把硬盘上这个block（64k） load到内存中查找即可。

这种方法其实是对Lucene中term索引和跳表（skip list）的一种巧妙融合，相对于Lucene能减少一次对硬盘的一次随机读。

参考http://book.douban.com/subject/4881120/