我理解的倒排索引

来源:互联网 发布:鼠标点击软件 编辑:程序博客网 时间:2024/05/16 05:51


关于倒排索引技术,英文名是Inverted index,其实应该称之为“反过来索引”会比较好。


网页中爬出来的页面一般称之为文本,将这些文本的关键词和路径保存到数据库中。正常的索引是从文本的ID编号(数据库编号)去搜索文本中的词,当文本中包含关键词时,给出文本路径链接。


倒排索引则是一个逆过程。首先搜索引擎会爬下来网页文本,对文本检索关键词,并将关键词保存在数据库中,关键词后面对应的保存相关文章的ID号。当用户搜索时,取出用户填写的关键词,根据关键词去检索文章的ID号,然后再对所有检索到的文章做排序推荐。


相比于正常的推荐过程,倒排索引是逆过程的,所以可以直接理解成“反过来索引”。这坑爹的英文翻译,简直了。

而倒过来索引的最简单的理解是某个关键词,对应若干个文本。倒排索引就是通过搜索某个关键词,去索引若干个文本。


如下图示:



DOC1中包含KEY1,而KEY1却同时包含在DOC1和DOC4中。所谓倒排索引就是通过KEY去索引到文本DOC。




0 0