倒排索引

来源:互联网 发布:数据读写测试用例 编辑:程序博客网 时间:2024/05/18 01:15
常规的索引是文档到关键词的映射:
文档——>关键词
但是这样检索关键词的时候很费力,要一个文档一个文档的遍历一遍。(这事不能忍~)
于是人们发明了倒排索引~
倒排索引是关键词到文档的映射
关键词——>文档
这样,只要有关键词,立马就能找到她在那个文档里出现过,剩下的事就是把她揪出来了~~~
可能是因为将正常的索引倒过来了吧,所以大家叫他倒排索引,可我依然喜欢叫他反向索引~

倒排索引,好像大家都这么叫。
倒排索引对应的英文术语为inverted index,有的papers里也成为inverted files,说的都是同一种东西。倒排索引是区别于正排索引(forward index)来说的。

---------------------------我是正文---------------------------
文档是有许多的单词组成的,其中每个单词也可以在同一个文档中重复出现很多次,当然,同一个单词也可以出现在不同的文档中。

正排索引(forward index):从文档角度看其中的单词,表示每个文档(用文档ID标识)都含有哪些单词,以及每个单词出现了多少次(词频)及其出现位置(相对于文档首部的偏移量)。

倒排索引(inverted index,或inverted files):从单词角度看文档,标识每个单词分别在那些文档中出现(文档ID),以及在各自的文档中每个单词分别出现了多少次(词频)及其出现位置(相对于该文档首部的偏移量)。

简单记为:
正排索引:文档 ---> 单词
倒排索引:单词 ---> 文档



原创粉丝点击