倒排索引
来源:互联网 发布:淘宝挣钱 编辑:程序博客网 时间:2024/06/05 07:06
今天我们来聊聊倒排索引(inverted index)。
倒排索引是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,常被应用于搜索引擎和关键字查询的问题中。
以英文为例,下面是要被索引的文本:
T0 = "it is what it is" T1 = "what is it" T2 = "it is a banana"
我们就能得到下面的反向文件索引:
"a": {2}"banana": {2}"is": {0, 1, 2}"it": {0, 1, 2}"what": {0, 1}
检索的条件"what","is"和"it"将对应集合的交集。
对相同的文字,我们得到后面这些完全反向索引,有文档数量和当前查询的单词结果组成的的成对数据。 同样,文档数量和当前查询的单词结果都从零开始。所以,"banana": {(2, 3)}
就是说 "banana"在第三个文档里 (),而且在第三个文档的位置是第四个单词(地址为 3)。
"a": {(2, 2)}"banana": {(2, 3)}"is": {(0, 1), (0, 4), (1, 1), (2, 1)}"it": {(0, 0), (0, 3), (1, 2), (2, 0)} "what": {(0, 2), (1, 0)}
如果我们执行短语搜索"what is it"
我们得到这个短语的全部单词各自的结果所在文档为文档0和文档1。但是这个短语检索的连续的条件仅仅在文档1得到。
阅读全文
0 0
- 倒排索引原理
- 倒排索引
- 倒排索引
- 倒排索引
- 索引 倒排
- 倒排索引
- 倒排索引
- hadoop 倒排索引
- 倒排索引技术
- 什么是倒排索引?
- 倒排索引求子串
- 倒排索引
- 倒排索引
- 倒排索引
- 倒排索引
- 倒排索引
- 倒排索引
- 倒排索引
- 微信小程序常用代码
- java 多线程(1) wait和notifier实例
- hadoop+intellij+maven实现wordcount程序
- webdriverapi
- Java 泛型
- 倒排索引
- Java Spring MVC进阶(2)--@produces、@PathVariable、@RequestParam等
- OpenCV中的均值与最值的计算
- TCP状态转换图
- ThinkPHP3.23整合phpqrcode生成二维码(logo)
- python多线程,获取多线程的返回值
- js写分页
- Cache 三种的映射方法
- Win10虚拟机中安装office2016