倒排索引(Inverted Index)
来源:互联网 发布:数据分析师认证考试 编辑:程序博客网 时间:2024/05/29 04:48
倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。
有两种不同的反向索引形式:
- 一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。
- 一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。[1]
后者的形式提供了更多的兼容性(比如短语搜索),但是需要更多的时间和空间来创建。
例子
以英文为例,下面是要被索引的文本:
- T0 =
"it is what it is"
- T1 =
"what is it"
- T2 =
"it is a banana"
我们就能得到下面的反向文件索引:
"a": {2} "banana": {2} "is": {0, 1, 2} "it": {0, 1, 2} "what": {0, 1}
对相同的文字,我们得到后面这些完全反向索引,有文档数量和当前查询的单词结果组成的的成对数据。 同样,文档数量和当前查询的单词结果都从零开始。所以,"banana": {(2, 3)}
就是说 "banana"在第三个文档里 (T2),而且在第三个文档的位置是第四个单词(地址为 3)。
"a": {(2, 2)}"banana": {(2, 3)}"is": {(0, 1), (0, 4), (1, 1), (2, 1)}"it": {(0, 0), (0, 3), (1, 2), (2, 0)} "what": {(0, 2), (1, 0)}
如果我们执行短语搜索"what is it"
我们得到这个短语的全部单词各自的结果所在文档为文档0和文档1。但是这个短语检索的连续的条件仅仅在文档1得到。
应用
- 反向索引数据结构是典型的搜索引擎检索算法重要的部分。
- 一个搜索引擎执行的目标就是优化查询的速度:找到某个单词在文档中出现的地方。以前,正向索引开发出来用来存储每个文档的单词的列表,接着掉头来开发了一种反向索引。 正向索引的查询往往满足每个文档有序频繁的全文查询和每个单词在校验文档中的验证这样的查询。
- 实际上,时间、内存、处理器等等资源的限制,技术上正向索引是不能实现的。
- 为了替代正向索引的每个文档的单词列表,能列出每个查询的单词所有所在文档的列表的反向索引数据结构开发了出来。
- 随着反向索引的创建,如今的查询能通过立即的单词标示迅速获取结果(经过随机存储)。随机存储也通常被认为快于顺序存储。
- 倒排索引(Inverted index)
- 倒排索引(Inverted Index)
- 倒排索引(Inverted File Index )
- Inverted Index(倒排索引)
- Lucene Inverted index(倒排索引)原来快速入门
- 倒排文件索引(Inverted File Index)的建立
- 倒排文件索引(Inverted File Index)的建立
- 倒排文件索引(Inverted File Index)的建立
- 倒排文件索引(Inverted File Index)的建立
- 倒排文件索引(Inverted File Index)的建立
- Lucene Inverted index(倒排索引)原来快速入门
- 倒排文件索引(Inverted File Index)的建立
- 倒排索引Inverted index相关程序(多种语言版本)
- 搜索引擎中的倒排索引(inverted index)机制
- 一个倒排索引(inverted index)的python实现
- 倒排文件索引(Inverted File Index)
- 【预研】搜索引擎基础——inverted index(倒排索引)
- MapReduce功能实现十---倒排索引(Inverted Index)
- JAVA版 之 快速排序
- SDK实现带工具栏、状态栏的窗口程序
- android 图片旋转 反锯齿
- 人类按什么动物的优点发明什么
- 提取安装文件中的文件vmnetcfg.exe
- 倒排索引(Inverted Index)
- getOutputStream() has already been called for this response 错误解决
- Operator运算符重载与Implicit隐式类型转换
- 【转】sql server 获取当前时间
- 避免frame中出现子框架显示父框架 js代码
- 利用 squid 反向代理提高网站性能
- java线程池
- 贵州支教之第四天(11月10日)
- Centos 时间同步