我理解的倒排索引
来源:互联网 发布:鼠标点击软件 编辑:程序博客网 时间:2024/05/16 05:51
关于倒排索引技术,英文名是Inverted index,其实应该称之为“反过来索引”会比较好。
网页中爬出来的页面一般称之为文本,将这些文本的关键词和路径保存到数据库中。正常的索引是从文本的ID编号(数据库编号)去搜索文本中的词,当文本中包含关键词时,给出文本路径链接。
倒排索引则是一个逆过程。首先搜索引擎会爬下来网页文本,对文本检索关键词,并将关键词保存在数据库中,关键词后面对应的保存相关文章的ID号。当用户搜索时,取出用户填写的关键词,根据关键词去检索文章的ID号,然后再对所有检索到的文章做排序推荐。
相比于正常的推荐过程,倒排索引是逆过程的,所以可以直接理解成“反过来索引”。这坑爹的英文翻译,简直了。
而倒过来索引的最简单的理解是某个关键词,对应若干个文本。倒排索引就是通过搜索某个关键词,去索引若干个文本。
如下图示:
DOC1中包含KEY1,而KEY1却同时包含在DOC1和DOC4中。所谓倒排索引就是通过KEY去索引到文本DOC。
0 0
- 我理解的倒排索引
- 全文检索:倒排索引的理解
- 倒排索引的基础知识
- 倒排索引的建立
- 倒排索引的了解
- Lucene的倒排索引(学习整理)
- 关于搜索引擎的倒排索引技术
- 某人发布的倒排索引
- 倒排索引-搜索引擎的基石
- 倒排索引-搜索引擎的基石
- 倒排索引-搜索引擎的基石
- C++ 倒排索引的实现
- 倒排索引-搜索引擎的基石
- C++ 倒排索引的实现
- hadoop实现简单的倒排索引
- 倒排索引-搜索引擎的基石
- C++ 倒排索引的实现
- 倒排索引的简单实现
- 利用cvtColor实现图像颜色空间的转换-比如RGB转灰度图等
- absent line number information
- Chrome Native Client 简介
- java实现的md5加密
- 重新配置EM(单机)
- 我理解的倒排索引
- SQL查询执行计划优化
- 事务
- grep命令详解
- 图片上传与下载
- 栈链式存储结构的C++模板类源代码
- c# get post 的方法
- NaCl学习笔记: 环境搭建
- Android性能优化