倒叙索引术语
来源:互联网 发布:java半角正则表达式 编辑:程序博客网 时间:2024/05/16 11:25
文档(document):一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽些,代表以文本形式存在的存储对象。相比网页来说涵盖更多的形式。例如word、html、pdf等都的hi文档,甚至包括微博、微信等也可以称作是文档。
文档集合(document collection):由若干文档构成的集合成为文件集合。比如海量的互联网网页的集合或者说是大量的电子邮件,都是文档的集合的具体例子。
文档编号(document ID):在搜索引擎内部,会为文档集合内每个文档赋予一个唯一的一个内部编号,以此编号来作为这个文档唯一标识,这样方便内部处理。每个文档的内部编号即称为文档编号。
单词编号(word ID):与文档编号类似,搜索引擎内部唯一编号来表示某个单词,单词的编号可以作为某个单词的唯一表征。
倒叙索引(inverted index):倒叙索引是实现单词-文档矩阵的一种具体存储形式。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒叙索引主要由两个部分组成:单词词典和倒叙文件。
单词词典(lexicon):搜索引擎通常的索引单位是单词,单词词典是由文档集合中出现过的所有电磁构成的字符串集合,单词词典内每条索引项记载单词本身一些信息及指向倒排列表指针。
倒排列表(postinglist):倒排列表记载了出现过某个单词的所有文档的列表及单词在该文档中出现的位置信息,每条记录成为一个倒排项。根据倒排列表,即可获知哪些文档包含某个单词。
倒排文件(inverted file):所有单词的倒排列表往往顺序地存储在磁盘的某个文件里。
文档集合(document collection):由若干文档构成的集合成为文件集合。比如海量的互联网网页的集合或者说是大量的电子邮件,都是文档的集合的具体例子。
文档编号(document ID):在搜索引擎内部,会为文档集合内每个文档赋予一个唯一的一个内部编号,以此编号来作为这个文档唯一标识,这样方便内部处理。每个文档的内部编号即称为文档编号。
单词编号(word ID):与文档编号类似,搜索引擎内部唯一编号来表示某个单词,单词的编号可以作为某个单词的唯一表征。
倒叙索引(inverted index):倒叙索引是实现单词-文档矩阵的一种具体存储形式。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒叙索引主要由两个部分组成:单词词典和倒叙文件。
单词词典(lexicon):搜索引擎通常的索引单位是单词,单词词典是由文档集合中出现过的所有电磁构成的字符串集合,单词词典内每条索引项记载单词本身一些信息及指向倒排列表指针。
倒排列表(postinglist):倒排列表记载了出现过某个单词的所有文档的列表及单词在该文档中出现的位置信息,每条记录成为一个倒排项。根据倒排列表,即可获知哪些文档包含某个单词。
倒排文件(inverted file):所有单词的倒排列表往往顺序地存储在磁盘的某个文件里。
- 倒叙索引术语
- 索引 (数据库术语)
- 同步锁前传 相关术语索引
- Bourbaki集合论(8)术语索引
- 字符串倒叙
- 单词倒叙
- 数组倒叙
- 术语
- 术语
- 术语
- 术语
- 术语
- 术语
- 术语
- 术语
- 术语
- 术语
- 术语
- 手机相机自动同步到电脑
- C#基础概念25问
- 20条.NET编码习惯
- 10个C#编程和Visual Studio使用技巧
- 黑马程序员--面向对象之一:面向对象概念、类和对象的关系、封装、构造函数、this关键字、static关键字
- 倒叙索引术语
- python识别中文路径
- listView Item中的焦点情况
- office软件快捷键大全
- 黑马程序员----------String,StringBuffer,StringBuilder用法
- Linux黑客车库创业:服务器操作系统CoreOS颠覆互联网
- 网址前必须加www才能访问
- [Qt][ubuntu 13.04]setWindowFlags的使用
- Java反射机制