Terrier文档翻译:概述

来源:互联网 发布:网络交易平台怎么做 编辑:程序博客网 时间:2024/04/30 03:30

概述

Terrier Features

下面,你将看到Terrier提供的功能简表。

General

  • 支持常见的桌面文件格式和常用的TREC文献集的索引(e.g. TREC CDs 1-5, WT2G, WT10G, GOV, GOV2, Blogs06, Blog08, ClueWeb09, ClueWeb12)。
  • 大量文档加权模型,比如许多免参数的DFR权重模型,Okapi BM25和语言模型。
  • NEW! 凭借“学习排名”支持有监督(机器学习)的排名模型。
  • 支持常规的查询语言,包括短语和标签中出现的术语。
  • 能处理大型文件集的全文索引,集中式的架构至少能处理5千万个文件,甚至可以采用Hadoop MapReduce的分布式索引方案hold住更大的文献集。
  • NEW! 增量索引和检索功能可以支持实时搜索。
  • 模块化和开放的索引与查询API允许你很方便地扩展自己的应用于研究。
  • 活跃的信息检索研究注入我们的开源平台。
  • 开源(Mozilla Public Licence)。
  • 用跨平台的Java写成,可以运行在Windows, Mac OS X, Linux和Unix上。
  • 超过10年的公开发行,积累了巨大的用户基数。

索引

  • 对标签文件的集合(如TREC的数据集)有现成的索引功能。
  • 对各种常见格式的文件(如HTML, PDF, 或者Microsoft Word, Excel 和 PowerPoint 文件)有现成的索引功能。
  • 有现成的用于Hadoop MapReduce的分布式索引支持。
  • 域信息索引,比如一个术语在TITLE或H1 HTML 标签中的词频。
  • 对一个词的位置信息或块级别的索引(词出现在某一长度的窗口)。
  • 支持各种编码的文件 (UTF), 方便多语言的检索。
  • 支持修改所使用的标记。
  • NEW! 支持实时搜索的可更新指标。
  • 支持对查询偏置综述的索引(query-biased summarisation)。
  • 支持通过HTTP来获取文件进行索引,允许轻松访问内部网络。
  • NEW! 使用了内建的插拔式压缩算法,高度压缩的索引磁盘数据结构。
  • 高度压缩的直接文件,以便高效的查询扩展。
  • 可切换更快的单通道索引和基于MapReduce的索引。
  • 支持各种词干分析技术,包括用于欧洲语言的Snowball词干分析器。

检索

  • 提供桌面、命令行和基于web的查询界面。
  • 提供标准的查询工具以及查询扩展(伪相关反馈)。
  • 可以应用于交互式的应用程序(比如内置的Desktop Search),也能用于研究和实验中的批处理任务。
  • 提供很多标准的文件加权模型,包括多达126个Divergence From Randomness (DFR) 文档排名模型,以及其他模型比如Okapi BM25,语言模型和TF-IDF等。还有两个新的DFR权重模型(JsKLs和XSqrA_M),他们在不经任何参数调整和训练的情况下在一系列的测试集中表现出了很好的鲁棒性。
  • 高级的查询语言,支持同义词,+ / -运算符,短语和邻近搜索以及字段。.
  • NEW! 学习排名(Learning-to-rank)支持使用现成的监督排名模型。
  • 除了Rocchio查询扩展之外,还为自动查询扩展提供了一系列免参数的DFR加权模型。
  • 由停用词去除器和词干分析器等组件构成的灵活的管道式的词项处理流程。

实验

  • 处理所有现在能获得的TREC数据集-详情见 TREC实例部分
  • 很容易以批处理的形式脚本化地评价许多参数的设置和加权模型。
  • 内建的evaluation tools 结合TREC ad-hoc查询检索结果和已知项的检索结果,可以生成各种预测和召回的评价结果。
2 0
原创粉丝点击