Terrier文档翻译：概述

来源：互联网发布：网络交易平台怎么做编辑：程序博客网时间：2024/04/30 03:30

概述

Terrier Features

下面，你将看到Terrier提供的功能简表。

支持常见的桌面文件格式和常用的TREC文献集的索引(e.g. TREC CDs 1-5, WT2G, WT10G, GOV, GOV2, Blogs06, Blog08, ClueWeb09, ClueWeb12)。
大量文档加权模型，比如许多免参数的DFR权重模型，Okapi BM25和语言模型。
NEW! 凭借“学习排名”支持有监督（机器学习）的排名模型。
支持常规的查询语言，包括短语和标签中出现的术语。
能处理大型文件集的全文索引，集中式的架构至少能处理5千万个文件，甚至可以采用Hadoop MapReduce的分布式索引方案hold住更大的文献集。
NEW! 增量索引和检索功能可以支持实时搜索。
模块化和开放的索引与查询API允许你很方便地扩展自己的应用于研究。
活跃的信息检索研究注入我们的开源平台。
开源(Mozilla Public Licence)。
用跨平台的Java写成，可以运行在Windows, Mac OS X, Linux和Unix上。
超过10年的公开发行，积累了巨大的用户基数。

提供桌面、命令行和基于web的查询界面。
提供标准的查询工具以及查询扩展（伪相关反馈）。
可以应用于交互式的应用程序（比如内置的Desktop Search），也能用于研究和实验中的批处理任务。
提供很多标准的文件加权模型，包括多达126个Divergence From Randomness (DFR) 文档排名模型，以及其他模型比如Okapi BM25，语言模型和TF-IDF等。还有两个新的DFR权重模型（JsKLs和XSqrA_M），他们在不经任何参数调整和训练的情况下在一系列的测试集中表现出了很好的鲁棒性。
高级的查询语言，支持同义词，+ / -运算符，短语和邻近搜索以及字段。.
NEW! 学习排名（Learning-to-rank）支持使用现成的监督排名模型。
除了Rocchio查询扩展之外，还为自动查询扩展提供了一系列免参数的DFR加权模型。
由停用词去除器和词干分析器等组件构成的灵活的管道式的词项处理流程。

2 0