lucene -- 1概念
来源:互联网 发布:查看企业信息的软件 编辑:程序博客网 时间:2024/06/14 10:02
1. 概述
Lucene是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。Lucene以其方便使用、快速实施以及灵活性受到广泛的关注。它可以方便地嵌入到各种应用中实现针对应用的全文索引、检索功能,本总结使用lucene--2.3.2。
2. lucene 的包结构
1、org.apache.lucene.analysis对需要建立索引的文本进行分词、过滤等操作, 语言分析器,主要用于的切词Analyzer是一个抽象类,管理对文本内容的切分词规则。
2、org.apache.lucene.analysis.standard是标准分析器
3、org.apache.lucene.document提供对Document和Field的各种操作的支持。索引存储时的文档结构管理,类似于关系型数据库的表结构。Document相对于关系型数据库的记录对象,Field主要负责字段的管理。
4、org.apache.lucene.index是最重要的包,用于向Lucene提供建立索引时各种操作的支持。索引管理,包括索引建立、删除等。索引包是整个系统核心,全文检索的根本就是为每个切出来的词建索引,查询时就只需要遍历索引,而不需要去正文中遍历,从而极大的提高检索效率。
5、org.apache.lucene.queryParser提供检索时的分析支持。查询分析器,实现查询关键词间的运算,如与、或、非等。
6、org.apache.lucene.search 负责检索。检索管理,根据查询条件,检索得到结果。
7、org.apache.lucene.store提供对索引存储的支持。数据存储管理,主要包括一些底层的I/0操作。
8、org.apache.lucene.util提供一些常用工具类和常量类的支持
3. 索引文件格式
a) .fnm格式 包含了Document中所有field名称
b) .fdt与.fdx格式 .fdt文件用于存储具有Store.YES属性的Field的数据;.fdx是一个索引,用于存储Document在.fdt中的位置。
c) .tis 与.tii格式 .tis文件用于存储分词后的词条(Term),而.tii就是它的索引文件,它表明了每个.tis文件中的词条的位置。
d) deletable格式 文档被删除后,会首先在deletable文件中留下一个记录,要真正删除时,才将索引除去。
e) 复合索引格式 .cfs
使用IndexWriter的useCompoundFile() 默认为True
- lucene整理1 -- 概念
- lucene -- 1概念
- Lucene > 概念
- lucene(一) lucene一些概念的理解
- lucene的几个重要概念
- lucene学习之基础概念
- Lucene 概念,定义应用场景
- 【Lucene】Lucene教程1
- 理解lucene内几个核心概念
- 【转载】lucene整理 -- 概念 搜索 排序
- Lucene 里常用类的概念
- 全文检索概念,Lucene大致结构
- Lucene学习笔记1--lucene开篇hello lucene
- lucene.net的一些基本使用方法和概念
- lucene.net的一些基本使用方法和概念
- lucene.net的一些基本使用方法和概念
- lucene.net的一些基本使用方法和概念
- 从概念理解Lucene的Index(索引)文档模型
- android面试知识点详情
- 高手未必就是好老师
- Email HR Payslips as PDF attachment - HRFORMS
- procrank info
- CSS-定位概述
- lucene -- 1概念
- ruby创建项目和第一个Hello world
- Emacs Info 会成为你的主要参考文档。”
- lucene -- 2主要的类
- 创业者必看的经验十条
- Unity3D学习 愤怒的小鸟之关卡选择界面(六)
- lucene -- 3 排序、过滤、分词器
- 学习
- STL空间配置器