2016书单总结--Lucene实战(第二版)--基础篇
来源:互联网 发布:简易电路图绘制软件 编辑:程序博客网 时间:2024/06/05 20:33
2016书单总结–Lucene实战(第二版)–基础篇
Lucene实战基于Lucene3.0,本示例以3.5为基础Lucene由道格.卡丁编写的用于文本索引与搜索的高性能、可扩展的信息检索工具库
- 通过5个部分进行总结,分别为
- 收集–包括如何获取文本,例如使用tika提取文本
- 分析–分析器的原理,词汇单元过程化,词汇单元过滤器
- 索引–如何构建倒排索引,构建实时索引,更新、删除索引
- 搜索–查找需要信息,按照不同条件进行搜索
- 高级应用–其他语言、案例分析、调优
- 索引
- 常见概念
- 文档(Document)–包含一个或者多个域的容器
- 域(Field)–是否可以索引(Index)、是否可以存储(Store)、是否可以分词(Token)
- 索引段–Lucene索引包含一个或者多个段
- 常见构建索引步骤
- 1.创建Directory
- 2.创建IndexWriter
- 3.创建Document
- 4.为Document创建Field
- 5.使用IndexWriter将Document写入索引
- 6.关闭InderWriter
- 构建实时索引
- 将IndexWriter委托给NRTManager进行索引的添加、删除、修改
- 常见概念
- 搜索
- 常见概念
- 加权基准(norms)–Score(norms)=文档加权*域加权*VSP的tf*idf*lengthNorm
- 常见构建搜索步骤
- 1.创建Directory
- 2.创建IndexReader
- 3.使用IndexReader创建IndexSearcher
- 4.创建Query
- 5.使用IndexSearcher搜索Query,返回TopDocs
- 6.显示TopDocs的ScoreDoc
- 7.通过IndexReader/docId获取Document
- 8.通过Document的get获取字段
- 9.关闭IndexReader
- 构建实时搜索
- 将InderSearcher的获取、注销委托给SearcherManager进行管理
- 常见概念
- 分析
- 分析器–将域(Field)转为项(Term)的过程
- 分析器由词汇单元过程化(Tokenization)和词汇单元过滤器组成
- 收集
- 示例代码位于– https://github.com/undergrowthlinear/2016MyBookSummary.git
- com.undergrowth.lucene.in.action.LuceneIndexQueryTest演示了如何构建索引、同时展示了布尔搜索、
查询解析搜索、范围搜索、词语搜索、模糊搜索、通配符搜索、前缀搜索 - com.undergrowth.lucene.in.action.IndexSearcherManagerToolTest演示近实时搜索的修改、删除索引、以及搜索
- com.undergrowth.lucene.in.action.AnalyzerToolTest演示分析器中对应的词汇单元属性
- com.undergrowth.lucene.in.action.TikaParserTest演示使用tika进行解析各种文档
- com.undergrowth.lucene.in.action.LuceneIndexQueryTest演示了如何构建索引、同时展示了布尔搜索、
0 0
- 2016书单总结--Lucene实战(第二版)--基础篇
- Lucene基础篇总结
- 2016书单总结--分布式服务框架原理与实战
- 2016书单总结
- lucene学习第二篇
- 2016书单总结--Java并发编程实战--安全性-活跃性示例
- 2016书单总结--JVM虚拟机之概述篇
- Lucene-基础篇
- 2016书单总结--Java网络编程
- 实战 Lucene
- 实战 Lucene
- lucene实战
- Lucene实战
- lucene实战
- 【Lucene实战】初始Lucene
- 书单(一)JavaScript从入门到精通(第二版)
- JVM-GC总结-配置实战--第二发
- JVM-GC总结-配置实战--第二发
- 467. Unique Substrings in Wraparound String -Medium
- 算法训练 Anagrams问题
- WinXP升级IE6至IE8以及WIN7下IE8升级至IE11
- 面试题18:树的子结构
- Scanner 方便地截取String中各种数据类型
- 2016书单总结--Lucene实战(第二版)--基础篇
- python解析格式文件
- Nginx系列之常用内置变量
- uva 11584 - Partitioning by Palindromes(简单dp)
- 微信小程序使用三元运算符代替wx:if
- openstack Neutron源码分析(三)------linuxbridge-agent
- java volatile变量
- 【HDU1693】Eat the Trees(插头DP)
- 面试题19:二叉树的镜像