Lucene参考资料
来源:互联网 发布:mac finder 获取路径 编辑:程序博客网 时间:2024/06/07 03:17
http://www.ibm.com/developerworks/cn/views/java/libraryview.jsp
搜索关键字lucene
使用 Apache Lucene 和 Solr 进行位置感知搜索
http://www.ibm.com/developerworks/cn/java/j-spatial/index.html
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户.
Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的 费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有 动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.
Nutch目前最新的版本为version2.1。
一.概述:
什么是Lucene
全文检索系统的结构
Lucene能做什么
为什么使用Lucene
Lucene只关注文本的索引和搜索
索引库结构—倒排序索引
基于Lucene的搜索程序例子
Nutch
开源搜索引擎列表
全球商用搜索市场
几种常见的基于Lucene的开源搜索解决方案对比
Lucene倒排索引原理
Lucene基本开发环境配置-样例项目概览
快速浏览demo
二、Lucene系统架构
Lucene系统结构
Lucene包结构功能表
Lucene的主要逻辑图
查询逻辑
入库逻辑
理解核心索引类
IndexWriter
Directory
Analyzer
Document
Field
静态内部类
关于Field的重要说明
项目实战动手演练
三、 Lucene索引里有什么
什么是索引 index
Lucene索引的术语定义
倒排索引(inverted indexing)
Fields的种类
片断(segments)
文档编号(document numbers)
索引结构概述
Lucene src自带样例代码
Lucene索引的目录结构
四、Lucene索引深入
Lucene索引的目录结构
索引文件后缀名说明
segments.gen, segments_N;write.lock;.si;.cfs, .cfe ;
fnm;dex .fdx;.fdt;.tim;.tip;.doc;.pos;.pay;.nvd, .nvm;.dvd, .dvm;.tvx;.tvd;.tvf;.del
当前版本索引的限制
索引文件可放的位置
五、 Lucene索引深入优化
索引的合并
索引优化的部分技巧
六、Lucene索引搜索及实战
理解核心搜索类
IndexSearcher
基本Search方法
代码实战
Term
TermQuery
Hits 返回的命中结果
关键词搜索的大致过程
Query
BooleanQuery布尔搜索
TermRangeQuery范围搜索
NumericRangeQuery范围搜索
PrefixQuery 前缀搜索
PhraseQuery短语搜索
MultiPhraseQuery多短语搜索
FuzzyQuery模糊搜索
WildcardQuery通配符搜索
RegexpQuery正则表达式搜索
正则表达式语法
SpanQuery跨度搜索
十二、Lucene搜索深入实战进阶
QueryParser语法
一、Terms,Fields
二、Term操作符
三、模糊查询,范围查询
四、优先级
十五、Lucene高级进阶
在索引中清除Document
maxDoc()和numDocs()
更新索引中的Document
分页搜索的实现
十八、 Lucene排序
Lucene默认按照文档得分进行排序
explain方法
加分
sort排序
十九、Lucene过滤
内置的过滤器
org.apache.lucene.search.Filter 提供了几个内置的过滤器
Direct Known Subclasses:
CachingWrapperFilter,DocTermOrdsRangeFilter,?FieldCacheRangeFilter,FieldCacheTermsFilter,?FieldValueFilter,?MultiTermQueryWrapperFilter,QueryWrapperFilter
FieldCacheRangeFilter
二十、Lucene分词器
英文分析器比较
SimpleAnalyzer; StopAnalyzer; StandardAnalyzer
中文分词器IK Analyzer 2012介绍
IK Analyzer 2012特性
IK Analyzer 2012分词效果示例
IK Analyzer 2012下载包内容
高亮工具包
二十三、Lucene项目实战 9课时
某大型企业信息化系统中 某某文档中心管理系统
实现上传并解析全文检索各种文件类型
上传并解析各种格式的内容文档:(.txt,.pdf,.doc,.xls,.docx,.xlsx,.htm……)
apache Tika – 文档解析工具包
org.apache.tika.parser.autoDetectParser
文件上传工具包使用实战
org.apache.commons.fileupload
实现代码功能:
文件上传,
org.apache.commons.fileupload.servlet
实现文件上传并建立索引
文件下载,
实现文件点击下载
文件管理:文件删除,
目录管理,目录的增加、修改、删除
全文检索:
实现全文检索分页,
类似baidu的分页实现
全文检索上下文实现摘要
org.apache.lucene.search.highlight.*
下载地址:http://yunpan.cn/QXLCTt2A4w7QB
教程来源于:http://www.ibeifeng.com/goods.php?u=91234&id=336
- Lucene参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- 参考资料
- lucene
- veeam 6.5 添加vmware exsi 主机没输入用户名和密码框解决方法
- Hadoop: the definitive guide 第三版 拾遗 第十二章 之HiveQL命令大全
- 在c#中使用servicestackredis操作redis
- Hibernate中Criteria的完整用法
- 一些试用的sql
- Lucene参考资料
- 拔打电话 (IPAD, IPOD, 模拟器 显示没有打电话功能)
- Nginx 中使用 Memcached
- 关于python的单例模式
- wireshark 如何写过滤规则
- android 编译出错
- c++下list在遍历时删除节点的方法
- 如何检索Android设备的唯一ID
- hdu 4619 匈牙利算法 求最大匹配 2013 Multi-University Training Contest 2