Lucene参考资料

来源:互联网 发布:mac finder 获取路径 编辑:程序博客网 时间:2024/06/07 03:17
IBM文档库
http://www.ibm.com/developerworks/cn/views/java/libraryview.jsp
搜索关键字lucene

使用 Apache Lucene 和 Solr 进行位置感知搜索

http://www.ibm.com/developerworks/cn/java/j-spatial/index.html


Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户.

Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的 费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有 动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.

Nutch目前最新的版本为version2.1。


一.概述:
      什么是Lucene
                    全文检索系统的结构
                    Lucene能做什么
                    为什么使用Lucene
                    Lucene只关注文本的索引和搜索
                    索引库结构—倒排序索引
                    基于Lucene的搜索程序例子
       Nutch
                     开源搜索引擎列表
                     全球商用搜索市场
                    几种常见的基于Lucene的开源搜索解决方案对比
                     Lucene倒排索引原理
                     Lucene基本开发环境配置-样例项目概览
                     快速浏览demo

二、Lucene系统架构
                      Lucene系统结构
                      Lucene包结构功能表
                      Lucene的主要逻辑图
                      查询逻辑
                     入库逻辑
                      理解核心索引类
             IndexWriter
             Directory
             Analyzer
             Document
             Field
                     静态内部类
                     关于Field的重要说明
                     项目实战动手演练

三、 Lucene索引里有什么
                     什么是索引 index
                     Lucene索引的术语定义
                     倒排索引(inverted indexing)
                     Fields的种类
                     片断(segments)
                     文档编号(document numbers)
                     索引结构概述
                    Lucene src自带样例代码
                    Lucene索引的目录结构

四、Lucene索引深入
                     Lucene索引的目录结构
                     索引文件后缀名说明
                    segments.gen, segments_N;write.lock;.si;.cfs, .cfe ;
                    fnm;dex .fdx;.fdt;.tim;.tip;.doc;.pos;.pay;.nvd, .nvm;.dvd, .dvm;.tvx;.tvd;.tvf;.del
                    当前版本索引的限制
                    索引文件可放的位置

五、 Lucene索引深入优化
                     索引的合并
                     索引优化的部分技巧

六、Lucene索引搜索及实战
                     理解核心搜索类
                     IndexSearcher
                     基本Search方法
                     代码实战
                     Term
                     TermQuery
                     Hits 返回的命中结果
                     关键词搜索的大致过程
                     Query
                     BooleanQuery布尔搜索
                     TermRangeQuery范围搜索
                     NumericRangeQuery范围搜索
                     PrefixQuery 前缀搜索
                     PhraseQuery短语搜索
                     MultiPhraseQuery多短语搜索
                     FuzzyQuery模糊搜索
                     WildcardQuery通配符搜索
                     RegexpQuery正则表达式搜索
                     正则表达式语法
                     SpanQuery跨度搜索

十二、Lucene搜索深入实战进阶
                       QueryParser语法
      一、Terms,Fields
      二、Term操作符  
      三、模糊查询,范围查询
      四、优先级

十五、Lucene高级进阶
                        在索引中清除Document
                        maxDoc()和numDocs()
                        更新索引中的Document
                       分页搜索的实现

十八、 Lucene排序
                         Lucene默认按照文档得分进行排序
                         explain方法
                          加分
                          sort排序

十九、Lucene过滤
                         内置的过滤器
                         org.apache.lucene.search.Filter 提供了几个内置的过滤器
                         Direct Known Subclasses:
                         CachingWrapperFilter,DocTermOrdsRangeFilter,?FieldCacheRangeFilter,FieldCacheTermsFilter,?FieldValueFilter,?MultiTermQueryWrapperFilter,QueryWrapperFilter
                         FieldCacheRangeFilter

二十、Lucene分词器
                         英文分析器比较
                         SimpleAnalyzer; StopAnalyzer; StandardAnalyzer
                          中文分词器IK Analyzer 2012介绍
                          IK Analyzer 2012特性
                          IK Analyzer 2012分词效果示例
                          IK Analyzer 2012下载包内容
                          高亮工具包

二十三、Lucene项目实战   9课时

                            某大型企业信息化系统中 某某文档中心管理系统

             实现上传并解析全文检索各种文件类型

           上传并解析各种格式的内容文档:(.txt,.pdf,.doc,.xls,.docx,.xlsx,.htm……)

             apache Tika – 文档解析工具包
            org.apache.tika.parser.autoDetectParser
             文件上传工具包使用实战
    org.apache.commons.fileupload
实现代码功能:
              文件上传,
      org.apache.commons.fileupload.servlet
      实现文件上传并建立索引
文件下载,
        实现文件点击下载
                文件管理:文件删除,
                目录管理,目录的增加、修改、删除
全文检索:
       实现全文检索分页,
类似baidu的分页实现
         全文检索上下文实现摘要
org.apache.lucene.search.highlight.*


下载地址:http://yunpan.cn/QXLCTt2A4w7QB


教程来源于:http://www.ibeifeng.com/goods.php?u=91234&id=336

原创粉丝点击