国内首套Lucene4.X实战类baidu搜索的大型文档海量搜索系统(分词、过滤、排序、索引)

来源:互联网 发布:highlight.js设置语言 编辑:程序博客网 时间:2024/04/29 09:49
我这里有套课程想和大家分享,需要的朋友可以加我qq和我联系。QQ2059055336. 


课程简介:

          Lucene是一个高性能、可伸缩的信息搜索(IR)库。目前最新版本是4.3.1. 它可以为你的应用程序添加索引和搜索能力。Lucene是用java实现的、成熟的开源项目,是著名的Apache Jakarta大家庭的一员,并且基于Apache软件许可 [ASF, License]。同样,Lucene是当前非常流行的、免费的Java信息搜索(IR)库。 面对已经存在的商业全文检索引擎,Lucene也具有相当的优势 ,后,转移到apache软件基金会后,借助于apache软件基金会的网络平台,程序员可以方便的和开发者、其它程序员交流,促成资源的共享,甚至直接获得已经编写完备的扩充功能。最后,虽然Lucene使用Java语言写成,但是开放源代码社区的程序员正在不懈的将之使用各种传统语言实现(例如.net framework[14]),在遵守Lucene索引文件格式的基础上,使得Lucene能够运行在各种各样的平台上,系统管理员可以根据当前的平台适合的语言来合理的选择。 

         本课程由浅入深的介绍了Lucene4的发展历史,开发环境搭建,分析lucene4的中文分词原理,深入讲了lucenne4的系统架构,分析lucene4索引实现原理及性能优化,了解关于lucene4的搜索算法优化及利用java结合lucene4实现类百度文库的全文检索功能等相对高端实用的内容,市面上一般很难找到同类具有相同深度与广度的视频,集原理、基础、案例与实战与一身,不可多得的一部高端视频教程。

关健字:Lucene、全文搜索、中文分词、全文检索引擎 、文本分析、网页爬虫、网络小偷


课程的特点:


 
 
        特点一、在每节开始之前先简单回顾上一节所讲的主要内容,并对本节所讲的内容先进行概述,讲解概念、技术要点,设计实现思路等内容,最后总结本次课程的要掌握的要点。
 
        特点二、每讲解一次理论课后都会讲解一个实例代码,帮助大家理解理论知识,详细讲解代码如何实现的以及编程过程中注意的问题。
 
        特点三、学习的过程中学员要理论和实践相结合,讲过的代码学员自行完成修改和调试,以巩固加深学习效果。

亮点一先进:国内首套 Lucene4.x 的 深入实战课程,Lucene4技术已经进入4.x时代,3.x的很多都已过时,所以要及时更新知识和经验系统学习该课程。


亮点二基础实用:课程内容在演练过程中重点介绍各种细节,保证初级人员快速入门及高级进阶。


亮点三神奇:万能文档格式解析,非传统方式解析各种文档格式(.txt,.pdf,.doc,.xls,.docx,.xlsx,.htm……),而是采用Apache Tika – 文档解析工具包,国内绝对看不到任何技术文档,掌握了该技术,没有解析不了的文档格式了,迅速成为神奇的技术牛人。

亮点四经验: 讲师tom5技术背景雄厚, 国内某大型IT视频网站CTO,多年研发平台,众多大型网站及移动应用平台架构经验,并拥有多年的IT培训经验及企业内训经历。

课程所针对的人群:

         本课程即是针对想快速学习并了解并深入luncen4搜索引擎开发,并且希望应用到自身的项目中去但自身java基础不是很好,自学能力不是很强的学员。有做类“百度文库”,” 豆丁网”、”校本资源库“,涉及到文章文本大字段数据查找及存储类的项目的,均适合学习本课程。本课程所使用的技术虽相对高端,但讲解的起点比较低,照顾到基础不是很好的同学,视频教程针对用户要求只要有java基础即可。

0 0