初识Lucene(Lucene可以做什么?)

来源:互联网 发布:淘宝助请选择发货网点 编辑:程序博客网 时间:2024/05/03 15:59
1.获取内容(Acquire Content)
Lucene不提供爬虫功能,如果需要获取内容需要自己建立爬虫应用。
Lucene只做索引和搜索工作。
2.建立文档(Build Document)
文档通常由一个个域(fields)组成,例如:标题,正文,摘要等。
需要保证文档的格式一致(如都为txt格式)
在此过程中可以通过语义分析来使要保存的文档更加精炼,也可以通过加权值来决定域和文档是否重要。
可以再建立索引的时候加权值,也可以在搜索的时候加权值。
3.分析文档(Analyze Document)
解决如果控制符合单词,解决拼写错误,是否关联同义词,是否折叠单数复数形式。
是否保留结果的偏差,当非拉丁语表示的语言,如何辨别词。
4.建立文档索引(Index Document)
5.搜索
支持单个或者符合查询,短语查询,通配符,模糊查询,结果排序
支持对错误拼写矫正等
6建立查询(Build Query)
7.检索查询(Search Query)
8返回结果(Rednder Results)

用户界面

管理员界面
管理员要设置起始URL,建立爬虫访问的范围和加载什么类型的文件,设置访问文件时间等
开关服务,检测全部系统是否正常,建立或者从备份中恢复数据。
分析界面

Solr作为Apache的子项目,添加了一些服务。比如提供管理员接口,扩展,从数据库中获取索引内容,
添加重要的用户端功能,如:分面导航。

Nutch是一个网络爬虫,也有各种各样的工具可以用来构建一个完整的搜索应用。

一般来说Lucene可以对.txt文档做索引
如果要对其他一般的文档做索引可以用Tika




原创粉丝点击