Lucene和Nutch的文章荟萃

来源:互联网 发布:淘宝客服聊天表情包 编辑:程序博客网 时间:2024/04/28 12:43

 

Nutch 初体验

很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。

 

2.Tutorial (0.8.x)

这里是官方的那个文档,补全了少的那一步。

否则出现后果为
Fetcher: segment: info/segments/20061207221006
Fetcher: threads: 4
fetching http://student.ustb.edu.cn/
fetch of http://student.ustb.edu.cn/ failed with: java.lang.NullPointerException
Fetcher: do

看这个一可以解决问题

http://lucene.apache.org/nutch/tutorial8.html

 

3。Nutch 初体验之二

讲了一些nutch全网crawl的东西,其实这些都可以在nutch的wiki里找到!就是那里是英文,不太舒服!这个文章挺不错得!

 

4。NutchWindows中安装之细解

主要是说Cygwin的安装,Cygwin是个挺好的东西,建议大家即使不用Nutch也装一个,因为用bash确实很爽!

 

5。nutch中文分词

http://www.rxiao.com/blog/article.asp?id=138

 

Nutch 实战:介绍了开源搜索引擎 Nutch 的基本信息,详细说明了在 Eclispe 下运行 Nutch 的步骤和需要注意的问题,还分析了部分源代码。很好的文章

http://www.ibm.com/developerworks/cn/opensource/os-cn-nutchintro

原创粉丝点击