Centos7安装配置Apache Nutch 1.12

来源:互联网 发布:淘宝丝袜买家晒图 编辑:程序博客网 时间:2024/04/28 05:59

第一步:安装

安装步骤比较简单

1、登录apache nutch网站,下载bin包

2、解压到centos的指定目录,如/opt/apache-nutch-1.12

3、进入安装路径/opt/apache-nutch-1.12,执行bin/nutch,如果提示如下图所示,表示正确安装



第二步:配置&执行

注意:Nutch从1.9版本开始,将crawl做成了一个独立的命令,不再集成到nutch命令中了。配置上也和早期版本有些区别,如果配置错误,启动爬虫job时会出错。

1、修改Nuthc安装目录下:conf/nutch-site.xml,在<configuration></configuration>之间增加如下配置


2、在Nutch安装目录下创建urls目录,并在其中创建seed.txt文件,将要爬的网站的名称写到seed.txt中。注意,网站最后要加/。如需要写成http://www.baidu.com/这种形式。

3、在Nutch安装目录下创建result目录,放置爬虫爬下来的结果数据。改路径不一定要放到Nutch安装目录下,也可以放到其他任意目录下。

4、执行如下命令:bin/crawl urls result 5,Nutch会启动爬虫对seed.txt中保存的所有网站进行数据爬取。爬取深度为5,结果放到result目录下。

5、爬虫执行完成后,可以通过如下命令来查看结果:bin/nutch readdb result/crawldb/ -stats。结果如下图所示:



其他说明

网上对Nutch1.9以前版本的使用说明介绍很多,但是从1.9版本开始,配置做了不小的调整。如果按照1.9之前版本的配置启动crawl,会出现job run失败的错误。
如:早期版本需要配置conf/regex-urlfilter.txt,通过该文件配置对哪些网站的哪些二级域名等进行爬取。1.9以后的版本无需配置该项,而且如果配置了,就会出现如下的错误。

nutch java.io.IOException: Job failed!  



0 0
原创粉丝点击