Centos7安装配置Apache Nutch 1.12
来源:互联网 发布:淘宝丝袜买家晒图 编辑:程序博客网 时间:2024/04/28 05:59
第一步:安装
安装步骤比较简单
1、登录apache nutch网站,下载bin包
2、解压到centos的指定目录,如/opt/apache-nutch-1.12
3、进入安装路径/opt/apache-nutch-1.12,执行bin/nutch,如果提示如下图所示,表示正确安装
第二步:配置&执行
注意:Nutch从1.9版本开始,将crawl做成了一个独立的命令,不再集成到nutch命令中了。配置上也和早期版本有些区别,如果配置错误,启动爬虫job时会出错。
1、修改Nuthc安装目录下:conf/nutch-site.xml,在<configuration></configuration>之间增加如下配置
2、在Nutch安装目录下创建urls目录,并在其中创建seed.txt文件,将要爬的网站的名称写到seed.txt中。注意,网站最后要加/。如需要写成http://www.baidu.com/这种形式。
3、在Nutch安装目录下创建result目录,放置爬虫爬下来的结果数据。改路径不一定要放到Nutch安装目录下,也可以放到其他任意目录下。
4、执行如下命令:bin/crawl urls result 5,Nutch会启动爬虫对seed.txt中保存的所有网站进行数据爬取。爬取深度为5,结果放到result目录下。
5、爬虫执行完成后,可以通过如下命令来查看结果:bin/nutch readdb result/crawldb/ -stats。结果如下图所示:
其他说明
网上对Nutch1.9以前版本的使用说明介绍很多,但是从1.9版本开始,配置做了不小的调整。如果按照1.9之前版本的配置启动crawl,会出现job run失败的错误。
如:早期版本需要配置conf/regex-urlfilter.txt,通过该文件配置对哪些网站的哪些二级域名等进行爬取。1.9以后的版本无需配置该项,而且如果配置了,就会出现如下的错误。
0 0
- Centos7安装配置Apache Nutch 1.12
- [Nutch]Apache Solr的安装和配置
- centos7安装配置apache/httpd
- 【Apache Nutch系列】Nutch2.0配置安装异常集锦
- php 在centos7 apache中的安装配置
- centos7 yum安装配置apache+php+mysql
- Centos7安装配置Apache+PHP+Mysql+phpmyadmin
- centos7安装和配置apache服务
- Centos7安装配置Apache+PHP+Mysql+phpmyadmin
- centOS7下Apache服务器安装与配置
- Centos7安装配置Apache+PHP+Mysql+phpmyadmin
- nutch安装及配置
- Apache Nutch 1.7 单机安装
- apache-nutch-1.10 安装笔记
- CentOS7配置AMP安装配置(Apache + MySQL + PHP)
- centos7编译安装apache
- centos7下安装Apache
- Centos7 源码安装 Apache
- 数据库触发器
- java编程自学记录(day12)
- iOS小团队创业经验分享
- Apache2.2.4 + Tomcat7集群配置
- 三步实现jQuery方式处理事件
- Centos7安装配置Apache Nutch 1.12
- ListView滑动删除实现之四——Scroller类与listview缓慢滑动
- JavaEE框架——hibernate的使用(关于hibernate事务的必须开启的问题)
- 番茄助手快速添加注释+快捷键
- Jsessionid的误区
- Android-优化不同版本系统WebView版本兼容性问题
- 医疗商务通
- iOS开发的经典博客和文章汇总
- Arithmetic problem | 单词接龙 II