nutch配置问题

来源:互联网 发布:蛮荒之怒翅膀进阶数据 编辑:程序博客网 时间:2024/06/10 19:50

 使用的是nutch 1.3的版本

基本配置和安装,根据官网tutorial的内容即可了。

http://wiki.apache.org/nutch/NutchTutorial

要点说明:需要配置nutch-site.xml。具体属性项可以参考nutch-default.xml

http://wiki.apache.org/nutch/RunNutchInEclipse

 

主要遇到以下的问题:

Exception in thread "main" java.io.IOException: Job failed!
 at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
 at org.apache.nutch.crawl.Injector.inject(Injector.java:217)
 at org.apache.nutch.crawl.Crawl.run(Crawl.java:126)
 at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
 at org.apache.nutch.crawl.Crawl.main(Crawl.java:54)

 

参看nutch 1.3目录下的logs目录下的hadoop.log有这么这么一段:

2011-08-10 19:29:40,039 WARN  mapred.LocalJobRunner - job_local_0001
java.lang.OutOfMemoryError: Java heap space

 

得知虚拟机的默认内存不够,需要在jvm argument中,加上这么一句:

-Xmx500m

 

成功!!!!!!!!!!!!

原创粉丝点击