Ubuntu 12.04 nutch 2.3.1 出现问题总结
来源:互联网 发布:关闭miui优化有好处吗 编辑:程序博客网 时间:2024/06/08 17:33
在安装使用nutch的过程中我遇到了不少问题,我使用的平台是Ubuntu 12.04 32位,nutch安装环境为jdk1.8.0_121,hbase0.98.8,solr4.10.3。
参考博客为:
1、http://blog.csdn.net/freedomboy319/article/details/44172277
2、http://blog.csdn.net/a973893384/article/details/49666063
目前已经基本安装成功,但是在抓取时还是会出现一些问题:
IndexingJob: done.SOLR dedup -> http://localhost:8983/solr~/lab1/NUTCH_HOME/runtime/local/bin/nutch solrdedup -D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D mapred.reduce.tasks.speculative.execution=false -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true http://localhost:8983/solrSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:~/lab1/NUTCH_HOME/runtime/local/lib/slf4j-log4j12-1.6.4.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding in [jar:file:~/lab1/NUTCH_HOME/runtime/local/lib/slf4j-log4j12-1.6.6.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.Exception in thread "main" java.lang.RuntimeException: job failed: name=apache-nutch-2.3.1.jar, jobid=job_local365318350_0001 at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:120) at org.apache.nutch.indexer.solr.SolrDeleteDuplicates.dedup(SolrDeleteDuplicates.java:383) at org.apache.nutch.indexer.solr.SolrDeleteDuplicates.run(SolrDeleteDuplicates.java:393) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.indexer.solr.SolrDeleteDuplicates.main(SolrDeleteDuplicates.java:403)Error running: ~/lab1/NUTCH_HOME/runtime/local/bin/nutch solrdedup -D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D mapred.reduce.tasks.speculative.execution=false -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true http://localhost:8983/solrFailed with exit value 1.
经过查询发现是有SLF4J冲突文件,只要删除其中一个冲突问题就解决了,也可以正常爬到数据。
但是index还是无法建立,在同一个地方继续报错,所以需要改进
SOLR dedup -> http://localhost:8983/solr//home/silvia/lab1/NUTCH_HOME/runtime/local/bin/nutch solrdedup -D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D mapred.reduce.tasks.speculative.execution=false -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true http://localhost:8983/solr/Exception in thread "main" java.lang.RuntimeException: job failed: name=apache-nutch-2.3.1.jar, jobid=job_local2020123009_0001 at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:120) at org.apache.nutch.indexer.solr.SolrDeleteDuplicates.dedup(SolrDeleteDuplicates.java:383) at org.apache.nutch.indexer.solr.SolrDeleteDuplicates.run(SolrDeleteDuplicates.java:393) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.indexer.solr.SolrDeleteDuplicates.main(SolrDeleteDuplicates.java:403)Error running: /home/silvia/lab1/NUTCH_HOME/runtime/local/bin/nutch solrdedup -D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D mapred.reduce.tasks.speculative.execution=false -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true http://localhost:8983/solr/Failed with exit value 1.
待更新。。。
1 0
- Ubuntu 12.04 nutch 2.3.1 出现问题总结
- nutch单元测试出现问题。
- nutch爬去是出现NullPointException问题
- ubuntu 使用中常出现的问题总结
- nutch运行问题1
- Ubuntu nutch
- ubuntu下编译Android出现的问题 总结
- 安装Ubuntu 16.04出现的各种坑爹问题总结
- VMware虚拟机中安装Ubuntu 出现问题总结统计
- nutch recrawl中出现的问题及解决
- Ubuntu 12.04 安装出现的问题
- Ubuntu中出现libz.so.1问题
- ubuntu 启动出现问题
- Ubuntu出现问题
- Win8和ubuntu双系统,直接删除ubuntu后出现的问题总结和解决
- 话机出现问题总结
- Echarts出现问题总结
- Nutch 使用总结
- 玩转EXCEL系列-关于打印那些事
- 基础知识—数据类型-数据类型
- CEPHFS 在集群中使用
- PID490 / [NOI1995] 石子合并 [入门区间dp]
- linux读写锁
- Ubuntu 12.04 nutch 2.3.1 出现问题总结
- java国际化文件的存放位置
- Python爬虫系列之----Scrapy(八)爬取豆瓣读书某个tag下的所有书籍并保存到Mysql数据库中去
- 一些基础的数据库优化
- mvn不同环境打不同的包
- 自然语言处理系列之隐马尔可夫模型(HMM)
- innodb undo--update undo log补充信息1
- 05:吃糖果
- JDBC数据库访问Demo