Nutch,hadoop错误及处理

来源:互联网 发布:sas数据分析 编辑:程序博客网 时间:2024/04/30 09:39

1.Nutch在eclipse中调试时,除了参考nutchtutorial(http://wiki.apache.org/nutch/NutchTutorial#A4._Setup_Solr_for_search)中配置,还要注意nutch-default.xml中plugin.folder属性的设置(与工程中相应的plugin文件夹一致,例:./src/plugin),否则或出现找不到plugin的错误。当然运行nutch-bin的时候就要使用默认设置,无须更改。

2.Nutch在eclipse中调试时,我曾经遇到expecting a line not the end of stream的错误,参考http://blog.csdn.net/a221133/article/details/6912573帖子中的处理方法,将eclipse公共环境中的编码选项调整为ascii后正确运行。怀疑是nutch支持的编码的问题。

3.hadoop每次运行start-all.sh后,无法访问localhost:50070,如果在运行start-all.sh之前运行hadoop namenode -format将hdfs格式化后则可以访问。

4.nutch在伪分布模式的hadoop上运行时,按照帖子http://lykke.iteye.com/blog/1155120的配置,出现fetcher:no agents listed in "http.agent.name"的错误,然后参考帖子http://gstarwd.iteye.com/blog/744647设置后仍然出错,最后参考http://wiki.apache.org/nutch/NutchHadoopTutorial将nutch/conf下相应的配置文件拷贝到hadoop/conf下后成功运行。

原创粉丝点击