hadoop完全分布式过程中遇到的一些问题和总结

来源:互联网 发布:中国制造业数据 编辑:程序博客网 时间:2024/05/18 19:42

最近接触在配置nutch,接触到一些hadoop方面的知识,自己想配置一个完全分布式的hadoop系统,配置过程中遇到了很多的问题,这里将自己遇到的问题进行总结一下。

(1)首先是Exception in thread "main" java.io.IOException: Call to /XXX.XXX.XX.XXX:9000 failed on local exception: java.io.EOFException。该问题是由于9000端口被使用造成的,因为全面配置nutch的时候占用的9000端口,所以运行程序的时候出现了这个问题。可以将配置文件core-sites.xml文件的fs.default.name端口改为其他值。

(2)系统在配置过程中遇到不能登录本地机器的情况,本以为本机登录本机不需要设置,但是这是错误的想法,要想本机无密码登录本地机器,也需要对本地机器进行无密码ssh设置。

下面介绍一下昨天看hadoop权威指南的一下收获:

(1)首先reduce输出路径在任务运行前应该不存在,这样设计的目的是为了防止结果被覆盖。

(2)map和reduce输出类型相同,都有setoutputkeyclass和setOutputValueClass指定。

(3)关于配置文件,core-site.xml配置文件负责配置Common组建属性,hdfs-site.xml配置问津啊负责配置hdfs属性,mapred-site.xml配置文件负责MapReduce属性配置。

(4)配置ssh要确保用户能够无密码登录本地机器。

(5)HDFS的意思是分布式文件系统。

(6)hadoop是基于数据流的程序驱动运行过程。

(7)hadoop分布式运行的关键是如何正确配置属性和正确运行守护程序。