hadoop完全分布式过程中遇到的一些问题和总结

来源：互联网发布：中国制造业数据编辑：程序博客网时间：2024/05/18 19:42

最近接触在配置nutch，接触到一些hadoop方面的知识，自己想配置一个完全分布式的hadoop系统，配置过程中遇到了很多的问题，这里将自己遇到的问题进行总结一下。

（1）首先是Exception in thread "main" java.io.IOException: Call to /XXX.XXX.XX.XXX:9000 failed on local exception: java.io.EOFException。该问题是由于9000端口被使用造成的，因为全面配置nutch的时候占用的9000端口，所以运行程序的时候出现了这个问题。可以将配置文件core-sites.xml文件的fs.default.name端口改为其他值。

（2）系统在配置过程中遇到不能登录本地机器的情况，本以为本机登录本机不需要设置，但是这是错误的想法，要想本机无密码登录本地机器，也需要对本地机器进行无密码ssh设置。

下面介绍一下昨天看hadoop权威指南的一下收获：

（1）首先reduce输出路径在任务运行前应该不存在，这样设计的目的是为了防止结果被覆盖。

（2）map和reduce输出类型相同，都有setoutputkeyclass和setOutputValueClass指定。

（3）关于配置文件，core-site.xml配置文件负责配置Common组建属性，hdfs-site.xml配置问津啊负责配置hdfs属性，mapred-site.xml配置文件负责MapReduce属性配置。

（4）配置ssh要确保用户能够无密码登录本地机器。

（5）HDFS的意思是分布式文件系统。

（6）hadoop是基于数据流的程序驱动运行过程。

（7）hadoop分布式运行的关键是如何正确配置属性和正确运行守护程序。