MapReducer程序调试技巧(搭建伪分布式集群)

来源：互联网发布：网络文员兼职编辑：程序博客网时间：2024/05/22 15:54

写过程序分布式代码的人都知道，分布式的程序是比较难以调试的，但是也不是不可以调试，对于Hadoop分布式集群来说，在其上面运行的是mapreduce程序，因此，有时候写好了mapreduce程序之后，执行结果发现跟自己想要的结果不一样，但是有没有报错，此时就很难发现问题，查找问题的方法之一就是对程序进行调试，跟踪代码的执行，找出问题的所在。那么对于Hadoop的Mapreduce是如何进行调试的呢？

　　毫无疑问当然是借助eclipse这个强大的工具。具体方式如下：

　　说明：由于公司服务器上部署的是Cloudera CDH5.4.4，在网上找了很多资料，没有发现CDH5.4.4相关的eclipse插件，这可难倒我了。网上搜索很多人有跟我一样的困境。但是在Apache Hadoop版本下就是不存在这样的问题，对于这个问题，我暂时的解决方案是在本地搭建一个伪分布式的Apache Hadoop的集群。这个伪分布式集群就是用来给我的调试程序使用。当我们当程序调试好了，再直接导入到CDH版本的工程中即可。

　　1、搭建Apache Hadoop的伪分布式集群，这个问题请参考如下：

　　　　http://www.cnblogs.com/ljy2013/articles/4295341.html

　　2、在Apache Hadoop的版本中如何编译插件？这个问题请参考如下：

　　　　http://www.cnblogs.com/ljy2013/articles/4417933.html

　　3、通过步骤2，我们已经可以创建Mapreduce程序了，下面实战一下。

　　　　（1）打开eclipse集成开发环境的工具

　　　　（2）安装步骤2方式，添加hadoop的安装目录。并添加Mapreduce的tools。

　　　　（3）编辑MapReduce tools，输入本地部署的伪分布式的集群的主机名和端口。如下图所示：