Hadoop本地开发环境搭建

来源:互联网 发布:淘宝嘉年华公告是什么 编辑:程序博客网 时间:2024/06/05 20:21

1.     概述

在此处指的Hadoop开发主要是指MapReduce方面,通过Hadoop的Eclipse插件及在Eclipse中配置,就可以达到在本地连接远程服务器进行MapReduce的开发、运行。

2.     准备

Ø  Hadoop下载

在搭建之前,必须先下载一个Hadoop版本,在这里我们使用Hadoop-1.0.0,官方网址为:

http://hadoop.apache.org/

下载hadoop-1.0.0.tar.gz然后解压开来为hadoop-1.0.0,这个根目录也是在之后的配置中需要用到的。

Ø  Hadoop插件下载

插件hadoop-eclipse-plugin-1.0.0.jar是从网上找的一款,另外也可以编译

hadoop-1.0.0\src\contrib\eclipse-plugin工程得到,插件下载地址为:

http://u.zihou.me/viewfile.php?file_id=38

将下载的插件放入\MyEclipse 9\dropins目录,然后重启MyEclipse即可,启动MyEclipse后,如果安装成功,选择Windows->Open Perspective,会弹出如下图,可以见到Map/Reduce项(注:Eclipse也是如此)。

3.     配置

新创建一个工程,选择File->New->Project…,弹出如下图:

选中“Map/Reduce Project”,然后下一步:

输入工程名称,点“Configure Hadoop install directory”链接,弹出窗口:

在这里的Hadoop installation directory的目录为我们解压开来的Hadoop根目录,点确定完成。

在Eclipse中会出现刚才新创建的工程:

工程会自动将Hadoop-1.0.0根目录下的Jar包导入进来。

4.     运行

有两个类User org.apache.hadoop.security.User、org.apache.hadoop.fs.FileUtil需要修改一下,主要是为了取消Windows环境下不必要的权限验证和远程服务器和本地用户名不一致的问题。

将org.apache.hadoop.fs.FileUtil中的方法private static void checkReturnValue中的代码注释掉,在public User(String name, AuthenticationMethod authMethod, LoginContext login)中,直接将变量name的值设为远程服务器创建hadoop服务的用户名,如果你本地的用户名和远程服务器的用户名不一致的话,如name = “root”;

工程中的src/examples/WordCount.java是Hadoop自带的一个MapReduce例子,我们可以通过运行这个例子来看我们本地开发环境是否搭建正确。

运行WordCount,选择Run as -> Run on Hadoop,弹出一个窗口,如果是初次运行,需要先定义一个新的Hadoop服务,如果是已经配置过了的,则从下面的列表中选择即可。点下一步:

其中,Map/Reduce Master的地址和端口和远程服务器上Hadoop配置文件mapred-site.xml里的mapred.job.tracker配置一致,在这里为21.24.108.84(也就是master的地址)和9001.

DFS Master的地址和端口需要和远程服务器上Hadoop配置文件core-site.xml里的fs.default.name一致,在这里为21.24.108.84和9000.

然后点Advanced parameters标签,修改如下属性:

mapred.task.tracker.http.address改为:21.24.108.84:50060

mapred.job.tracker.http.address改为:21.24.108.84:50030

然后点完成,结束配置。

运行后,如果报错:

Exception in thread “main” org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory output already exists

那是因为MapReduce的输出目录已经存在,MapReduce的机制为了保证正在运行中的数据不被覆盖,所以在运行时只能是新创建一个输出目录,如果已经存在的话会不让执行。

进入远程Hadoop/bin目录,通过命令./hadoop fs -rmr output删除存在的目录,然后再次运行WordCount.java,在控制端会打印出运行信息,如:

12/05/15 16:03:36 INFO mapred.JobClient:  map 100% reduce 0%

12/05/15 16:03:38 INFO mapred.LocalJobRunner:

12/05/15 16:03:38 INFO mapred.Task: Task ‘attempt_local_0001_m_000001_0′ done.

12/05/15 16:03:38 INFO mapred.Task:  Using ResourceCalculatorPlugin : null

12/05/15 16:03:38 INFO mapred.LocalJobRunner:

12/05/15 16:03:38 INFO mapred.Merger: Merging 2 sorted segments

12/05/15 16:03:38 INFO mapred.Merger: Down to the last merge-pass, with 2 segments left of total size: 77 bytes

12/05/15 16:03:38 INFO mapred.LocalJobRunner:

12/05/15 16:03:38 INFO mapred.Task: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting

12/05/15 16:03:38 INFO mapred.LocalJobRunner:

12/05/15 16:03:38 INFO mapred.Task: Task attempt_local_0001_r_000000_0 is allowed to commit now

12/05/15 16:03:39 INFO output.FileOutputCommitter: Saved output of task ‘attempt_local_0001_r_000000_0′ to output

12/05/15 16:03:41 INFO mapred.LocalJobRunner: reduce > reduce

12/05/15 16:03:41 INFO mapred.Task: Task ‘attempt_local_0001_r_000000_0′ done.

12/05/15 16:03:42 INFO mapred.JobClient:  map 100% reduce 100%

表示运行完成。

5.     结果

该WordCount是对HDFS中的两个文件进行分析,分别是:

/user/root/wordcount/file01,内容为:

Hello World Bye World

/user/root/wordcount/file02

Hello Hadoop Goodbye Hadoop

然后看输出的结果:

[root@master bin]# ./hadoop fs -cat output/part-r-00000

Bye     1

Goodbye 1

Hadoop  2

Hello   2

World   2

结果正确无误,至此,Hadoop的本地开发环境搭建正确无误。