在mapreduce任务中使用distributedCache

来源:互联网 发布:java开发分几种 编辑:程序博客网 时间:2024/06/05 23:46
背景:在使用mapreduce时,各个map之间需要共享一些信息。如果信息不大,可以保存在conf中。但是需求是在各个map之间共享文件或者tar包

使用distributedCache可以满足这个需求:
distributedCache可以把HDFS上的文件(数据文件、压缩文件等等)分发到各个执行task的节点。执行map或者reduce task的节点就可以在本地,直接用java的IO接口读取这些文件。
有两个需要注意的地方:被分发的文件需要事先存储在hdfs上;这些文件是只读的。

使用distributedCache的步骤:
1、在conf里正确配置被分发的文件的路径(hdfs上的路径)
2、在自定义的mapper或reducer中获取文件下载到本地后的路径(linux文件系统路径);一般是重写configure或者重写setup(新方式)
3、在自定义的mapper或reducer类中读取这些文件的内容
distributedCache也提供创建符号链接的功能,第2步就不需要获取文件在本地的路径,直接使用约定的符号链接即可。

分发的文件大致分两种类型:文件;压缩包

1、配置被分发的hdfs文件所在路径
可以使用distributedCache类提供的静态接口设置路径 , 也可以使用conf.set配置
示例:
[Hadoop学习记录]在mapreduce任务中使用distributedCache
或者

conf.set("mapred.cache.files", "/myapp/file");

conf.set("mapred.cache. archives", "/mayapp/file.zip");


看distributedCache.java代码可知 静态接口就是封装了conf.set的动作。

配置的位置在run函数里即可,比如:

[Hadoop学习记录]在mapreduce任务中使用distributedCache

2、在自己的mapper类中,使用distributedCache的接口获取文件下载到本地后的路径

这里查了些网上的使用示例,大部分例子在mapper类中重写configure接口(或者setup),将本地文件的路径保存在mapper类的成员变量中,供下面的map成员函数使用。

在myMapper类的configure中获取文件的路径:

[Hadoop学习记录]在mapreduce任务中使用distributedCache

getLocalCacheFiles返回的是数组(元素类型是Path),数组内容是这个task(map或reduce)所属的job设定的所有需要被分发的文件,这些文件被下载到本地节点后的路径。

所以用了localFiles[0]来取得我的文件的路径,因为只设置了一个文件。如果设置了多个文件,可以遍历Path数组,用String.contains("KeyWord")来判断是否是你所需要的文件。

这里我在configure接口中直接把文件内容读取到myMapper类的一个数组成员里,这样在map接口中就不需要再读,但是这样的前提是文件内容比较少,或者针对map程序有更好的数据结构,比如trie树之类的。否则容易OOM。比较原始的办法就是在map接口中读一行做一次判断或操作。


在myMapper类的configure中获取压缩包的路径

[Hadoop学习记录]在mapreduce任务中使用distributedCache

因为使用的是mapreduce二代框架,archive文件有多个(框架默认会加几个tar包和一些jar包),所以这里遍历了一下,取出了我需要的压缩包的路径。这个路径是解压好的。需要listFiles一下,获得解压包下面的文件路径。
3、读取文件内容

[Hadoop学习记录]在mapreduce任务中使用distributedCache
这里读的是压缩包解压后的所有文件内容

读一行处理一次


完毕。
distributedCache在mapreduce自身用得也不少
比如task运行之前 加载第三方的jar包到classpath 可以使用addFileToClassPath将配置加到conf中 然后使用与读取压缩包类似方式将jar包加入到classpath
再如streaming和pipe
是将脚本分发到task节点本地,然后在java中执行这个本地的脚本来实现的

原文:http://blog.sina.com.cn/s/blog_6e5e78bf0101p4at.html
原创粉丝点击