在mapreduce任务中使用distributedCache
来源:互联网 发布:java开发分几种 编辑:程序博客网 时间:2024/06/05 23:46
或者
conf.set("mapred.cache.files", "/myapp/file");
conf.set("mapred.cache. archives", "/mayapp/file.zip");
看distributedCache.java代码可知 静态接口就是封装了conf.set的动作。
配置的位置在run函数里即可,比如:
2、在自己的mapper类中,使用distributedCache的接口获取文件下载到本地后的路径
这里查了些网上的使用示例,大部分例子在mapper类中重写configure接口(或者setup),将本地文件的路径保存在mapper类的成员变量中,供下面的map成员函数使用。
在myMapper类的configure中获取文件的路径:
getLocalCacheFiles返回的是数组(元素类型是Path),数组内容是这个task(map或reduce)所属的job设定的所有需要被分发的文件,这些文件被下载到本地节点后的路径。
所以用了localFiles[0]来取得我的文件的路径,因为只设置了一个文件。如果设置了多个文件,可以遍历Path数组,用String.contains("KeyWord")来判断是否是你所需要的文件。
这里我在configure接口中直接把文件内容读取到myMapper类的一个数组成员里,这样在map接口中就不需要再读,但是这样的前提是文件内容比较少,或者针对map程序有更好的数据结构,比如trie树之类的。否则容易OOM。比较原始的办法就是在map接口中读一行做一次判断或操作。
在myMapper类的configure中获取压缩包的路径
因为使用的是mapreduce二代框架,archive文件有多个(框架默认会加几个tar包和一些jar包),所以这里遍历了一下,取出了我需要的压缩包的路径。这个路径是解压好的。需要listFiles一下,获得解压包下面的文件路径。
3、读取文件内容
这里读的是压缩包解压后的所有文件内容
读一行处理一次
完毕。
- 在mapreduce任务中使用distributedCache
- 在mapreduce任务中使用distributedCache
- MapReduce使用DistributedCache
- MapReduce基础开发之十一DistributedCache使用
- DistributedCache使用
- 在mapreduce中使用压缩
- 在MapReduce中使用压缩
- Mapreduce中的DistributedCache应用-解决join算法中数据倾斜问题
- Hadoop中进行分词,加载自定义词典, DistributedCache使用
- hadoop distributedcache使用
- hadoop DistributedCache的使用
- Hadoop DistributedCache使用案例
- DistributedCache的使用
- 在Hadoop中使用Streaming编写MapReduce
- Hadoop在MapReduce中使用压缩详解
- 在NodeJs中使用MongoDB中的MapReduce
- Hadoop在MapReduce中使用压缩详解
- Hadoop在MapReduce中使用压缩详解
- 内存分配问题
- 实现ibatis手动控制加载sqlmap文件,终于不用重启应用了
- Java 加载Properties文件
- 供意图转战手机平台的掌机开发者参考的10点建议
- 电商打通金融链 是"颠覆"银行还是另辟蹊径
- 在mapreduce任务中使用distributedCache
- PHP里的字符串定义小技巧汇总
- 做好人好事不吃亏,转转,传递正能量
- Linux、Windows共享目录,一改全改
- 高级Bash脚本编程指南(24):时间/日期 命令
- 开此博客的初衷和寄望
- Pthreads on Microsoft Windows
- 集合三
- 怎么提高效率