mapreduce的缓存(addCacheFile)使用

来源：互联网发布：centos 启动php 编辑：程序博客网时间：2024/05/19 17:51

1.在main()方法中添加缓存路径

job.addCacheFile(new URI(args[2]));job.addCacheFile(new URI(args[3]));

2.在map或者reduce的setup方法中处理缓存文件

FileReader in = null;BufferedReader reader = null;HashMap<String, String> n_map = null;Path[] cacheFiles = context.getLocalCacheFiles();Path cacheFile = cacheFiles[0];Path cacheFile2 = cacheFiles[1];in = new FileReader(cacheFile.toUri().getPath());reader = new BufferedReader(in);n_map = new HashMap<String, String>();String line = null;while (null != (line = reader.readLine())) {    String[] fields = line.split("\001");    if (fields.length > 4) {        String f1 = fields[0];        String f2 = fields[4];        n_map.put(f1, f2);    }}IOUtils.closeStream(reader);IOUtils.closeStream(in);

阅读全文

0 0

mapreduce的缓存(addCacheFile)使用
MapReduce中的分布式缓存使用
mapReduce使用分布式缓存机制
mapreduce 的partitioner,GroupComparator,KeyComparator,分布式缓存使用示例
Mapreduce中分布式缓存的使用注意点
Hadoop 学习笔记：DistributedCache.addCacheFile(URI, conf)的用法
MongoDB的MapReduce使用
mongodb的mapreduce使用
Hadoop MapReduce进阶使用分布式缓存进行replicated join
Hadoop MapReduce进阶使用分布式缓存进行replicated join
Hadoop MapReduce进阶使用分布式缓存进行replicated join
Hadoop MapReduce进阶使用分布式缓存进行replicated join
Hadoop MapReduce进阶使用分布式缓存进行replicated join
Hadoop MapReduce进阶使用分布式缓存进行replicated join
mapreduce中计数器的使用
mongodb中mapreduce的使用以及使用pymongo调用mapreduce
mapreduce分布式缓存
MapReduce 缓存文件
java面试资料—多线程
Dubbo接口报Error的情况（未解决）
checkbox 颜色修改
函数模板和类模板
Gruntfile.coffee
mapreduce的缓存(addCacheFile)使用
decimal 后面的后缀M的意思
C# string.Format 格式化使用说明
音视频实时传输错误掩盖算法
Oracle存储过程
response.sendRedirect()与request.getRequestDispatcher().forward()区别
C#操作Access时Parameters集合的使用方法
Codeforces 278B Books
17暑假多校联赛2.6 HDU 6050 Funny Function