Hadoop MapReduce 修改输出文件名 MultipleOutputs
来源:互联网 发布:淘宝哪个店卖高仿aj好 编辑:程序博客网 时间:2024/05/28 04:52
需求:修改mapreduce的输出文件名称 为自己想要的名字
工具:MultipleOutputs
默认文件名:part-r-xxx 或者000178_0
修改后为: 自定义名字-r-xxx 后边的r-xxx还没有去掉
主要流程:
1、声明 multipleOutputs
2、在setup方法中初始化
3、在reduce方法中调用 public voidwrite(KEYOUT key, VALUEOUT value, String baseOutputPath)
4、在cleanup放中close
5、取消原来文件的输出, LazyOutputFormat.setOutputFormatClass(job, TextOutputFormat.class);
package com.writer;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;import java.io.IOException;/** * @author anjinlong * @create 2017-07-06 10:42 * @description description **/public class HistoryReduce extends Reducer<Text, Text, NullWritable, Text> { private MultipleOutputs<NullWritable, Text> multipleOutputs; protected void setup(Context context) throws IOException, InterruptedException { multipleOutputs = new MultipleOutputs<NullWritable, Text>(context); } public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException { String fileName = key.toString().substring(key.toString().length() - 2); for (Text val : values) { multipleOutputs.write(NullWritable.get(), val, fileName.toString()); } } protected void cleanup(Context context) throws IOException, InterruptedException { multipleOutputs.close(); }}
//取消类似part-r-00000的空文件 LazyOutputFormat.setOutputFormatClass(job, TextOutputFormat.class);
阅读全文
0 0
- Hadoop MapReduce 修改输出文件名 MultipleOutputs
- Hadoop多路径输出(MultipleOutputs)
- MR->OutputFormat->多文件名输出格式 MultipleOutputs
- MapReduce处理输出多文件格式(MultipleOutputs)
- mapreduce多目录输出(MultipleOutputFormat和MultipleOutputs)
- MapReduce处理输出多文件格式(MultipleOutputs)
- hadoop 输出MultipleOutputs学习及应用情境
- Hadoop控制输出文件命名 - MultipleOutputs
- Hadoop的MultipleOutputs进行多文件输出
- Hadoop MultipleOutputs.addNamedOutput 多个输出
- Hadoop MultipleOutputs输出到多个文件中
- 在MapReduce中利用MultipleOutputs输出多个文件
- MapReduce 如何输出多个文件:MultipleOutputs 运用可行
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
- less 中导航命令
- linux下挂载和卸载cdrom
- iOS按钮点击选中与被选中切换
- Django中admin后台管理常用设置系列之十六
- android注解ButterKnife的使用
- Hadoop MapReduce 修改输出文件名 MultipleOutputs
- python xlrd xlwt的简单操作
- React Native 常用命令
- h5中图片之间的缝隙解决方法
- 滑动UIScrollView隐藏或显示导航栏
- 获取客户端IP
- 常用网络调试工具
- 【NOIP2017提高A组模拟7.7】图
- windows--bat--删除当前脚本del %0