Hadoop控制输出文件命名
来源:互联网 发布:如何评价aqours 知乎 编辑:程序博客网 时间:2024/06/06 05:41
参考:http://blog.csdn.net/zuochanxiaoheshang/article/details/8769198
Hadoop 控制输出文件命名
在一般情况下,Hadoop 每一个 Reducer 产生一个输出文件,文件以
part-r-00000、part-r-00001 的方式进行命名。如果需要人为的控制输出文件的命
名或者每一个 Reducer 需要写出多个输出文件时,可以采用 MultipleOutputs 类来
完成。MultipleOutputs 采用输出记录的键值对(output Key 和 output Value)或者
任意字符串来生成输出文件的名字,文件一般以 name-r-nnnnn 的格式进行命名,
其中 name 是程序设置的任意名字;nnnnn 表示分区号。
MultipleOutputs 的使用方式 的使用方式: :: :
想要使用 MultipeOutputs,需要完成以下四个步骤:
1. 在 Reducer 中声明 MultipleOutputs 的变量
private MultipleOutputs<NullWritable, Text> multipleOutputs;
2. 在 Reducer 的 setup 函数中进行 MultipleOutputs 的初始化
protected void setup(Context context)throws IOException, InterruptedException {
multipleOutputs = new MultipleOutputs<NullWritable, Text>(context);
}
3. 在 reduce 函数中进行输出控制
protected void reduce(Text key, Iterable<Text> values, Context context)throws IOException,
InterruptedException {
for (Text value : values) {
multipleOutputs.write(NullWritable.get(), value, key.toString());
}
}
4. 在 cleanup 函数中关闭输出 MultipleOutputs
protected void cleanup(Context context)throws IOException, InterruptedException {
multipleOutputs.close();
}
注意:multipleOutputs.write(key, value, baseOutputPath)方法的第三个函数表明了该输出所在的目录(相对于用户指定的输出目录)。如果baseOutputPath不包含文件分隔符“/”,那么输出的文件格式为baseOutputPath-r-nnnnn(name-r-nnnnn);如果包含文件分隔符“/”,例如baseOutputPath=“029070-99999/1901/part”,那么输出文件则为
- Hadoop控制输出文件命名
- Hadoop控制输出文件命名
- Hadoop控制输出文件命名
- Hadoop控制输出文件命名 - MultipleOutputs
- 控制Hadoop的reducer函数输出文件命名
- hadoop文件输出控制,多路径输出到不同文件
- hadoop文件输出控制,多路径输出到不同文件
- Hadoop使用MultipleOutputs输出多文件或者指定命名
- Hadoop使用MultipleOutputs输出多文件或者指定命名
- hadoop输出控制,输出到指定文件中
- hadoop中Map的输出文件命名与分片次序一致
- hadoop之WordCoun输出文件用时间命名,避免每次运行都要修改
- hadoop多文件输出
- hadoop多文件输出
- C++文件输出自动命名
- 多线程控制文件输出
- 运用hadoop计算TF-IDF续-支持中文读取-支持文件输出控制
- Hadoop:mapreduce程序reduce输出控制
- 页面布局
- 通过邮件找回密码功能的实现
- [Oracle] 获取执行计划的各方法总结
- spring中autowire的用法
- poj 1419 Graph Coloring_最大独立集
- Hadoop控制输出文件命名
- leetcode: Trapping Rain Water
- PHP获取用户真实 IP , 淘宝IP接口获得ip地理位置
- myeclipse中快速查找类、方法
- 亚马逊AWS在线系列讲座——第1讲:云计算和AWS入门
- 错过
- PMP备考(一)- PMP考试起源及PMI理念
- Java代码编写的30条建议
- PageBase 基本用法