hadoop中带后缀的多路输出part文件
来源:互联网 发布:税务总局网络培训学院 编辑:程序博客网 时间:2024/06/07 13:20
【导读】
hadoop源代码中org.apache.hadoop.mapred.lib.MultipleTextOutputFormat类实现了多路输出的框架。在此基础上,可以实现自定义的多路输出方案。
本篇给出了带后缀的多路输出方案。比如part-00000-[A-Z], part-00000-[a-z], part-00000-[0-9]。
【正文】
1. 约定reduce输出时的数据格式:
<key, value>#suffix_letter
suffix_letter表示后缀字母,目前支持[0-9A-Za-z]共62个字符。可以是常量,也可以是变量。
value可以为空。
通俗地说,只需要在输出的一行结尾加上“#suffix_letter” 就能支持多路
2. 实现
SuffixMultipleTextOutputFormat.java
package com.**.hadoop.mapred.lib;import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat;import org.apache.hadoop.io.Text;public class SuffixMultipleTextOutputFormat extends MultipleTextOutputFormat<Text, Text> {private int tagPos = -1;private boolean has_value = true;public void test(Text key, Text value, String name) {System.out.println("file_name = " + this.generateFileNameForKeyValue(key, value, name));System.out.println("key = " + this.generateActualKey(key, value));System.out.println("value = " + this.generateActualValue(key, value));}@Overrideprotected Text generateActualKey(Text key, Text value) {if (!has_value && tagPos != -1) {return new Text(key.toString().substring(0, tagPos));}return key;}@Overrideprotected Text generateActualValue(Text key, Text value) {if (has_value && tagPos != -1) {return new Text(value.toString().substring(0, tagPos));}return value;}@Override protected String generateFileNameForKeyValue(Text key, Text value, String name) {String val = value.toString();if (val.isEmpty()) {has_value = false;val = key.toString();}try {int pos = val.lastIndexOf('#');if (pos >= 0 && pos == val.length() - 2) {char suffix = val.charAt(pos+1);if (Character.isDigit(suffix) || Character.isLetter(suffix)) {tagPos = pos;return name + "-" + suffix;} else {throw new InvalidSuffixMultipleTextOutputFormatException("InvalidSuffixMultipleTextOutputFormatException : key = " + key.toString() + " , value = " + value.toString());}} else {throw new InvalidSuffixMultipleTextOutputFormatException("InvalidSuffixMultipleTextOutputFormatException : key = " + key.toString() + " , value = " + value.toString());}} catch (Exception e) {e.printStackTrace();}return name;}public static void main(String [] args) {new SuffixMultipleTextOutputFormat().test(new Text("abc"), new Text("#i"), "part-00000");new SuffixMultipleTextOutputFormat().test(new Text("abc"), new Text("#"), "part-00001");new SuffixMultipleTextOutputFormat().test(new Text("abc"), new Text("w#o"), "part-00001");new SuffixMultipleTextOutputFormat().test(new Text("abc#0"), new Text(""), "part-00001");new SuffixMultipleTextOutputFormat().test(new Text("abc#0"), new Text("a"), "part-00001");}}
InvalidSuffixMultipleTextOutputFormatException.java
package com.**.hadoop.mapred.lib;public class InvalidSuffixMultipleTextOutputFormatException extends Exception {private static final long serialVersionUID = -7900596082142417867L;public InvalidSuffixMultipleTextOutputFormatException(String error) {super(error);}}
0 0
- hadoop中带后缀的多路输出part文件
- Hadoop的MapReduce中多文件输出
- Hadoop的MapReduce中多文件输出
- Hadoop的MapReduce中多文件输出
- Hadoop的MapReduce中多文件输出
- Hadoop的MapReduce中多文件输出 .
- Hadoop的MapReduce中多文件输出
- [Hadoop系列]Hadoop的MapReduce中多文件输出
- [Hadoop系列]Hadoop的MapReduce中多文件输出
- hadoop stream指定输出的part文件个数,并利用mapreduce进行压缩
- hadoop多文件输出
- hadoop多文件输出
- hadoop的reducer输出多个文件
- hadoop的reducer输出多个文件
- Hadoop的MultipleOutputs进行多文件输出
- python删除带特殊后缀的文件
- Hadoop-wordcount,合并多个part-*文件
- C++程序中获取不带文件路径和后缀的文件名
- Ural 1225 Flags(DP)
- hibernate使用注解配置过程
- 垂直搜索引擎之简单架构
- linux 终端命令
- Android Application的使用!
- hadoop中带后缀的多路输出part文件
- Android Contacts(一)—— 读取联系人
- C#消息传值
- bit程设 26. Little Bishops uva 861
- str的各种函数原型strcat、strcpy等
- php如何解析xml
- ruby on rails Linux环境配置和部署
- 获取标题栏的高度
- 推荐系统简介