如何拓展Hadoop的InputFormat为其他分隔符

来源：互联网发布：description软件编辑：程序博客网时间：2024/05/23 00:04

在Hadoop中，常用的TextInputFormat是以换行符作为Record分隔符的。

在实际应用中，我们经常会出现一条Record中包含多行的情况，例如：

1
2
3
<doc>
....
</doc>

此时，需要拓展TextInputFormat以完成这个功能。

先来看一下原始实现：

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
publicclassTextInputFormatextendsFileInputFormat<LongWritable,Text>{
  @Override
  publicRecordReader<LongWritable,Text>
    createRecordReader(InputSplitsplit,
                      TaskAttemptContextcontext){
// By default,textinputformat.record.delimiter = ‘/n’(Set in configuration file)
    Stringdelimiter=context.getConfiguration().get(
        "textinputformat.record.delimiter");
    byte[]recordDelimiterBytes=null;
    if(null!=delimiter)
      recordDelimiterBytes=delimiter.getBytes();
    returnnewLineRecordReader(recordDelimiterBytes);
  }
  @Override
  protectedbooleanisSplitable(JobContextcontext,Pathfile){
    CompressionCodeccodec=
      newCompressionCodecFactory(context.getConfiguration()).getCodec(file);
    returncodec==null;
  }
}

根据上面的代码，不难发现，换行符实际上是由”textinputformat.record.delimiter”这个配置决定的。

所以我们有种解决方案：
(1) 在Job中直接配置textinputformat.record.delimiter为”</doc>\n”，这种方案是比较Hack的，很容易影响到其他代码的正常执行。
(2) 继承TextInputFormat，在return LineRecordReader时，使用自定义的分隔符。

本文采用第二种方案，代码如下：

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
publicclassDocInputFormatextendsTextInputFormat{
 
privatestaticfinalStringRECORD_DELIMITER="</doc>\n";
 
@Override
publicRecordReader<LongWritable,Text>createRecordReader(
InputSplitsplit,TaskAttemptContexttac){
byte[]recordDelimiterBytes=null;
recordDelimiterBytes=RECORD_DELIMITER.getBytes();
returnnewLineRecordReader(recordDelimiterBytes);
}
 
@Override
publicbooleanisSplitable(JobContextcontext,Pathfile){
CompressionCodeccodec=newCompressionCodecFactory(
context.getConfiguration()).getCodec(file);
returncodec==null;
}
}

需要指出的是，InputFormat只是把原始HDFS文件分割成String的记录，如果你的<doc> </doc>内有其他结构化数据，那么需要在map中自己实现deserilize的相关业务逻辑来处理。

0 0