hadoop中mapreducer的数据输入（InputFormat）原理详解

来源：互联网发布：淘宝店越来越少编辑：程序博客网时间：2024/04/30 06:03

查看了hadoop 的源代码，终于搞明白MapReducer作业的数据输入原理，成果如下：

Hadoop中MapReducer的作业的输入通过InputFormat接口提供；

InputFormat提供的功能如下：将输入的文件，分成逻辑上的切片InputSplit，每一个InputSplit会分配给一个Mapper处理，RecordReader负责从InputSplit中读取键值对(一个键值对属于一条记录），然后交给InputSplit对应的Mapper处理，内部实现就是典型的生产者消费者模式了。因此InputSplit表示需要被一个Mapper处理的数据

RecordReader读取的Record是交给Mapper执行一次map方法来处理的数据

TextInputFormat实现细节

TextInputFormat继承了FileInputFormat

在getSplit方法中，会将输入的数据即文件切成片，片信息存储在FileSplite中，分片的规则按照HDFS文件系统对文件分片的规则，FileSplite中会维护该块所属文件的地址，起始字节数，长度，以及块在文件系统中存储的节点的主机名称。

使用createRecordReader(InputSplit split, TaskAttemptContext context)方法将每一个FileSplite封装到RecordReader中，RecorderReader成为为Mapper提供输入的工具，一个RecorderReader对应一个Mapper，一个FileSplite对应一个RecorderReader

对于每一个Split需要用RecordReader去读取，默认是LineRecordReader读取，即每次读取一行，即读取上一个"\n"下一个"\n"之间的数据

LineRecordReader中维护有SplitLineReader，FSDataInputStream对象，

在RecordReader中跨Split的行是这样处理的：如果不是第一个文件块，通常会丢掉该块的第一条记录，如果不是最后一个文件块，通常会从下一个文件块额外读取一条记录

这样处理，如果有一条记录是跨行记录，则作为前一个文件块的最后一行，如果没有跨行记录，则下一个文件块的第一条记录实际是由上一个文件块读取

0 0