hadoop中mapreducer的数据输入(InputFormat)原理详解
来源:互联网 发布:淘宝店越来越少 编辑:程序博客网 时间:2024/04/30 06:03
查看了hadoop 的源代码,终于搞明白MapReducer作业的数据输入原理,成果如下:
Hadoop中MapReducer的作业的输入通过InputFormat接口提供;
InputFormat提供的功能如下:将输入的文件,分成逻辑上的切片InputSplit,每一个InputSplit会分配给一个Mapper处理,RecordReader负责从InputSplit中读取键值对(一个键值对属于一条记录),然后交给InputSplit对应的Mapper处理,内部实现就是典型的生产者消费者模式了。因此InputSplit表示需要被一个Mapper处理的数据
RecordReader读取的Record是交给Mapper执行一次map方法来处理的数据
TextInputFormat实现细节
TextInputFormat继承了FileInputFormat
在getSplit方法中,会将输入的数据即文件切成片,片信息存储在FileSplite中,分片的规则按照HDFS文件系统对文件分片的规则,FileSplite中会维护该块所属文件的地址,起始字节数,长度,以及块在文件系统中存储的节点的主机名称。
使用createRecordReader(InputSplit split, TaskAttemptContext context)方法将每一个FileSplite封装到RecordReader中,RecorderReader成为为Mapper提供输入的工具,一个RecorderReader对应一个Mapper,一个FileSplite对应一个RecorderReader
对于每一个Split需要用RecordReader去读取,默认是LineRecordReader读取,即每次读取一行,即读取上一个"\n"下一个"\n"之间的数据
LineRecordReader中维护有SplitLineReader,FSDataInputStream对象,
在RecordReader中跨Split的行是这样处理的:如果不是第一个文件块,通常会丢掉该块的第一条记录,如果不是最后一个文件块,通常会从下一个文件块额外读取一条记录
这样处理,如果有一条记录是跨行记录,则作为前一个文件块的最后一行,如果没有跨行记录,则下一个文件块的第一条记录实际是由上一个文件块读取
0 0
- hadoop中mapreducer的数据输入(InputFormat)原理详解
- hadoop中mapreducer的数据输入(InputFormat)原理详解
- hadoop自定义输入格式(InputFormat)
- Hadoop中常用的InputFormat、OutputFormat(转)
- Hadoop中常用的InputFormat、OutputFormat(转)
- Hadoop中常用的InputFormat、OutputFormat(转)
- hadoop InputFormat详解
- Hadoop中常用的InputFormat,OutPutFormat类
- Hadoop中常用的InputFormat、OutputFormat
- 自定义hadoop的inputformat
- 自定义hadoop的InputFormat
- Hadoop中InputFormat分析——数据划分、调度、读取
- Hadoop之Mapreducer里的Partitioner(笔记25)
- MapReduce数据输入中InputFormat类源码解析
- Hadoop InputFormat浅析--hadoop如何分配输入
- Job的数据输入格式化器—InputFormat
- Job的数据输入格式化器—InputFormat
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- 有序Map使用,LinkedHashMap
- CentOS搭建python开发环境
- Eclipsej简介
- OpenWrt实现科学上网折腾记
- 画圆算法
- hadoop中mapreducer的数据输入(InputFormat)原理详解
- Find Minimum in Rotated Sorted Array II
- Linux diff与patch命令用法
- C++ Primer第七章课后编程题
- LightOJ 1224 - DNA Prefix(字典树)
- 随机性
- 图层遮罩的简单理解
- STS或eclipse安装SVN插件
- java多线程和并发编程学习总结 ----基础篇4