Hadoop源码---Inputformat
来源:互联网 发布:淘宝网怎么举报卖家 编辑:程序博客网 时间:2024/06/03 14:35
作用:
1、将输入切分成split,确定split大小,map个数。 由getSplits方法实现。
2、为mapper提供输入数据,key/value形式。getRecordReader方法
核心算法:
1、文件切分算
作用:确定split个数。
概念:
globalSize: totalsize/numSplits ;
minSize: InputSplit 最小值 配置参数
blockSize: block大小
公式: splitSize = max{ minSize, min{globalSize,blockSize}}
2、数据本地化(host选择)
目的是 减少数据传输,尽量将InputSplit存放在本地。
算法:对rack包含的数据量排序,对rack中节点排序,取top3
0 0
- Hadoop InputFormat源码分析
- Hadoop源码---Inputformat
- hadoop源码学习 InputFormat抽象类
- CarbonData源码阅读(2)-Hadoop InputFormat
- [Hadoop源码解读](一)MapReduce篇之InputFormat
- [Hadoop源码解读](一)MapReduce篇之InputFormat
- [Hadoop源码解读](一)MapReduce篇之InputFormat
- [Hadoop源码解读](一)MapReduce篇之InputFormat<转>
- [Hadoop源码解读](一)MapReduce篇之InputFormat
- [Hadoop源码解读](一)MapReduce篇之InputFormat
- [Hadoop源码解读](一)MapReduce篇之InputFormat (转)
- [Hadoop源码解读](一)MapReduce篇之InputFormat
- [Hadoop源码解读](一)MapReduce篇之InputFormat
- [Hadoop源码解读](一)MapReduce篇之InputFormat
- [Hadoop源码详解]之一MapReduce篇之InputFormat
- [Hadoop源码解读](一)MapReduce篇之InputFormat
- hadoop源码阅读之一:MR第一步:InputSplit和InputFormat类
- [Hadoop源码详解]之一MapReduce篇之InputFormat
- 最全的orcal-sql笔记
- Avro Rpc
- Introduction to Java Programming编程题6.7<统计0~9随机数出现的次数>
- codeforces 311(div2)C-Arthur and Table
- C++ Primer : 第十一章 : 关联容器之概述、有序关联容器关键字要求和pair类型
- Hadoop源码---Inputformat
- 文章标题
- Java中的抽象类
- WXHL 学习总结连载(六)
- C# 事件驱动基础
- 什么是JS事件冒泡?
- C++: 整型转字符串
- Ubuntu下python3 安装 pip 和 Django
- 设计模式实例(Lua)笔记之二(AbstractFactory抽象工厂模式)