hadoop2.5.2学习10--MR之统计每月最高三个温度01
来源:互联网 发布:akka java 简明教程 编辑:程序博客网 时间:2024/05/16 12:39
1、hadoop 之InputFormat
在上篇文章中有一个job.setInputFormatClass(KeyValueTextInputFormat.class);
,用于设置输入的格式,这个类型中可以设置分隔符。
2、splits and records
数据传到hdfs上,以block形式存在,mapreduce中, 源数据被split 分成一个个分片, 每个分片有一个mapTask处理,每个分片按照制定格式切割成若干个键值对(records),作为map的的输入。map循环处理这些records。
Split 和rRecord 都是逻辑性的概念。
首先看一下InputSplit
InputSplit是一个抽象类, 称为分片,表示每个mapper的输入数据。
InputSplit 包含一个以字节为单位的长度和一组存储位置。分片并不包含数据本身,而是指向数据的引用。存储位置供MapReduce系统使用以便将map任务尽量放在分片数据附近,而分片大小用来排序分片,便于优先处理最大的分片,从而最小化作业时间。
InputSplit的方法:
InputFormat
InputFormat负责创建inputSplit, 并将它们拆分成键值对(records),
0 0
- hadoop2.5.2学习10--MR之统计每月最高三个温度01
- hadoop2.5.2学习10--MR之统计每月最高三个温度02
- hadoop2.5.2学习09--MR之统计每月最高三个温度
- hadoop2.5.2学习12-MR之PageRank
- hadoop2.5.2学习12-MR之PageRank01
- hadoop2.5.2学习12-MR之PageRank02
- hadoop2.5.2学习11-MR之好友推荐1
- hadoop2.5.2学习11-MR之好友推荐2
- hadoop2.5.2学习14--MR之协同过滤天猫推荐算法实现01
- hadoop2.5.2学习13-MR之新浪微博TF-IDF算法简介
- hadoop2.5.2学习13-MR之新浪微博-DF的实现
- hadoop2.5.2学习14--MR之协同过滤天猫推荐
- hadoop2.5.2学习14--MR之协同过滤天猫推荐算法实现02
- hadoop2.6温度统计mapreduce程序
- Hadoop2.5.2学习02--MR执行环境的类型
- Hadoop2.5.2学习01--mapreduce统计单词数
- hadoop - hadoop2.6 分布式 - 简单实例学习 - 统计某年的最高温度和按年份将温度从高到底排序
- 统计每月订单总额
- android三种动画实现原理及使用
- 17寒假集训_STL专题
- iOS系统各版本发布日期整理
- 51NOD1153 选择子序列 【分治法+RMQ水一发】
- “瓜皮从零建站”第1话--什么是网站?
- hadoop2.5.2学习10--MR之统计每月最高三个温度01
- 进入保护模式的第一个程序
- 算法训练(1)——区间k大数查询
- 欢迎使用CSDN-markdown编辑器
- 每天一个linux命令:whereis 命令
- c——语句
- Qt加载本地字体 .ttc或.ttf
- Atitit sift匹配度计算 图片连线 oepncv sift java匹配
- POJ - 2366 Sacrament of the sum 二分查找