Hadoop学习(2)
来源:互联网 发布:python pyqt5下载 编辑:程序博客网 时间:2024/06/10 14:02
MapReduce工作机制
执行流程
流程:代码编写 -> 作业配置 -> 作业提交 -> Map任务的分配和执行 -> 处理中间结果 -> Reduce任务的分配和执行 -> 作业完成
客户端:~
jobtracker:~
tasktracker:~
hdfs:~
提交作业
MapReduce被提交之后就会自动执行,所以提交前要配置好。
1.mapreduce主体代码
2.map输出的k-v类型,要和reduce接受的k-v类型一样
3.输入和输出路径:
FileInputFormat.addInputPath(job,new Path(~))
FileOutputFormat.addOutputPath(job,new Path(~))
4.inputFormat、outputFormat,名称类型等
获取作业ID,计算输入划分由jobclient写到job.split中,复制资源到HDFS上,调用JobTracker的submitJob()
初始化作业
JobTracker读取job.split信息
创建Map和Reduce
分配任务
TaskTracker作为一个单独的JVM。
TaskTarcker和JobTracker的通信:
transmitHeartBeat()向Job~发送心跳
heartbear():检测是否请求新的任务,向Task~返回通信信息
执行任务
在接收到一个新任务是,首先要将任务本地化,把相关的资源复制到Tasktracker本地调用launchTask()方法启动任务
更新任务执行进度和状态
通过jobClient.monitorAndPrintJob()方法来监控作业进度
调度机制
FIFO+公平调度器+容量调度器
Shuffle和排序
shuffle = partition(分区) + sort(排序) + spill(分割) + merge(合并)
Map端:map的输出结果由collector处理,即map端的shuffle包含在collect函数中输出缓冲区的内容达到阀值是就会调用sortAndSpill然后combine生产spill文件输出到磁盘,再对spill文件进行mergeParts后等待最后一条记录写完,map的shuffle执行完。
reduce端:
reduce会从jobtarcker获取map输出位置,然后把结果复制会本地,在复制的同时会进入mergeSort(合并和排序),最后就是reduce
- Hadoop学习(2)
- hadoop 学习小结(2)
- Hadoop的学习(2)
- hadoop学习笔记(2)
- Hadoop学习笔记(2)
- 《hadoop 权威指南》 学习笔记(2)Hadoop 分布式文件系统
- 【hadoop学习】--(2)安装和配置hadoop伪分布式
- Hadoop学习(2)-Hadoop配置与安装
- Hadoop学习笔记(2)-搭建Hadoop本地模式
- Hadoop学习总结(2)——Hadoop入门详解
- YARN(Hadoop)学习笔记(2)
- Hadoop学习之zookeeper(2)
- Spring For Hadoop学习笔记(2)
- 学习hadoop(2)单词统计
- Hadoop HDFS 学习(2)理论
- Hadoop使用学习笔记(2)
- Hadoop学习(2):HDFS基础
- Hadoop实战学习(2)-日志清洗
- 技术摘要
- iOS中NSRunLoop的模式
- 海马汽车经销商管理系统技术解析(十一)前台接待模块的接车功能
- 理解JS原型以及实现继承
- 【hbase】——HBase 写优化之 BulkLoad 实现数据快速入库
- Hadoop学习(2)
- JavaScript开发人员需了解的工具内容
- Oracle基础(七):数据库事务
- 搭建嵌入式开发环境总结
- 大数据引发的联想--人工智能
- 微软100题(58)倒叙输出链表
- 8.18在类模板外定义成员函数,实现3个数求和
- Linux内核编程接口函数
- Swiper使用说明