Hadoop学习(2)

来源:互联网 发布:python pyqt5下载 编辑:程序博客网 时间:2024/06/10 14:02

MapReduce工作机制

执行流程

流程:代码编写 -> 作业配置 -> 作业提交 -> Map任务的分配和执行 -> 处理中间结果 -> Reduce任务的分配和执行 -> 作业完成
这里写图片描述
客户端:~
jobtracker:~
tasktracker:~
hdfs:~

提交作业

MapReduce被提交之后就会自动执行,所以提交前要配置好。
1.mapreduce主体代码
2.map输出的k-v类型,要和reduce接受的k-v类型一样
3.输入和输出路径:
FileInputFormat.addInputPath(job,new Path(~))
FileOutputFormat.addOutputPath(job,new Path(~))
4.inputFormat、outputFormat,名称类型等
获取作业ID,计算输入划分由jobclient写到job.split中,复制资源到HDFS上,调用JobTracker的submitJob()

初始化作业

JobTracker读取job.split信息
创建Map和Reduce

分配任务

TaskTracker作为一个单独的JVM。
TaskTarcker和JobTracker的通信:
transmitHeartBeat()向Job~发送心跳
heartbear():检测是否请求新的任务,向Task~返回通信信息

执行任务

在接收到一个新任务是,首先要将任务本地化,把相关的资源复制到Tasktracker本地调用launchTask()方法启动任务

更新任务执行进度和状态

通过jobClient.monitorAndPrintJob()方法来监控作业进度

调度机制

FIFO+公平调度器+容量调度器

Shuffle和排序

shuffle = partition(分区) + sort(排序) + spill(分割) + merge(合并)
Map端:map的输出结果由collector处理,即map端的shuffle包含在collect函数中输出缓冲区的内容达到阀值是就会调用sortAndSpill然后combine生产spill文件输出到磁盘,再对spill文件进行mergeParts后等待最后一条记录写完,map的shuffle执行完。
reduce端:
reduce会从jobtarcker获取map输出位置,然后把结果复制会本地,在复制的同时会进入mergeSort(合并和排序),最后就是reduce

0 0
原创粉丝点击