Hadoop学习（2）

来源：互联网发布：python pyqt5下载编辑：程序博客网时间：2024/06/10 14:02

MapReduce工作机制

执行流程

流程：代码编写 -> 作业配置 -> 作业提交 -> Map任务的分配和执行 -> 处理中间结果 -> Reduce任务的分配和执行 -> 作业完成
这里写图片描述
客户端：~
jobtracker：~
tasktracker：~
hdfs：~

提交作业

MapReduce被提交之后就会自动执行，所以提交前要配置好。
1.mapreduce主体代码
2.map输出的k-v类型，要和reduce接受的k-v类型一样
3.输入和输出路径：
FileInputFormat.addInputPath(job,new Path(~))
FileOutputFormat.addOutputPath(job,new Path(~))
4.inputFormat、outputFormat,名称类型等
获取作业ID，计算输入划分由jobclient写到job.split中，复制资源到HDFS上，调用JobTracker的submitJob()

初始化作业

JobTracker读取job.split信息
创建Map和Reduce

分配任务

TaskTracker作为一个单独的JVM。
TaskTarcker和JobTracker的通信：
transmitHeartBeat()向Job~发送心跳
heartbear()：检测是否请求新的任务，向Task~返回通信信息

执行任务

在接收到一个新任务是，首先要将任务本地化，把相关的资源复制到Tasktracker本地调用launchTask()方法启动任务

更新任务执行进度和状态

通过jobClient.monitorAndPrintJob()方法来监控作业进度

调度机制

FIFO+公平调度器+容量调度器

Shuffle和排序

shuffle = partition(分区) + sort(排序) + spill(分割) + merge(合并)
Map端：map的输出结果由collector处理，即map端的shuffle包含在collect函数中输出缓冲区的内容达到阀值是就会调用sortAndSpill然后combine生产spill文件输出到磁盘，再对spill文件进行mergeParts后等待最后一条记录写完，map的shuffle执行完。
reduce端：
reduce会从jobtarcker获取map输出位置，然后把结果复制会本地，在复制的同时会进入mergeSort（合并和排序），最后就是reduce

0 0