MapReduce的执行过程介绍

来源:互联网 发布:独角兽全武装数据 编辑:程序博客网 时间:2024/05/16 11:14

对于MapReduce这张图是相当经典的,在网上看到很多谈到MapReduce的执行过程都会用到这张图片,下面我也讲讲自己对它的基础认识。

1,用户向jobclient提交MapReduce job。

2,jobclient向Jobtracker申请一个新的job id(通过调用jobtracker的getnewjobid()获得)。

3,将运行job所需的资源(Jar包,配置文件与计算所得的输入划分)copy到共享文件系统(share Filesystem)中,这此之前会判断MapReduce job 传参,如input dir与output dir 是否存在等等。

4,向Jobtracker提交作业。

5,提交成功后,将此job加入到作业队列,交由作业调度器进行调度,并对其初始化,初始化首先创建一个对象来封装job运行的tasks, status以及progress。

6,job调度器从share Filesystem获取此job的input splits。

7,Jobtracker通过与Tasktracker之间的heartbeat(心跳,是Tasktracker用于告之Jobtracker是否还存放有及传输信息用的),让Jobtracker选取相应的Tasktracker来执行job。

8,收到执行job的Tasktracker向share Filesystem获取执行job所需的相应资源。

9,Tasktracker会新建一个TaskRunner实例(JVM)来运行任务,child JVM与Tasktracker之间通过通信来告之执行进度。

这是我理解的MapReduce,很基础。希望获得高手们跟贴指点交流!