YARN与MapReduce

来源:互联网 发布:java开发实战经典下载 编辑:程序博客网 时间:2024/05/21 10:16

1.hadoop项目的主要包括MapReduce和HDFS两个模块。为了解决旧 MapReduce 框架的性能瓶颈,促进 Hadoop 框架的更长远发展,从 0.23.0 版本开始,Hadoop 团队对老的MapReduce框架完全重构,发生了根本的变化,hadoop 0.23.0后包括common、HDFS、YARN(资源管理与job调度)、MapReduce(基于YARN的MR计算模型)。另外在YARN的基础上,可以支持很多的计算模型,比如MR,spark等等。


2.YARN的架构图


        我们可以使用YARN的api来开发一个applictaion,开发这样的application,简单来说,有两个步骤如下:

         (1)调用YARN API开发一个客户端

           这个客户端是用来想RM申请一个Container,来运行我们application的ApplicationMaster。

        (2)调用YARN API开发我们application的ApplicationMaster

          这个ApplicationMaster是用来向RM申请container,然后运行我们的application。

         总之,YARN架构下,Hadoop在局限于以前那种的执行Maper,Reducer的作业,而是可以支持各种各样的东东了。动态图参见学习资料2。


3.YARN兼容了Hadoop V1中的MR作业

         YARN提供了一个MRAppMaster的东东,来兼容了以前版本中的MR作业。具体动态图参见学习资料2


4.问题

(1)在http://hadoop.apache.org/docs/current/  这个页面的左边的树状图中,为什么MapReduce和YARN是分开的,且
http://hadoop.apache.org/  在hadoop首页中介绍hadoop module时,为什么有四个common,YARN,MapReduce,HDFS,为什么又是分开的

(2)几个概念的混淆:MRv1,MRv2,YARN


学习资料:

http://hadoop.apache.org

http://www.slideshare.net/cloudera/introduction-to-yarn-and-mapreduce-2

http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/


0 0