Apache Tez

来源:互联网 发布:遇见软件怎么玩 编辑:程序博客网 时间:2024/06/08 11:32

参考资料:

官方blog:

http://hortonworks.com/blog/author/arun_murthy/

svn源码:

http://hortonworks.com/blog/introducing-tez-faster-hadoop-processing/

看到一篇很不错的文章:

http://dongxicheng.org/mapreduce-nextgen/apache-tez/

Tez安装:

http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.0.2/bk_installing_manually_book/content/rpm-chap-tez.html


名称解释:

DAG:Directed Acyclic Graph 无环有向图


Tez将Map task和Reduce task进一步拆分,




Tez的task由Input、processor、output阶段组成,可以表达所有复杂的map、reduce操作。



这样,这些分解后的元操作可以任意灵活组合,产生新的操作单元Task.


举个例子:

在传统的MR如下左图所示,而采用Tez之后则将DAG的依赖关系去除,Tez将有依赖关系的作业转换为一个作业,如下右图所示。




           



                                         Pig/Hive -MR                                                  Pig/Hive -Tez



代码结构图如下:




•tez-api:六个可编程组件
•tez-common
•tez-engine
•tez-mapreducetez-task-library: Tez为兼容MR提供的组件
•tez-yarn-application
•tez-yarn-client





原创粉丝点击