腾讯大数据之MapReduce

来源:互联网 发布:php数组排序算法 编辑:程序博客网 时间:2024/04/30 12:20

前言

        大数据时代已经来临,互联网行业作为大数据时代的领导者,很早就认识到数据的价值,大数据的地位也被放置的越来越重要。

        Google、Yahoo!、Facebook、腾讯、阿里巴巴、百度等互联网巨头持续投入大数据技术,新兴的创业公司也不甘落后,把大数据技术作为创业的根本。大数据技术被认为将会是公司乃至整个行业的核心竞争力。随着大数据技术的发展,快速迭代、开源、节约成本等趋势在其中得到充分展现。

        在腾讯,为了节约成本、提供更好的服务,很早就开始了去IOE的运动,早在2009年,我们就成立了TDW(腾讯分布式数据仓库)来替代商业数据仓库,为腾讯提供海量、高效、稳定、易用、低成本的数据仓库服务。

        TDW提供易用的SQL服务,并不断进行优化,最大地降低使用门槛。除此之外,TDW还提供直接的MapReduce应用服务,满足更高级、更灵活、更定制化的计算需求。TDW还会不断提供不同类型的服务,最大化满足用户的需求。

MapReduce是什么

        MapReduce是Google提出的一种编程模型,用于大规模数据集(大于1TB)的并行计算。概念”Map(映射)”和”Reduce(规约)”,和他们的主要思想都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。

        MapReduce不是数据仓库,是分布式数据仓库的底层支撑模块,专门负责海量计算。TDW支持多种语言的MapReduce应用程序:Java、C++、Ruby、Python、Shell等。MapReduce天生地具有并行性,门槛较低,极大地方便编程人员在不会分布式编程的情况下,将自己的程序运行在分布式系统上。

        Hive、tPig等sql最终也是转换成MapReduce作业进行计算,除此之外MapReduce还支持很多其他应用,不管是数据挖掘的科学家还是决策产品未来的经理们,如果有需要,都可以使用MapReduce对数据进行处理。

MapReduce在TDW中的位置

        MapReduce在整个TDW平台中承担所有的离线数据计算,是TDW的底层支撑平台之一。下图展示了整个TDW数据处理平台及MapReduce的角色。

1

        MapReduce支撑着:Hive、tPig等sql计算,Lhotse调度的MapReduce应用程序,还有用户直接提交的应用程序等,不仅是TDW重要的核心模块之一,也是TDW提供给用户的重要服务之一。

TDW使用MapReduce的特性

        有海量的数据,MapReduce应用程序可以直接共享这些数据而不需要进行繁琐的数据迁移。

        有海量的计算资源,MapReduce应用程序不用担心资源紧张的情况。

        有一站式的Lhotse任务管理系统,方便管理一系列的MapReduce作业。

        计算引擎资源调度高效,可以在毫秒级完成一次资源调度。

        编程门槛低,支持多种语言:Java、C++、Ruby、Python、Shell等,方便编程人员开发应用程序。

        支持多种特性:Combiner、Partitioner、自定义输入输出格式、多路输出、自定义Counters、分布式缓存、数据压缩(中间结果压缩、作业输出压缩)、自定义调试等等。

        专业的技术支持,TDW团队在MapReduce方面有丰富的经验,用户可以得到TDW团队专业人员的支持。

MapReduce原理介绍

        MapReduce对数据进行处理,是以<key, value>对的形式读取输入数据,又以<key, value>对的形式写入输出数据。Map和Reduce顾名思义分别负责映射和规约,map将输入键值对映射到一组中间格式的键值对集合,reduce将与一个key关联的一组中间数值集规约为一个更小的数值集,如下图所示:

2

        MapReduce的过程大致可以分为如下几个阶段:

        每个map处理对应的一片数据,这些一片一片数据称为split,split是由输入格式划分得到的,这个过程称为split过程。

        每个split由一个map进行处理。Map处理完对应的split数据之后,将中间结果数据写到本地文件系统,这个过程称为spill。

         每个reduce处理对应的数据,这些数据来自每个map输出的中间结果数据中的对应部分。Reduce开始之前把对应的数据从每个map输出的中间结果中拷贝过来,这个过程称为copy。

        拷贝中间结果过来之后,会经过合并、排序等操作最终会产生一个排序的输入文件,这个过程称为sort。

        Copy和sort两个过程合起来一般也称为shuffle过程。

        Reduce接下来才进入真正的reduce阶段。所以reduce一般分为上面的copy、sort、reduce三个阶段。

        Reduce的输出也就是整个作业的输出,直接写到HDFS上。

这些过程如下图所示:

3

        MapReduce应用程序是怎样提交到计算集群上执行的呢?Job在计算集群上的执行流程如下图所示:

4

MapReduce计算平台大集群建设

        随着业务的快速增长,TDW的计算节点数也在增加,单个大规模Hadoop集群的需求也越来越强烈。TDW需要做单个大规模集群,主要是从计算资源共享、减轻运营负担和成本等方面考虑。

        TDW之前单集群规模基本上是400台,从单集群400台规模建设成单集群4000台规模,TDW面临最大的挑战是Hadoop架构的单点问题:计算引擎单点JobTracker负载重,使得调度效率低、集群扩展性不好。为了解决计算单点瓶颈,TDW主要进行了JobTracker分散化方面的实施。

        TDW以前的计算引擎是传统的两层架构,单点JobTracker负责整个集群的资源管理、任务调度和任务管理,TaskTracker负责任务执行,如图2所示。JobTracker的三个功能模块耦合在一起,而且全部由一个Master节点负责执行,当集群并发任务数较少时,这种架构的计算效率没有出现瓶颈,但是当集群并发任务数达到2000、节点数达到4000时,任务调度就会出现瓶颈,节点心跳处理迟缓。

        TDW借鉴开源的社区版YARN和Facebook版corona设计方案,进行了计算引擎的三层架构优化,如图所示:5

(1) 将资源管理、任务调度和任务管理三个功能模块解耦;

(2) JobTracker只负责任务管理功能,而且一个JobTracker只管理一个Job;

(3) 将比较轻量的资源管理功能模块剥离出来交给新的称为ClusterManager的Master负责执行;任务调度也剥离出来,交给具有资源信息的ClusterManager负责执行;

(4) 对性能要求较高的任务调度模块采用更加精细的调度方式。

        新架构下三个角色分别是:ClusterManager负责整个集群的资源管理和任务调度,JobTracker负责单个Job的管理,TaskTracker仍然负责任务的执行。

总结

        TDW从实际情况出发,采取了一系列的优化措施,成功实施了单个大规模集群的建设,集群规模达到4400台,每日作业数100多万,集群利用率85%多,已经成为公司最大的离线数据处理平台。为了满足用户日益增长的计算需求,TDW正在进行更大规模集群的建设,并向实时化、集约化方向发展,为用户提供更加丰富的服务。

转自:http://data.qq.com/article?id=1231

---------------------------------------------------------------相关链接---------------------------------------------------------------------

【连载】软件工程大型项目实训纪实

腾讯数据

0 0