Hadoop计算模型MapReduce及其体系结构
来源:互联网 发布:淘宝如何快速升心 编辑:程序博客网 时间:2024/06/06 07:12
Hadoop计算模型MapReduce及其体系结构
1. Hadoop计算模型
一个MapReduce 作业(job) 通常会把输入的数据集切分为若干个独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会先对map的输出进行排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。
通常,MapReduce框架和分布式文件系统是运行在一组相同的节点上的,也就是说,计算节点和存储节点在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效的利用。
MapReduce框架由一个单独的master JobTracker 和集群节点上的slave TaskTracker共同组成。master负责调度构成一个作业的所有任务,这些任务分布在不同的slave上。master监控它们的执行情况,并重新执行已经失败的任务,而slave仅负责执行由master指派的任务。
在Hadoop上运行的作业需要指明程序的输入/输出位置(路径),并通过实现合适的接口或抽象类来提供map和reduce函数。同时还需要指定作业的其他参数,构成作业配置(job configuration)。在Hadoop的 jobclient提交作业(jar包/可执行程序等)和配置信息给JobTracker之后,JobTracker会负责分发这些软件和配置信息给slave及调度任务,并监控它们的执行,同时提供状态和诊断信息给jobclient。
2 .MapReduce的体系结构
接下来介绍MapReduce的体系结构,MapReduce是一种并行编程模式,这种模式使得软件开发者可以轻松地编写出分布式并行程序。在Hadoop的体系结构中,MapReduce是一个简单易用的软件框架,基于它可以将任务分发到由上千台商用机器组成的集群上,并以一种高容错的方式并行处理大量的数据集,实现Hadoop的并行任务处理功能。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控它们的执行情况,并且重新执行之前失败的任务;从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。
从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务
- Hadoop计算模型MapReduce及其体系结构
- Hadoop-MapReduce计算模型
- (4) Hadoop-MapReduce计算模型
- hadoop自学轨迹-MapReduce计算模型
- Hadoop MapReduce 计算模型分析(一)
- Hadoop(七)---MapReduce计算模型
- _00003 Hadoop MapReduce体系结构
- Hadoop体系结构之 Mapreduce
- 【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型
- Hadoop:MapReduce编程接口体系结构
- Hadoop:MapReduce模型
- Hadoop MapReduce编程模型
- MapReduce编程模型--接口体系结构--架构设计--《hadoop技术内幕》读书笔记
- Hadoop计算框架Mapreduce
- hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce详解
- 3 MapReduce计算模型
- MapReduce计算模型
- MapReduce计算模型
- 深入浅出 - Android系统移植与平台开发(九)- JNI介绍
- dtree 用法简单描述
- hibernate 常用注解
- PHP 发送Email的几种方法
- /sbin/mount.vboxsf: mounting failed with the error: Protocol
- Hadoop计算模型MapReduce及其体系结构
- Documentation/networking/3c505.txt
- 第四次阶段性任务工作计划 2013/11/6
- JVM的启动流程(1)
- Sql Server判断数据库、表、存储过程、函数是否存在
- of这个变态
- 结构体中,内存对齐解释
- [整理]PHP字符串截取函数
- JDK5.0新特性---泛型