Hadoop简介

来源:互联网 发布:linux是嵌入式系统吗 编辑:程序博客网 时间:2024/06/05 11:52

1. Hadoop生态圈




1)Apache Pig:一种强大的脚本语言

2)Apache Hive:一个具有类似 SQL 界面的数据仓库解决方案

3)MRv1

      MRv1 的最大问题是多租户。 


4)MRv2(YARN)

      由于限制了扩展以及网络开销所导致的某些故障模式,MRv1 JobTracker 和 TaskTracker 方法曾是一个重要的缺陷。这些守护程序也是 MapReduce 处理模型所独有的。为了消除这一限制,JobTracker 和 TaskTracker 已从 YARN 中删除,取而代之的是一组对应用程序不可知的新守护程序。

     为了实现一个 Hadoop 集群的集群共享、可伸缩性和可靠性。设计人员采用了一种分层的集群框架方法。


5)商用实例


1.1 单机模式


1.2 伪分布式模式


1.3 完全分布式模式



2. HDFS架构

2.1 HDFS设计目标



2.2 基本概念

NameNode与DataNode之间通过TCP协议进行通信。


2.3 HDFS架构





2.4 写数据流程


2.5 计数据流程



3. MapReduce架构

3.1 基本功能

 




3.2 MapReduce体系统结构



3.3 基本概念


3.4 生命周期





4. YARN架构

      负责资源分配和任务调度, 相当于云操作系统。

4.1 MR-v1与MR-v2(YARN)对比


4.2 YARN组件及架构



4.3 ResourceManager


4.4 ApplicationMaster


4.5 资源模型


4.6 ResourceRequest和Container
























0 0
原创粉丝点击