Coursea Hadoop课堂笔记——Lesson 1: Big Data Hadoop Stack

来源:互联网 发布:淘宝卖家客服电话热线 编辑:程序博客网 时间:2024/06/03 16:40

课后习题

课堂中: Hadoop move computation to data? yes

1.What does SQOOP stand for?  (SQOOP代表什么)

Hadoop to SQL

2. What is not part of the basic Hadoop Stack 'Zoo'?   (Hadoop栈基本组成)

Pig、Hive、Elephant

3. What is considered to be part of the Apache Basic Hadoop Modules?(Hadoop基本组成)

HDFS、Yarn、MapReduce

4. What are the two major components of the MapReduce layer? (MapReduce层的基本组成)

TaskManager、JobTracker

5.What is Yarn used as an alternative to in Hadoop 2.0 and higher versions?(在HDFS2.0中Yarn用来替代什么)

MapReduce

6.Could you run an existing MapReduce application using Yarn?(能否在Yarn运行现有MapReduce应用)

Yes

7. What are the two basic layers comprising the Hadoop Architecture?(Hadoop结构中两大基本层)

MapReduce and HDFS

8.What are Hadoop advantages over a traditional platform?(Hadoop相较于普通平台优势)

Scalability、Reliability、Flexibility

课堂内容截屏

1. Apache框架基本模块:

Hadoop Common、HDFS、YARN、MapReduce

 
(1) 


slave node: 从属节点 Job tracker:工作追踪器 task tracker:任务跟踪器

2.HDFS工作原理


metadata 元数据 replication 响应Rack 齿条

MRV2 (Map Reduce Version 2)与YARN的区别:

YARN并不是下一代MapReduce(MRv2)

(1)下一代MapReduce与第一代MapReduce(MRv1)在编程接口、数据处理引擎(MapTask和ReduceTask)是完全一样的。

不同的是资源管理和作业管理系统,MRv1中资源管理作业管理均是由JobTracker实现的,而MRv2中将这两部分分开了:

作业管理由ApplicationMaster实现;而资源管理由新增系统YARN完成。

(2) 由于YARN的通用性,也可以作为其他计算框架的资源管理系统,不仅限于MapReduce,也是其他计算框架,比如Spark、Storm等。

通常将运行在YARN上的计算框架称为“X on YARN”,比如“MapReduce On YARN”, "Spark On YARN",“Storm On YARN”等。

(3) YARN增强了Hadoop计算集群的效力,增强了伸展性(Scalability)、提升集群利用率、MapReduce兼容性、支持其他工作导入

    

Apache SQOOP工作原理(斯库扑)


3. Hadoop生态系统主要组成

      

    

    

    

Cludera是Hadoop数据管理软件与服务提供商

    


0 0