第一章 Apache Hadoop的介绍

来源：互联网发布：阿里云的前端面试题编辑：程序博客网时间：2024/06/05 06:29

1，什么是Hadoop

它是一个可靠的，可扩展，分布式计算的开源软件。

2，Hadoop四大模块

1.       Hadoop Common: 公共工具模块，支持其它模块。
2.       Hadoop Distributed File System(HDFS™): 一个分布式文件系统，提供了高吞吐的访问应用数据。
3.       Hadoop YARN: 一个JOB调度和集群资源管理的框架（云的操作系统）。
4.       HadoopMapReduce: 基于YARN系统的用于大型数据集的并行处理系统。
3，Hadoop常用的子项目
1.       Ambari：   一个基于web的Hadoop管理工具。
2.       HDFS：   前身是NDFS，分布式文件系统，运行于大型商用机集群。
3.       Core：   一系列分布式文件系统和通用I/O的组件和接口（序列化、javaRPC和持久化数据结构）。
4.       Avro：   一种提供高效、跨语言RPC的数据序列系统，持久化数据存储。
5.       Pig：   一种数据流语言和运行环境，用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。
6.       Hbase：   一个分布式的，列存储数据库，使用HDFS作为底层存储，同时支持MapReduce的批量式计算和点查询。
7.       Zookeeper：   一个分布式的、高可用的协调服务。Zookeeper提供分布式锁之类的基本服务用于构建分布式应用。
8.       Hive：   分布式数据仓库。Hive管理HDFS中存储的数据，并提供基于SQL的查询语言用以查询数据。
9.       Chukwa：   分布式数据收集和分析系统，运行HDFS中存储数据的收集器，使用MapReduce来生成报告。
10.    Spark：是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用的并行，Spark，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job 中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

4,Hadoop的作用

1, 海量数据存储，HDFS 分布式文件系统

2, 海量数据分析，MapReduce 并行的离线计算框架

5,Hadoop版本：

1, 以0.20.x和1.x.x 版本为主
2, 0.23.x 版本为主
3, 2.x.x 版本为主

6,下载Hadoop2最近版本：

http://hadoop.apache.org/releases.html，请下载源码，为我们以后的课程做准备。

0 0