Hadoop基础

来源：互联网发布：lamp兄弟连 python 编辑：程序博客网时间：2024/05/18 01:51

首先Hadoop是适合**大数据分布式存储与计算的平台**。

所以只是一个平台而已，具体的分析数据之类的还需要其它的。
一般hadoop的版本下载都是从Apache Hadoop的官网进行下载。
Cloudera基于Apache的Hadoop版本上进行商业化。
Yahoo拥有自己的内部版本。
所以我以Apache Hadoop的版本进行学习。

Hadoop的核心项目包括HDFS和MapReduce。

HDFS：Hadoop Distributed File System 分布式文件系统
HDFS的架构为主从结构，主节点只有一个：NameNode，从节点有很多，成为DataNodes。
NameNode主要负责接收用户操作请求，维护文件系统的目录结构，同时管理文件与block之间关系，block与DataNodes之间关系。
DataNodes主要负责存储文件，文件被分为block存储在磁盘上，为了保障数据安全，文件会有多个副本。
MapReduce：并行计算框架
MapReduce的架构也是主从结构，主节点只有一个是JobTracker，从节点有很多个TaskTrackers。
JobTracker主要负责接收用户提交的计算任务，把计算任务分给TaskTrackers执行，监控TaskTracker的执行情况。
TaskTrackers负责执行JobTracker分配的执行任务。

Hadoop的特点：

1，扩容能力（Scalable）：能可靠的（reliably）存储和处理千兆字节（PB）数据。
2，成本低（Economical）：可以通过普通机器组成服务器群来分发以及处理数据，这些服务器群总计可以达数千个节点。
3，高效率（Efficient）:通过分发数据，Hadoop可以在数据所在的节点上并行地（parallel）处理它们，这是的处理非常的快速。
4，可靠性（Reliable）：Hadoop能自动地维护数据的多份副本，并且在任务失败后能自动的重新部署（redeploy）计算任务。

0 0