hadoop概述

来源：互联网发布：返现返利淘宝联盟编辑：程序博客网时间：2024/04/19 11:32

MapReduce和HDFS是Hadoop的两大核心,整个Hadoop体系结构主要通过HDFS来实现对分布式存储的底层支持的，并且通过MapReduce来实现对分布式并行任务处理的程序的支持。

namenode

1.hdfs守护进程;

2.记录文件是如何分割成数据块的,以及这些数据块被存储到那些节点上;

3.对内存和I/O进行集中管理;

4.是单点,发生故障将使集群崩溃.

secondary namenode

1.监控hdfs状态的后台辅助进程;

2.每个集群都有一个;

3.与namenode进行通讯,定期保存hdfs元数据快照;

4.当namenode故障可以作为备用的namenode使用.

datanode

1.每台从服务器都运行一个;

2.负责把hdfs数据块读写到本地文件系统.

jobtracker

1.用于处理作业(用户提交代码)的后台程序;

2.决定有哪些文件参与处理,然后切割task并分配节点;

3.监控task，重启失败的task(于不同的节点);

4.每个集群只有唯一一个jobtracker,位于Master节点.

tasktracker

1.位于slave节点上,与datanode结合(代码与数据一起的原则);

2.管理各自节点上的task(有jobtracker分配);

3.每个节点只有一个tasktracker,但一个tasktracker可以启动多个JVM,用于并行执行map或reduce任务;

4.与jobtracker交互.

master与slave

master:namenode,secondary namenode,jobtracker,浏览器由于观看和管理界面,其他的hadoop工具

slave :tasktracker,datanode

master不是唯一的

三种运行模式:单机模式,伪分布模式,完全分布式模式

Hadoop特点：

扩容能力；成本低；高效率；可靠性