hadoop概述

来源:互联网 发布:返现 返利 淘宝联盟 编辑:程序博客网 时间:2024/04/19 11:32


MapReduce和HDFS是Hadoop的两大核心,整个Hadoop体系结构主要通过HDFS来实现对分布式存储的底层支持的,并且通过MapReduce来实现对分布式并行任务处理的程序的支持。

namenode
1.hdfs守护进程;
2.记录文件是如何分割成数据块的,以及这些数据块被存储到那些节点上;
3.对内存和I/O进行集中管理;
4.是单点,发生故障将使集群崩溃.
secondary namenode
1.监控hdfs状态的后台辅助进程;
2.每个集群都有一个;
3.与namenode进行通讯,定期保存hdfs元数据快照;
4.当namenode故障可以作为备用的namenode使用.
datanode
1.每台从服务器都运行一个;
2.负责把hdfs数据块读写到本地文件系统.
jobtracker
1.用于处理作业(用户提交代码)的后台程序;
2.决定有哪些文件参与处理,然后切割task并分配节点;
3.监控task,重启失败的task(于不同的节点);
4.每个集群只有唯一一个jobtracker,位于Master节点.
tasktracker
1.位于slave节点上,与datanode结合(代码与数据一起的原则);
2.管理各自节点上的task(有jobtracker分配);
3.每个节点只有一个tasktracker,但一个tasktracker可以启动多个JVM,用于并行执行map或reduce任务;
4.与jobtracker交互.
master与slave
master:namenode,secondary namenode,jobtracker,浏览器由于观看和管理界面,其他的hadoop工具
slave :tasktracker,datanode
master不是唯一的
三种运行模式:单机模式,伪分布模式,完全分布式模式

Hadoop特点:
扩容能力;成本低;高效率;可靠性
MapReduce和HDFS是Hadoop的两大核心,整个Hadoop体系结构主要通过HDFS来实现对分布式存储的底层支持的,并且通过MapReduce来实现对分布式并行任务处理的程序的支持。

namenode
1.hdfs守护进程;
2.记录文件是如何分割成数据块的,以及这些数据块被存储到那些节点上;
3.对内存和I/O进行集中管理;
4.是单点,发生故障将使集群崩溃.
secondary namenode
1.监控hdfs状态的后台辅助进程;
2.每个集群都有一个;
3.与namenode进行通讯,定期保存hdfs元数据快照;
4.当namenode故障可以作为备用的namenode使用.
datanode
1.每台从服务器都运行一个;
2.负责把hdfs数据块读写到本地文件系统.
jobtracker
1.用于处理作业(用户提交代码)的后台程序;
2.决定有哪些文件参与处理,然后切割task并分配节点;
3.监控task,重启失败的task(于不同的节点);
4.每个集群只有唯一一个jobtracker,位于Master节点.
tasktracker
1.位于slave节点上,与datanode结合(代码与数据一起的原则);
2.管理各自节点上的task(有jobtracker分配);
3.每个节点只有一个tasktracker,但一个tasktracker可以启动多个JVM,用于并行执行map或reduce任务;
4.与jobtracker交互.
master与slave
master:namenode,secondary namenode,jobtracker,浏览器由于观看和管理界面,其他的hadoop工具
slave :tasktracker,datanode
master不是唯一的
三种运行模式:单机模式,伪分布模式,完全分布式模式

Hadoop特点:
扩容能力;成本低;高效率;可靠性
0 0
原创粉丝点击