Hadoop概述

来源:互联网 发布:芝华数据 编辑:程序博客网 时间:2024/03/29 13:16

1.关于hadoop的历史

首先我们认识一下人称hadoop之父的 Doug Cutting,他是Apache软件基金会的主席,主导了多个开源项目,hadoop就是其中的一种。hadoop来源于Google在2004年发布的两篇重要论文:
Google File SystemMapReduce:Simplified Data Processing on Large Clusters即谷歌分布式文件存储系统和MapReduce架构。Doug Cutting借鉴了这两种关键技术,最终演变成了现在的hadoop分布式系统。

2.关于创建hadoop本地集群(完全分布式)

相关搭建过程请查看链接:http://blog.csdn.net/qq_30070433/article/details/60474240

3.关于hadoop架构

a、HDFS的体系结构
hdfs是hadoop的分布式文件系统,适用于批处理可以进行流式访问数据,其拥有强大的异构平台的可移植性。
DDFS采用了master-Slave架构,由一个NameNode和若干个DataNode所组成。其中, 拓扑图如下:
这里写图片描述
NameNode:是一个中心服务器,负责整个数据群的管理。
DataNode分布在不同是客户端上,定期向NameNode发送数据
通过NameNode和DataN的交互实现客户端和服务端的交互。
下面介绍一些基本概念:
机架:
数据块:默认64M
元数据:镜像文件(Fsimage)+日志文件(EditLog)的机制。
用户数据:以数据块的形式存在。

b、MapReduce的体系结构
MapReduce是一种分布式编程架构,可以解决大规模数据处理的问题。以数据为中心,更看重吞吐率,是“大事化小,小事化了”的一种分而治之的算法理论。
结构图如下:
这里写图片描述
其中有以下主要关键字:
作业(job)
任务(Task)
键值对(key/value pair)
关于MapReduce的生命周期:
1、提交作业阶段
2、任务分配阶段
3、任务的执行阶段
4、状态更新阶段
c、hadoop的三种运行模式
1、单机模式
2、伪分布模式
3、完全分布模式
那么这三种模式有什么区别呢?我们先来看一下
单机模式

只要hadoop安装完成,即是单机模式,在单机模式下,hadoop使用的是本地文件系统,而不是分布式文件系统。是一种默认模式不对配置文件进行修改,Hadoop的守护进程未启动,用于对MapReduce程序的逻辑进行调试。

伪分布模式

在一台主机模拟多台主机,每个守护进程都以Java进程的形式运行。
在单机模式之上增加了代码调试功能,允许检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。
修改3个配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml 格式化文件系统

完全分布式模式

多台主机 所有主机安装JDK和Hadoop 设置SSH免密码登陆 修改3个配置文件:
core-site.xml、hdfs-site.xml、mapred-site.xml 格式化文件系统

0 0