Hadoop架构简介

来源：互联网发布：java treemap是红黑树编辑：程序博客网时间：2024/05/23 23:46

Google大数据技术：MapReduce、BigTable、GFS，Google只发布了相关的技术论文，没有开源。Hadoop是一个模仿谷歌大数据技术的开源实现。Hadoop是一个开源的分布式存储+分布式计算的平台。包括两个核心：HDFS（分布式文件系统，存储海量数据）和MapReduce（并行处理框架，实现任务的分解和调度）

HDFS的文件被分成块（Block）进行存储，块的默认大小是64MB，块是文件存储处理的逻辑单元。HDFS中有两类节点：NameNode和DataNode。NameNode是一个管理节点，用于存放文件的元数据：①文件与数据块的映射表②数据块与数据节点的映射表。DataNode是HDFS的工作节点，用于存放数据块。

HDFS的数据管理与容错：①每个数据块总共存3份（两个副本），分布在两个机架内的三个节点；②心跳检测，DataNode定期向NameNode发送心跳信息，汇报自己的状态；③SecondaryNameNode定期同步NameNode的元数据映像文件和修改日志，NameNode发生故障时，备胎转正

MapReduce：将大任务分成多个小的子任务（Map），并行执行，合并结果（Reduce）。例子：1000副扑克牌少一张，找出少的哪一张。可以分成5份，每个人统计每种牌的数量（Map），再合并结果（Reduce）.

MapReduce的容错机制：①重复执行②推测执行

Hive：将SQL语句转换为Hadoop任务执行

Hbase：存储结构化数据的分布式数据库。与传统的关系型数据库相比，它放弃了事务的特性，追求更高的扩展。与HDFS相比，它提供了数据的随机读写和实时访问，实现了对表数据的读写功能。

zookeeper：监控Hadoop集群中每个节点的状态，管理集群的配置，维护节点间数据的一致性

参考视频：Hadoop大数据平台架构与实践--基础篇 http://www.imooc.com/learn/391

阅读全文

0 0