Hadoop架构简介

来源:互联网 发布:java treemap是红黑树 编辑:程序博客网 时间:2024/05/23 23:46

Google大数据技术:MapReduce、BigTable、GFS,Google只发布了相关的技术论文,没有开源。Hadoop是一个模仿谷歌大数据技术的开源实现。Hadoop是一个开源的分布式存储+分布式计算的平台。包括两个核心:HDFS(分布式文件系统,存储海量数据)和MapReduce(并行处理框架,实现任务的分解和调度)

HDFS的文件被分成块(Block)进行存储,块的默认大小是64MB,块是文件存储处理的逻辑单元。HDFS中有两类节点:NameNode和DataNode。NameNode是一个管理节点,用于存放文件的元数据:①文件与数据块的映射表②数据块与数据节点的映射表。DataNode是HDFS的工作节点,用于存放数据块。

HDFS的数据管理与容错:①每个数据块总共存3份(两个副本),分布在两个机架内的三个节点;②心跳检测,DataNode定期向NameNode发送心跳信息,汇报自己的状态;③SecondaryNameNode定期同步NameNode的元数据映像文件和修改日志,NameNode发生故障时,备胎转正






MapReduce:将大任务分成多个小的子任务(Map),并行执行,合并结果(Reduce)。例子:1000副扑克牌少一张,找出少的哪一张。可以分成5份,每个人统计每种牌的数量(Map),再合并结果(Reduce).

MapReduce的容错机制:①重复执行②推测执行

Hive:将SQL语句转换为Hadoop任务执行

Hbase:存储结构化数据的分布式数据库。与传统的关系型数据库相比,它放弃了事务的特性,追求更高的扩展。与HDFS相比,它提供了数据的随机读写和实时访问,实现了对表数据的读写功能。

zookeeper:监控Hadoop集群中每个节点的状态,管理集群的配置,维护节点间数据的一致性


参考视频:Hadoop大数据平台架构与实践--基础篇 http://www.imooc.com/learn/391

原创粉丝点击