Hadoop架构简介
来源:互联网 发布:java treemap是红黑树 编辑:程序博客网 时间:2024/05/23 23:46
Google大数据技术:MapReduce、BigTable、GFS,Google只发布了相关的技术论文,没有开源。Hadoop是一个模仿谷歌大数据技术的开源实现。Hadoop是一个开源的分布式存储+分布式计算的平台。包括两个核心:HDFS(分布式文件系统,存储海量数据)和MapReduce(并行处理框架,实现任务的分解和调度)
HDFS的文件被分成块(Block)进行存储,块的默认大小是64MB,块是文件存储处理的逻辑单元。HDFS中有两类节点:NameNode和DataNode。NameNode是一个管理节点,用于存放文件的元数据:①文件与数据块的映射表②数据块与数据节点的映射表。DataNode是HDFS的工作节点,用于存放数据块。
HDFS的数据管理与容错:①每个数据块总共存3份(两个副本),分布在两个机架内的三个节点;②心跳检测,DataNode定期向NameNode发送心跳信息,汇报自己的状态;③SecondaryNameNode定期同步NameNode的元数据映像文件和修改日志,NameNode发生故障时,备胎转正
MapReduce:将大任务分成多个小的子任务(Map),并行执行,合并结果(Reduce)。例子:1000副扑克牌少一张,找出少的哪一张。可以分成5份,每个人统计每种牌的数量(Map),再合并结果(Reduce).
MapReduce的容错机制:①重复执行②推测执行
Hive:将SQL语句转换为Hadoop任务执行
Hbase:存储结构化数据的分布式数据库。与传统的关系型数据库相比,它放弃了事务的特性,追求更高的扩展。与HDFS相比,它提供了数据的随机读写和实时访问,实现了对表数据的读写功能。
zookeeper:监控Hadoop集群中每个节点的状态,管理集群的配置,维护节点间数据的一致性
参考视频:Hadoop大数据平台架构与实践--基础篇 http://www.imooc.com/learn/391
- Hadoop 架构简介
- Hadoop架构简介
- Apache Hadoop YARN架构简介
- Apache Hadoop YARN架构简介
- Hadoop简介(分布式系统基础架构)
- Hadoop简介(分布式系统基础架构)
- Hadoop MapReduce架构简介(初学学习不错)
- hadoop生态圈综合简介及架构案例
- hadoop生态圈综合简介及架构案例
- Hadoop运维工程师专家之路--第二章Hadoop架构简介
- hadoop架构
- Hadoop架构
- hadoop架构
- Hadoop 架构
- Hadoop架构
- Hadoop 简介
- Hadoop简介
- Hadoop 简介
- 计蒜客-2017 计蒜之道 复赛-D-百度地图导航
- 第十章 其他常用工具
- anglarjs之select
- USACO Score Inflation 总分
- python-02
- Hadoop架构简介
- Flink 集群模式部署
- hadoop Unable to load native-hadoop library for your platform... using builtin-java classes where a
- ROS编程示例---随机移动
- (项目)AR电子书系统创新实训第五周(2)
- 关于接口最最最基础层面上的使用理解
- System x3650 M5 U盘安装系统
- leetcode hard模式专杀之68. Text Justification
- 伪类:before和:after的使用