[学习笔记]初始Hadoop

来源：互联网发布：房产经纪人网络端口编辑：程序博客网时间：2024/06/06 02:19

Hadoop的两个核心组成：
1、HDFS：分布式文件系统，存储海量的数据。
2、MapReduce：并行处理框架，实现任务分解和调度。

HIVE：通过SQL实现Hadoop任务，降低使用Hadoop使用的门槛
HBASE：存储结构化数据的分布式数据库；
和传统数据库区别，它放弃了事务特性，追求更高的扩展；
和HDFS区别，它提供数据的随机读写和实时访问，实现对表数据的读写功能
zookeeper：像一个动物管理员一样。监控（Hadoop集群里面每个节点的状态），管理整个集群的配置，维护节点之间数据的一致性等。

Hadoop的版本
第一代Hadoop称为Hadoop 1.0，第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本，分别是0.20.x，0.21.x和0.22.x，其中，0.20.x最后演化成1.0.x，变成了稳定版，而0.21.x和0.22.x则NameNode HA等新的重大特性。
第二代Hadoop包含两个版本，分别是0.23.x和2.x，它们完全不同于Hadoop 1.0，是一套全新的架构，均包含HDFS Federation和YARN两个系统，相比于0.23.x，2.x增加了NameNode HA和Wire-compatibility两个重大特性。
对于初学者ver1.X版本更容易上手和理解。

阅读全文

0 0