Hadoop生物圈

来源:互联网 发布:json入门 编辑:程序博客网 时间:2024/05/21 10:37

Hadoop简介:

Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase等。


该项目创始人Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”

其实你们可以发现,在hadoop的生态圈里面,几乎全部都是动物的名字,现在就介绍一下他们之间有什么用。


Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

Pig是一种编程语言,它简化了Hadoop常见的工作任务。
ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等

0 0