2、Apache Hadoop

来源:互联网 发布:js设置div尺寸 编辑:程序博客网 时间:2024/06/06 02:40

1、版本

hadoop已经演变为大数据计算的代名词,形成了一套完善的大数据计算的生态系统。

1.1、apache 官方版本

1.2、cloudera 使用下载最多的版本,稳定,有商业支持。

1.3、hortonwordk 给予Apache的版本进行集成。


2、apache hadoop

2.1、通用部分:序列化、jar包;

2.2、HDFS部分:分布式存储

2.3、YAR部分:资源管理平台。

2.4、mapreduce:分布式计算。


3、衍生框架

ambari:hadoop集群的管理、监控平台。

avro:数据序列化系统;

Cassandra:不存在单点问题的数据库;

chukwa:数据收集系统;

HBase:支持大量结构化数据存储的数据库。

hive:支持数据汇总和即系查询的数据仓库。

mahout:机器学习和数据挖掘的library。

pig:高层次的数据流语言。

spark:快速的通用计算引擎。

tez:通用的数据流编程框架。

zookeeper:一款高性能的为分布式服务提供协调服务的框架。

原创粉丝点击