Hadoop 基本概念

来源:互联网 发布:思讯收银软件下载 编辑:程序博客网 时间:2024/06/16 10:09

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序

1. HDFS
一种存储系统

2. Hive
Hive是构建于Hadoop集群之上的数据仓库应用,它提供了类似于SQL语法的HQL语句作为数据访问接口,这使得普通分析人员的应用Hadoop的学习曲线变缓。

3. Mapreduce
一种计算框架

4. Hbase
HBase是一个分布式的、面向列的开源数据库 , nosql数据库

5. Flume
flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。

6. Ambari
Ambari 的作用,就是创建、管理、监视 Hadoop 的集群

7. Avro
Avro是一个数据序列化的系统。Avro可以将数据结构或对象转化成便于存储或传输的格式

8. Mahout
一个数据挖掘库,它包含了最流行的一些数据挖据算法,并且以MapReduce模型来实现他们
9. Spark
一种快速,通用引擎用于大规模数据处理,Spark是一个数据并行通用批量处理引擎.Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。

0 0