Hadoop入门

来源:互联网 发布:荧光颜料淘宝 编辑:程序博客网 时间:2024/06/08 14:08

Hadoop入门概念

一、Hadoop定义

Hadoop是一个提供分布式存储和计算的软件框架,它具有无共享、高可用、弹性可扩展的特点,非常适合处理海量数据。ASF(Apache软件基金会)对Hadoop的定义:Hadoop软件库是一个框架,允许在集群中使用简单的编程模型对大规模数据集进行分布式计算,它被设计为可以从单一服务器扩展到数以千计的本地计算和存储的节点,并且Hadoop会在应用层面检测和处理错误,而不依靠硬件的高可用性,所以Hadoop能够在一个每个节点都有可能出错的集群上提供一个高可用服务。

二、Hadoop的特点

1、Hadoop是一个框架。 Hadoop是由一系列的软件库组成的框架,这些软件库也称为功能模块。其中最主要的是Common,HDFS和YARN. Common是提供远过程调用RPC、序列化机制;HDFS负责数据的存储。YARN负责统一资源调度和管理。2、Hadoop适合处理大规模数据。Hadoop海量数据处理能力强大,能够实现分布式存储和计算,有统一的资源管理和调度平台,扩展能力十分优秀。3、Hadoop被部署在一个集群上。所谓集群,是一组通过网络互联的计算机。集群里的每一台计算机称为一个节点。

三、Hadoop生态圈

这里写图片描述
这里简答介绍一下Hadoop的核心组件:
1、海量数据的摇篮——HDFS
作为Hadoop分布式文件系统,HDFS处于Hadoop生态圈的最下层,存储所有的数据,支持Hadoop的所有服务,它是GFS(可扩展的分布式文件系统)的开源实现。HDFS的设计理论是以流式数据访问模式,存储超大文件,运行于廉价硬件集群之上。
2、处理海量数据的利器——MapReduce
MapReduce是一种编程模型,作为一个分布式计算模型,MapReduce是Hadoop的核心。基于这个框架,分布式并行程序的编写变得异常简单。
3、列族存储——HBase
HBase是一个基于HDFS的分布式数据库,擅长实时的随机读写超大规模数据集。

四、Hadoop现状

目前围绕Hadoop做二次开发的公司很多,最著名的当属Cloudara、Hortonworks和MapR。

  1. Cloudara开发的CDH已经成为生产环境下装机量最大的Hadoop发行版。CDH的特点在于稳定,并有许多重要的不定、向后移植和更新。
  2. Hortonworks拥有的DAG(有向无环图)计算框架Tez,在一些场景下,为了利用MapReduce解决问题,需要将问题分解为若干个有依赖关系的作业,目前MapReduce不支持依赖关系为有向无环图的作业计算,Tez很好的解决了这个问题。同时,Hortonworks的YARN也是Hadoop的重大贡献之一。
  3. MapR公司的代表产品是MapR Converged Data Platform,专注于数据的快速分析。 同时MapR公司也主导开发了Apache Drill.
原创粉丝点击