Hadoop概述

来源:互联网 发布:php ftp上传视频文件 编辑:程序博客网 时间:2024/04/25 12:21
一、简介
    Hadoop是一个实现了MapReduce计算模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop计算框架最核心的设计是HDFS(Hadoop Distributed File System)和MapReduce,HDFS单看全称就知道,实现了一个分布式的文件系统,MapReduce则是提供一个计算模型,基于分治策略。

二、Hadoop特性
    第一,它是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
    其次,Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。
    此外,Hadoop 依赖于社区服务器,因此它的成本比较低,且开源,任何人都可以使用。

三、Hadoop主机
    Hadoop分别从三个角度将主机划分为两种角色。
    (1)最基本的划分为Master和Slave,即主人和奴隶,Master算是中间节点,而Slave算是其下的控制节点;
    (2)从HDFS的角度,将主机划分为 NameNode和DataNode(在分布式文件系统中,目录的管理很重要,管理目录相当于主人,而NameNode就是目录管理者);
    (3)从 MapReduce的角度,将主机划分JobTracker 和TaskTracker(一个job经常被划分为多个Task,从这个角度不难理解它们之间的关系);

四、Hadoop运行模式
    目前Hadoop可以在三种模式下运行:单一节点(Standalone)、伪分布式(Pseudo-Distributed)、真分布式(Fully-Distributed)。前两者都是在单一节点上可以运行的,是不对外开放主机的各个服务、存储、管理端口(TCP Port),最后一个必须在多个节点上同时搭建,即是真正的分布式计算、存储系统。单一节点又叫Hadoop CLI MiniCluster

五、各释出版本及产品
    Hadoop最初来源于Google的一组MapReduce并行计算包,最后发展成为大数据计算、存储、分析、处理、管理 等方面统一的平台。并受到业界人士青睐。于是开源也好,闭源也罢,都慢慢得到的一些公司的支持,有的公司以此为核心,或提供咨询、教学、运维服务,或直接出售基于大数据的产品,或提供自己的Hadoop部署。
    Cloudera是提供Hadoop企业级部署解决方案的厂商,CDH:Cloudera's Distribution Including Apache Hadoop,作为其不收费的Hadoop产品,但一些服务和工具需要收取费用。
    Apache Hadoop:很受欢迎的Hadoop开源实现,基于Apache Licence version2释出,完全免费。适合初学者。
    Hortonworks公司的HDP(Hortonworks Data Platform)。

HBase概述:http://blog.csdn.net/u012842205/article/details/52267263

1 0
原创粉丝点击