Hadoop-入门-01

来源:互联网 发布:陆逊 知乎 编辑:程序博客网 时间:2024/06/11 04:55

一、 Hadoop是什么?

        Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS、MapReduce、Yarn,使得它可以分布式处理海量数据。


       1、HDFS(分布式文件系统):

它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行),支持多媒体数据和流媒体数据访问,高效率访问大型数据集合,数据保持严谨一致,部署成本降低,部署效率提交等,如图是HDFS的基础架构

    

      2、MapReduce(并行计算架构):

它可以将计算任务拆分成大量可以独立运行的子任务,接着并行运算,另外会有一个系统调度的架构负责收集和汇总每个子任务的分析结果。其中 包含映射算法与规约算法。


     3、Yarn()

        资源调度管理集群(可以理解为一个分布式的操作系统,管理和分配集群硬件资源)

二、Hadoop发展史

      1、最早来自于google的三大技术论文:GFS/MAPREDUCE/BIG TABLE;谷歌这三大论文讲解了谷歌是如何解决海量数据问题的。

      2、Hadoop作者doug cutting 当时正在负责爬虫项目,lucene(搜索引擎),对于大数据场景doug cutting遇到了与谷歌一样的困难;后来经过doug cutting山寨,出现了java版本的hdfs、mapreduce、hbase并成为apache的顶级项目;经过演化hadoop组件又多了个yarn,随着大数据的火爆,围绕hadoop出现了大量的组件,形成了庞大的hadoop生态圈。


原创粉丝点击