Hadoop学习笔记(1)

来源:互联网 发布:淘宝客服日常工作内容 编辑:程序博客网 时间:2024/06/09 16:00
初识Hadoop
        Hadoop,并不是某个或某些个单词的缩写,而是一个虚构的名字,其发音为[hædu:p],中文名为海杜普是一个由Apache基金会开发的分布式系统基础框架。能够利用集群的威力进行高速和存储,用户可以在没有分布式底层知识的条件下,开发分布式程序。
Hadoop,实现了一个分布式文件系统(Hadoop Distributed File System),缩写为HDFS。 能运行在低廉的硬件设备上,以高吞吐量来访问应用程序数据,可以以流的形式访问文件系统中的数据,并且具有高容错性。
    其框架最核心的设计有两个:
   (1)、HDFS,为海量的数据提供存储;
   (2)、MapReduce, 首先解释一下什么是MapReduce。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,极大的方便了编程人员在不了解分布式的情况下,将自己的程序运行在分布式系统上。从概念上,我们应该明白MapReduce为海量的数据提供了计算。
    主要特点有:
    1、能够处理大量数据,是一个处理大量数据的软件框架;
    2、维护多个工作数据副本,确保能够针对失败的节点进行重新分布处理;
    3、采用并行的方式工作,提高处理速度;
    4、能够处理PB级数据;
    因此归结起来就是数据处理方式可靠,高效,可伸缩;
    
0 0
原创粉丝点击