Hadoop基本概念

来源:互联网 发布:小闹钟软件 编辑:程序博客网 时间:2024/06/08 12:29

一、服务形式

       Saas(Software as a Service)基础设施作为服务、Paas(Platform as a service)平台作为服务、Iaas(Infrastructure as a Service)软件作为服务。

 

二、云计算技术体系结构

      物理资源层:计算机、存储器、网络设施、数据库、软件。

      资源池层:计算资源池、存储资源池、网络资源池、数据资源池、软件资源池。

      管理中间层:负责资源管理、任务管理、用户管理和安全管理等工作。

      SOA构建层:服务接口、服务注册、服务查找、服务访问、服务工作流。

 

三、HDFS文件系统

      HDFS:用于提供高吞吐量的分布式文件系统,用GFS实现开源。hadoop分布式软件架构的基础部件。默认每个数据块有两个备份,备份子不同的位置上。

      NameNode:HDFS集群中只有一个NameNode。管理文件系统所有的元数据,包括名字空间、访问控制信息、文件到块的映射信息、文件块的位置信息等。

      DataNode:部署在物理机器上,负责数据的存储和管理。名字节点用心跳和NameNode指示是否存活。

 

四、MapReduce实现机制

       Map:数据的分片统计。

       Shuffle:数据从Maptask到Reducetask传输过程,是mapreduce的核心。

       Reduce:数据的聚合统计。

     

     

 

原创粉丝点击