一、初始Hadoop之一Hadoop三大组件

来源:互联网 发布:sql导入access数据库 编辑:程序博客网 时间:2024/06/01 08:57
一、Hadoop的组件:
1、HDFS
 一个高可靠、高吞吐量的分布式文件系统
 存储海量数据
 分布式
 安全性
   副本数据
 数据是以block的方式进行存储的,128M
 比如:200M---128M  72M
 
2、MapReduce
 一个分布式的离线并行计算框架
 对海量数据的处理
 分布式
 思想:
分而治之
大数据集分为小的数据集
每个数据集进行逻辑业务处理(map)
合并统计数据结果(reduce)
3、Yarn
 分布式资源管理框架
  管理整个集群的资源(内存、CPU核数)
  分配调度集群的资源
4、Common
 工具,基础,为基他Hadoop模块提供基础设施。
 
二、HDFS服务功能
 NameNode是主节点,存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在DataNode等。
 DataNode在本地文件系统存储文件块数据,以及块数据的校验和。
 SecondaryNameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
 
三、YARN服务功能
 ResourceManager
  处理客户端请求
  启动/监控ApplicationMaster
  监控NodeManager
  资源分配与调度
 NodeManager
  单个节点上的资源管理
  处理来自ResourceManager的命令
  处理来自ApplicationMaster的命令
 ApplicationMaster
  数据切分
  为应用程序申请资源,并分配给内部任务
  任务监控与容错
 Container
  对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息


四、离线计算框架MapReduce
 将计算过程分为两个阶段,Map和Reduce
   Map阶段并行处理输入数据
   Reduce阶段对Map结果进行汇总
 Shuffle连接Map和Reduce两个阶段
   Map Task将数据写到本地磁盘
   Reduce Task从每个Map Task上读取一份数据
 仅适合离线批处理
   具有很好的容错性和扩展性
   适合简单的批处理任务
 缺点明显
   启动开销大、过多使用磁盘导致效率低下等。
   
 
0 0
原创粉丝点击