Hadoop简介

来源:互联网 发布:访客网络还是 编辑:程序博客网 时间:2024/05/21 13:09
Hadoop:java 语言编写的框架
功能分为:
    1.分布式存储(HDFS :Hadoop Distributed File System):数据分布在很多台不同的机器中协同存储数据
    2.分布式计算(Map Reduce):指的是一套程序同时在多台机器中运行,协同完成一件事情
让用户感觉不到数据分布在多台机器中,就好像是在一台机器上操作一样,比如云盘
版本:
    hadoop 已经演变成为大数据计算的代名词,形成了一套完善的大数据计算的生态系统
Apache Hadoop:是Apache官方版本,http://hadoop.apache.org/,开源
Cloudera Hadoop:使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些patch,推荐使用。
HortonWorks Hadoop:基于Apache的版本进行了集成
Inter Hadoop:
组成:包括四个模块:
    通用部分
HDFS部分:分布式文件系统,提供高速访问数据的功能
YARN部分:负责资源的调度以及集群资源的管理的一个框架,在上面运行分布式计算,典型的计算模型有MapReduce、Storm、Spark.
MapReduce部分:是基于YARN的系统,负责并行处理大数据,依赖磁盘IO的处理计算模型
Hadoop的一些衍生框架:
Ambari™ :hadoop集群的管理、监控平台
Avro™:数据序列化系统
Cassandra™:不存在单点问题的数据库
Chukwa™:数据收集系统
HBase™:支持大量结构化数据存储的数据库
Hive™:支持数据汇总和
Mahout™:机器学习和数据挖掘的library
Pig™:高层次的数据流集合
Spark™:快速的通用的计算引擎
Tez™:通用的数据流变成框架
ZooKeeper™:一款高性能的伪分布式服务提供协调服务的框架


HDFS的架构:
    主从结构:
   主节点,可以有多个:namenode,接收用户操作请求,是用户操作的入口;维护文件系统的目录结构,称作命名空间
从节点:可以有多个:datanode,存储文件
YARN的架构:
    主从结构:
   主节点:只能有一个:ResourceManager,负责资源的分配与调度,有MapReduce,Storm,Spark等应用,必须实现ApplicationMaster接口,才能被主节点ResourceManager管理。
从节点:有很多个:NodeManager,单节点资源的管理
MapReduce的架构:
    主从结构:
  主节点:只有一个:JobTracker,负责接收客户提交的计算任务,把计算任务分给TaskTrackers执行,即任务调度,监控TaskTracker的执行情况。
  从节点: 有很多个:TaskTracker,负责执行JobTracker分配的计算任务
Storm的架构:实时的流式计算模型
   主从结构:
       主节点:只有一个:Nimbus,接收客户提交的计算任务,把计算任务分成Task,放置到Zookeeper上,供supervisor食用,监控Task的执行情况
  从节点:有很多个:Supervisor,从Zookeeper中获取task,执行。
Hadoop的特点:
    扩容能力:能可靠地存储和处理千兆字节(PB)数据
成本低:可以通过普通机器组成的服务器集群来分发以及处理数据。这些服务器集群总计可达数千个节点
高效率:通过分发数据,Hadoop可以在数据所在的节点上并行地处理它们,这使得处理非常的快速
可靠性:Hadoop能自动地维护数据的多分副本,并且在任务失败后能自动地重新部署计算任务
    


















原创粉丝点击